本產品的文件集力求使用無偏見用語。針對本文件集的目的,無偏見係定義為未根據年齡、身心障礙、性別、種族身分、民族身分、性別傾向、社會經濟地位及交織性表示歧視的用語。由於本產品軟體使用者介面中硬式編碼的語言、根據 RFP 文件使用的語言,或引用第三方產品的語言,因此本文件中可能會出現例外狀況。深入瞭解思科如何使用包容性用語。
思科已使用電腦和人工技術翻譯本文件,讓全世界的使用者能夠以自己的語言理解支援內容。請注意,即使是最佳機器翻譯,也不如專業譯者翻譯的內容準確。Cisco Systems, Inc. 對這些翻譯的準確度概不負責,並建議一律查看原始英文文件(提供連結)。
本文檔介紹軟奇偶校驗錯誤和硬奇偶校驗錯誤,解釋常見錯誤消息,並建議幫助您避免或最小化奇偶校驗錯誤的方法。最近對硬體和軟體設計的改進也減少了奇偶校驗問題。
什麼是處理器或記憶體奇偶校驗錯誤?
奇偶校驗是額外二進位制數字(位)的儲存器,用於表示少量電腦資料(通常為一個位元組)的奇偶校驗(奇數或偶數),而資料儲存在記憶體中。然後,將從所儲存的資料計算的奇偶校驗值與最終奇偶校驗值進行比較。如果這兩個值不同,則表示資料錯誤,並且由於資料損壞必須至少更改一個位。
在電腦系統中,來自內部或外部原因的電或磁干擾會導致單個記憶體位自動地翻轉成相反的狀態。此事件使原始資料位無效,稱為奇偶校驗錯誤。
這種儲存器錯誤,如果未被檢測到,則可能具有不可檢測的無意義結果,或者可能導致儲存資料的永久性損壞或機器崩潰。
記憶體奇偶校驗錯誤的原因很多,可分為軟奇偶校驗錯誤或硬奇偶校驗錯誤。
大多數奇偶校驗錯誤是由靜電或磁相關的環境條件引起的。
記憶體晶片中的大多數單事件錯誤是由背景輻射(如宇宙線的中子)、電磁干擾(EMI)或靜電放電(ESD)引起的。 這些事件可以隨機地改變一個或多個儲存單元的電狀態,或干擾用於讀取和寫入儲存單元的電路。
稱為軟奇偶校驗錯誤,這些事件通常是臨時的或隨機的,通常發生一次。軟錯誤可能是輕微或嚴重的:
軟錯誤不是由硬體故障引起的;它們是暫時性的、不頻繁的,多半是個SEU,並且由記憶體資料的環境破壞導致。
如果您遇到軟奇偶校驗錯誤,請分析受影響系統位置最近發生的環境變化。可能導致軟奇偶校驗錯誤的常見ESD和EMI源包括:
其它奇偶校驗錯誤是由儲存器硬體的物理故障或用於讀取和寫入儲存器單元的電路引起的。
硬體製造商採取大量措施預防和測試硬體缺陷。然而,缺陷還是有可能存在的;例如,如果用於儲存資料位的任何儲存單元格式不正確,它們可能無法持有電荷或者更容易受到環境條件的影響。
類似地,當儲存器本身可能工作正常時,對用於讀取和寫入儲存器單元的電路的任何物理或電損壞也可能導致在傳送期間改變資料位,這導致奇偶校驗錯誤。
硬奇偶校驗錯誤,這些事件通常非常頻繁和重複,且每當使用受影響的記憶體或電路時都會發生。確切的頻率取決於故障程度和使用損壞裝置的頻率。
請記住,硬奇偶校驗錯誤是硬體故障導致的,只要使用受影響的元件,就會再次發生此錯誤。
如果遇到硬奇偶校驗錯誤,請分析受影響系統位置發生的物理更改。可能導致硬奇偶校驗錯誤的常見硬體故障源包括:
Cisco IOS®軟體提供多種奇偶校驗錯誤訊息,這些訊息會因受影響的元件及其對系統的相對影響而有所不同。
檢測到快取錯誤! 檢測到實際快取錯誤。 系統將暫停。 錯誤:主安裝程式快取,欄位:資料, 不精確的資料奇偶校驗錯誤 |
|
說明 | 這是多層交換功能卡3(MSFC3)的路由處理器(RP)或交換處理器(SP)CPU使用的第2級(L2)快取記憶體(靜態隨機存取儲存器或SRAM)中的奇偶校驗錯誤的結果。 |
建議 | 定期監視系統以便再次發生。如果未觀察到其他事件,則這是一個軟錯誤。如果錯誤頻繁發生,請請求退貨授權(RMA)以更換Supervisor Engine,並標籤裝置故障分析(EFA)模組。 |
%SYSTEM_CONTROLLER-3-ERROR:檢測到錯誤情況:SYSAD_PARITY_ERROR | |
說明 | 這是MSFC3的帶內控制器(IBC)所使用的系統地址(資料匯流排)中出現奇偶校驗錯誤的結果。 |
建議 | 定期監視系統以便再次發生。如果未觀察到其他事件,則這是一個軟錯誤。如果錯誤頻繁發生,請請求RMA以替換Supervisor Engine,並標籤用於EFA的模組。 |
%SYSTEM_CONTROLLER-3-ERROR:檢測到錯誤情況:TM_DATA_PARITY_ERROR | |
說明 | 這是MSFC3的IBC使用的表管理器資料中出現奇偶校驗錯誤的結果。 |
建議 | 定期監視系統以便再次發生。如果未觀察到其他事件,則這是一個軟錯誤。如果錯誤頻繁發生,請請求RMA以替換Supervisor Engine,並標籤用於EFA的模組。 |
%SYSTEM_CONTROLLER-3-ERROR:檢測到錯誤情況:TM_NPP_PARITY_ERROR | |
說明 | 這是MSFC3的IBC使用的表管理器「下一頁指標」中出現奇偶校驗錯誤的結果。 |
建議 | 定期監視系統以便再次發生。如果未觀察到其他事件,則這是一個軟錯誤。如果錯誤頻繁發生,請請求RMA以替換Supervisor Engine,並標籤用於EFA的模組。 在12.1(8)E和12.2(33)SXI3之間的Cisco IOS軟體版本中,回應SYSTEM_CONTROLLER-3-ERROR事件的預設行為是重設IBC並記錄錯誤訊息。 但是,此糾正措施導致一些已記錄的IBC(以及CPU)不再能夠傳送或接收資料。因此,在低於12.2(33)SXI4的Cisco IOS軟體版本中,行為已變更,以記錄錯誤訊息並重設系統;請參閱思科錯誤ID CSCtf51541。 |
中斷異常,CPU訊號20,PC = 0x[dec] | |
說明 | 這是Cisco Catalyst 6700系列模組使用的CPU二級快取記憶體(SRAM)中出現單位元奇偶校驗錯誤的結果。 |
建議 | 定期監視系統以便再次發生。如果未觀察到其他事件,則這是一個軟錯誤。如果錯誤頻繁發生,請請求RMA以替換6700模組,並標籤該模組以用於EFA。 在低於12.2(33)SXI5的Cisco IOS軟體版本中,軟體錯誤(思科錯誤ID CSCtj06411)甚至會導致單位奇偶校驗錯誤才能重設6700模組。在Supervisor Engine 720的12.2(33)SXI6和12.2(33)SXJ版本以及Supervisor Engine 2T的15.0SY版本中已解決此問題。 |
%SYSTEM_CONTROLLER-3-ERROR:檢測到錯誤情況:SYSDRAM_PARITY_ERROR | |
說明 | 這是由MSFC3使用的同步DRAM(SDRAM)記憶體模組(DIMM)中出現不可糾正的奇偶校驗錯誤造成的。 |
建議 | 定期監視系統以便再次發生。如果未觀察到其他事件,則這是一個軟錯誤。如果錯誤經常發生,請清潔並重新拔插DIMM,然後繼續監控。如果錯誤仍然存在,請請求RMA以更換或升級DIMM。 |
%SYSTEM_CONTROLLER-3-COR_MEM_ERR:可更正的DRAM記憶體錯誤。計數[dec],記錄[hex] | |
說明 | 這是MSFC3使用的SDRAM(DIMM)中可糾正的奇偶校驗錯誤的結果。 |
建議 | 定期監視系統以便再次發生。如果未觀察到其他事件,則這是一個軟錯誤。如果錯誤經常發生,請清潔並重新拔插DIMM,然後繼續監控。如果錯誤仍然存在,請請求RMA以更換或升級DIMM。 |
%MWAM-DFC[dec]-0-CORRECTABLE_ECC_ERR:出現可更正的ECC錯誤,A_BUS_L2_ERRORS:0x10000, A_BUS_MEMIO_ERRORS:0x0, A_SCD_BUS_ERR_STATUS:0x80983000 | |
說明 | 這是6700系列模組使用的DRAM中出現單位元奇偶校驗錯誤的結果。 |
建議 | 定期監視系統以便再次發生。如果未觀察到其他事件,則這是一個軟錯誤。如果錯誤經常發生,請清潔並重新拔插DIMM,然後繼續監控。如果錯誤仍然存在,請請求RMA以更換或升級DIMM。 |
%PM_SCP-SP-2-LCP_FW_ERR_INFORM:模組[dec]遇到以下錯誤:線上圈#[dec]上檢測到LTL奇偶校驗錯誤。 | |
說明 | 這是Cisco Catalyst 6100和Cisco Catalyst 6300系列模組使用的SRAM中的奇偶校驗錯誤所導致的結果。 |
建議 | 定期監視系統以便再次發生。如果未觀察到其他事件,則這是一個軟錯誤。如果錯誤頻繁發生,請請求RMA以替換6100或6300模組,並標籤該模組以用於EFA。 |
%SYS-4-SYS_LCPERR4:模組[dec]:線上圈#[dec]上檢測到LTL奇偶校驗錯誤 | |
說明 | 這是6100和6300系列模組使用的SRAM中出現奇偶校驗錯誤的結果。 |
建議 | 定期監視系統以便再次發生。如果未觀察到其他事件,則這是一個軟錯誤。如果錯誤頻繁發生,請請求RMA以替換6100或6300模組,並標籤該模組以用於EFA。 |
%PM_SCP-SP-2-LCP_FW_ERR_INFORM:模組[dec]遇到以下錯誤:在埠[dec]上檢測到埠ASIC([name])資料包緩衝區故障 | |
說明 | 這是Cisco Catalyst 6148A系列乙太網模組使用的埠ASIC資料包緩衝區(SRAM)中出現奇偶校驗錯誤的結果。 |
建議 | 定期監視系統以便再次發生。如果未觀察到其他事件,則這是一個軟錯誤。如果錯誤頻繁發生,請請求RMA以替換6148A模組,並標籤該模組以用於EFA。 |
%LTL-SP-2-LTL_PARITY_CHECK:0x[hex]的LTL奇偶校驗請求] | |
說明 | 這是Catalyst 6100-6500和6700系列模組使用的埠ASIC埠索引表(SRAM)中奇偶校驗錯誤的結果。 |
建議 | 定期監視系統以便再次發生。如果未觀察到其他事件,則這是一個軟錯誤。如果錯誤頻繁發生,請請求RMA以替換模組,並將模組標籤為EFA。 |
請參閱以下Cisco IOS軟體檔案,取得完整的錯誤訊息清單:
輸出直譯器工具(僅供已註冊客戶使用)支援某些show命令。使用輸出直譯器工具來檢視show命令輸出的分析。
奇偶校驗錯誤領域的研究正在進行,並非每個場景都可以解決,但是Cisco Catalyst 6500硬體和軟體開發組織繼續引入新的方法(如糾錯碼(ECC)保護),以最小化並減輕奇偶校驗錯誤的發生。
雖然本文開始討論Catalyst 6500產品的第三代(WS-XSUP720和早期6700系列),但本節總結了在第四代(VS-S720-10G和更高版本6700系列)和第五代(VS-SUP2T-10G和6900系列)中引入的改進。
VS-S720-10G模組採用較新的MSFC3子板,帶有一個新的IBC和更新的SR7010A精簡指令集計算(RISC)RP和SP CPU,各自以600Mhz運行。級別1(L1)、級別2和級別3(L3)快取記憶體能夠進行奇偶校驗。較新的IBC具有早期版本的所有功能,並為連線的SRAM新增ECC保護(單位元校正、多位檢測)。
6700系列模組支援具有ECC保護的L2快取記憶體(L1快取記憶體支援奇偶校驗檢測)的CPU,該快取記憶體可以糾正單位元奇偶校驗錯誤,而無需重置。但是,由於Cisco錯誤ID CSCsz3922,如果發生單位CPU快取奇偶校驗錯誤,Cisco IOS軟體(Supervisor Engine 720)版本12.2SXI仍會重置模組。在Cisco IOS軟體的12.2SXJ(Supervisor Engine 720)和15.0SY(Supervisor Engine 2T)版中解決此問題。
VS-SUP2T-10G的特點是具有整合的IBC的全新MSFC5子板和新的單雙核MPC8572 PPC RP CPU(具有ECC保護的L2和L3快取,L1快取支援奇偶校驗檢測),每核心工作頻率為1.5Ghz。它還提供一個新的、獨立的、帶外連線管理處理器(CMP)CPU和ECC保護的DRAM,即使RP CPU當前不可用,也可使用。
新的IBC具有早期版本的所有功能,並支援對連線的SRAM進行ECC保護,並改進奇偶校驗錯誤處理。新的MSFC5還具有板載故障記錄(OBFL)ROM,用於儲存所有模組初始化和診斷事件。新的單CPU設計還降低了奇偶校驗錯誤事件的統計可能性。
6900系列模組支援具有受ECC保護的L1和L2快取的較新CPU,這種快取可以糾正單位元奇偶校驗錯誤,而無需重置。新一代支援同一IBC,並且已經包含了用於單位元奇偶校驗糾錯的軟體處理。
帶有MSFC3的VS-S720-10G採用雙資料速率(DDR)SDRAM,具有ECC保護,工作頻率為266Mhz。
6700系列模組支援具有ECC保護的DDR SDRAM,運行頻率為266Mhz。
與單資料速率(SDR)SDRAM相比,DDR SDRAM介面通過更嚴格地控制電子資料和時鐘訊號的定時使得更高的傳輸速率成為可能。DDR介面使用雙泵浦(資料在時鐘訊號的上升和下降沿傳遞)以降低時脈頻率。較低的時脈頻率降低了將儲存器連線到控制器的電路板上的訊號完整性要求。
帶有MSFC5的VS-SUP2T-10G具有帶ECC保護的DDR3 SDRAM,工作頻率為667Mhz。
6900系列模組支援具有ECC保護的DDR3 SDRAM,運行頻率為667Mhz。
DDR3 SDRAM的主要優勢在於能夠以兩倍速率(八倍於其記憶體陣列速度)傳輸資料,從而支援更高的頻寬或峰值資料速率。DDR3記憶體也降低了30%的功耗,即使它使用與DDR和DDR2相同的電訊號標準。
採用PFC3C的VS-S720-10G採用具備ECC保護的SRAM資料包緩衝區。這提供了沒有模組重置的單位奇偶校驗糾錯,以及多位奇偶校驗錯誤檢測。
採用DFC3C的6700系列具有具備ECC保護的SRAM封包緩衝區。這提供了沒有模組重置的單位奇偶校驗糾錯,以及多位奇偶校驗錯誤檢測。
採用PFC4的VS-SUP2T-10G具有帶ECC保護的SRAM資料包緩衝區。這提供了沒有模組重置的單位奇偶校驗糾錯,以及多位奇偶校驗錯誤檢測。
採用DFC4的6900系列具有具備ECC保護的SRAM封包緩衝區。這提供了沒有模組重置的單位奇偶校驗糾錯,以及多位奇偶校驗錯誤檢測。
Cisco IOS軟體旨在支援ECC保護。如果支援ECC保護的硬體元件經歷了SEU,則代碼應更正損壞的資料或重置受影響的元件,並且無需對受影響的模組進行完整的硬體重置。
但是在舊版Cisco IOS軟體中,有一些例外情況是因為軟體錯誤而故意變更行為或發生故障。以下是兩個值得注意的例外。
在12.1(8)E和12.2(33)SXI3之間的Cisco IOS軟體版本中,回應SEU SYSTEM_CONTROLLER-3-ERROR事件的預設行為是重設IBC並記錄錯誤訊息。但是,此糾正措施導致一些已記錄的IBC(以及CPU)不再能夠傳送或接收資料。
因此,在12.2(33)SXI4(思科錯誤ID CSCtf51541)版之後,為了記錄錯誤消息並重置系統,行為已更改。雖然此反應可能看起來更嚴重,但相對於無反應系統,最好重置系統並校正儲存器結構。
目前正在開發的一項功能(思科錯誤ID CSCtr89859)將新增一個指令行介面(CLI)命令,可用於交換預設行為。此增強功能最適用於使用單個Supervisor,因此沒有任何Supervisor冗餘的系統。
在低於12.2(33)SXI5的Cisco IOS軟體版本中,軟體錯誤(Cisco錯誤ID CSCtj06411)會導致連單位奇偶校驗錯誤來重設6700模組。這通常是可糾正的奇偶校驗錯誤,不需要重置模組。
此錯誤在Supervisor Engine 720的12.2(33)SXI6+和12.2SXJ版本中以及Supervisor Engine 2T的15.0SY版本中已解決。升級到適當版本後,6700模組只記錄一條錯誤消息並繼續運行。
此時,您可能已經確定您遇到了軟奇偶校驗錯誤還是硬奇偶校驗錯誤。雖然這可以解決單個事件,但其他奇偶校驗錯誤漏洞可能仍然存在,因此您應該對整個網路採取更全面的方法。
因此,思科和Catalyst 6500業務部門建議您檢查這些緩解過程並採取適當的糾正措施以消除或減少未來的奇偶校驗錯誤。
單事件(軟)奇偶校驗錯誤由環境條件引起,可能僅發生一次(SEU)或極少發生,如每月或每年。儘管您不需要更換硬體,但您確實希望減少將來發生的情況。
這些最佳做法大大降低了軟奇偶校驗錯誤的可能性。
思科建議您對受影響的網路位置執行環境審計。您可以親自執行此稽核,也可以與思科代表、思科團隊(如思科高級服務)或第三方顧問配合執行。
環境稽核的確切範圍和複雜性取決於許多不同的變數,如地理位置、建築和房間的大小和設計、電氣設計和佈局,以及其他相關因素。
考慮您的網路中或網路周圍可能存在哪些環境來源ESD和EMI。以下是可能導致軟奇偶校驗錯誤的常見干擾源:
如果配電裝置、發電機或照明系統離機箱太近,或者機箱上或機箱旁有多根電源線,則可能會發生SEU。
在Catalyst 6500機箱與這些電源和磁源之間提供足夠距離非常重要。建議的距離因元件而異,可從元件資料表中獲得。
一般情況下,思科建議您找到距離常見電磁干擾源至少3到6英吋的系統。如果可能,應儘可能將電源線向下佈線並遠離機箱,並且不應在機箱周圍或周圍以緊密包裝的捆紮方式或大量佈線。
電源波動和電源浪湧相對常見,Catalyst 6500電源設計用於適應電壓電流的微小變化。
但是,為機箱和機架提供正確的電接地,以便從系統中抽出多餘的電壓,這一點至關重要。如果沒有適當的接地,電源浪湧可能導致各種ASIC和記憶體元件損壞或故障。如需詳細資訊,請參閱Catalyst 6500系列交換器安裝指南、安裝交換器、建立系統接地。
ESD可以輕易地損壞關鍵元件,而不會造成任何明顯損害。應把適當的預防措施納入實驗室操作政策,但由於權宜之計和監督有限,這些措施往往被忽視,令人遺憾。
思科建議您的實驗室操作管理團隊與Cisco Systems一起,對所有網路區域執行環境審計,或者至少對出現硬體故障或被指定為關鍵任務的所有區域執行環境審計。審計完成後,思科建議您對所有新安裝的系統實施標準化的環境檢查清單,以避免將來發生SEU奇偶校驗事件。
Catalyst硬體元件使用韌體(也稱為Rommon)代碼來初始化、通訊和運行診斷。完成這些功能後,系統操作將切換到Cisco IOS軟體。遇到韌體問題是不常見的,但如果您為管理引擎和模組使用不同版本的韌體代碼,則可能會出現問題。
因此,最佳做法是確保所有元件使用最新的韌體代碼,以確保正確的模組初始化和通訊。思科建議您的運營管理執行網路稽核,並使用最新韌體版本升級所有硬體元件。
已知的韌體問題和升級程式記錄在:
從思科網站下載最新的韌體版本:
所有模組化網路系統均設計為插入機箱背板,並配備一組物理介面引腳。機箱背板本身實際上是一系列互連電線。每個機箱插槽中的針腳構成了管理引擎和乙太網模組之間的物理資料連線。因此,正確插入和對齊這些針腳至關重要。
Catalyst 6500提供有助於在機箱中安裝的導軌和對齊銷。插槽插針(插座)和模組聯結器設計為易於接合併提供高頻寬的電連線。插進機箱後,模組兩側都有拇指螺釘,可與背板針完全接合。請參閱Catalyst 6500系列交換器模組安裝說明。
如果已將模組正確插入插槽並已正確擰緊螺釘,則不會出現通訊問題。但是,在模組的日常插入中可能會出現以下幾種情況,可能導致不正確甚至不完整的針腳插入:
思科建議您實施操作管理流程,強制在生產環境中對所有Catalyst 6500模組使用螺釘。這可確保正確和完全地插入和對齊背板引腳,並防止將來由於位元錯誤和相關通訊故障而導致的故障。
頻繁或可重複(硬)奇偶校驗錯誤是由用於讀寫的儲存器或電路的物理故障造成的。在這種情況下,請更換硬體,並請求思科技術支援中心(TAC)或您的思科系統工程師對返回的硬體執行EFA。
這些最佳實踐顯著降低了硬奇偶校驗錯誤的可能性。
思科建議您對受影響的網路位置執行網路審計。您可以親自執行此稽核,也可以與思科代表、思科團隊(如思科高級服務)或第三方顧問配合執行。
所有硬體(來自所有供應商)都有可能最終導致物理完整性下降,而且必須跟蹤網路中所有硬體元件的生命週期,以便充分瞭解隨著時間的推移元件故障的可能性。
硬體可靠性可以通過平均無故障時間(MTBF)來衡量。由於MTBF只是一個統計平均值,這並不意味著在MTBF時間段結束時一定會發生故障。但是,元件故障的可能性和漏洞會增加,因此應標籤此類硬體以進行更新。有關每個Catalyst 6500產品的具體MTBF值,請參閱Cisco Catalyst 6500系列交換機產品手冊。
Catalyst 6500「系統級別」MTBF值的總計值為>7年。
除MTBF框架外,思科還提供壽命終止(EOL)框架,該框架定義了給定產品的預期生命週期,並提供適用的公告,以幫助您更新舊裝置。請參閱各種舊版Catalyst 6500產品的壽命終止和銷售終止通知。
經過此次硬體稽核,思科建議您實施您自己的MTBF和EOL流程,以便識別並跟蹤硬體,實現潛在的更新。這可確保最新的硬體正在運行,並將硬體故障的可能性降至最低。
Catalyst 6500系列和Cisco IOS軟體為系統中使用的所有硬體元件提供通用線上診斷(GOLD)和運行狀況監控(HM)診斷。可啟用的兩種基本診斷型別是按需和啟動。請參閱Cisco Catalyst 6500系列交換器上的通用線上診斷以瞭解其他資訊。
思科建議為所有硬體元件啟用「完整」啟動診斷,以確保執行所有診斷測試並確認所有硬體元件在啟動時均按預期正常工作。
思科還建議您安排每天或每週定期對關鍵基礎設施元件進行按需診斷。除了僅在初始化期間發生的啟動診斷之外,按需診斷還可確保硬體繼續按預期運行。如需詳細資訊,請參閱Catalyst 6500版本12.2SX軟體組態設定指南、介面和硬體元件、線上診斷。
除了預設的按需診斷測試,思科建議您啟用這些按需診斷測試,以便主動識別可能故障的記憶體元件: