簡介
奇偶校驗錯誤在記憶體中是一個位翻轉。 在電子和計算中,來自內部或外部源的電或磁干擾可導致單個位或儲存器自發地反轉到相反狀態。 此事件使原始資料位無效,稱為奇偶校驗錯誤。
通常,這些錯誤可分為軟錯誤和硬錯誤兩種不同型別。
軟奇偶校驗錯誤,這些事件是瞬時和隨機的。 它們通常只在特定記憶體組中出現一次。
硬奇偶校驗錯誤是由儲存器硬體的物理故障或用於讀取和寫入儲存器單元的電路引起的。 它們通常反複出現,需要更換。
大多數奇偶校驗錯誤是由靜電或磁相關的環境條件引起的。 記憶體晶片中的大多數單粒子錯誤是由背景輻射(如宇宙射線的中子、核設施)、電磁干擾(EMI)和靜電放電引起的。 這些事件可以隨機地改變一個或多個儲存單元的電狀態,或者可以幹擾用於讀取和寫入儲存單元的電路。
問題
對於ASR9k線卡中使用的高密度記憶體來說,奇偶校驗錯誤是一個永恆不變的事實。 我們如何應對它們就是我們所能控制的全部。某些ASR9k(xmen/typhoon)線卡在極少數情況下可能會遇到第1層快取錯誤。 這些錯誤在資料快取或指令快取(DCPERR或ICPERR)中顯示為核心宕機。另一個觀察到的錯誤是線卡上的NP(網路處理器)使用的各種記憶體庫。 通常從以下型別的錯誤日誌開始可以看到這些錯誤:
%PLATFORM-NP-0-NON_RECOVERABLE_SOFT_ERROR
%PLATFORM-NP-3-ECC
%PLATFORM-PFM-0-CARD_RESET_REQ
此處的問題是DCPERR/ICPERR會導致完全的線路卡重新載入。 對於絕大部分NP記憶庫也是如此。 這顯然是不理想的,因為大多數線卡具有多個NP。 如果只有1個NP出現問題,為什麼影響線路卡上的所有NP。
解決方案
對於在颱風LC CPU快取上出現的DCPERR和ICPERR錯誤,我們有一個解決方案,可避免宕機和重新載入線路卡。 這由CSCux30405完成。目前整合在5.3.3及更新版本中。
對NP記憶來說,這要複雜得多。 我們做了大量的努力來清理各種記憶體,看看我們可以放心地忽略這些記憶體,或選擇一些影響較小的恢復方式。 其中大部分都整合到5.3.3及更高版本中,並且大多數流行版本都構建有總體SMU。
注意:這也導致CSCvc69282的抵押資產 在那裡我們可能看到由於持續中斷導致核心崩潰。
NP軟錯誤處理改進
在2015年下半年和2016年初,颱風和戰斧的NP軟錯誤處理都得到了大量改進。 對許多不同儲存器的處理由需要線卡重新載入的方法轉換為更優雅的方法,例如修復記憶體中的錯誤或執行NP快速重置。 對沒有功能影響但無法清除的錯誤(「粘性」)的處理也得到了改進,這樣錯誤就不會再重複出現。 此外,還修復了多個錯誤,特別是NP指令儲存器或內部TCAM中發生的錯誤。 以前不可恢復的錯誤中大約有80-90%現在可恢復,不需要重新載入線路卡。
所有這些改進和修復都整合在5.3.3版及更高版本中。 所有主要維護版本的修復也可用於umbrella SMU:
434 - CSCux16975
512 - CSCux44633
513 - CSCux16975
531 - CSCux34531
532 - CSCux78563