簡介
本文檔說明導致Cisco路由器上奇偶校驗錯誤的原因以及如何排除這些錯誤。
必要條件
需求
Cisco建議您瞭解如何排除路由器崩潰故障。
有關詳細資訊,請參閱路由器崩潰故障排除。
採用元件
本文件所述內容不限於特定軟體和硬體版本。
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路正在作用,請確保您已瞭解任何指令可能造成的影響。
慣例
如需文件慣例的詳細資訊,請參閱思科技術提示慣例。
辨識奇偶校驗錯誤
記憶體奇偶校驗錯誤發生在基於多通道介面處理器(MIPS)的處理器產品中,例如:
-
Cisco 4500/4700系列路由器
-
Cisco 7500系列路由器(RSP1、RSP2、RSP4、RSP8、VIP2-10、VIP2-15、VIP2-20、VIP2-40、VIP2-50)
-
Cisco 7000系列路由器(RSP 7000)
-
Cisco 7200系列路由器(NPE-100、NPE-150、NPE-175、NPE-200、NPE-225、NPE-300)
-
思科12000系列網際網路路由器
以下是一些消息,它們都與系統中某個位置的壞奇偶校驗檢測有關(該清單並非詳盡無遺,但包含最常見的消息):
軟奇偶校驗錯誤與硬奇偶校驗錯誤
奇偶校驗錯誤有兩種:
研究表明,軟奇偶校驗錯誤的頻率是硬奇偶校驗錯誤的10到100倍。因此,Cisco強烈建議您先等待第二次奇偶校驗錯誤,然後再替換任何內容。這可以大大降低對網路的影響。
隔離問題
路由器的記憶體位於不同位置。理論上講,任何記憶體位置都可能受到奇偶校驗錯誤的影響,但大多數記憶體問題發生在動態RAM (DRAM)或共用RAM (SRAM)中。根據平台,以下說明如何找出哪些記憶體位置受到了影響,以及如果結果是硬奇偶校驗錯誤,則必須更換哪個部分:
Cisco 4500和4700平台
在Cisco 4500和4700平台上,Cisco IOS®軟體版本12.2(10)和12.2(10)T之前的版本中沒有crashinfo檔案。
找出故障發生位置的一種方法是在控制檯日誌和show version命令輸出中檢視「重新啟動理由」:
-
DRAM中的奇偶校驗錯誤:
如果在崩潰後沒有手動重新載入路由器,show version的輸出將如下所示:
System restarted by processor memory parity error at PC 0x601799C4,
address 0x0
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
如果有crashinfo檔案,或者捕獲了控制檯日誌,您還會看到類似以下內容:
*** Cache Error Exception ***
Cache Err Reg = 0xa0255c61
data reference, primary cache, data field error , error on SysAD Bus
PC = 0xbfc0edc0, Cause = 0xb800, Status Reg = 0x34408007
重複出現DRAM中的奇偶校驗錯誤表明DRAM或機箱有缺陷。如果您最近拆除了機箱,或者您執行任何硬體組態變更,請將DRAM晶片重新放置以解決問題。否則,請先更換DRAM。這必須防止奇偶校驗錯誤。如果路由器仍然崩潰,請更換機箱。
-
SRAM中的奇偶校驗錯誤:
如果在崩潰後沒有手動重新載入路由器,則show version命令的輸出如下所示:
System restarted by shared memory parity error at PC 0x60130F40
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
如果有crashinfo檔案,或者捕獲了控制檯日誌,您還會看到類似以下內容:
*** Shared Memory Parity Error ***
shared memory control register= 0xffe3
error(s) reported for: CPU on byte(s): 0/1
或
%PAR-1-FATAL: Shared memory parity error
shared memory status register= 0xFFEF
error(s) reported for: CPU on byte(s): 0/1 2/3
或
*** Shared Memory Parity Error ***
shared memory control register= 0xffdf
error(s) reported for: NIM1 on byte(s): 0/1 2/3
附註:
路由/交換處理器(RSP)、網路處理引擎(NPE)和路由處理器(RP)平台
與Cisco 4000系列一樣,此問題可能是由這些平台的DRAM或SRAM故障引起的。問題也可能是因為處理器卡(RP、RSP或NPE)有缺陷。Cisco 7000和7500還可以報告由介面處理器(傳統xIP或VIP)出現故障或安裝位置錯誤導致的奇偶校驗錯誤。
檢查crashinfo檔案和控制檯日誌中是否存在以下錯誤消息之一:
DRAM或SRAM中的奇偶校驗錯誤(MEMD)
對於RP、RSP和NPE,您通常會看到類似以下內容:
Error: primary data cache, fields: data, (SysAD)
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
virtual address corresponds to main:data, cache word 0
或簡單地:
Error: primary data cache, fields: data, SysAD
phy21:3 0x201880, va14:12 0x1000, addr 63E01880
這表示RSP本身有問題。如果問題只出現一次,則很可能是暫時性問題。
從SRAM提取的奇偶校驗錯誤
對於RSP,消息可能如下所示:
%RSP-3-ERROR: MD error 0000008000000200
%RSP-3-ERROR: QA parity error (bytes 0:3) 02
%RSP-3-ERROR: MEMD parity error condition
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA)
log 22010000, data 00000000 00000000
%RSP-3-RESTART: cbus complex
或
%RSP-3-ERROR: CyBus error 01
%RSP-3-ERROR: read data parity
%RSP-3-ERROR: read parity error (bytes 0:7) 20
%RSP-3-ERROR: physical address (bits 20:15) 000000
如果沒有其它介面處理器將錯誤的奇偶校驗寫入SRAM的指示(例如,VIP2-1-MSG錯誤消息),則奇偶校驗錯誤的最可能原因是SRAM本身。在這種情況下,請更換RSP。
如果其他錯誤消息表明介面處理器寫入了錯誤的奇偶校驗,則可能是故障卡或安裝不正確的卡。
多功能介面處理器
如果在日誌或crashinfo檔案中收到%VIP2-1-MSG: slot(x)消息,請參閱VIP崩潰故障排除。
建議的動作
在第一次出現奇偶校驗錯誤時,不可能區分軟奇偶校驗錯誤或硬奇偶校驗錯誤。根據經驗,大多數奇偶校驗錯誤都是軟奇偶校驗錯誤,通常可以將其消除。如果您最近更換了一些硬體或移動了貨箱,請嘗試更換受影響的部件(DRAM、SRAM、NPE、RP、RSP或VIP)。頻繁出現多個奇偶校驗表示硬體出現故障。使用本文檔中提及的說明,更換受影響的部件(DRAM、RSP、VIP或主機板)。
打開TAC服務請求時要收集的資訊
如果執行上述故障排除步驟操作後仍需幫助,並且要使用Cisco TAC 提交服務請求,請確保包括以下資訊: |
- 在您打開服務請求之前執行的故障排除。
- show technical-support命令輸出(如果可能,在啟用模式下)。
- show log命令的輸出或控制檯捕獲資訊(如果可用)。
- crashinfo檔案(如果存在,並且尚未包括在show technical-support命令輸出中。如果存在多個crashinfo檔案,請包含所有檔案)。
- 由於處理器記憶體奇偶校驗錯誤而重新載入的次數,以及發生這些錯誤的時間。
請將收集到的資料以非壓縮的純文字檔案格式(.txt)附加到您的案例。為了將資訊附加到您的服務請求,請透過TAC服務請求工具上傳資訊(僅限註冊客戶)。如果無法訪問服務請求工具,可以將相關資訊附加到服務請求,然後將其傳送到attach@cisco.com,並在郵件的主題行中註明服務請求號。 注意:除非需要排除處理器記憶體奇偶校驗錯誤,否則不要在收集上述資訊之前手動重新載入路由器或對路由器重新加電,因為這可能導致確定問題根本原因所需的重要資訊丟失。 |
相關資訊