簡介
本文檔介紹如何識別ASR5K-PSC-32G(資料包服務卡2(PSC2))和ASR5K-PSC-64G(資料包服務卡3(PSC3))卡中的記憶體問題。出現問題時出現的症狀是卡會自行重置。Show Support Detail(SSD)中提供了故障排除所需的所有資訊。
必要條件
需求
思科建議您瞭解聚合服務路由器5000(ASR5K)的CLI。
採用元件
本文件所述內容不限於特定軟體和硬體版本。
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路正在作用,請確保您已瞭解任何指令可能造成的影響。
記憶體問題
由於核心崩潰或缺少心跳,資料包服務卡2(PSC2)或資料包服務卡3(PSC3)可能會崩潰。
核心崩潰
如果卡遇到多個可糾正的記憶體錯誤或單個不可糾正的記憶體錯誤,可能會發生核心崩潰。要確定問題是否是核心崩潰,請執行以下步驟:
- 在SSD中,檢查show crash list for kernel crash:
<snip>
******** show crash list *******
== =================== ======= ========== =========== ================
# Time Process Card/CPU/ SW HW_SER_NUM
PID VERSION SMC / Crash Card
== =================== ======= ========== =========== ================
86 2012-Jun-07+18:28:21 sessmgr 15/0/04453 12.2(42876) PLB30103469/PLB40098624
87 2012-Jun-15+04:02:34 kernel 16/0/NA 12.2(NA) PLB30103469/PLB39098500
88 2012-Jun-15+04:50:38 sessmgr 02/0/04372 12.2(42876) PLB30103469/PLB40098609
<snip>
-
確定核心崩潰的崩潰編號後,在show crash list中檢查崩潰編號的崩潰詳細資訊。在上一個示例中,Crash 87發生在卡16中。
<snip>
********************* CRASH #87 ***********************
2.6.38-staros-v3-hw-64 #1 SMP PREEMPT Wed Apr 18 14:32:38 EDT 2012 1 0 PLB39098500 428760, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.305831] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.314566] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52579.321273] edac_mc_handle_fbd_ce: 449 callbacks suppressed
<4>[52579.326820] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
…………..
<0>[52668.605978] [Hardware Error]: CPU 0: Machine Check Exception: 4 Bank 8: fe0000000001009f
<0>[52668.614014] [Hardware Error]: TSC 66946ea1b05a ADDR 44f307280 MISC 4c43688800045941
<0>[52668.621767] [Hardware Error]: PROCESSOR 0:106a5 TIME 1339732830 SOCKET 0 APIC 0
<0>[52668.629028] [Hardware Error]: Machine check: Processor context corrupt
<0>[52668.635520] Kernel panic - not syncing: Fatal Machine check
<snip>
"EDAC MC0:CE行0,通道0,標籤「」:已糾正的錯誤」以及「核心宕機」crash表示記憶體故障和需要返回材料授權(RMA)。
未檢測到記憶體
PSC2/PSC3線卡可能會重新啟動,並顯示Missing Heartbeat。一個原因是系統檢測到錯誤的DIMM。當檢測到錯誤的DIMM時,卡嘗試重新啟動多次,然後進入離線狀態。
對於PSC2卡,在SSD中找到的debug console card x cpu 0輸出中,將會出現以下錯誤:
1338537199.891 card 6-cpu0: ERROR: Memory size 24576 MB for cpu0 not matching with value 32768 MB in IDEEPROM 1338537199.891 card 6-cpu0:
1338537199.891 card 6-cpu0: ERROR: Bus 255 CPU 0 Chan 0 DIMM 0 NotPresent
此外,系統日誌將填充以下錯誤:
The Packet Services Card 2 with serial number SAD154403TT in slot 6 has failed and will be brought down and brought back online. (Device=CPU_0, Reason=CARD_BOOT_TIMEOUT_EXPIRED, Status=[CPU0 MB: CFE_FAILURE] [CPU1] [CPU2] [CPU3] [GPIO_IN: 00,ff,ff,ff] [GPIO_OUT: 01,ff,00,ff]
對於PSC3卡,在SSD中找到的debug console card x cpu 0輸出中,將出現以下錯誤:
1412147713.299 card 7-cpu0: WARNING: Memory size 49152 MB for cpu0 not matching with value 65536 MB in IDEEPROM
遇到此問題的卡需要更換。