简介
本文档介绍如何识别ASR5K-PSC-32G(数据包服务卡2(PSC2))和ASR5K-PSC-64G(数据包服务卡3(PSC3))卡中的内存问题。出现问题时出现的症状是卡自行重置。排除故障所需的所有信息都可在显示支持详细信息(SSD)中找到。
先决条件
要求
思科建议您了解聚合服务路由器5000(ASR5K)的CLI。
使用的组件
本文档不限于特定的软件和硬件版本。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。
内存问题
数据包服务卡2(PSC2)或数据包服务卡3(PSC3)可能因内核崩溃或缺少心跳而以太崩溃。
内核崩溃
当卡遇到多个可纠正内存错误或单个不可纠正内存错误时,可能会发生内核崩溃。要确定问题是否是内核崩溃,请执行以下步骤:
- 在SSD中,检查show crash list for kernel crash:
<snip>
******** show crash list *******
== =================== ======= ========== =========== ================
# Time Process Card/CPU/ SW HW_SER_NUM
PID VERSION SMC / Crash Card
== =================== ======= ========== =========== ================
86 2012-Jun-07+18:28:21 sessmgr 15/0/04453 12.2(42876) PLB30103469/PLB40098624
87 2012-Jun-15+04:02:34 kernel 16/0/NA 12.2(NA) PLB30103469/PLB39098500
88 2012-Jun-15+04:50:38 sessmgr 02/0/04372 12.2(42876) PLB30103469/PLB40098609
<snip>
-
确定内核崩溃的崩溃号后,在show crash列表中检查崩溃号的崩溃详细信息。在上一个示例中,Crash 87发生在Card 16中。
<snip>
********************* CRASH #87 ***********************
2.6.38-staros-v3-hw-64 #1 SMP PREEMPT Wed Apr 18 14:32:38 EDT 2012 1 0 PLB39098500 428760, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.305831] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.314566] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52579.321273] edac_mc_handle_fbd_ce: 449 callbacks suppressed
<4>[52579.326820] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
…………..
<0>[52668.605978] [Hardware Error]: CPU 0: Machine Check Exception: 4 Bank 8: fe0000000001009f
<0>[52668.614014] [Hardware Error]: TSC 66946ea1b05a ADDR 44f307280 MISC 4c43688800045941
<0>[52668.621767] [Hardware Error]: PROCESSOR 0:106a5 TIME 1339732830 SOCKET 0 APIC 0
<0>[52668.629028] [Hardware Error]: Machine check: Processor context corrupt
<0>[52668.635520] Kernel panic - not syncing: Fatal Machine check
<snip>
“EDAC MC0:CE行0、通道0、标签“”:更正错误”以及“内核死机”崩溃表示内存故障,需要退货授权(RMA)。
未检测到内存
PSC2/PSC3线卡可能会重新启动,并显示缺少心跳。原因之一是系统检测到DIMM损坏。当检测到错误的DIMM时,卡会尝试重新启动多次,然后才进入离线状态。
对于PSC2卡,在SSD中找到的输出调试控制台卡x cpu 0中,将看到以下错误:
1338537199.891 card 6-cpu0: ERROR: Memory size 24576 MB for cpu0 not matching with value 32768 MB in IDEEPROM 1338537199.891 card 6-cpu0:
1338537199.891 card 6-cpu0: ERROR: Bus 255 CPU 0 Chan 0 DIMM 0 NotPresent
此外,系统日志将填充以下错误:
The Packet Services Card 2 with serial number SAD154403TT in slot 6 has failed and will be brought down and brought back online. (Device=CPU_0, Reason=CARD_BOOT_TIMEOUT_EXPIRED, Status=[CPU0 MB: CFE_FAILURE] [CPU1] [CPU2] [CPU3] [GPIO_IN: 00,ff,ff,ff] [GPIO_OUT: 01,ff,00,ff]
对于PSC3卡,在SSD中找到的输出调试控制台卡x cpu 0中,将出现以下错误:
1412147713.299 card 7-cpu0: WARNING: Memory size 49152 MB for cpu0 not matching with value 65536 MB in IDEEPROM
出现此问题的卡需要更换。