Introducción
Este documento describe cómo identificar problemas de memoria en tarjetas ASR5K-PSC-32G (Packet Services Card 2 (PSC2)) y ASR5K-PSC-64G (Packet Services Card 3 (PSC3)). El síntoma que se ve cuando el problema está presente es que la tarjeta se reinicia. Toda la información necesaria para resolver problemas está disponible en Mostrar detalles de soporte (SSD).
Prerequisites
Requirements
Cisco recomienda que tenga conocimiento de la CLI del router de servicios de agregación 5000 (ASR5K).
Componentes Utilizados
Este documento no tiene restricciones específicas en cuanto a versiones de software y de hardware.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. If your network is live, make sure that you understand the potential impact of any command.
Problemas de memoria
La tarjeta de servicios de paquetes 2 (PSC2) o la tarjeta de servicios de paquetes 3 (PSC3) pueden fallar debido a un desperfecto del núcleo o a la falta de latido del núcleo.
Caída del núcleo
Un desperfecto del núcleo puede ocurrir cuando la tarjeta experimenta varios errores de memoria corregibles o un único error de memoria incorregible. Para identificar si el problema es el crash del kernel, siga estos pasos:
- En la SSD, verifique show crash list for kernel crash:
<snip>
******** show crash list *******
== =================== ======= ========== =========== ================
# Time Process Card/CPU/ SW HW_SER_NUM
PID VERSION SMC / Crash Card
== =================== ======= ========== =========== ================
86 2012-Jun-07+18:28:21 sessmgr 15/0/04453 12.2(42876) PLB30103469/PLB40098624
87 2012-Jun-15+04:02:34 kernel 16/0/NA 12.2(NA) PLB30103469/PLB39098500
88 2012-Jun-15+04:50:38 sessmgr 02/0/04372 12.2(42876) PLB30103469/PLB40098609
<snip>
-
Una vez que se identifique el número de desperfecto para el desperfecto del kernel, verifique los detalles del desperfecto para ver el número de desperfecto en show crash list. En el ejemplo anterior, el error Crash 87 ocurrió en la tarjeta 16.
<snip>
********************* CRASH #87 ***********************
2.6.38-staros-v3-hw-64 #1 SMP PREEMPT Wed Apr 18 14:32:38 EDT 2012 1 0 PLB39098500 428760, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.305831] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.314566] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52579.321273] edac_mc_handle_fbd_ce: 449 callbacks suppressed
<4>[52579.326820] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
…………..
<0>[52668.605978] [Hardware Error]: CPU 0: Machine Check Exception: 4 Bank 8: fe0000000001009f
<0>[52668.614014] [Hardware Error]: TSC 66946ea1b05a ADDR 44f307280 MISC 4c43688800045941
<0>[52668.621767] [Hardware Error]: PROCESSOR 0:106a5 TIME 1339732830 SOCKET 0 APIC 0
<0>[52668.629028] [Hardware Error]: Machine check: Processor context corrupt
<0>[52668.635520] Kernel panic - not syncing: Fatal Machine check
<snip>
El "EDAC MC0: fila CE 0, canal 0, etiqueta "": Error corregido" junto con "Kernel Panic" el desperfecto indica una falla de memoria y se requiere una autorización de devolución de material (RMA).
Memoria no detectada
La tarjeta de línea PSC2/PSC3 podría reiniciarse con indicación de latido faltante. Una de las razones es que el sistema detectó un módulo DIMM defectuoso. Cuando se detecta un DIMM defectuoso, la tarjeta intenta reiniciarse varias veces antes de pasar al estado Sin conexión.
Para la tarjeta PSC2, en el resultado debug console card x cpu 0 encontrado en la SSD, se verán estos errores:
1338537199.891 card 6-cpu0: ERROR: Memory size 24576 MB for cpu0 not matching with value 32768 MB in IDEEPROM 1338537199.891 card 6-cpu0:
1338537199.891 card 6-cpu0: ERROR: Bus 255 CPU 0 Chan 0 DIMM 0 NotPresent
Además, el syslog se rellenará con este error:
The Packet Services Card 2 with serial number SAD154403TT in slot 6 has failed and will be brought down and brought back online. (Device=CPU_0, Reason=CARD_BOOT_TIMEOUT_EXPIRED, Status=[CPU0 MB: CFE_FAILURE] [CPU1] [CPU2] [CPU3] [GPIO_IN: 00,ff,ff,ff] [GPIO_OUT: 01,ff,00,ff]
Para la tarjeta PSC3, en el resultado debug console card x cpu 0 encontrado en la SSD, se verá este error:
1412147713.299 card 7-cpu0: WARNING: Memory size 49152 MB for cpu0 not matching with value 65536 MB in IDEEPROM
La tarjeta que experimenta este problema necesita ser reemplazada.