Introduction
Ce document décrit comment identifier les problèmes de mémoire dans les cartes ASR5K-PSC-32G (Packet Services Card 2 (PSC2)) et ASR5K-PSC-64G (Packet Services Card 3 (PSC3)). Le symptôme observé lors de la présence du problème est que la carte se réinitialise. Toutes les informations nécessaires au dépannage sont disponibles dans Show Support Detail (SSD).
Conditions préalables
Conditions requises
Cisco vous recommande de connaître l'interface de ligne de commande du routeur Aggregation Services Router 5000 (ASR5K).
Components Used
Ce document n'est pas limité à des versions de matériel et de logiciel spécifiques.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. If your network is live, make sure that you understand the potential impact of any command.
Problèmes de mémoire
Soit la carte de services de paquets 2 (PSC2), soit la carte de services de paquets 3 (PSC3) risquent de se bloquer en raison d'un plantage du noyau ou d'une pulsation manquante.
Crash du noyau
Une panne de noyau peut se produire lorsque la carte rencontre plusieurs erreurs de mémoire corrigables ou une seule erreur de mémoire non corrigible. Afin d'identifier si le problème est un plantage du noyau, procédez comme suit :
- Dans le SSD, vérifiez show crash list pour le crash du noyau :
<snip>
******** show crash list *******
== =================== ======= ========== =========== ================
# Time Process Card/CPU/ SW HW_SER_NUM
PID VERSION SMC / Crash Card
== =================== ======= ========== =========== ================
86 2012-Jun-07+18:28:21 sessmgr 15/0/04453 12.2(42876) PLB30103469/PLB40098624
87 2012-Jun-15+04:02:34 kernel 16/0/NA 12.2(NA) PLB30103469/PLB39098500
88 2012-Jun-15+04:50:38 sessmgr 02/0/04372 12.2(42876) PLB30103469/PLB40098609
<snip>
-
Une fois le numéro de crash du noyau identifié, vérifiez les détails du crash pour le numéro de crash dans la liste de crash. Dans l'exemple précédent, Crash 87 s'est produit dans la carte 16.
<snip>
********************* CRASH #87 ***********************
2.6.38-staros-v3-hw-64 #1 SMP PREEMPT Wed Apr 18 14:32:38 EDT 2012 1 0 PLB39098500 428760, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.305831] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.314566] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52579.321273] edac_mc_handle_fbd_ce: 449 callbacks suppressed
<4>[52579.326820] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
…………..
<0>[52668.605978] [Hardware Error]: CPU 0: Machine Check Exception: 4 Bank 8: fe0000000001009f
<0>[52668.614014] [Hardware Error]: TSC 66946ea1b05a ADDR 44f307280 MISC 4c43688800045941
<0>[52668.621767] [Hardware Error]: PROCESSOR 0:106a5 TIME 1339732830 SOCKET 0 APIC 0
<0>[52668.629028] [Hardware Error]: Machine check: Processor context corrupt
<0>[52668.635520] Kernel panic - not syncing: Fatal Machine check
<snip>
Le « EDAC MC0: Ligne CE 0, canal 0, étiquette "" : Une erreur corrigée » ainsi qu'un crash de « Panique de noyau » indiquent une défaillance de mémoire et une autorisation de retour de matériel (RMA) est requise.
Mémoire non détectée
La carte de ligne PSC2/PSC3 peut redémarrer en indiquant une pulsation manquante. L'une des raisons est que le système a détecté une mauvaise barrette DIMM. Lorsqu'un module DIMM défectueux est détecté, la carte tente de redémarrer plusieurs fois avant de passer à l'état Hors connexion.
Pour la carte PSC2, dans la sortie debug console card x cpu 0 trouvée dans le SSD, ces erreurs seront affichées :
1338537199.891 card 6-cpu0: ERROR: Memory size 24576 MB for cpu0 not matching with value 32768 MB in IDEEPROM 1338537199.891 card 6-cpu0:
1338537199.891 card 6-cpu0: ERROR: Bus 255 CPU 0 Chan 0 DIMM 0 NotPresent
En outre, le syslog sera renseigné avec cette erreur :
The Packet Services Card 2 with serial number SAD154403TT in slot 6 has failed and will be brought down and brought back online. (Device=CPU_0, Reason=CARD_BOOT_TIMEOUT_EXPIRED, Status=[CPU0 MB: CFE_FAILURE] [CPU1] [CPU2] [CPU3] [GPIO_IN: 00,ff,ff,ff] [GPIO_OUT: 01,ff,00,ff]
Pour la carte PSC3, dans la sortie debug console card x cpu 0 trouvée dans le SSD, cette erreur s'affiche :
1412147713.299 card 7-cpu0: WARNING: Memory size 49152 MB for cpu0 not matching with value 65536 MB in IDEEPROM
La carte qui rencontre ce problème doit être remplacée.