Einführung
Dieses Dokument beschreibt, wie Speicherprobleme in ASR5K-PSC-32G- (Packet Services Card 2 (PSC2)) und ASR5K-PSC-64G-Karten (Packet Services Card 3 (PSC3)) identifiziert werden. Beim Auftreten des Problems zeigt sich, dass die Karte sich selbst zurücksetzt. Alle zur Fehlerbehebung erforderlichen Informationen finden Sie unter Show Support Detail (SSD).
Voraussetzungen
Anforderungen
Cisco empfiehlt, die CLI des Aggregation Services Router 5000 (ASR5K) zu kennen.
Verwendete Komponenten
Dieses Dokument ist nicht auf bestimmte Software- und Hardwareversionen beschränkt.
Die Informationen in diesem Dokument wurden von den Geräten in einer bestimmten Laborumgebung erstellt. Alle in diesem Dokument verwendeten Geräte haben mit einer leeren (Standard-)Konfiguration begonnen. Wenn Ihr Netzwerk in Betrieb ist, stellen Sie sicher, dass Sie die potenziellen Auswirkungen eines Befehls verstehen.
Speicherprobleme
Entweder die Packet Services Card 2 (PSC2) oder die Packet Services Card 3 (PSC3) stürzt aufgrund eines Kernel-Absturzes oder eines fehlenden Heartbeat ab.
Kernel-Absturz
Ein Kernel-Absturz kann auftreten, wenn auf der Karte mehrere Correctable Memory Errors (Speicherfehler mit korrigierbarem Speicher) oder ein einzelner UnCorrectable Memory Error (Fehler mit nicht korrigierbarem Speicher) auftreten. Um festzustellen, ob das Problem ein Kernelabsturz ist, gehen Sie wie folgt vor:
- Aktivieren Sie in der SSD die Option Crash List für Kernel-Crash anzeigen:
<snip>
******** show crash list *******
== =================== ======= ========== =========== ================
# Time Process Card/CPU/ SW HW_SER_NUM
PID VERSION SMC / Crash Card
== =================== ======= ========== =========== ================
86 2012-Jun-07+18:28:21 sessmgr 15/0/04453 12.2(42876) PLB30103469/PLB40098624
87 2012-Jun-15+04:02:34 kernel 16/0/NA 12.2(NA) PLB30103469/PLB39098500
88 2012-Jun-15+04:50:38 sessmgr 02/0/04372 12.2(42876) PLB30103469/PLB40098609
<snip>
-
Sobald die Crash-Nummer für den Kernel-Absturz ermittelt wurde, überprüfen Sie die Crash-Details für die Crash-Nummer in show Crash-Liste. Im vorherigen Beispiel passierte Crash 87 in Card 16.
<snip>
********************* CRASH #87 ***********************
2.6.38-staros-v3-hw-64 #1 SMP PREEMPT Wed Apr 18 14:32:38 EDT 2012 1 0 PLB39098500 428760, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.305831] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.314566] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52579.321273] edac_mc_handle_fbd_ce: 449 callbacks suppressed
<4>[52579.326820] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
…………..
<0>[52668.605978] [Hardware Error]: CPU 0: Machine Check Exception: 4 Bank 8: fe0000000001009f
<0>[52668.614014] [Hardware Error]: TSC 66946ea1b05a ADDR 44f307280 MISC 4c43688800045941
<0>[52668.621767] [Hardware Error]: PROCESSOR 0:106a5 TIME 1339732830 SOCKET 0 APIC 0
<0>[52668.629028] [Hardware Error]: Machine check: Processor context corrupt
<0>[52668.635520] Kernel panic - not syncing: Fatal Machine check
<snip>
Der "EDAC MC0: CE-Zeile 0, Kanal 0, Label "": Korrigierter Fehler" zusammen mit "Kernel Panic"-Absturz weist auf Speicherfehler hin und erfordert eine Retourengenehmigung (Return Material Authorization, RMA).
Speicher nicht erkannt
Möglicherweise wird die PSC2/PSC3-Linecard neu gestartet, und es wird angezeigt, dass der Heartbeat fehlt. Ein Grund ist, dass das System einen fehlerhaften DIMM erkannt hat. Wenn ein fehlerhaftes DIMM erkannt wird, versucht die Karte mehrmals neu zu starten, bevor sie in den Offline-Status wechselt.
Für die PSC2-Karte werden in der im SSD enthaltenen Ausgabebeschutzkonsole x CPU 0 folgende Fehler angezeigt:
1338537199.891 card 6-cpu0: ERROR: Memory size 24576 MB for cpu0 not matching with value 32768 MB in IDEEPROM 1338537199.891 card 6-cpu0:
1338537199.891 card 6-cpu0: ERROR: Bus 255 CPU 0 Chan 0 DIMM 0 NotPresent
Außerdem wird das Syslog mit diesem Fehler gefüllt:
The Packet Services Card 2 with serial number SAD154403TT in slot 6 has failed and will be brought down and brought back online. (Device=CPU_0, Reason=CARD_BOOT_TIMEOUT_EXPIRED, Status=[CPU0 MB: CFE_FAILURE] [CPU1] [CPU2] [CPU3] [GPIO_IN: 00,ff,ff,ff] [GPIO_OUT: 01,ff,00,ff]
Für die PSC3-Karte wird in der im SSD gefundenen Debug-Ausgabemonokarte x cpu 0 dieser Fehler angezeigt:
1412147713.299 card 7-cpu0: WARNING: Memory size 49152 MB for cpu0 not matching with value 65536 MB in IDEEPROM
Die Karte, bei der dieses Problem auftritt, muss ausgetauscht werden.