Einleitung
In diesem Dokument wird erläutert, was Paritätsfehler auf Cisco Routern verursacht und wie diese behoben werden.
Voraussetzungen
Anforderungen
Cisco empfiehlt, dass Sie wissen, wie Router-Abstürze zu beheben sind.
Weitere Informationen finden Sie unter Troubleshooting Router Crashes (Fehlerbehebung bei Routerabstürzen).
Verwendete Komponenten
Dieses Dokument ist nicht auf bestimmte Software- und Hardware-Versionen beschränkt.
Die Informationen in diesem Dokument beziehen sich auf Geräte in einer speziell eingerichteten Testumgebung. Alle Geräte, die in diesem Dokument benutzt wurden, begannen mit einer gelöschten (Nichterfüllungs) Konfiguration. Wenn Ihr Netz Live ist, überprüfen Sie, ob Sie die mögliche Auswirkung jedes möglichen Befehls verstehen.
Konventionen
Weitere Informationen zu Dokumentkonventionen finden Sie unter Cisco Technical Tips Conventions (Technische Tipps von Cisco zu Konventionen).
Identifizieren eines Paritätsfehlers
Speicherparitätsfehler treten bei Multi-Channel Interface Processor- (MIPS)-basierten Prozessorprodukten auf, z. B.:
-
Cisco Router der Serien 4500/4700
-
Cisco Router der Serie 7500 (RSP1, RSP2, RSP4, RSP8, VIP2-10, VIP2-15, VIP2-20, VIP2-40, VIP2-50)
-
Cisco Router der Serie 7000 (RSP 7000)
-
Cisco Router der Serie 7200 (NPE-100, NPE-150, NPE-175, NPE-200, NPE-225, NPE-300)
-
Cisco Internet Router der Serie 12000
Es folgen einige Meldungen, die alle mit der Erkennung einer fehlerhaften Parität irgendwo im System zusammenhängen (die Liste ist nicht vollständig, enthält aber die gebräuchlichsten Meldungen):
-
Ausgabe des Befehls show version:
System restarted by processor memory parity error at PC 0x6014F7C0,
address 0x0
Oder
System restarted by shared memory parity error at PC 0x60130F40
Wenn Sie den Befehl show version auf Ihrem Cisco Gerät ausgegeben haben, können Sie Cisco CLI Analyzer verwenden, um potenzielle Probleme und Korrekturen anzuzeigen. Um Cisco CLI Analyzer verwenden zu können, müssen Sie registriert sein, eingeloggt sein und JavaScript aktivieren.
-
In den Konsolenprotokollen oder in den crashinfo-Dateien:
- *** Cache Error Exception ***
Cache Err Reg = 0xa401a65a
data reference, primary cache, data field error , error on SysAD Bus
PC = 0xbfc17950, Cause = 0x0, Status Reg = 0x3040d007
- Error: primary data cache, fields: data,
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
virtual address corresponds to main:data, cache word 0
Low Data High Data Par Low Data High Data Par
L1 Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
Low Data High Data Par Low Data High Data Par
Mem Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
- *** Shared Memory Parity Error ***
shared memory control register= 0xffe3
error(s) reported for: CPU on byte(s): 0/1
- %PAR-1-FATAL: Shared memory parity error
shared memory status register= 0xFFEF
error(s) reported for: CPU on byte(s): 0/1 2/3
- %RSP-3-ERROR: MD error 0000008000000200
%RSP-3-ERROR: QA parity error (bytes 0:3) 02
%RSP-3-ERROR: MEMD parity error condition
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA)
log 22010000, data 00000000 00000000
%RSP-3-RESTART: cbus complex
- %RSP-3-ERROR: CyBus error 01
%RSP-3-ERROR: read data parity
%RSP-3-ERROR: read parity error (bytes 0:7) 20
%RSP-3-ERROR: physical address (bits 20:15) 000000
- %RSP-3-ERROR: MD error 00800080C000C000
%RSP-3-ERROR: SRAM parity error (bytes 0:7) F0
%RSP-3-RESTART: cbus complex
Weiche Paritätsfehler im Vergleich zu harten Paritätsfehlern
Es gibt zwei Arten von Paritätsfehlern:
-
Weiche Paritätsfehler
Diese Fehler treten auf, wenn sich ein Energieniveau innerhalb des Chips (z. B. eine Eins oder eine Null) ändert. Wenn die CPU auf solche Fehler verweist, führt dies dazu, dass das System entweder abstürzt (wenn sich der Fehler in einem nicht wiederherstellbaren Bereich befindet) oder andere Systeme wiederhergestellt werden (z. B. startet ein CyBus-Komplex neu, wenn sich der Fehler im Paketspeicher (MEMD) befand). Im Falle eines weichen Paritätsfehlers müssen Sie die Platine oder eine der Komponenten nicht austauschen. Weitere Informationen zu weichen Paritätsfehlern finden Sie im Abschnitt Zugehörige Informationen.
-
Harte Paritätsfehler
Diese Fehler treten auf, wenn ein Ausfall eines Chips oder einer Platine die Daten beschädigt. In diesem Fall müssen Sie die betroffene Komponente wieder einsetzen oder ersetzen, was normalerweise einen Speicherchip- oder einen Platinen-Austausch erfordert. Wenn mehrere Paritätsfehler an derselben Adresse auftreten, liegt ein schwerwiegender Paritätsfehler vor. Es gibt kompliziertere Fälle, die schwerer zu erkennen sind. Wenn Sie in einem bestimmten Speicherbereich in relativ kurzer Zeit mehr als einen Paritätsfehler sehen, können Sie dies als einen schwerwiegenden Paritätsfehler betrachten.
Studien haben gezeigt, dass weiche Paritätsfehler 10 bis 100 Mal häufiger auftreten als harte Paritätsfehler. Cisco empfiehlt daher dringend, auf einen zweiten Paritätsfehler zu warten, bevor Sie einen Ersatz vornehmen. Dadurch werden die Auswirkungen auf Ihr Netzwerk erheblich reduziert.
Isolierung des Problems
Ein Router verfügt über Speicher an verschiedenen Standorten. Theoretisch kann jeder Speicherort durch den Paritätsfehler beeinträchtigt werden, die meisten Speicherprobleme treten jedoch im dynamischen RAM (DRAM) oder im gemeinsam genutzten RAM (SRAM) auf. Basierend auf der Plattform, hier ist, wie Sie herausfinden können, welche Speicherposition betroffen ist, und, wenn es sich als ein harter Paritätsfehler herausstellt, welche Teil müssen Sie ersetzen:
Cisco 4500- und 4700-Plattformen
Auf den Cisco Plattformen der Serien 4500 und 4700 ist die Crashinfo-Datei nur in den Versionen vor Cisco IOS® Software, Version 12.2(10) und 12.2(10)T, verfügbar.
Eine Möglichkeit, herauszufinden, wo der Fehler aufgetreten ist, besteht darin, den "Grund für den Neustart" in den Konsolenprotokollen und in der Ausgabe des Befehls show version zu überprüfen:
-
Paritätsfehler in DRAM:
Wenn Sie den Router nach dem Absturz nicht manuell neu geladen haben, sieht die Ausgabe von show version folgendermaßen aus:
System restarted by processor memory parity error at PC 0x601799C4,
address 0x0
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
Wenn eine Crashfo-Datei verfügbar ist oder Konsolenprotokolle erfasst wurden, können Sie auch Folgendes sehen:
*** Cache Error Exception ***
Cache Err Reg = 0xa0255c61
data reference, primary cache, data field error , error on SysAD Bus
PC = 0xbfc0edc0, Cause = 0xb800, Status Reg = 0x34408007
Das wiederholte Auftreten von Paritätsfehlern in DRAM weist darauf hin, dass entweder der DRAM oder das Gehäuse defekt sind. Wenn Sie das Gehäuse vor kurzem entfernt haben oder Änderungen an der Hardwarekonfiguration vorgenommen haben, setzen Sie die DRAM-Chips erneut ein, um das Problem zu beheben. Ersetzen Sie andernfalls den DRAM als ersten Schritt. Dadurch müssen die Paritätsfehler vermieden werden. Wenn der Router immer noch abstürzt, ersetzen Sie das Gehäuse.
-
Paritätsfehler im SRAM:
Wenn Sie den Router nach dem Absturz nicht manuell neu geladen haben, sieht die Ausgabe des Befehls show version folgendermaßen aus:
System restarted by shared memory parity error at PC 0x60130F40
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
Wenn eine Crashfo-Datei verfügbar ist oder Konsolenprotokolle erfasst wurden, können Sie auch Folgendes sehen:
*** Shared Memory Parity Error ***
shared memory control register= 0xffe3
error(s) reported for: CPU on byte(s): 0/1
Oder
%PAR-1-FATAL: Shared memory parity error
shared memory status register= 0xFFEF
error(s) reported for: CPU on byte(s): 0/1 2/3
Oder
*** Shared Memory Parity Error ***
shared memory control register= 0xffdf
error(s) reported for: NIM1 on byte(s): 0/1 2/3
Anmerkung:
-
Wenn der Fehler für die CPU gemeldet wird, ersetzen Sie den SRAM.
-
Wenn der Fehler für NIM(x) gemeldet wird, ersetzen Sie das Netzwerkmodul in Steckplatz (x). Der SRAM, der Steckplatz (x) zugeordnet ist, kann ebenfalls betroffen sein. Ersetzen Sie in diesem Fall den SRAM.
Wiederholte Paritätsfehler im SRAM weisen entweder auf fehlerhafte SRAM-Chips oder auf ein fehlerhaftes Netzwerkmodul hin, das fehlerhafte Parität in den SRAM geschrieben hat. Wenn Sie das Gehäuse vor kurzem entfernt haben oder Änderungen an der Hardwarekonfiguration vorgenommen haben, setzen Sie die Netzwerkmodule und die SRAM-Chips wieder ein, um das Problem zu beheben. Überprüfen Sie andernfalls, wo der Fehler in den Konsolenprotokollen gemeldet wird (siehe obiges Ausgabebeispiel).
Plattformen für Route-/Switch-Prozessor (RSP), Network Processing Engine (NPE) und Route-Prozessor (RP)
Wie bei der Cisco Serie 4000 kann das Problem auf fehlerhaften DRAM oder SRAM für diese Plattformen zurückzuführen sein. Das Problem kann auch durch eine defekte Prozessorkarte (RP, RSP oder NPE) verursacht werden. Der Cisco 7000 und 7500 können auch Paritätsfehler melden, die durch einen fehlerhaften oder fehlerhaft eingesetzten Schnittstellenprozessor (Legacy-xIP oder VIP) verursacht wurden.
Überprüfen Sie die crashinfo-Datei und die Konsolenprotokolle auf eine der folgenden Fehlermeldungen:
Paritätsfehler in DRAM oder SRAM (MEMD)
Für den RP, RSP und NPE sehen Sie in der Regel Folgendes:
Error: primary data cache, fields: data, (SysAD)
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
virtual address corresponds to main:data, cache word 0
oder einfach:
Error: primary data cache, fields: data, SysAD
phy21:3 0x201880, va14:12 0x1000, addr 63E01880
Dies weist auf ein Problem beim RSP selbst hin. Tritt das Problem nur einmal auf, handelt es sich höchstwahrscheinlich um ein vorübergehendes Problem.
Paritätsfehler aus SRAM entfernt
Für den RSP kann die Meldung wie folgt aussehen:
%RSP-3-ERROR: MD error 0000008000000200
%RSP-3-ERROR: QA parity error (bytes 0:3) 02
%RSP-3-ERROR: MEMD parity error condition
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA)
log 22010000, data 00000000 00000000
%RSP-3-RESTART: cbus complex
Oder
%RSP-3-ERROR: CyBus error 01
%RSP-3-ERROR: read data parity
%RSP-3-ERROR: read parity error (bytes 0:7) 20
%RSP-3-ERROR: physical address (bits 20:15) 000000
Wenn es keinen Hinweis auf einen anderen Schnittstellenprozessor gibt, der schlechte Parität in den SRAM schreibt (z. B. VIP2-1-MSG-Fehlermeldungen), ist der wahrscheinlichste Grund für den Paritätsfehler der SRAM selbst. Ersetzen Sie in diesem Fall den RSP.
Wenn andere Fehlermeldungen darauf hinweisen, dass ein Schnittstellenprozessor eine ungültige Parität schreibt, kann es sich um eine fehlerhafte oder falsch eingesetzte Karte handeln.
Vielseitiger Schnittstellenprozessor
Wenn Sie %VIP2-1-MSG: slot(x) Nachrichten in den Protokollen oder in der crashinfo-Datei erhalten, lesen Sie Troubleshooting VIP Crashes (Fehlerbehebung bei VIP-Abstürzen).
Empfohlene Maßnahmen
Beim ersten Auftreten eines Paritätsfehlers kann nicht zwischen einem weichen oder harten Paritätsfehler unterschieden werden. Aus Erfahrung sind die meisten Paritätsvorfälle weiche Paritätsfehler, die Sie in der Regel ausschließen können. Wenn Sie kürzlich Hardwarekomponenten geändert oder das Gehäuse verschoben haben, versuchen Sie, das betroffene Teil (DRAM, SRAM, NPE, RP, RSP oder VIP) wieder einzusetzen. Häufige Mehrfachparitäten weisen auf fehlerhafte Hardware hin. Ersetzen Sie das betroffene Teil (DRAM, RSP, VIP oder Motherboard) mithilfe der in diesem Dokument erwähnten Anweisungen.
Zu erfassende Informationen, wenn Sie eine TAC-Serviceanfrage stellen
Wenn Sie nach dem Befolgen der oben beschriebenen Schritte zur Fehlerbehebung weiterhin Unterstützung benötigen und eine Serviceanfrage beim Cisco TAC stellen möchten, geben Sie bitte folgende Informationen an: |
- Die Fehlerbehebung wurde vor dem Öffnen der Serviceanfrage durchgeführt.
- show technical-support command output (in enable mode if possible).
- Ausgabe des Befehls show log oder von Konsolenerfassungen, falls verfügbar.
- crashinfo-Datei (falls vorhanden und nicht bereits in der Befehlsausgabe show technical-support enthalten). Wenn mehrere crashinfo-Dateien vorhanden sind, schließen Sie alle Dateien ein).
- Die Anzahl der Neuladevorgänge aufgrund von Prozessorspeicher-Paritätsfehlern, die Sie gesehen haben, und der Zeitpunkt, zu dem sie aufgetreten sind.
Hängen Sie die gesammelten Daten im nicht gezippten Textformat (.txt) an Ihr Ticket an. Laden Sie Informationen über das TAC Service Request Tool (nur registrierte Kunden) hoch, um Ihre Serviceanfrage mit Informationen zu ergänzen. Wenn Sie nicht auf das Service Request Tool zugreifen können, fügen Sie die entsprechenden Informationen zu Ihrer Serviceanfrage hinzu, und senden Sie diese an attach@cisco.com mit Ihrer Serviceanfragenummer in der Betreffzeile Ihrer Nachricht. Hinweis: Laden Sie den Router nicht manuell neu, bevor Sie die oben genannten Informationen erfassen, oder schalten Sie ihn aus, es sei denn, Sie müssen einen Prozessorspeicher-Paritätsfehler beheben, da dies dazu führen kann, dass wichtige Informationen verloren gehen, die zur Ermittlung der Ursache des Problems erforderlich sind. |
Zugehörige Informationen