Einleitung
In diesem Dokument wird beschrieben, wie ein Neustart des npumgr behoben wird, der aufgrund von EZprmSER_CheckError in Aggregation Services Router 5500 (ASR5500) ausgelöst wird.
Voraussetzungen
Anforderungen
Cisco empfiehlt, dass Sie über Kenntnisse in folgenden Bereichen verfügen:
- Hardware-Kenntnisse des ASR 5500
- StarOS
Verwendete Komponenten
Dieses Dokument ist nicht auf bestimmte Software- und Hardware-Versionen beschränkt.
Die Informationen in diesem Dokument beziehen sich auf Geräte in einer speziell eingerichteten Testumgebung. Alle Geräte, die in diesem Dokument benutzt wurden, begannen mit einer gelöschten (Nichterfüllungs) Konfiguration. Wenn Ihr Netzwerk in Betrieb ist, stellen Sie sicher, dass Sie die potenziellen Auswirkungen eines Befehls verstehen.
Problem
Nachdem ein Speicherfehler einer Netzwerkprozessoreinheit (NPU) erkannt wurde, kann er mit dieser Signatur einen NPUMGR-Segmentierungsfehler verursachen.
Fatal Signal 11: Segmentation fault
PC: [0d8e2647/X] EZprmSER_CheckError()
Faulty address: 0x272e95d4
Signal from: kernel
Signal detail: address not mapped to object
Process: card=7 cpu=1 arch=X pid=16579 argv0=npumgr
Crash time: 2017-Oct-03+01:02:32 UTC
Recent errno: 115 Operation now in progress
Build_number: 67999
Stack (22120@0x0xffc3a000):
[0d8e2647/X] EZprmSER_CheckError() sp=0xffc3aaf0
[0d78c348/X] EZapiPrm_SERCheckError() sp=0xffc3ab14
[004f4ba5/X] aresEZevents_MemSErr_Handler() sp=0xffc3ad94
[004f688b/X] aresEZevents_Handler() sp=0xffc3f104
[0d77206c/X] EZdev_ISRTask() sp=0xffc3f138
[0c25eb02/X] sn_loop_run() sp=0xffc3f5e8
[0bf451c5/X] main() sp=0xffc3f658
Dieser Neustart ist sowohl auf DPC- (Data Processing Card) als auch auf MIO-Karten (Management Input/Output) sichtbar.
Die Ereignisse, die zum Neustart führen, können wie folgt zusammengefasst werden:
- Speicherfehler (Single-Bit-ECC-Fehler) wurde auf der NPU erkannt.
- NPU unterbricht den Npumpentreiber, wenn ein Speicherfehler erkannt wurde.
- Npumgr versucht, den Speicher auf den Fehler zu prüfen und startet vom Treiber-Code.
NPU wird jedes Mal neu gestartet, wenn auf der NPU für eine Karte ein Paritäts- (oder Speicher-) Fehler festgestellt wird - dies entspricht auch der Knotenreaktion für den Neustart von npumgr-Aufgaben. Da der Auslöser für den Neustart bekanntermaßen NPU-Interrupt für einen beobachteten Speicherfehler ist, wird dieser Neustart als vorübergehender Hardwarefehler betrachtet.
Beachten Sie, dass eine kosmische Strahlung oder elektrostatische Entladung kann ein bisschen zu flip in Speicher - das ist es, was ECC gibt, um zu korrigieren.
Wenn bei einer der Karten ein ECC-Fehler auftritt, ist dies tatsächlich ein erwartetes Ereignis.
Wenn eine Karte innerhalb eines Monats mehr als einen ECC-Fehler aufweist, besteht der Verdacht, dass auf der Karte ein Hardwareproblem vorliegt.
Lösung
Cisco empfiehlt, die Karte zu überwachen und zu ersetzen, wenn innerhalb eines Monats ein ähnliches Problem auf der Karte auftritt.
Das Ereignis wird während des schnellen npu-Neustarts bei der Wiederherstellung nach Speicherfehlern auf der NPU ausgelöst, während gleichzeitig eine Datensammlung durchgeführt wird, um diesen Segmentierungsfehler zu debuggen.
Die Cisco Bug-ID CSCvu44031 behebt den Segmentierungsfehler.