Inleiding
Dit document beschrijft hoe de problemen op te lossen npumgr-start moeten worden hervat, wat wordt geactiveerd vanwege EZprmSER_CheckError in aggregation services router 5500 (ASR5500).
Voorwaarden
Vereisten
Cisco raadt kennis van de volgende onderwerpen aan:
- Hardware kennis van ASR5500
- StarOS
Gebruikte componenten
Dit document is niet beperkt tot specifieke software- en hardware-versies.
De informatie in dit document is gebaseerd op de apparaten in een specifieke laboratoriumomgeving. Alle apparaten die in dit document worden beschreven, hadden een opgeschoonde (standaard)configuratie. Als uw netwerk levend is, zorg er dan voor dat u de mogelijke impact van om het even welke opdracht begrijpt.
Probleem
Nadat een NPU-geheugenfout (Network Processing Unit) is gedetecteerd, kan er een NPUMGR-segmenteringsfout met deze handtekening ontstaan.
Fatal Signal 11: Segmentation fault
PC: [0d8e2647/X] EZprmSER_CheckError()
Faulty address: 0x272e95d4
Signal from: kernel
Signal detail: address not mapped to object
Process: card=7 cpu=1 arch=X pid=16579 argv0=npumgr
Crash time: 2017-Oct-03+01:02:32 UTC
Recent errno: 115 Operation now in progress
Build_number: 67999
Stack (22120@0x0xffc3a000):
[0d8e2647/X] EZprmSER_CheckError() sp=0xffc3aaf0
[0d78c348/X] EZapiPrm_SERCheckError() sp=0xffc3ab14
[004f4ba5/X] aresEZevents_MemSErr_Handler() sp=0xffc3ad94
[004f688b/X] aresEZevents_Handler() sp=0xffc3f104
[0d77206c/X] EZdev_ISRTask() sp=0xffc3f138
[0c25eb02/X] sn_loop_run() sp=0xffc3f5e8
[0bf451c5/X] main() sp=0xffc3f658
Deze herstart kan worden gezien op zowel DPC-kaart (Data Processing Card) als I/O-kaarten (Management I/O).
De gebeurtenissen die tot de herstart hebben geleid, kunnen als volgt worden samengevat:
- Geheugenfout (ECC-fout met één bit) is gedetecteerd op de NPU.
- NPU onderbreekt het npumgr-stuurprogramma dat een geheugenfout is gedetecteerd.
- Npumgr probeert het geheugen voor de fout te scannen en opnieuw te starten met de code van het stuurprogramma.
De NPU wordt opnieuw opgestart zodra er een parity- (of geheugen-) fout op de NPU voor een kaart is waargenomen - dit is gelijk aan de huidreactie voor wanneer de npumgr taak ook wordt herstart. Aangezien bekend is dat de trigger voor het opnieuw opstarten door de NPU onderbroken is voor een waargenomen geheugenfout, wordt deze herstart beschouwd als een tijdelijke hardwarefout.
Merk op dat een kosmische straal of elektrostatische ontlading een beetje kan veroorzaken om in het geheugen te draaien - dat is wat ECC daar is om te corrigeren.
Als je één ECC-fout in één van de kaarten ervaart, is dat eigenlijk een verwachte gebeurtenis.
Als een kaart binnen een maand meer dan één ECC-fout heeft, wordt vermoed dat de kaart een hardwareprobleem heeft.
Oplossing
Cisco raadt aan de kaart te controleren en te vervangen als er binnen een maand een vergelijkbaar probleem op de kaart is gezien.
De gebeurtenis wordt geactiveerd tijdens het snel opnieuw opstarten van npu voor het herstel van de geheugenfout op NPU terwijl er een gegevensverzameling wordt uitgevoerd om deze segmenteringsfout te debug.
Cisco bug-ID CSCvu4031 repareert de segmenteringsfout.