Introduction
Ce document décrit comment dépanner npumgr restart, qui est déclenché en raison d'EZprmSER_CheckError dans le routeur de services d'agrégation 5500 (ASR5500).
Conditions préalables
Conditions requises
Cisco vous recommande de prendre connaissance des rubriques suivantes :
- Connaissances matérielles de la gamme ASR5500
- StarOS
Components Used
Ce document n'est pas limité à des versions de matériel et de logiciel spécifiques.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. Si votre réseau est en ligne, assurez-vous de bien comprendre l’incidence possible des commandes.
Problème
Une fois qu'une erreur de mémoire NPU (Network Processing Unit) est détectée, elle peut provoquer une erreur de segmentation NPUMGR avec cette signature.
Fatal Signal 11: Segmentation fault
PC: [0d8e2647/X] EZprmSER_CheckError()
Faulty address: 0x272e95d4
Signal from: kernel
Signal detail: address not mapped to object
Process: card=7 cpu=1 arch=X pid=16579 argv0=npumgr
Crash time: 2017-Oct-03+01:02:32 UTC
Recent errno: 115 Operation now in progress
Build_number: 67999
Stack (22120@0x0xffc3a000):
[0d8e2647/X] EZprmSER_CheckError() sp=0xffc3aaf0
[0d78c348/X] EZapiPrm_SERCheckError() sp=0xffc3ab14
[004f4ba5/X] aresEZevents_MemSErr_Handler() sp=0xffc3ad94
[004f688b/X] aresEZevents_Handler() sp=0xffc3f104
[0d77206c/X] EZdev_ISRTask() sp=0xffc3f138
[0c25eb02/X] sn_loop_run() sp=0xffc3f5e8
[0bf451c5/X] main() sp=0xffc3f658
Ce redémarrage est visible sur les cartes DPC (Data Processing Card) et MIO (Management Input/Output).
Les événements qui mènent au redémarrage peuvent être résumés comme suit :
- Une erreur de mémoire (erreur ECC à un bit) a été détectée sur le NPU.
- NPU interrompt le pilote npumgr lorsqu'une erreur de mémoire a été détectée.
- Npumgr tente d'analyser la mémoire à la recherche de l'erreur et redémarre à partir du code npudriver.
Le NPU sera redémarré chaque fois qu'une erreur de parité (ou de mémoire) est observée sur le NPU pour une carte - ceci est similaire à la réaction de noeud pour lorsque la tâche npumgr redémarre également. Puisque le déclencheur du redémarrage est connu comme étant une interruption NPU pour une erreur de mémoire observée, ce redémarrage est considéré comme une erreur matérielle temporaire.
Notez qu'un rayon cosmique ou une décharge électrostatique peut provoquer un léger retournement de mémoire - c'est ce que ECC est là pour corriger.
Si vous rencontrez une erreur ECC dans l'une des cartes, il s'agit en fait d'un événement attendu.
Si une carte comporte plusieurs erreurs ECC dans un mois, un problème matériel est suspecté.
Solution
Cisco recommande de surveiller la carte et de la remplacer si un problème similaire est détecté sur la carte dans un délai d'un mois.
L'événement est déclenché lors du redémarrage rapide de l'onu pour la récupération des erreurs de mémoire sur NPU lors de l'exécution d'une collecte de données pour déboguer cette erreur de segmentation.
L'ID de bogue Cisco CSCvu44031 corrige la défaillance de segmentation.