Introducción
Este documento describe cómo resolver problemas de reinicio de npumgr, que se activa debido a EZprmSER_CheckError en Aggregation Services Router 5500 (ASR5500).
Prerequisites
Requirements
Cisco recomienda que tenga conocimiento sobre estos temas:
- Conocimiento de hardware de ASR5500
- StarOS
Componentes Utilizados
Este documento no tiene restricciones específicas en cuanto a versiones de software y de hardware.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. Si tiene una red en vivo, asegúrese de entender el posible impacto de cualquier comando.
Problema
Después de que se detecta un error de memoria de la unidad de procesamiento de red (NPU), puede provocar un error de segmentación de NPUMGR con esta firma.
Fatal Signal 11: Segmentation fault
PC: [0d8e2647/X] EZprmSER_CheckError()
Faulty address: 0x272e95d4
Signal from: kernel
Signal detail: address not mapped to object
Process: card=7 cpu=1 arch=X pid=16579 argv0=npumgr
Crash time: 2017-Oct-03+01:02:32 UTC
Recent errno: 115 Operation now in progress
Build_number: 67999
Stack (22120@0x0xffc3a000):
[0d8e2647/X] EZprmSER_CheckError() sp=0xffc3aaf0
[0d78c348/X] EZapiPrm_SERCheckError() sp=0xffc3ab14
[004f4ba5/X] aresEZevents_MemSErr_Handler() sp=0xffc3ad94
[004f688b/X] aresEZevents_Handler() sp=0xffc3f104
[0d77206c/X] EZdev_ISRTask() sp=0xffc3f138
[0c25eb02/X] sn_loop_run() sp=0xffc3f5e8
[0bf451c5/X] main() sp=0xffc3f658
Este reinicio se puede ver tanto en las tarjetas Data Processing Card (DPC) como en las tarjetas Management Input/Output (MIO).
Los eventos que llevan al reinicio se pueden resumir de la siguiente manera:
- Se detectó un error de memoria (error ECC de un solo bit) en la NPU.
- La NPU interrumpe el controlador npumgr cuando se ha detectado un error de memoria.
- Npumgr intenta buscar el error en la memoria y reiniciar desde el código npudriver.
La NPU se reiniciará cada vez que se observa un error de paridad (o de memoria) en la NPU para una tarjeta, esto es similar a la reacción del nodo para cuando se reinicia la tarea de npumgr también. Dado que se sabe que el disparador del reinicio es una interrupción de NPU por un error de memoria observado, este reinicio se considera un error de hardware transitorio.
Tenga en cuenta que un rayo cósmico o una descarga electrostática pueden hacer que un bit gire en la memoria - esto es lo que ECC está ahí para corregir.
Si experimenta un error ECC en una de las tarjetas, en realidad es un evento esperado.
Si una tarjeta tiene más de un error ECC en un mes, se sospecha que la tarjeta tiene un problema de hardware.
Solución
Cisco recomienda supervisar la tarjeta y reemplazar si se observa un problema similar en la tarjeta en el plazo de un mes.
El evento se está desencadenando durante el reinicio rápido de la Npu para la recuperación de errores de memoria en la NPU mientras se realiza una recolección de datos para depurar este error de segmentación.
El Id. de error de Cisco CSCvu44031 está solucionando el error de segmentación.