Introducción
Este documento describe cómo resolver los errores de Capture Resource Center (CRC) de ASR5500 Delivery Collaboration Portal (DCP) y MIO.
Antecedentes
Cuando se detectan errores CRC, ASR5500 se diseña para realizar autorreparación y recuperación automática. En la mayoría de los casos, cuando realiza un reinicio no intrusivo de los procesos internos y el switchover de tarjeta automática, recupera el sistema de tal corrupción de paquetes.
Problema
Cuando se detecta un error de software (error CRC), StarOS intenta en primer lugar recuperar de forma proactiva la falla mediante el restablecimiento de software de los procesos internos relevantes, como npumgr y la recarga de DDF. Si dicha recuperación no es exitosa, la tarjeta se reinicia automáticamente para borrar el error de software y realizar la verificación de hardware completa de la tarjeta.
Tras la detección de errores CRC por parte de DPC/UPDC/DPC2/UDPC2/MIO/UMIO, uno de los primeros pasos de recuperación que realiza el sistema es restablecer en software los procesos asociados con el conjunto de chips afectado. En este ejemplo, los registros de show logs'/syslog y de la consola de depuración de la tarjeta 8 detectaron un error CRC y pudieron recuperarse.
2021-Aug-01+01:01:01.711 [drvctrl 39204 error]
[8/0/7058 <hwmgr:80> hw_common_lib.c:492]
[software internal system syslog] hw_mon_elem_changed:
Detected DDF RELOAD on CRC error: card 8, device DDF1
2021-Aug-01+01:01:01.727 card 8-cpu0: [23552535.124999]
DF2 Complex-0 Program DDF2 CAF_DF1_PROG_ERR error detected on FLM123456AB
En ciertas situaciones, si el reinicio del proceso no recupera el sistema, las tarjetas DPC/UPDC/DPC2/UDPC2/MIO/UMIO se reinician automáticamente. En este ejemplo, los registros de show logs, syslog del sistema y/o debug console logs, el sistema reinicia automáticamente la tarjeta afectada cuando detecta errores CRC. En estos registros, la tarjeta 6 se reinició y regresó en el estado de espera.
2021-Jun-20+10:11:12.150 [hat 3033 error]
[5/0/7094 <hatsystem:0> atsystem_fail.c:1470]
[hardware internal system critical-info diagnostic]
Card error detected on card 6 device DDF reason DDF_CRC_ERROR
2021-Jun-20+10:11:12.201 [rct 13013 info]
[software internal system critical-info syslog] Card 6 shutdown started
2021-Jun-20+10:11:12.201 [afctrl 186001 error]
[5/0/7169 <afctrl:0> l_msg_handler.c:277]
[software internal system critical-info syslog]
afctrl_bcf_scrmem_doorbell_callback: Slot 6 scratch memory driver error
******** show rct stats *******
RCT stats Details (Last 1 Actions)
Action Type From To Start Time Duration
----------------- --------- ---- ---- ------------------------ ----------
Shutdown N/A 6 0 2021-Jun-20+10:11:12.201 0.002 sec
Solución
La mayoría de las veces los errores CRC detectados en la tarjeta DPC y MIO son errores transitorios que el sistema recupera automáticamente. Si la tarjeta se reinicia correctamente y vuelve al servicio, no se requieren más acciones. En caso de que el sistema no pueda recuperarse automáticamente de estos errores, el sistema hace que la tarjeta de procesamiento de datos afectada se desconecte después de 3 intentos de reinicio. Si la tarjeta se reinicia y vuelve al estado de espera, no se necesitan más acciones. En situaciones excepcionales, si el sistema no puede recuperarse automáticamente de CRC, póngase en contacto con el TAC de Cisco.