简介
本文档介绍如何对ASR5500交付协作门户(DCP)和MIO的捕获资源中心(CRC)错误进行故障排除。
背景信息
检测到CRC错误后,ASR5500设计为执行自修复和自动恢复。在大多数情况下,当您执行内部进程的非侵入式软重置和自动卡切换时,它会将系统从此类数据包损坏中恢复。
问题
当检测到软错误(CRC错误)时,StarOS首先尝试通过软重置相关内部进程(如npumgr和DDF重新加载)主动恢复故障。如果此类恢复不成功,则自动重新启动卡以清除软错误并执行卡的完整硬件检查。
当DPC/UPDC/DPC2/UDPC2/MIO/UMIO检测到CRC错误时,系统执行的第一个恢复步骤之一是软重置与受影响的芯片组关联的进程。在本示例中,来自show logs'/syslog和debug console of card 8的日志检测到CRC错误,并且能够恢复。
2021-Aug-01+01:01:01.711 [drvctrl 39204 error]
[8/0/7058 <hwmgr:80> hw_common_lib.c:492]
[software internal system syslog] hw_mon_elem_changed:
Detected DDF RELOAD on CRC error: card 8, device DDF1
2021-Aug-01+01:01:01.727 card 8-cpu0: [23552535.124999]
DF2 Complex-0 Program DDF2 CAF_DF1_PROG_ERR error detected on FLM123456AB
在某些情况下,如果进程重新启动未恢复系统,DPC/UPDC/DPC2/UDPC2/MIO/UMIO卡将自动重新启动。在本示例中,来自show logs、系统系统日志和/或调试控制台日志的日志,在检测到CRC错误时,系统会自动重新启动受影响的卡。在这些日志中,卡6重新启动,并重新进入备用状态。
2021-Jun-20+10:11:12.150 [hat 3033 error]
[5/0/7094 <hatsystem:0> atsystem_fail.c:1470]
[hardware internal system critical-info diagnostic]
Card error detected on card 6 device DDF reason DDF_CRC_ERROR
2021-Jun-20+10:11:12.201 [rct 13013 info]
[software internal system critical-info syslog] Card 6 shutdown started
2021-Jun-20+10:11:12.201 [afctrl 186001 error]
[5/0/7169 <afctrl:0> l_msg_handler.c:277]
[software internal system critical-info syslog]
afctrl_bcf_scrmem_doorbell_callback: Slot 6 scratch memory driver error
******** show rct stats *******
RCT stats Details (Last 1 Actions)
Action Type From To Start Time Duration
----------------- --------- ---- ---- ------------------------ ----------
Shutdown N/A 6 0 2021-Jun-20+10:11:12.201 0.002 sec
解决方案
在DPC和MIO卡上检测到的大多数CRC错误都是系统自动恢复的临时错误。如果卡成功重新启动并恢复服务,则无需执行进一步操作。如果系统无法从这些错误中自动恢复,则系统会在3次重置尝试后使受影响的数据处理卡脱机。如果卡重新启动并重新进入备用状态,则无需进一步操作。在极少数情况下,如果系统无法从CRC自动恢复,请联系Cisco TAC。