소개
이 문서에서는 Aggregation Services Router 5500(ASR5500)의 EZprmSER_CheckError로 인해 트리거되는 npumgr 재시작을 해결하는 방법에 대해 설명합니다.
사전 요구 사항
요구 사항
다음 주제에 대한 지식을 보유하고 있으면 유용합니다.
사용되는 구성 요소
이 문서는 특정 소프트웨어 및 하드웨어 버전으로 한정되지 않습니다.
이 문서의 정보는 특정 랩 환경의 디바이스를 토대로 작성되었습니다. 이 문서에 사용된 모든 디바이스는 초기화된(기본) 컨피그레이션으로 시작되었습니다. 네트워크가 작동 중인 경우 모든 명령의 잠재적인 영향을 이해해야 합니다.
문제
NPU(Network Processing Unit) 메모리 오류가 감지되면 이 서명에 NPUMGR Segmentation 오류가 발생할 수 있습니다.
Fatal Signal 11: Segmentation fault
PC: [0d8e2647/X] EZprmSER_CheckError()
Faulty address: 0x272e95d4
Signal from: kernel
Signal detail: address not mapped to object
Process: card=7 cpu=1 arch=X pid=16579 argv0=npumgr
Crash time: 2017-Oct-03+01:02:32 UTC
Recent errno: 115 Operation now in progress
Build_number: 67999
Stack (22120@0x0xffc3a000):
[0d8e2647/X] EZprmSER_CheckError() sp=0xffc3aaf0
[0d78c348/X] EZapiPrm_SERCheckError() sp=0xffc3ab14
[004f4ba5/X] aresEZevents_MemSErr_Handler() sp=0xffc3ad94
[004f688b/X] aresEZevents_Handler() sp=0xffc3f104
[0d77206c/X] EZdev_ISRTask() sp=0xffc3f138
[0c25eb02/X] sn_loop_run() sp=0xffc3f5e8
[0bf451c5/X] main() sp=0xffc3f658
이 재시작은 DPC(Data Processing Card) 및 MIO(Management Input/Output) 카드에서 모두 확인할 수 있습니다.
재시작으로 이어지는 이벤트는 다음과 같이 요약할 수 있습니다.
- NPU에서 메모리 오류(단일 비트 ECC 오류)가 감지되었습니다.
- NPU는 메모리 오류가 탐지된 npumgr 드라이버를 중단합니다.
- Npumgr은 메모리를 스캔하여 오류를 검사하고 npudriver 코드에서 다시 시작하려고 시도합니다.
NPU는 카드에 대한 NPU에서 패리티(또는 메모리) 오류가 발견될 때마다 다시 시작됩니다. 이는 npumgr 작업이 다시 시작될 때의 노드 반응과 유사합니다. 관찰된 메모리 오류에 대해 재시작에 대한 트리거가 NPU 인터럽트로 알려져 있으므로 이 재시작은 일시적인 하드웨어 오류로 간주됩니다.
우주 광선 또는 정전기 방전으로 인해 메모리에서 비트가 뒤집힐 수 있습니다. 이것이 바로 ECC가 올바른 방식으로 구현되고 있다는 점입니다.
카드 중 하나에서 하나의 ECC 오류가 발생하는 경우 실제로 예상되는 이벤트입니다.
한 달 내에 카드에 ECC 오류가 두 개 이상 있는 경우 카드에 하드웨어 문제가 있는 것으로 의심됩니다.
솔루션
Cisco는 카드를 모니터링하고, 한 달 내에 비슷한 문제가 카드에 발견될 경우 교체할 것을 권장합니다.
이 세그멘테이션 결함을 디버깅하기 위해 데이터 수집을 수행하는 동안 NPU에서 메모리 오류 복구를 위해 빠른 설치를 재시작하는 동안 이벤트가 트리거됩니다.
Cisco 버그 ID CSCvu44031이 세그멘테이션 오류를 수정하고 있습니다.