이 문서에서는 다양한 패리티 오류 메시지가 발생한 후 Cisco 12000 Series Internet Router의 결함 부품이나 구성 요소를 트러블슈팅하고 격리하는 단계에 대해 설명합니다.
참고: 이 문서에서는 패리티 오류의 원인을 다루지 않습니다.패리티 오류(단일 이벤트 이변 - SEU라고도 함) 및 가능한 원인에 대한 좀 더 간결한 정의에 관심이 있는 경우 네트워크 가용성 향상에서 연결된 문서를 읽는 것이 좋습니다.
문서 규칙에 대한 자세한 내용은 Cisco 기술 팁 표기 규칙을 참조하십시오.
이 문서를 진행하기 전에 다음 문서를 읽는 것이 좋습니다.
이 문서의 정보는 아래 소프트웨어 및 하드웨어 버전을 기반으로 합니다.
Cisco 12000 Series 인터넷 라우터
모든 버전의 Cisco IOS® 소프트웨어
이 문서의 정보는 특정 랩 환경의 디바이스를 토대로 작성되었습니다.이 문서에 사용된 모든 디바이스는 초기화된(기본) 컨피그레이션으로 시작되었습니다.라이브 네트워크에서 작업하는 경우, 사용하기 전에 모든 명령의 잠재적인 영향을 이해해야 합니다.
대부분의 Cisco 12000 Series Internet Router 경로 프로세서와 라인 카드에는 ECC(Error Code Correction) 기능이 포함됩니다.그러나 ECC 기능이 없는 기존의 라인 카드가 필드에 있습니다.ECC 기능은 카드의 RAM 또는 SDRAM(Synchronous Dynamic RAM) 메모리만 포함합니다.나머지는 ECC에서 보호되지 않습니다.
다음은 Cisco 12000과 함께 사용되는 라인 카드의 ECC 기능을 비교한 것입니다.
모든 엔진 2 이상 카드에는 ECC 기능이 있습니다.
FCS 이후 엔진 1 카드가 ECC로 변경되었습니다.
엔진 0 카드에는 ECC 기능이 없습니다.
일부 카드는 ECC 기능을 통합하는 유사 제품으로 업그레이드할 수 있습니다.
아래 표에는 ECC 기능이 있는 제품이 나와 있습니다.
비 ECC 제품 | ECC 제품 |
---|---|
GRP(=) | GRP-B(=) |
GE-SX/LH-SC(=) | GE-GBIC-SC-B(=) |
GE-GBIC-SC-A(=) | GE-GBIC-SC-B(=) |
8FE-FX-SC(=) | 8FE-FX-SC-B(=) |
8FE-TX-RF45(=) | 8FE-TX-RJ45-B(=) |
6DS3-SMB(=) | 6DS3-SMB-B(=) |
12DS3-SBM(=) | 12DS3-SMB-B(=) |
OC12/SRP-IR-SC(=) | OC12/SRP-IR-SC-B(=) |
OC12/SRP-MM-SC(=) | OC12/SRP-mm-SC-B(=) |
OC12/SRP-LR-SC(=) | OC12/SRP-LR-SC-B(=) |
참고: -B 및 ECC는 독립적입니다.-B는 제품이 보드의 두 번째 주문 가능한 주요 버전입니다.경우에 따라 이는 ECC의 개정판입니다.
Cisco는 비ECC 보드를 새 ECC 보드로 업그레이드할 수 있는 TMP(Technology Migration Plan)를 제공합니다.비 ECC 보드와 교환하여 새 ECC 보드 구매에 크레딧이 적용됩니다.
아래 순서도를 통해 GRP(Gigabit Route Processor)에서 패리티/오류 코드 수정(ECC) 오류 메시지를 담당하는 Cisco 12000 Series 인터넷 라우터의 구성 요소를 확인할 수 있습니다.
참고: show tech-support 출력 및 콘솔 로그를 캡처하고 기록하고 패리티/ECC 오류 이벤트 동안 모든 crashinfo 파일을 수집합니다.
아래 순서도는 Cisco 12000 Series Internet Router 라인 카드의 어떤 구성 요소가 패리티/ECC(Error Code Correction) 오류 메시지를 담당하는지 확인하는 데 도움이 됩니다.
참고: 라인 카드에 패리티/ECC 오류 이벤트가 발생할 때마다 가능한 많은 정보를 수집합니다(Cisco 12000 Series 인터넷 라우터의 라인 카드 충돌 문제 해결 참조).
Cisco 12000 Series 인터넷 라우터는 충돌 없이 다른 라인 카드 메모리(SDRAM 및 SRAM)의 패리티 오류로부터 복구됩니다.
패리티가 잘못된 데이터는 Cisco 12000 Series 인터넷 라우터에서 읽기 또는 쓰기 작업을 위해 여러 패리티 검사 디바이스에서 보고할 수 있습니다.
GRP-B 및 PRP는 공유 메모리(SDRAM)에 단일 비트 오류 수정 및 다중 비트 오류 감지 ECC를 사용합니다.SDRAM에서 단일 비트 오류가 자동으로 수정되고 시스템이 정상적으로 계속 작동합니다.
PRP 및 GRP-B에는 ECC를 지원하는 향상된 DRAM(Dynamic RAM) 컨트롤러가 있습니다.따라서 단일 비트 오류를 수정하고 다중 비트 오류를 보고할 수 있습니다.단일 비트 오류를 수정하는 방법은 다음과 같습니다.
%Tiger-3-SBE: Single bit error detected and corrected at <address>
SBE는 오류 수정 회로에 의해 수정되며 GRP-B 또는 PRP의 기능에는 영향을 주지 않습니다.단일 비트 오류는 자주 발생하지 않는 한 아무 작업도 필요하지 않습니다.이 경우 프로세서 보드를 교체하는 것이 좋습니다.
다중 비트 오류 탐지는 버스 오류 예외 또는 CPU 캐시 패리티 오류 예외를 통해 보고됩니다.
SysAD 버스 또는 CPU 내부 캐시 메모리(L1 또는 L2)를 통해 프로세서의 외부 캐시(GRP의 L3)에 액세스할 때 CPU에서 패리티 오류를 탐지하면 프로세서 메모리 패리티 오류 메시지가 표시됩니다. 표 1에는 각 캐시 패리티 오류 유형에 대해 출력될 메시지의 예가 나와 있습니다.
표 1:캐시 패리티 오류 위치
패리티 오류 위치 | 오류 메시지 |
---|---|
L1 명령 캐시 | 오류:기본, 인스턴스 캐시, 필드:데이터 |
L1 데이터 캐시 | 오류:기본, 데이터 캐시, 필드:데이터 |
L2 명령 캐시 | 오류:SysAD, 인스턴스 캐시, 필드:데이터 |
L2 데이터 캐시 | 오류:SysAD, 데이터 캐시, 필드:데이터 |
L3 명령 캐시 | 오류:SysAD, 인스턴스 캐시, 필드:1차 dword |
L3 데이터 캐시 | 오류:SysAD, 데이터 캐시, 필드:1차 dword |
예:
오류 메시지의 첫 번째 행은 패리티 오류의 위치를 나타내며 표 1에 나열된 모든 위치가 될 수 있습니다. 이 예에서 위치는 L3 명령 캐시입니다.
Error: SysAD, instr cache, fields: data, 1st dword Physical addr(21:3) 0x000000, virtual addr 0x6040BF60, vAddr(14:12) 0x3000 virtual address corresponds to main:text, cache word 0 Low Data High Data Par Low Data High Data Par L1 Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01 2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01 Low Data High Data Par Low Data High Data Par DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01 2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
show version의 출력은 다음과 유사해야 합니다.
...System was restarted by processor memory parity error at PC 0x602310D0, address 0x0 at 03:18:21 GMT Sun Oct 27 2002 ...
show context 출력에서 캐시 패리티 예외에 의해 시스템이 재시작되었음을 확인할 수 있습니다.
Router#show context slot 11 CRASH INFO: Slot 11, Index 1, Crash at 19:08:07 CST Thu Nov 14 2002 VERSION: GS Software (GSR-P-M), Version 12.0(22)S1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) TAC Support: http://www.cisco.com/tac Compiled Mon 16-Sep-02 17:36 by nmasa Card Type: Route Processor, S/N LC uptime was 0 minutes. System exception: sig=20, code=0xE42F3E4B, context=0x52CF3D44 System restarted by a Cache Parity Exception STACK TRACE: -Traceback= 5020453C 500E5E24 5010E6DC 5015F89C 501E9F6C 501E9F58 ...
두 번째 실패 후 GRP 또는 PRP를 교체합니다.
콘솔 출력에 다음 메시지가 나타날 수 있습니다.
SEC 7: %GRP-3-PARITYERR: Parity error detected in the fabric buffers. Data (8)
이 메시지는 GRP의 패브릭 인터페이스 하드웨어에서 패리티 오류가 탐지되었음을 의미합니다.16진수는 오류 인터럽트 벡터를 나타냅니다.이는 일반적으로 GRP에서 오류를 보고하는 하드웨어 문제를 나타냅니다(이 경우 슬롯 7). 유사한 문제가 두 번째로 발생할 때 결함이 있는 GRP를 교체해야 합니다.
라우터가 패리티가 잘못된 데이터를 수신하면 이 오류 메시지가 표시됩니다.
패리티가 잘못된 데이터는 여러 패리티 검사 디바이스에서 Cisco 12000 Series 인터넷 라우터에서 수행된 읽기 또는 쓰기 작업에 대해 보고됩니다.
PRP는 단일 비트 오류 수정 및 다중 비트 오류 감지 ECC를 사용하여 메모리(SDRAM)를 공유합니다.SDRAM에서 단일 비트 오류가 자동으로 수정되고 시스템이 정상적으로 계속 작동합니다.
SBE(Single-Bit Errors)는 ECC(Error Correction Circuit)에 의해 수정되며 PRP의 기능에 영향을 주지 않습니다.자주 발생하지 않는 한 단일 비트 오류에 대해 아무 작업도 필요하지 않습니다.
오류가 자주 발생하는 경우 프로세서 보드를 교체하는 것이 좋습니다.
SDRAM ECC(Single Bit Error-Correcting Code) 오류
단일 비트 오류는 메모리에서 읽은 단어에 잘못된 단일 데이터 비트입니다.SBE의 경우 운영 중단 없이 오류를 수정할 수 있습니다.
단일 비트 오류가 감지되고 수정된 데이터가 표시됩니다.예를 들어, 단일 비트 오류는 Engine 4/4+에서 다음과 같이 보고됩니다.
SLOT 6:Jul 19 07:37:34: %TX192-3-SDRAM_SBE: Error=0x2 - DIMM1 Syndrome=0x7600 Addr=0xBEA09 Data bit80-Traceback= 401C8C9C 401C9508 401CDE08 401CDE40 4007F674 4009ED0C 4009ECF8
SBE는 오류 수정 회로에 의해 수정되며 라인 카드의 기능에는 영향을 주지 않습니다.단일 비트 오류가 자주 발생하지 않는 한 이 오류에 대해 아무 작업도 필요하지 않습니다.이 경우 라인 카드를 교체하는 것이 좋습니다.
SDRAM 멀티 비트 ECC 오류
다중 비트 오류는 동일한 단어에서 두 비트 이상이 잘못된 경우 발생합니다.MBE의 경우 오류가 감지되고 라인 카드가 충돌합니다.SBE와 MBE는 매우 드문 경우입니다.
다음은 SDRAM에서 다중 비트 ECC 오류에 대한 응답으로 콘솔에 인쇄되는 메시지의 예입니다.
SLOT 5:Jul 25 16:58:51: %MCC192-3-SDRAM_SBE: Error=0x808 - DIMM0 Syndrome=0x31000000 Addr=0x81034 Data bit120 -Traceback= 401C8C9C 401C9508 40450018 400BF7D4 SLOT 5:Jul 25 16:58:51: %MCC192-3-SDRAM_MBE: Error=0x808 - DIMM0 Syndrome=0x18000000 Addr=0x80834 -Traceback= 401C8D88 401C9508 40450018 400BF7D4
MBE는 ECC에서 수정할 수 없으며 라인 카드가 충돌합니다.그런 다음 라인 카드가 다시 로드되고 경로 프로세서에 의해 정상 작동으로 돌아갑니다.
필드 진단을 사용하여 MBE에 대한 라인 카드 메모리를 확인할 수 있습니다.MBE는 필드 진단에서 메모리 오류로 탐지됩니다.다음은 필드 진단에 실패한 TX SDRAM에서 다중 비트 오류가 발생한 보드의 예입니다.
FDIAG_STAT_IN_PROGRESS(5): test #12 TX SDRAM Marching Pattern FD 5> RIM: FD 5> TX Registers FD 5> INT_CAUSE_REG = 0x00000680 FD 5> Unexpected L3FE Interrupt occured. FD 5> ERROR: TX BMA Asic Interrupt Occured FD 5> *** 0-INT: External Interrupt *** FDIAG_STAT_DONE_FAIL(5) test_num 12, error_code 1 Field Diagnostic: ****TEST FAILURE**** slot 5: last test run 12, TX SDRAM Marching Pattern, error 1 Field Diag eeprom values: run 5 fail mode 1 (TEST FAILURE) slot 5 last test failed was 12, error code 1
QOC48 또는 OC192 라인 카드가 있는 경우 다음 필드 알림을 참조하십시오.QOC48/OC192 SBE/MBEs.그렇지 않으면 두 번째 장애가 발생한 후 라인 카드를 교체해야 합니다.
show context slot [slot#] 출력에서 sig= 필드의 값을 확인합니다.
Router#show context slot 4 CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999 VERSION: GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) Compiled Mon 28-Dec-98 14:53 by tamb Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL System exception: SIG=20, code=0xA414EF5A, context=0x40337424 System restarted by a Cache Parity Exception
Engine 1 포워딩 엔진을 기반으로 하는 일부 카드는 특정 전압 및 온도 조건에서 작동할 때 내부 캐시 손상 문제에 취약합니다.
CERF(Cache Error Recovery Feature)는 외부 CPU 캐시에서 오류를 플러시하고 DRAM에서 캐시 라인을 새로 고쳐 캐시 패리티 오류를 탐지하고 수정하는 Engine1 라인 카드의 소프트웨어 기능입니다.이 기능은 CPU 캐시 관리 알고리즘에 인텔리전스를 제공하여 CPU가 캐시 메모리 패리티 오류로부터 복구하여 성능 저하 없이 라인 카드 충돌을 방지합니다.
참고: CERF는 기본적으로 설정되어 있습니다.이 소프트웨어 ECC(오류 수정 코드)의 활동은 show controller cerf 명령을 통해 모니터링할 수 있습니다.이 기능을 끄려면 서비스 cerf 없음 전역 구성 명령을 사용합니다.
필드 알림 참조:자세한 내용은 GSR 1GE 카드의 캐시 패리티 오류를 참조하십시오.
라인 카드의 기반이 되는 포워딩 엔진을 확인하려면 어떤 엔진 카드가 실행 중인지 어떻게 확인합니까?를 참조하십시오.Cisco 12000 Series 인터넷 라우터:FAQ 문서
라인 카드가 엔진 1을 기반으로 하는 경우 해결 방법은 Cisco IOS 소프트웨어를 CERF(Cache Error Recovery Feature)가 포함된 릴리스로 업그레이드하는 것입니다. 이 기능은 Cisco IOS Software Release 12.0(21)S3에서 처음 사용할 수 있습니다. 캐시 패리티 예외에 의해 여전히 작동 중인 경우 라인 카드를 교체해야 합니다.
라인 카드가 다른 엔진 유형을 기반으로 하는 경우 유사한 충돌이 발생한 두 번째 경우에 라인 카드를 교체해야 합니다.
콘솔 로그에 다음 메시지가 표시될 수 있습니다.
SLOT 2:Oct 23 17:07:45.531 EST: %LC-3-L3FEERRS: L3FE DRAM error 12 address 41E9B9A0 SLOT 2:Oct 23 17:07:45.531 EST: %LC-3-L3FEERR: L3FE error: rxbma 0 addr 0 txbma 0 addr 0 dram 12 addr 41E9B9A0 io 0 addr 0 SLOT 2:Oct 23 17:07:45.531 EST: %GSR-3-INTPROC: Process Traceback= 40080BAC -Traceback= 40357084 40495D30 40496EE0 400CCF98
이 메시지는 CPU DRAM 쓰기 패리티 오류를 보고합니다.L3FE는 레이어 3 포워딩 엔진을 의미합니다.유사한 문제가 두 번째로 발생할 때 라인 카드를 교체해야 합니다.
다음과 같은 몇 가지 오류 메시지가 나타날 수 있습니다.
1포트 기가비트 라인 카드의 로그에서 다음을 수행합니다.
SLOT 5: %LCGE-3-INTR: TX GigaTranslator external interface parity error
최신 보드의 경우, TX GigaTranslator ASIC를 FPGA(field-programmable gate array)로 교체하는 것이 한 가지 수정되었습니다. 유사한 문제가 두 번째로 발생할 때, 보드를 교체해야 합니다.
콘솔 출력에서 다음을 수행합니다.
SLOT 6: %LC-3-ECC: Salsa ECC: About to handle ECC single bit error, ECC status = 2 DRAM error status = = 21 SLOT 6: %LC-3-L3FEERR: L3FE error: rxbma 0 addr 0 txbma 0 addr 0 dram 21 addr 200020 io 0 addr 0 SLOT 6: %LC-3-ECC: Salsa ECC: Addresses: Salsa returned =429BFDE8 correcting on = 429BFDE8 SLOT 6: %MEM_ECC-3-SBE: Single bit error detected and corrected at 0x429BFDE8 SLOT 6: %MEM_ECC-3-SYNDROME_SBE: 8-bit Syndrome for the detected Single-bit error: 0x8A SLOT 4: %MEM_ECC-3-SBE_HARD: Single bit *hard* error detected at 0x6299FB60 SLOT 1:Jun 10 05:29:47.690 EDT: %LC-3-ECC: Salsa ECC: About to handle ECC single bit error,ECC status = 0 DRAM error status =12 SLOT 6:Sep 26 15:18:01: %LC-3-SWECC: L2 event cleared: EPC = 0x40631CCC, CERR = 0xE40BB933, SysAD Addr = 1, total = 1 SLOT 0:Dec 7 13:48:11.480: %LC-3-SWECC_DATA: L2 event cleared: EPC = 0x400A8040, CERR = 0xA01DCE58, l1v = 0x41E3C20441E3C1C5, dv =0x41E3C1C441E3C204, SysAD Addr = 0, total = 1
이러한 메시지는 다음 부분으로 나눌 수 있습니다.
%LC-3-ECC:Salsa ECC - 라인 카드의 L3FE ASIC에 오류가 있습니다.
%LC-3-L3FERR - 라인 카드의 L3FE ASIC reg에 오류가 있습니다.정보를 제공합니다.
%MEM_ECC-3-SBE - DRAM에서 읽은 경우 단일 비트 수정 가능 오류가 발견되었습니다.show memory ecc 명령을 사용하여 지금까지 로깅된 단일 비트 오류를 덤프할 수 있습니다.%MEM_ECC-3-SBE_LIMIT 오류 메시지와 동일합니다.
%MEM_ECC-3-SYNTAX_SBE - 감지된 단일 비트 오류에 대한 8비트 증후군입니다.이 값은 오류 비트 정확한 위치를 나타내지 않지만 해당 위치를 근사화하는 데 사용할 수 있습니다.%MEM_ECC-3-SYNTAX_SBE_LIMIT 오류 메시지와 동일합니다.
기본적으로 라인 카드는 단일 비트 오류를 보고하고 자동으로 수정했습니다.이 경우가 자주 발생하지 않는 한, 어떠한 작업도 필요하지 않습니다.이 경우 라인 카드를 교체하는 것이 좋습니다.
%LC-3-SWECC_DATA - SWECC(Software Error Correction Code)로 SLOT 0의 LC에서 캐시 이벤트가 수정되었음을 나타냅니다.
또 다른 메시지는 다음과 같습니다.
SLOT 4: %MEM_ECC-3-SBE_HARD: Single bit *hard* error detected at 0x6299FB60
이 메시지는 DRAM에서 읽은 CPU에서 수정 불가능한 단일 비트 오류[하드 오류]가 감지되었음을 의미합니다.show memory ecc 명령은 지금까지 로깅된 단일 비트 오류를 덤프하고 탐지된 하드 오류 주소 위치를 나타냅니다.
show memory ecc 명령을 사용하여 시스템을 모니터링하고 이러한 오류가 너무 많이 발생하는 경우 DRAM을 교체합니다.
콘솔 출력에서 다음 오류가 표시될 수 있습니다.
SLOT 6: %LC-6-PSAECC: An TLU SDRAM ECC correctable error occurred address 19C49FD SLOT 2:035610: Feb 26 13:09:13.628 UTC: %LC-6-PSAECC: An PLU SDRAM ECC correctable error occurred address 1956059
즉, PSA(Packet Switching ASIC) ECC 보호 SDRAM에서 수정 가능한 1비트 오류를 확인했습니다.이러한 메시지가 자주 발생하지 않는 한 어떠한 작업도 필요하지 않습니다.이 경우 라인 카드를 교체하는 것이 좋습니다.
콘솔 출력에서 다음 오류를 확인할 수 있습니다.
SLOT 6:00:03:53: %PM622-3-SAR_SRAM_PARITY_ERR: (6/0): Parity error in Reassembly SAR SRAM address: 80000000.Resetting the port SLOT 3:00:00:53: %PM622-3- SAR_MULTIBIT_ECC_ERR: (3/0): Multi-bit ECC Uncorrectable error in SAR SDRAM address: 80000000. Resseting the port. SLOT 4:00:00:53: %PM622-3 SAR_SINGLE_BIT_ECC_ERR: (3/0): ECC corrected an error in SAR SDRAM address: 800000. SLOT 0:Jun 25 20:45:53 KST: %EE48-6-ALPHAECC: RX ALPHA: An PLU SDRAM ECC correctable error occured address 1000C254 SLOT 0:Jun 25 20:45:53 KST: %EE48-6-ALPHAECC2: RX ALPHA: An PLU SDRAM ECC multibit error occured at address 1000E254 SLOT 5:Nov 17 09:46:30.171: %EE48-6-ALPHA_PARITY: TX ALPHA: Transient SRAM64 parity corrected error 3E Data 0 100000 Parity bits 0 SLOT 10:Feb 21 16:55:36: %EE48-3-ALPHA_SRAM64_ERR: TX ALPHA: ALPHA_PST_RANGE_ERR error 11003F Data 0 0 Parity bits 0 SLOT 4:Jan 15 06:30:00.942 UTC: %EE48-2-GULF_TX_SRAM_ERROR: ASIC GULF: TX SRAM uncorrectable error detected. Details=0x0000 SLOT 0:Mar 16 19:50:22.464 cst: %EE48-4-QM_ZBT_PARITY: ToFab Address 0xB95E Data 0x1 SLOT 5:May 17 06:17:35.507: %EE48-4-QM_NON_ZBT_PARITY: ToFab Error 0x10000028 SLOT 5:May 17 06:17:53.883: %EE48-4-QM_ZBT_PARITY_TRANSIENT: FrFab Address 0x0 Data 0x7E SLOT 5:May 17 06:17:53.883: %EE48-4- GULF_RX_TB_PARITY_ERROR: ASIC GULF: RX telecom bus parity error on port 0 SLOT 1:Dec 13 00:27:42: %EE48-3-SRAM_PARITY: SRAM parity: Unable to find shadow 281B9EB4 SLOT 0:Aug 4 08:55:37: %EE48-3-QM_PARITY: FrFab Address 0x1859E Data 0x10 SLOT 0:Aug 4 08:55:37: %EE48-3-QM_ERROR: FrFab error register 0x80000.
Engine 4/4+ 기반 라인 카드에서 다음 메시지가 나타날 수 있습니다.
SLOT 4: %RX192-3-HINTR: status = 0x4000000, mask = 0x3FFFFFFF - Parity error on rx_pbc_mem. -Traceback= 401C37C0 403D8814 400BE1EC SLOT 4: %LC-3-ERR_INTR: Error interrupt occurred -Traceback= 400CE028 400C8DF0 40010A24
또는
SLOT 3: %RX192-3-HINTR: status = 0x4000000, mask = 0x3FFFFFFF - Parity error on rx_pbc_mem. -Traceback= 406012E0 406972A0 400C555C %FIB-3-FIBDISABLE: Fatal error, slot 3: IPC failure
또는
SLOT 13:Dec 5 07:30:15.272 cst: %HERA-6-PAM_ACL_SBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C SLOT 2:00:03:41: %MCC192-6-RED_PARAM1_SBE: Parameter 1 - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x43, samebit No, diffbit No SLOT 2:00:03:41: %MCC192-6-RED_PARAM2_SBE: Parameter 1 - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x43, samebit No, diffbit No SLOT 5:Apr 26 11:56:08.160: %MCC192-3-SDRAM_MBE: Error=0x200 - DIMM1 Syndrome=0x3000 Addr=0x811C3 SLOT 10:Mar 6 05:05:26.965: %RX192-3-ADJ_MEM_MBE: phy addr 0x7905E648, offset 0xBCC9, old ecc 0x0, new ecc 0x0, bit -1, value 0x0 - MBE on Adjacency Memory.. SLOT 13:Dec 5 07:30:15.272 cst: %HERA-6-PAM_ACL_MBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C SLOT 2:00:03:41: %MCC192-6-RED_PARAM1_MBE: Parameter 1 - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x43, samebit No, diffbit No SLOT 2:00:03:41: %MCC192-3-RED: Error=0x80000 - RED PARAM 1 ECC SBE Error. -Traceback= 405AF5E0 405B1CEC 406DFF7C 406E057C 400FC7E SLOT 2:00:03:41: %MCC192-6-RED_PARAM2_MBE: Parameter 1 - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x43, samebit No, diffbit No Sep 8 14:32:09 jst: %MEM_ECC-3-SYNDROME_SBE_LIMIT: 8-bit Syndrome for the detected Single-bit error: 0xD5
이 문제의 증상으로는 다음과 같습니다.
이 라인 카드에서 Cisco Express Forwarding을 사용할 수 없습니다.
연결된 포트가 작동/작동 중
라인 카드가 자동으로 재설정될 수 있습니다.
라인 카드가 재설정되지 않은 경우 해결 방법은 마이크로코드 reload <slot> 명령을 실행하는 것입니다.
이 메시지는 RX192 모듈에 하드웨어 문제가 있음을 항상 나타내지 않습니다.일부 Cisco IOS 소프트웨어 버그가 이 오류 메시지를 부작용으로 생성할 수 있습니다.이 메시지가 한 번만 표시되면 보드를 계속 모니터링합니다.디바이스가 재설정됩니다.문제가 계속되면 카드가 자동으로 재설정됩니다.이 메시지가 계속 표시되면 Cisco 기술 지원 담당자에게 문의하십시오.
SBE 이벤트는 show controllers mcc192 ecc 명령을 사용하여 E4/E4+에서 확인할 수 있습니다.
LC-Slot4#show controllers mcc192 ecc MCC192 SDRAM ECC Counters SBE = 0x0, MBE = 0x0 TX192 SDRAM ECC Counters SBE = 0x0, MBE = 0x0
이 보고서는 RX 메모리와 TX 메모리 모두에 대해 보고합니다.
콘솔 출력에서 다음 오류를 확인할 수 있습니다.
SLOT 1:Jun 26 20:45:53 KST: %EE192-6-WAHOOECC: RX WAHOO: An PLU SDRAM ECC correctable error occured address 20000254 SLOT 9:Sep 2 21:27:49.680 GMT+8: %MCC192-3-PKTMEM_SBE: Single bit error detected and corrected SLOT 14:Jul 18 07:19:24.637: RX_XBMA: 1-bit CPUIM_ECCERR1 error 0x2 SLOT 15:Jan 4 16:53:16.591: TX_XBMA: (1) QSRAM qinfo SBE detected. info: 0x82605455 SLOT 12:Dec 12 22:34:15: %EE192-4-BM_ERRSSS: FrFab BM BADDR ECC ERR info single bit error(s) corrected, error 8250F63E count: 2 SLOT 1:Nov 22 13:40:02 JST: %EE192-3-QM_ERROR: RX_XBMA OQLLM error error register 0x1 -Traceback= 40AE71AC 406078C4 405F5EC0 SLOT 7:001113: Oct 24 10:50:28.520 BST: %EE192-3-WAHOOERRS: RX WAHOO: WAHOO_CSRAM_CNTRL_INT PIPE0 error 8 SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRSSS: RX WAHOO: WAHOO_FFCRAM_CNTRL_INT PIPE0 error 4 addr 3FBFAB8 agent 94 SLOT 7:001114: Oct 24 10:50:28.520 BST: %EE192-3-WAHOOERRSSSS: RX WAHOO: WAHOO_PPC_INT PIPE1 error pl_ctl 4000226 pl_aa_avl F9F7B pl_aa_end 7FF9 pl_aa_fatal 4800000 SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: RX WAHOO WAHOO_NFC_SRAM_MULTI_ECC_ERR multi-bit CSSRAM error SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_CTCAM_CNTRL_INT multi-bit CSRAM error SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_FFCRAM_CNTRL_INT MBE SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: FSRAM not OK WAHOO_FSRAM_CNTRL_INT ECC_1_BIT_EE | ECC_UNCORR_EE SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_CTCAM_CNTRL_INT multi-bit CSRAM error SLOT 1:00:01:14: WEEKLY_THROTTLE_SOCKEYE_SBE: SOCKEYE SBE: addr: 0xC2A007C0, synd: 0xC4 SLOT 1:00:01:14: WEEKLY_THROTTLE_CBSRAM_SBE_TX+i: CBSRAM SBE TX: 1-bit CBSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CBSRAM_SBE_RX+i: CBSRAM SBE RX: 1-bit CBSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CSSRAM_SBE_TX+i: CSSRAM SBE TX: 1-bit CSSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CSSRAM_SBE_RX+i: CSSRAM SBE RX: 1-bit CSSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CSRAM_SBE_TX+i: CSRAM SBE TX: 1-bit CSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CSRAM_SBE_RX+i: CSRAM SBE RX: 1-bit CSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FW_TCAM_PRTY_TX+throttle_i: TX FTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FW_TCAM_PRTY_RX+throttle_i: RX FTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_CL_TCAM_PRTY_TX+throttle_i: TX CLTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_CL_TCAM_PRTY_RX+throttle_i: RX CLTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_NF_TCAM_PRTY_TX+throttle_i: TX NFTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_NF_TCAM_PRTY_RX+throttle_i: RX NFTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_TCAM_PRTY_VMR: TCAM PRTY VMR error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_TCAM_PRTY_NO-VMR: TCAM PRTY NO-VMR error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_SBE_TX: FCRAM SBE TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_SBE_RX: FCRAM SBE TX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_PER_CHIP_SBE_TX: FCRAM CHIP SBE error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FCRAM_PER_CHIP_SBE_RX: FCRAM CHIP SBE error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FSRAM_SBE_TX: FSRAM SBE TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FSRAM_SBE_RX: FSRAM SBE RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FSRAM_MBE_TX: FSRAM MBE RX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FSRAM_MBE_RX: FSRAM MBE RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_ISERR_TX: ISERR TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_ISERR_RX: ISERR RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_FCRAM_SBE_TX: FCRAM SBE TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_FCRAM_SBE_RX: FCRAM SBE RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_LINK_SBE_TX: QSRAM LINK SBE TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_LINK_SBE_RX: QSRAM LINK SBE RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_QEINFO_SBE_TX: QSRAM queue info sbe tx error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_QEINFO_SBE_TX: QSRAM queue info sbe rx error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_BADDR_SBE_TX: qsram bad addr sbe tx error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_ QM_QSRAM_BADDR_SBE_RX: qsram bad addr sbe rx error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_OQLLM_SBE_TX: oqllm sbe tx error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_OQLLM_SBE_RX: oqllm sbe rx error status = 0x3
콘솔 출력에서 다음 오류를 확인할 수 있습니다.
SLOT 0:Jan 14 08:53:44.581 GMT: %FIA-3-RAMECCERR: To Fabric ECC error was detected Single Bit Error RAM2 status = 0x8000 Syndrome = 0x0 addr = 0x0 SLOT 6:Apr 29 09:36:12: %E6LC-4-ECC_THRESHOLD: HERMES VID SBE exceeded threshold, possible memory failure SLOT 4:*Mar 13 23:38:19.295: %E6_RX192-3-MTRIE_SBE: Head1 Syndrome=0x94 Addr=0xFFF2B -Traceback= 40544830 40546A90 40688C94 400EDC18 SLOT 7:*Mar 4 1234:19.295: %E6_RX192-3-ADJ_SBE: Syndrome=0x59 Addr=0xFFF2B -Traceback= 40000830 40036A90 40555D44 400ddd23 SLOT 14:Dec 9 20:02:29: %E6_RX192-6-PBC_SBE: Single bit error detected and corrected RLDRAM Syndrome=0x61 Addr=0xF855 Dec 9 20:02:33: %GRP-4-RSTSLOT: Resetting the card in the slot: 14,Event: linecard error report SLOT 4:06:21:43: %E6_RX192-3-ACL_SBE: ACTION MEM Syndrome=0x7 Addr=0x0 -Traceback= 40549740 4054A7E0 4068D814 400EE018 SLOT 6:Mar 28 03:30:19: %RX192-3-HINTR: status = 0x1000000000000, mask = 0x7FFFFF0FA320F - L3X SBE error. -Traceback= 405816DC 406A1010 406A1650 400F70E8 SLOT 6:Mar 28 03:30:19: %E6_RX192-6-VID_SBE: Single bit error detected and corrected VID memory Syndrome=0x19 Addr=0xE51B SLOT 6:Nov 27 23:32:36: %HERA-3-PKTMEM_SBE: Single bit error detected and corrected Error=0x80 – Syndrome=0x5100000000000000 Addr=0x894620 Data bit116 SLOT 7:Oct 2 23:32:36: %HERA-6- MCD_SBE: Single bit error detected and corrected Error=0x50 – Syndrome=0x3100000000000000 Addr=0x331110 Data bit216 SLOT 1:Jun 22 03:32:36: %HERA-6- MRW_SBE: Single bit error detected and corrected Error=0x50 – Syndrome=0x3100000000000000 Addr=0x331110 Data bit216 SLOT 12:May 24 03:03:36: %HERA-6- UPF_SBE: Single bit error detected and corrected Error=0x60 – Syndrome=0x4100000000000000 Addr=0x451140 Data bit216 SLOT 13:Dec 5 07:30:15.272 cst: %HERA-6-PAM_ACL_SBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C SLOT 9:May 5 18:52:14: %HERA-6-QM_FBF_SBE: Free Block FIFO - Single Bit Error detected and corrected Syndrom = 0x10, Addr = 0x778, samebit Yes, diffbit No SLOT 9:May 5 18:52:14: %HERA-3-QM: Error=0x40 - FBF RAM ECC SBE. -Traceback= 405AD4CC 405AF5D0 405F2E80 406DCDB8 406DD434 400FC500 SLOT 3:Aug 16 00:45:14: %MCC192-6-RED_AQD_SBE: Average Queue Depth - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x89, samebit No, diffbit No SLOT 2:Jan 23 06:29:56 KST: %MCC192-6-RED_STAT_SBE: Statistics - Single Bit Error detected and corrected Syndrome = 0x38, Address = 0xFF, samebit No, diffbit No SLOT 4:*Mar 13 23:38:19.295: %E6_RX192-3-MTRIE_MBE: Single bit error detected and corrected Head1 Syndrome=0x94 Addr=0xFFF2B SLOT 7:*Mar 4 1234:19.295: %E6_RX192-3-ADJ_MBE: Syndrome=0x59 Addr=0xFFF2B -Traceback= 40000830 40036A90 40555D44 400ddd23 00:00:18: %E6_RX192-3-PBC_MBE: ADJ OBANK LO Syndrome=0xE5 Addr=0x142 -Traceback= 405BF8B0 405C0F08 406E8D78 406E93B8 400FCCE0 SLOT 6:Mar 28 03:30:19: %E6_RX192-6-VID_MBE: Single bit error detected and corrected VID memory Syndrome=0x19 Addr=0xE51B SLOT 0:Apr 18 06:44:53.751 GMT: %HERA-3-PKTMEM_MBE: Error=0x1010 - Syndrome=0x9900000000 SLOT 7:Oct 2 23:32:36: %HERA-6- MCD_MBE: Single bit error detected and corrected Error=0x50 – Syndrome=0x3100000000000000 Addr=0x331110 Data bit216 SLOT 1:Jun 22 03:32:36: %HERA-6- MRW_MBE: Single bit error detected and corrected Error=0x50 - Syndrome=0x3100000000000000 Addr=0x331110 Data bit216 SLOT 13:Dec 5 07:30:15.272 cst: %HERA-6-PAM_ACL_MBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C SLOT 9:May 5 18:52:14: %HERA-6-QM_FBF_MBE: Free Block FIFO - Single Bit Error detected and corrected Syndrome = 0x10, Addr = 0x778, samebit Yes, diffbit No SLOT 3:Aug 16 00:45:14: %MCC192-6-RED_AQD_MBE: Average Queue Depth - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x89, samebit No, diffbit No SLOT 2:Jan 23 06:29:56 KST: %MCC192-6-RED_STAT_MBE: Statistics - Single Bit Error detected and corrected Syndrome = 0x38, Address = 0xFF, samebit No, diffbit No
콘솔 출력에서 다음 오류를 확인할 수 있습니다.
SLOT 7:Jan 4 02:04:00.487: %SPA_CHOC_DSX-3-UNCOR_PARITY_ERR: SPA4/0: CHOC SPA parity error(s) encountered SLOT 7:Jan 4 02:04:00.487: %MCT1E1-3-UNCOR_PARITY_ERR: SPA5/0: T1E1 SPA parity error(s) encountered SLOT 3: 00:33:48: %MCT1E1-3-UNCOR_MEM_ERR: SPA3/0: 1 uncorrectable HDLC SRAM memory error(s) encountered. SLOT 1:Oct 3 14:42:45.727: %SPA_PLIM-4-SBE_ECC: SPA-4XT3/E3[1/2] reports 2 SBE occurrence at 1 addresses SLOT 1: Jul 22 05:26:29.613 UTC: %SPA_DATABUS-3-SPI4_SINGLE_DIP4_PARITY: SIP Sbslt 0 Ingress Sink - A single DIP4 parity error has occurred on the data bus. SLOT 4: Dec 2 22:44:05: %SPA_DATABUS-3-SPI4_SINGLE_DIP2_PARITY: SIP Sbslt 0 Egress Source - A single DIP 2 parity error on the FIFO status bus has occurred. SLOT 1:Oct 3 14:42:45.727: %SPA_PLIM-4-SBE_OVERFLOW: SPA-4XT3/E3[1/2] reports SBE table (2 elements) overflows SLOT 1:Oct 3 14:42:45.727: % SPA_PLUGIN-3-SPI4_SETCB: SPA-4XT3/E3[1/2] : IPC SPI4 set callback failed(status 2).
스위칭 패브릭 카드와 관련된 모든 패리티 오류 메시지는 Cisco 12000 Series 인터넷 라우터의 하드웨어 트러블슈팅에서 자세히 다룹니다.다음과 같은 메시지가 포함됩니다(전체 목록이 아님).
%FABRIC-3-PARITYERR: To Fabric parity error was detected. Grant parity error Data = 0x2. SLOT 1:%FABRIC-3-PARITYERR: To Fabric parity error was detected. Grant parity error Data = 0x1