이 문서에서는 Cisco Nexus 7000 플랫폼에 보고된 패브릭 오류를 해결하는 방법에 대해 설명합니다. 패브릭 CRC(Cyclic Redundancy Checksum) 트러블슈팅은 데이터 수집, 데이터 분석 및 문제 구성 요소를 격리하는 제거 프로세스를 포함합니다. 이 문서에서는 패브릭 CRC 오류의 가장 일반적인 유형을 다룹니다.
다음은 M1 라인 카드가 포함된 Nexus 7018 패브릭 모듈의 개괄적인 다이어그램입니다.
이전 이미지는 패킷이 패브릭 모듈을 통과할 때 관련된 구성 요소의 개요를 제공합니다. 1단계(S1), 2단계(S2), 3단계(S3)는 Nexus 7000 패브릭의 3단계, Octopus는 큐 엔진, Santa Cruz(SC)는 패브릭 ASIC, 인스턴스 1과 2는 XBAR의 2개 SC 인스턴스입니다. 이 문서에서는 XBAR를 하나만 고려합니다. 대부분의 Nexus 7000 Series 스위치에는 3개 이상의 XBAR가 설치되어 있습니다.
모듈 1(M1)에서 모듈 2(M2)로의 단방향 플로우가 있다고 가정할 경우, M1의 인그레스(ingress) Octopus-1은 남쪽에서 수신하는 패킷에 대해 오류 검사를 수행하고, M2의 이그레스(egress) Octopus-1은 북쪽에서 수신하는 패킷에 대해 오류 검사를 수행합니다. S3에서 CRC가 탐지되면 S1 또는 S2에서도 문제가 발생했을 수 있습니다. CRC 검사가 수행되지 않기 때문입니다. 따라서 경로에 포함된 디바이스는 인그레스 옥토퍼스, 섀시, 크로스바 패브릭 및 이그레스 옥토퍼스입니다.
M1/Fab1 아키텍처에서는 이그레스 라인 카드에서만 CRC가 탐지됩니다(S3).
다음은 샘플 오류 메시지입니다.
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
CRC error from MOD 15 through XBAR slot 1/inst 1
이는 M1에 의해 보고되며, 이는 XBAR 슬롯 1/인스턴스 1을 통해 모듈 15(M15)로부터 잘못된 CRC가 포함된 패킷을 수신했음을 나타냅니다.
이 섹션에서는 가장 일반적인 패브릭 CRC 오류 유형의 네 가지에 대해 설명합니다.
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with이는 슬롯 1의 모듈이 M15에서 XBAR 슬롯 1/인스턴스 1을 통해 CRC 오류를 감지했음을 의미합니다. CRC 오류가 발생한 모듈을 인그레스 모듈(이 경우 M15)이라고 하며, 문제를 보고한 모듈은 이그레스 모듈(M1)입니다. XBAR 1은 패킷을 받은 크로스 바입니다. XBAR당 2개의 인스턴스가 있습니다. 이 경우, M1은 M15에서 XBAR 슬롯 1 인스턴스 1을 통해 CRC 오류를 탐지했습니다.
CRC error from MOD 15 through XBAR slot 1/inst 1
%OC_USD-SLOT4-2-RF_CRC: OC2 received packets with이 메시지에서 모듈 4(M4)는 M1의 CRC 오류를 보고했습니다. XBAR 정보가 없습니다. 시스템이 패킷이 이동한 XBAR를 확인할 수 없습니다. 여러 가지 이유가 있지만 가장 일반적인 이유는 패킷의 패브릭 헤더에 있는 정보가 손상되어 소스 모듈을 확인할 수 없기 때문입니다. 오류가 증가하면 통과된 XBAR가 시스템에서 제거됩니다. 따라서 매시간 syslog 메시지에 보고되지 않았습니다.
CRC error from MOD 1
%OC_USD-2-RF_CRC: OC1 received packets with이 예에서, 디바이스는 모듈 16(M16)로부터 XBAR 1을 통해 CRC를 검출하였다. 그러나 수신기 모듈은 없습니다. 수퍼바이저(SUP)가 패브릭 모듈에서 오는 CRC를 탐지하면 슬롯 정보가 로깅되지 않습니다. 슬롯 정보가 표시되지 않으면 SUP에서 문제를 감지했습니다. 그렇다고 해서 SUP가 나쁘다는 것은 아닙니다. 모듈에서 문제를 보고할 때와 마찬가지로, M16, 섀시(가능성 높지 않음), XBAR 1 또는 SUP와 같은 여러 구성 요소가 문제를 일으킬 수 있습니다.
CRC error from MOD 16 through XBAR slot 1/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with소스 모듈은 잘못된 패킷을 소싱된 인그레스 옥토퍼스에서 수집됩니다. 이 오류 메시지를 기록하기 위해 인터럽트를 발생시키는 드라이버가 항상 잘못된 패킷이 시작된 인그레스 Octopus를 아는 것은 아닙니다. 인그레스 Octopus를 나타내기 위해 사용되는 비트 중 일부가 사용되지 않기 때문입니다. 시스템이 여러 모듈에서 이러한 미사용 비트가 켜져 있다고 판단할 경우, 시스템은 그 중 하나가 소스일 수 있다고 가정해야 합니다. 그러면 오류 메시지에 이러한 모든 모듈이 포함됩니다. 시스템은 모듈 13(M13)이 사용되지 않는 비트로 인해 이 충돌을 가질 수 없음을 발견했으며, 따라서 잠재적인 소스로 기록되지 않았습니다.
CRC error from MOD 11 or 12 or 14 or 15 or 16 or 17 or 18
새로운 라인 카드(M2) 및 패브릭 모듈 2(FAB2)는 S1, S2 또는 S3에서 CRC를 탐지합니다. 자세히 조사하고 오류 및 로그 메시지에서 패턴을 찾으면 결함이 있는 구성 요소를 격리하는 데 도움이 됩니다.
다음은 몇 가지 질문입니다.
이러한 질문에 대한 답변을 통해 문제 해결 절차를 더 빨리 해결할 수 있는 각도에서 접근할 수 있습니다.
이 섹션에서는 이러한 문제를 해결하기 위해 사용되는 일반적인 프레임워크를 설정합니다.
이 섹션에서는 유사한 문제를 해결하는 방법의 예를 제공합니다.
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
몇 시간 동안 모듈 7(M7)에서만 발생하는 M1 및 모듈 3(M3)에서 CRC 오류가 표시됩니다.
M7로 향하는 패킷을 손상시키는 잘못된 XBAR 또는 잘못된 XBAR가 있거나 M7이 잘못되었거나 잘못된 XBAR입니다.
3개의 XBAR가 설치된 경우 N+1 이중화가 제공됩니다. 따라서 문제가 해결되었는지 확인하기 위해 최소한의 영향만으로 한 번에 하나씩 종료할 수 있습니다(특정 시간에 둘 이상 종료하지 않음). 이 프로세스를 완료하려면 다음 명령을 입력합니다.
N7K(config)# poweroff xbar 1
<monitor>
N7K(config)# no poweroff xbar 1
N7K(config)# poweroff xbar 2
<monitor>
N7K(config)# no poweroff xbar 2
N7K(config)# poweroff xbar 3
N7K(config)# no poweroff xbar 3
본 특정 사례 연구에서는 XBAR를 종료하였을 때 문제가 해결되지 않았다.
CRC 오류를 보고하는 모듈이 두 개 있으므로 이 두 모듈(M1 및 M3)이 원인일 가능성은 거의 없습니다. 다음 단계는 M7(인그레스 모듈)을 재장착하는 것입니다. 구성 요소에 결함이 있을 가능성이 높기 때문입니다. 라인 카드가 잘못 끼워져 있으면 이 문제가 발생할 수 있으므로 교체하기 전에 모듈을 재장착하는 것이 좋습니다.
이 사례 연구에서는 M7을 재장착한 후 패브릭 모듈에 대한 CRC 오류가 계속 증가했습니다. 재장착으로 문제가 해결되지 않으므로 M7을 교체하려면 이 시점(또는 이 시점 이전)에 Cisco TAC(Technical Assistance Center)에 문의하십시오.
이 사례 연구에서는 M7을 교체하면 패브릭 CRC 오류 메시지가 중지되고 패킷 손실이 해결되었습니다.
%OC_USD-SLOT11-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT12-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT13-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT15-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT2-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT4-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT5-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT7-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT8-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
여러 모듈에서 XBAR 3을 통과하는 모듈 12(M12)의 CRC 오류를 보고합니다.
XBAR 3이 잘못되었거나 잘못 장착되었거나 M12가 잘못 장착되었거나 결함이 있습니다.
이 경우에, XBAR 3은 이전에 기술된 절차(첫 번째 사례 연구에서)로 종료되고, 추가 오류가 있는지 모니터링된다. XBAR 3이 종료되면 오류가 중단된 것으로 나타났습니다. 이때 XBAR 3이 재장착되며, 미드플레인에 핀이 구부러지지 않고 모듈이 제대로 삽입되었는지 주의해야 합니다. XBAR 3을 다시 활성화한 후에는 문제가 다시 발생하지 않습니다. 이 문제는 XBAR 모듈이 잘못 장착되었기 때문입니다.
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 7 or 13 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with CRC error from
MOD 1 or 2 or 3 or 7 or 15 or 17 through XBAR
slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 5 or 7 or 16 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
모듈 6(M6)은 여러 라인 카드 및 XBAR에서 수신된 CRC 오류가 있는 패킷을 보고합니다.
M6가 잘못 장착되었거나 나쁩니다.
M6은 모든 오류 메시지에서 하나의 공통 모듈이므로 이 문제의 가장 가능성 있는 원인입니다. 오류 메시지에 나열된 모든 모듈 중 가장 일관되게 나타나는 모듈은 M6입니다. 따라서 교체하기 전에 문제가 해결되었는지 확인하기 위해 M6를 재장착해 보십시오.
이 경우 M6가 재장착되지만 오류가 계속 발생합니다. 따라서 M6를 교체하려면 Cisco TAC 케이스를 열어야 합니다. M6가 교체된 후에는 오류가 보고되지 않습니다.
다음은 트러블슈팅/디버깅을 수행하기 위해 사용되는 명령 목록입니다.
개정 | 게시 날짜 | 의견 |
---|---|---|
1.0 |
13-Aug-2013 |
최초 릴리스 |