이 문서에서는 Cisco 12000 Series 인터넷 라우터에서 패브릭 핑 시간 초과 및 실패를 해결하는 방법에 대해 설명합니다.이러한 오류는 다음 오류 메시지로 표시됩니다.
%GRP-3-FABRIC_UNI: Unicast send timed out (3)
및
%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)
문서 표기 규칙에 대한 자세한 내용은 Cisco 기술 팁 표기 규칙을 참조하십시오.
이 문서에 대한 특정 요건이 없습니다.
이 문서의 정보는 아래 하드웨어 버전을 기반으로 합니다.
Cisco 12000 Series 인터넷 라우터
이 문서의 정보는 특정 랩 환경의 디바이스를 토대로 작성되었습니다.이 문서에 사용된 모든 디바이스는 초기화된(기본) 컨피그레이션으로 시작되었습니다.라이브 네트워크에서 작업하는 경우, 사용하기 전에 모든 명령의 잠재적인 영향을 이해해야 합니다.
Cisco 12000 Series 인터넷 라우터의 GRP 및 LC(라인 카드)는 대부분의 카드 간 통신에 고속 물리적 경로를 제공하는 크로스바 스위치 패브릭을 통해 연결됩니다.GRP와 스위치 패브릭을 통한 라인 카드 간에 전달되는 메시지 중에는 라우팅 및 수신되는 실제 패킷, 전달 정보, 트래픽 통계, 대부분의 관리 및 제어 정보가 포함됩니다.따라서 GRP는 이 경로가 올바르게 작동하는지 확인해야 합니다.
패브릭 핑은 GRP와 스위치 패브릭 간에 실행되는 4개의 애플리케이션 중 하나입니다.IPC(Inter-Processor Communication), 네트워크 패킷 및 코드 다운로드가 있습니다.패브릭 핑은 장애 감지 알고리즘의 일부를 제공하고 MBUS(Maintenance Bus) 및 라인 카드 패브릭 인터페이스를 통해 ping을 사용하여 구현된 연결 유지 메커니즘을 제공하기 위해 구현됩니다.
GRP의 Cisco CSAR(Cell Segmentation and Reassembly) 패브릭 인터페이스 드라이버는 스위치 패브릭과 GRP 간에 보내고 받을 메시지를 처리합니다.여기에는 패브릭 핑이 포함됩니다.패브릭 핑은 소프트웨어에 의해 생성되며 기본 GRP에서 각 라인 카드로 6초마다 전송됩니다.라인 카드가 GRP로부터 ping 요청을 받을 때마다 LC는 GRP에 응답을 보냅니다.GRP가 5개의 연속 패브릭 ping(총 30초)에 대한 응답을 받지 못할 경우 라인 카드가 데드(dead)된 것으로 선언되고 MBUS(Maintenance BUS)를 통해 다시 설정됩니다.
대부분의 경우 라인 카드는 GRP의 패브릭 ping 요청에 응답하기에는 너무 복잡합니다.이러한 패브릭 ping 실패는 Cisco IOS® 소프트웨어의 잘못된 패브릭 또는 버그로 인해 발생할 수도 있습니다.패브릭 ping 장애의 가능한 모든 원인은 아래의 문제 해결 섹션에 자세히 설명되어 있습니다.
Fabric Ping 시간 초과는 GRP(Gigabit Route Processor)가 Cisco CSAR(Cell Segmentation and Reassembly) ASIC(Application-specific integrated circuit)의 ToFab 대기열(스위치 패브릭을 향함)에 ping 요청이 중단된 것을 탐지할 때 발생합니다. 이 ASIC는 스위치 패브릭을 통해 출력 라인 카드(LC)로 전송하기 전에 패킷을 Cisco Cells로 슬라이싱하는 작업을 담당합니다.
라인 카드 또는 보조 GRP가 스위치 패브릭을 통한 기본 GRP의 패브릭 ping 요청에 응답하지 못할 경우 패브릭 ping 오류가 발생합니다.그러한 실패는 조사되어야 하는 문제 증상이다.
배경 섹션에서 설명한 대로 GRP는 6초마다 패브릭 ping을 라인 카드에 전송하며 라인 카드는 응답해야 합니다.GRP가 연속된 5개의 패브릭 ping에 대한 응답을 받지 못한 경우, MBUS(유지 관리 버스)를 통해 요청 메시지를 전송하여 라인 카드를 재설정하고, show context slot {#} 명령의 출력에서 볼 수 있는 것처럼 소프트웨어 강제 충돌을 보고합니다.
콘솔 로그 또는 show log 명령에서 패브릭 ping 실패 메시지 전에 다음 오류 메시지를 받을 수 있습니다.
%GRP-3-FABRIC_UNI: Unicast send timed out (3) %GRP-3-FABRIC_UNI: Unicast send timed out (3) %GRP-3-FABRIC_UNI: Unicast send timed out (3)
여기서 number (3)는 기본 GRP가 패브릭 ping을 전송하려고 시도한 라인 카드 슬롯을 나타냅니다.
이 메시지는 패킷이 기본 GRP에서 CSAR ASIC의 ToFab 대기열에 있음을 나타냅니다.두 CSAR 버퍼 중 하나에서 100밀리초(msecs)를 초과하는 문제가 발생하면 버퍼가 플러시되고 시간 초과 메시지가 생성됩니다.
GRP가 패브릭 ping 요청 메시지를 전송하지만 라인 카드가 응답하지 않거나 라인 카드가 응답하지 않지만 스위치 패브릭이 잘못되어 메시지가 손실되면 패브릭 ping 실패 메시지 이전에 이 메시지가 표시되지 않습니다.따라서 오류 메시지 "%GRP-3-FABRIC_UNI"가 표시되면 100밀리초 또는 200밀리초 동안 패브릭을 통해 슬롯에 어떤 것을 전송할 수 없습니다.이는 %GRP-3-FABRIC_UNI 때문에 keep-alives를 LC에 보낼 수 없으며 30초 후에 패브릭 ping 오류가 발생할 수 있습니다.그러나 "%GRP-3-FABRIC_UNI" 없이 또는 그 반대로 패브릭 ping 오류가 발생할 수 있습니다.
기본 GRP는 라인 카드 또는 보조 GRP가 진단 코어 덤프가 적합한 지점으로 성능이 저하되었다고 판단할 수 있습니다.이때 GRP는 MBUS를 통해 라인 카드로 메시지를 전송하고 라인 카드 CPU가 충돌하도록 요청하므로 코어 덤프를 얻을 수 있습니다.
%LCINFO-3-CRASH: Line card in slot 3 crashed %GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)
라인 카드는 예외 crashinfo 및 관련 명령으로 구성된 경우 코어 덤프를 생성합니다(코어 덤프 구성에 대한 GSR 관련 정보에 대한 GSR 라인 카드의 코어 덤프 구성 참조). show context slot {#} 명령의 출력에 있는 자격 있는 문자열은 다시 로드 이유를 나타냅니다.Fabric Ping에 실패할 경우 그 이유는 항상 "Software-forced crash"입니다.
CRASH INFO: Slot 1, Index 1, Crash at 00:42:45 KST Mon Mar 12 2001 VERSION: GS Software (GLC1-LC-M), Version 12.0(18)ST, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) TAC Support: http://www.cisco.com/tac Compiled Thu 09-Aug-01 22:06 by nmasa Card Type: 2 Ports OC3 Channelized to DS1/E1 , S/N CAT00400500 System exception: sig=23, code=0x24, ! --- SIG=23 indicates a software-forced crash. context=0x41303B04 System restarted by a Software forced crash STACK TRACE: -Traceback= 400C3970 400C1F90 40815D5C 407D3144 400C7488
라인 카드가 충돌하면 기본 GRP에 알리기 위해 초기 메시지를 보냅니다.그런 다음 GRP는 라인 카드가 MBUS를 통해 충돌에 대한 다른 정보를 보낼 때까지 기다립니다.GRP는 라인 카드에서 첫 번째 메시지를 받은 후 몇 밀리초 이내에 전체 정보를 수신해야 합니다.적절한 시간 제한(10초) 내에 후속 충돌 정보 메시지를 GRP가 수신하지 못하는 경우 GRP는 오류 메시지를 인쇄하고 나머지 GRP 소프트웨어에 라인 카드가 충돌했음을 알립니다.
정상 라우터 작업 중에 기본 GRP는 라인 카드를 계속 ping하고 라인 카드가 응답합니다.Ping에 실패할 경우 다른 문제를 확인해야 한다는 증상이 나타납니다.이러한 문제는 다음과 같습니다.
참고: 장애를 재현할 수 있는 경우 GRP에서 서비스 자동 재설정 안을 구성합니다.이 명령은 다음 패브릭 ping 실패 시 라인 카드의 다시 로드를 비활성화하고 attach <slot#> 명령을 사용하여 관련 show 명령을 캡처하여 라인 카드에 연결할 수 있습니다.
프로세스가 5개의 연속 패브릭 ping을 놓치기에 충분한 시간 동안 인터럽트를 비활성화하는 Cisco IOS 소프트웨어 버그가 원인일 수 있습니다.문제가 해결되지 않도록 열차 내 최신 Cisco IOS 소프트웨어 릴리스로 업그레이드해 보십시오.업그레이드 지원은 Cisco Download Software(소프트웨어 다운로드) 영역을 참조하십시오.
라인 카드가 너무 오랫동안 다시 압력을 받을 수 있으므로 스케줄러가 스위치 패브릭에서 트래픽을 수신하지 못하도록 합니다.이 증상은 인터페이스 혼잡 문제를 나타냅니다.다음 명령을 사용하여 이러한 증상을 확인합니다.
라인 카드에서 show controller frb queue 명령사용 가능한 버퍼가 거의 또는 전혀 없는 비 IPC 사용 가능 대기열을 찾습니다.
show controllers csar queue 명령을 GRP에 입력합니다.다음 샘플 출력에 표시된 대로 "최대 길이"와 "최대 길이"의 값이 0이 아닌 값을 찾습니다.
router#show controllers csar queue 1190 Free Q Slot Length Max Length 0 0 7 1 0 2 2 70 70 ! -- CSAR queue for slot 2 is building and reaching max length. 3 0 2 4 0 3 5 0 0 ...
CSAR는 최대 50개의 패킷을 대상 라인 카드로 대기합니다.50개의 패킷 후에 패브릭 ping 패킷만 대기열에 추가됩니다.대기열 제한이 70으로 증가하면 CSAR는 패브릭 핑을 포함한 모든 패킷의 대기열 처리를 라인 카드에 중지합니다.GRP와 모든 라인 카드에는 메시지를 저장할 64k CSR 세그멘테이션 버퍼가 있습니다.이러한 버퍼가 사용 중인 경우 라우터는 소프트웨어 보류 대기열을 사용하여 메시지를 저장합니다.또한 패브릭 ping 메시지가 너무 오랫동안 이 대기열에 있지 않도록 타이머를 설정합니다.
라인 카드의 높은 CPU 사용률 - 대규모 라우팅 테이블 변경 후 또는 링크 플랩 및 BGP(Border Gateway Protocol) 세션 재설정 후 대규모 Cisco CEF(Express Forwarding) 테이블을 재계산하는 동안 일반적으로 표시됩니다.소프트웨어에서 트래픽을 스위칭할 때 CPU가 높을 수도 있습니다.이는 주로 Engine 0 라인 카드를 기반으로 하며 대부분의 기능이 소프트웨어에서 구현됩니다.이 경우 라인 카드의 컨피그레이션을 확인하고 Engine 0 LC의 CPU에 영향을 줄 수 있는 기능을 제거할 수 있습니다.CPU 사용률이 높으면 버그로 인해 발생할 수도 있습니다.execute-on slot <slot#> show proc cpu 명령 또는 execute-on slot <slot#> show tech 명령을 사용하여 라우터에서 실행 중인 Cisco IOS 소프트웨어 버전에서 이전 명령이 지원되지 않는 경우 CPU 사용률을 확인합니다.알려진 문제를 해결하기 위해 최신 Cisco IOS 소프트웨어 릴리스로 업그레이드하는 것이 좋습니다.
라인 카드와 GRP 간에 제어 메시지를 교환하는 데 사용되는 IPC(Inter-Process Communication) 버퍼가 라인 카드에 부족합니다.CEF 관련 오류 메시지 트러블슈팅의 문제 해결 단계를 참조하십시오.트러블슈팅에서 IPC에 문제가 있는 경우 Cisco 12000 Series 인터넷 라우터에서 최소 Cisco IOS Software Release 12.0(18)S를 실행하고 있는지 확인하십시오.이 릴리스에서는 안정성과 확장성을 향상하기 위해 IPC 캐시에 대해 더 큰 기본 크기인 5000을 도입했습니다.
라인 카드의 하드웨어 문제.10% 미만의 패브릭 ping 실패가 하드웨어 문제로 인해 발생한다는 점에 유의해야 합니다.교체 하드웨어를 요청하기 위해 Cisco TAC에 문의하기 전에 다음 단계를 시도하십시오.
패브릭 ping 실패 전에 인쇄된 IPC 시간 초과 메시지를 확인합니다.아래의 IPC 섹션도 참조하십시오.
라인 카드를 재장착합니다.
라우터의 전원을 껐다가 켜십시오.
라우터에 대한 물리적 액세스 권한이 없는 경우 hw-module slot <slot #>reload 명령을 실행하여 라인 카드의 수동 다시 로드를 수행합니다.
Cisco 12000 Series Internet Router의 핵심은 라인 카드와 GRP에 대해 동기화된 기가비트 속도 상호 연결을 제공하는 스위치 패브릭 회로입니다.스위치 패브릭 회로에는 두 가지 유형의 카드가 있습니다.
클럭 및 스케줄러 카드(CSC)
스위치 패브릭 카드(SFC)
이러한 카드 중 하나에 장애가 발생하면 ping 메시지가 더 이상 패브릭을 통과할 수 없습니다.이 경우 다음과 같이 결함이 있는 패브릭을 가리키는 다른 메시지도 표시되어야 합니다.
%FABRIC-3-CRC: Switch card 18
show controllers fia 명령을 사용하여 CSC 또는 SFC가 잘못되었는지 확인합니다.모든 라인 카드의 출력을 캡처하려면 execute-on all show controllers fia 명령을 사용합니다.GRP의 출력을 라인 카드의 출력과 비교하여 잘못된 스위칭 패브릭 카드를 교체해야 하는지 여부를 확인합니다.
다음 샘플 출력은 슬롯 18의 sfc0에 문제가 있음을 나타냅니다. 먼저 이 카드를 재장착한 후 crc16 오류 카운터가 계속 증가하면 교체를 요청하십시오.
Router#show controllers fia Fabric configuration: Full bandwidth redundant Master Scheduler: Slot 17 From Fabric FIA Errors ----------------------- redund FIFO parity 0 redund overflow 0 cell drops 1 crc32 lkup parity 0 cell parity 0 crc32 0 Switch cards present 0x001F Slots 16 17 18 19 20 Switch cards monitered 0x001F Slots 16 17 18 19 20 Slot: 16 17 18 19 20 Name: csc0 csc1 sfc0 sfc1 sfc2 -------- -------- -------- -------- -------- Los 0 0 0 0 0 state Off Off Off Off Off crc16 0 0 4334 0 0 ! --- Check the CRCs under SFC0 (slot 18) To Fabric FIA Errors ----------------------- sca not pres 0 req error 0 uni FIFO overflow 0 grant parity 0 multi req 0 uni FIFO undrflow 0 cntrl parity 0 uni req 0 crc32 lkup parity 0 multi FIFO 0 empty DST req 0 handshake error 0 cell parity 0
일부 패브릭 ping 실패 보고서에서 라우터는 장애 전에 CRC(cyclic redundancy check) 오류 메시지를 보고했습니다.GRP에서 show controllers fia 명령을 사용하고 모든 show controllers fia를 사용하여 스위칭 패브릭 카드에서 CRC를 확인합니다.GRP에 대한 CRC 오류(라인 카드에는 없음)는 잘못된 GRP를 가리킵니다.먼저 GRP를 재장착한 다음 CRC 오류가 계속 증가하면 교체를 요청하십시오.
GRP와 라인 카드 간에 실행되는 IPC(Inter-Process Communication) 소프트웨어의 문제가 다양한 Cisco IOS Software Release 12.0S 릴리스에서 해결되었습니다.이 경우 일부 IPC 관련 오류 메시지와 패브릭 ping 시간 초과 메시지가 로그에 표시됩니다.최신 Cisco IOS 소프트웨어 릴리스를 실행하여 IPC의 알려진 문제를 해결해보십시오.릴리스 선택에 대한 도움말은 Cisco Download Software(소프트웨어 다운로드) 영역도 참조하십시오.
show log 명령의 출력에 아래와 유사한 CEF FIB(Forwarding Information Base)와 관련된 메시지가 표시되는 경우 CEF 관련 오류 메시지 문제 해결을 참조하십시오.
%FIB-3-FIBDISABLE: Fatal error, slot 2: IPC failure
Cisco 12000 Series 인터넷 라우터에서 패브릭 ping 시간 초과/오류 메시지를 트러블슈팅하려면 다음 debug 및 show 명령을 사용합니다.
debug fabric events - GRP에서 탐지된 오류를 인쇄합니다.이 디버그는 오류 조건에서만 매우 적은 메시지를 생성합니다.
debug fabric ping - GRP에서 패브릭 ping 프로세스에서 탐지된 오류를 인쇄합니다.이 디버그는 오류 조건에서만 매우 적은 메시지를 생성합니다.
각 리셋 라인 카드에 대해 다음 명령을 캡처합니다.X를 적절한 슬롯 번호로 교체합니다.
실행 슬롯 X 디버그 패브릭 이벤트 - 라인 카드에서 탐지한 오류를 ping 응답에서 인쇄합니다.이 명령은 오류 조건에서만 매우 적은 메시지를 생성합니다.
exec slot X debug fabric ping - 라인 카드가 패브릭 ping을 수신하면 메시지를 인쇄합니다.이 디버그는 활성화된 모든 라인 카드에 대해 초당 한 줄의 출력을 생성합니다.
라인 카드가 충돌하면 GRP 콘솔에서 다음 명령을 캡처합니다.
컨텍스트 모든 세부 정보 표시
패브릭 표시
show controller fic
컨트롤러 csar 큐 표시
모든 show controller fia 실행
기술
로그 표시
라인 카드 상태에 대한 다음 명령도 캡처합니다.
실행 슬롯 <slot#> show proc CPU
실행 슬롯 <slot#> show controller tofab queue
실행 슬롯 <slot#> show controller tofab stat
실행 슬롯 <slot#> show controller frb queue
실행 슬롯 <slot#> show controller fab stat
실행 슬롯 <slot#> show ipc stat
실행 슬롯 <slot#> show ipc queue
실행 슬롯 <slot#> show stack
실행 슬롯 <slot#> show tech
트러블슈팅 단계를 모두 수행한 후에도 문제가 계속 발생할 경우 위의 모든 필수 정보를 수집하고 Cisco TAC 담당자에게 문의하여 문제를 더 자세히 해결하십시오.
다음은 몇 가지 유용한 show 명령의 출력입니다.
router#show controllers csar From Fabric Error Stats ------------------------ 0 out of order, 0 unexpected first 0 unexpected last, 0 unknown rx type, 0 corrupted pak, 0 parity 0 first/last, 0 sequence, 0 cell avail, 0 reassembly, To Fabric Stats ------------------------ Slot Tx Pkts TX Th Pkts Rx Pkts Rx Th Pkts To Fab timeout 0 580278 490214 281061 1336470 0 1 18854 66592 18390 945419 0 2 6 50824 0 896290 0 3 0 0 0 0 0 4 0 51909 0 895430 0 5 0 0 0 0 0 6 0 35113 0 880247 0 7 0 52690 0 52690 0 8 0 0 0 0 0 9 0 0 0 0 0 10 0 0 0 0 0 11 0 0 0 0 0 12 0 0 0 0 0 13 0 0 0 0 0 14 0 0 0 0 0 15 0 0 0 0 0 0 too big, 1 Buf0 free, 1 Buf1 free 0 Copy fail Fabric access Error Stats -------------------------- 0 parity errors, 0 bad access size, 0 invalid address 0 queue full parity, 0 flushed buffer router#show controllers fia Fabric configuration: Full bandwidth, nonredundant fabric Master Scheduler: Slot 16 From Fabric FIA Errors ----------------------- redund fifo parity 0 redund overflow 0 cell drops 0 crc32 lkup parity 0 cell parity 0 crc32 0 Switch cards present 0x001D Slots 16 18 19 20 Switch cards monitored 0x001D Slots 16 18 19 20 Slot: 16 17 18 19 20 Name: csc0 csc1 sfc0 sfc1 sfc2 -------- -------- -------- -------- -------- los 0 0 0 0 0 state Off Off Off Off Off crc16 0 254 0 0 0 ! --- Check the CRC error here. In this case CSC1 in slot 17. To Fabric FIA Errors ----------------------- sca not pres 0 req error 0 uni FIFO overflow 0 grant parity 0 multi req 0 uni FIFO undrflow 0 cntrl parity 0 uni req 0 crc32 lkup parity 0 multi FIFO 0 empty dst req 0 handshake error 0 cell parity 0
show controllers fia 명령의 How To Read the Output of the Show Controller Fia 명령의 자세한 내용을 확인할 수 있습니다.
router#show fabric Dest ToFab FrFab Bad Seq Unexpected Slot Pkts Pkts Pkts ---------------------------------------------------- Slot0 26327 26327 0 0 Slot1 26325 26325 0 0 Slot2 26321 26321 0 0 Slot4 26315 26315 0 0 Slot6 26311 26311 0 0 Slot7 26334 26334 0 0 multicast timeout 0 failed pak 0 Current fabric timeout is 6000 fabric send fails 58
위의 트러블슈팅 단계를 거친 후에도 지원이 필요한 경우 Cisco TAC에서 서비스 요청을 생성하려는 경우 Cisco 12000 Series Internet Router에서 패브릭 ping 문제를 해결하기 위해 다음 정보를 케이스에 첨부하십시오. |
---|
참고: 위 정보를 수집하기 전에 수동으로 라우터를 다시 로드하거나 전원을 껐다가 다시 켜지 마십시오. 가능한 경우 문제의 근본 원인을 파악하는 데 필요한 중요한 정보가 손실될 수 있습니다. |