이 문서에서는 Cisco Nexus 7000 Series 스위치의 Xbar 동기화 실패로 인해 모듈이 다운되었을 때 결함이 있는 크로스바(Xbar)를 식별하는 방법에 대해 설명합니다.이 문제의 문제 해결 절차에는 데이터 수집, 데이터 분석 및 문제 구성 요소를 격리하는 제거 프로세스가 포함됩니다.
Cisco에서는 Cisco Nexus NX-OS(Operating System) CLI에 대한 지식을 보유하고 있는 것이 좋습니다.
이 문서의 정보는 NX-OS 버전 6.1(2)을 실행하는 Cisco Nexus 7000 Series 스위치를 기반으로 하지만 모든 NX-OS 버전에서도 사용할 수 있습니다.
이 문서의 정보는 특정 랩 환경의 디바이스를 토대로 작성되었습니다.이 문서에 사용된 모든 디바이스는 초기화된(기본) 컨피그레이션으로 시작되었습니다.현재 네트워크가 작동 중인 경우, 모든 명령어의 잠재적인 영향을 미리 숙지하시기 바랍니다.
모듈 부팅 시 Xbar 동기화 오류로 인해 N7K-F248XP-25E 모듈이 다운되었습니다.섀시의 슬롯 1에 모듈을 삽입하면 전원이 꺼집니다.이 문제는 다음 이유 중 하나로 인해 발생할 수 있습니다.
N7K-F248XP-25E 모듈에서 하드웨어 장애가 의심되는 경우 오류가 발생한 이유가 모듈 오류 때문인지 또는 Xbar 동기화 실패로 인한 것인지 확인하려면 로그를 확인해야 합니다.
이 예에서 문제를 추가로 격리하기 위해 모듈은 다른 슬롯에 삽입되어 예상대로 활성화되었습니다.이는 모듈에 결함이 없음을 나타내므로 Xbar 패브릭이나 섀시에 문제가 있습니다.
이 예외 로그는 슬롯 1에서 모듈의 전원이 꺼질 때 나타납니다.
show module internal exceptionlog module 1
********* Exception info for module 1 ********
exception information --- exception instance 1 ----
Module Slot Number: 1
Device Id : 88
Device Name : XbarComplex
Device Errorcode : 0x00000008
Device ID : 00 (0x00)
Device Instance : 00 (0x00)
Dev Type (HW/SW) : 00 (0x00)
ErrNum (devInfo) : 08 (0x08)
System Errorcode : 0x40240012 xbar sync failed during module bringup
(DevErr is LinkNum)
Error Type : Informational
PhyPortLayer : Unknown
Port(s) Affected : none
DSAP : 0 (0x0)
UUID : 0 (0x0)
Time : Thu Mar 20 15:55:19 2014
(Ticks: 532B0F67 jiffies)
exception information --- exception instance 2 ----
Module Slot Number: 1
Device Id : 88
Device Name : XbarComplex
Device Errorcode : 0x00000008
Device ID : 00 (0x00)
Device Instance : 00 (0x00)
Dev Type (HW/SW) : 00 (0x00)
ErrNum (devInfo) : 08 (0x08)
System Errorcode : 0x40240012 xbar sync failed during module bringup
(DevErr is LinkNum)
Error Type : Informational
PhyPortLayer : Unknown
Port(s) Affected : none
DSAP : 0 (0x0)
UUID : 0 (0x0)
Time : Thu Mar 20 15:53:12 2014
(Ticks: 532B0EE8 jiffies)
이러한 예외 로그에 따라 Xbar 또는 슬롯 1의 섀시에 문제가 명확히 나타납니다.
문제를 추가로 격리하려면 슬롯 1에서 모듈을 모니터링하는 동안 각 Xbar를 개별적으로 분리해야 합니다. 이때 모듈이 문제 없이 전원이 켜질 수 있습니다.이렇게 하면 특정 Xbar 패브릭 모듈에 문제가 있음을 확인할 수 있습니다. 이 경우 결함이 있는 하드웨어에 대해 RMA(Return Material Authorization)를 진행합니다.
그러나 이것은 긴 절차이며 긴 유지 관리 기간이 필요합니다.모듈과 동기화 문제를 일으키는 정확한 Xbar 패브릭 슬롯을 찾으려면 다음과 같이 진행할 수 있습니다.
show system internal xbar event-history errors
-----------------------------------------------------
7) Event:E_DEBUG, length:67, at 384460 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_perform_error_action(1413): MTS_OPC_LC_INSERTED error 0x1
8) Event:E_DEBUG, length:104, at 384347 usecs after Thu Mar 20 15:55:19 2014
[102] send_exception_log_msg_to_lcm(1101): module 1 DevId 88 dev_err 0x8 sys
_err 0x40240012 err_type 0x4
9) Event:E_DEBUG, length:59, at 384343 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_mod_ac_error(221): Sync fail for module 1 link 8
10) Event:E_DEBUG, length:66, at 384341 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_mod_ac_error(210): Error for Slot 0 error_code 0x877660c
11) Event:E_DEBUG, length:62, at 384298 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_sync_seq_failed(1169): Sync fail for module 1 link 8
이러한 로그에서는 모듈 1 링크 8 메시지에 대해 동기화 실패를 볼 수 있습니다.그런 다음 링크 8과 연결된 패브릭 슬롯을 식별해야 합니다.이를 확인하려면 show system internal xbar sw 명령의 출력을 확인해야 합니다.
show system internal xbar sw
Module in slot 1 (present = 0)
Dedicated X-link 255
rid 0x2000000 type 0 state 0 sub_type 0 node_id 0x0
sw_card_id 0x0 lc_node_addr 0x0 feature_bits 0x0
timer: hdl 0x86fcc20 rid 0x2000000 ev_id 0xffff timer_id 0x41a tim_type 0x2
Link_Info:: Num Links 10 max Edp 10
Link_num 0
is_synced 0 is_edp 0 num_sync_try 0
Link_num 1
is_synced 0 is_edp 0 num_sync_try 0
Link_num 2
is_synced 0 is_edp 0 num_sync_try 0
Link_num 3
is_synced 0 is_edp 0 num_sync_try 0
Link_num 4
is_synced 0 is_edp 0 num_sync_try 0
Link_num 5
is_synced 0 is_edp 0 num_sync_try 0
Link_num 6
is_synced 0 is_edp 0 num_sync_try 0
Link_num 7
is_synced 0 is_edp 0 num_sync_try 0
Link_num 8
is_synced 0 is_edp 0 num_sync_try 3
Link_num 9
is_synced 0 is_edp 0 num_sync_try 0
Link_Map:: Num Links 10 max Edp 10
Link_num 0
connected to fab [10.0] active_lnk 1
fi_to_mon 0 fi_to_use 0
Link_num 1
connected to fab [10.0] active_lnk 1
fi_to_mon 0 fi_to_use 0
Link_num 2
connected to fab [11.0] active_lnk 1
fi_to_mon 1 fi_to_use 1
Link_num 3
connected to fab [11.0] active_lnk 1
fi_to_mon 1 fi_to_use 1
Link_num 4
connected to fab [12.0] active_lnk 1
fi_to_mon 2 fi_to_use 2
Link_num 5
connected to fab [12.0] active_lnk 1
fi_to_mon 2 fi_to_use 2
Link_num 6
connected to fab [13.0] active_lnk 1
fi_to_mon 3 fi_to_use 3
Link_num 7
connected to fab [13.0] active_lnk 1
fi_to_mon 3 fi_to_use 3
Link_num 8
connected to fab [14.0] active_lnk 1
fi_to_mon 4 fi_to_use 4
Link_num 9
connected to fab [14.0] active_lnk 1
fi_to_mon 4 fi_to_use 4
출력에서 Link_num 8(Link 8)이 fab [14.0](Fabric Slot 14)에 연결되어 있으며, 이는 Xbar 5입니다.
fab [14.0](슬롯 5의 패브릭)을 식별하려면 show module 명령을 입력합니다.
show module
Xbar Ports Module-Type Model Status
--- ----- -------------------------------- ----------------- ------
4 0 Fabric Module 2 N7K-C7010-FAB-2 ok
Xbar MAC-Address(es) Serial-Num
--- -------------------------------------- ----------
1 NA JAF1739AQTP
2 NA JAF1739AJAA
3 NA JAF1739AQDG
4 NA JAF1739ATHG
5 NA JAF1739AQEF
show module 명령의 출력에서 슬롯 5에서 Xbar 패브릭 모듈을 볼 수 있습니다.
이제 슬롯 1의 모듈에 대한 동기화 오류를 일으킨 패브릭을 올바르게 식별해야 합니다. 이 예에서는 패브릭이 슬롯 5에서 제거되었고 슬롯 1에 있는 모듈이 오류 없이 부팅되었습니다.이제 결함이 있는 Xbar를 교체할 수 있습니다.