本文檔介紹當模組因Cisco Nexus 7000系列交換機上的Xbar同步失敗而關閉時,如何識別有故障的交叉開關(Xbar)。此問題的故障排除過程包括資料收集、資料分析和排除過程,以便隔離問題元件。
思科建議您瞭解Cisco Nexus作業系統(NX-OS)CLI。
本文檔中的資訊基於運行NX-OS版本6.1(2)的Cisco Nexus 7000系列交換機,但它也可以與任何NX-OS版本配合使用。
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路正在作用,請確保您已瞭解任何指令可能造成的影響。
N7K-F248XP-25E模組在模組啟動時因Xbar同步故障而關閉。將模組插入機箱上的插槽1時,它電源關閉。出現這種情況的原因可能包括:
在N7K-F248XP-25E模組上出現疑似硬體故障的情況下,您必須檢視日誌,以確定故障原因是由於模組故障還是Xbar同步故障。
為了進一步隔離本示例中的問題,該模組被插入另一個插槽中並按照預期啟用。這表示模組沒有故障,因此問題出在Xbar光纖或機箱上。
當插槽1中的模組斷電時,出現此異常日誌:
show module internal exceptionlog module 1
********* Exception info for module 1 ********
exception information --- exception instance 1 ----
Module Slot Number: 1
Device Id : 88
Device Name : XbarComplex
Device Errorcode : 0x00000008
Device ID : 00 (0x00)
Device Instance : 00 (0x00)
Dev Type (HW/SW) : 00 (0x00)
ErrNum (devInfo) : 08 (0x08)
System Errorcode : 0x40240012 xbar sync failed during module bringup
(DevErr is LinkNum)
Error Type : Informational
PhyPortLayer : Unknown
Port(s) Affected : none
DSAP : 0 (0x0)
UUID : 0 (0x0)
Time : Thu Mar 20 15:55:19 2014
(Ticks: 532B0F67 jiffies)
exception information --- exception instance 2 ----
Module Slot Number: 1
Device Id : 88
Device Name : XbarComplex
Device Errorcode : 0x00000008
Device ID : 00 (0x00)
Device Instance : 00 (0x00)
Dev Type (HW/SW) : 00 (0x00)
ErrNum (devInfo) : 08 (0x08)
System Errorcode : 0x40240012 xbar sync failed during module bringup
(DevErr is LinkNum)
Error Type : Informational
PhyPortLayer : Unknown
Port(s) Affected : none
DSAP : 0 (0x0)
UUID : 0 (0x0)
Time : Thu Mar 20 15:53:12 2014
(Ticks: 532B0EE8 jiffies)
根據這些異常日誌,Xbar或插槽1中的機箱明顯出現問題。
為了進一步隔離問題,監視插槽1中的模組時,必須逐個移除每個Xbar,直到該模組可以正常通電為止。這確認特定Xbar交換矩陣模組有問題,在這種情況下,您將繼續執行故障硬體的退貨授權(RMA)。
但是,這是一個很長的過程,需要很長的維護視窗。若要尋找導致模組同步問題的精確Xbar光纖插槽,您可以按如下所示繼續:
show system internal xbar event-history errors
-----------------------------------------------------
7) Event:E_DEBUG, length:67, at 384460 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_perform_error_action(1413): MTS_OPC_LC_INSERTED error 0x1
8) Event:E_DEBUG, length:104, at 384347 usecs after Thu Mar 20 15:55:19 2014
[102] send_exception_log_msg_to_lcm(1101): module 1 DevId 88 dev_err 0x8 sys
_err 0x40240012 err_type 0x4
9) Event:E_DEBUG, length:59, at 384343 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_mod_ac_error(221): Sync fail for module 1 link 8
10) Event:E_DEBUG, length:66, at 384341 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_mod_ac_error(210): Error for Slot 0 error_code 0x877660c
11) Event:E_DEBUG, length:62, at 384298 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_sync_seq_failed(1169): Sync fail for module 1 link 8
在這些日誌中,您可以看到Sync fail for module 1 link 8消息。然後,必須確定與鏈路8關聯的交換矩陣插槽。要確定這一點,必須檢查show system internal xbar sw命令的輸出:
show system internal xbar sw
Module in slot 1 (present = 0)
Dedicated X-link 255
rid 0x2000000 type 0 state 0 sub_type 0 node_id 0x0
sw_card_id 0x0 lc_node_addr 0x0 feature_bits 0x0
timer: hdl 0x86fcc20 rid 0x2000000 ev_id 0xffff timer_id 0x41a tim_type 0x2
Link_Info:: Num Links 10 max Edp 10
Link_num 0
is_synced 0 is_edp 0 num_sync_try 0
Link_num 1
is_synced 0 is_edp 0 num_sync_try 0
Link_num 2
is_synced 0 is_edp 0 num_sync_try 0
Link_num 3
is_synced 0 is_edp 0 num_sync_try 0
Link_num 4
is_synced 0 is_edp 0 num_sync_try 0
Link_num 5
is_synced 0 is_edp 0 num_sync_try 0
Link_num 6
is_synced 0 is_edp 0 num_sync_try 0
Link_num 7
is_synced 0 is_edp 0 num_sync_try 0
Link_num 8
is_synced 0 is_edp 0 num_sync_try 3
Link_num 9
is_synced 0 is_edp 0 num_sync_try 0
Link_Map:: Num Links 10 max Edp 10
Link_num 0
connected to fab [10.0] active_lnk 1
fi_to_mon 0 fi_to_use 0
Link_num 1
connected to fab [10.0] active_lnk 1
fi_to_mon 0 fi_to_use 0
Link_num 2
connected to fab [11.0] active_lnk 1
fi_to_mon 1 fi_to_use 1
Link_num 3
connected to fab [11.0] active_lnk 1
fi_to_mon 1 fi_to_use 1
Link_num 4
connected to fab [12.0] active_lnk 1
fi_to_mon 2 fi_to_use 2
Link_num 5
connected to fab [12.0] active_lnk 1
fi_to_mon 2 fi_to_use 2
Link_num 6
connected to fab [13.0] active_lnk 1
fi_to_mon 3 fi_to_use 3
Link_num 7
connected to fab [13.0] active_lnk 1
fi_to_mon 3 fi_to_use 3
Link_num 8
connected to fab [14.0] active_lnk 1
fi_to_mon 4 fi_to_use 4
Link_num 9
connected to fab [14.0] active_lnk 1
fi_to_mon 4 fi_to_use 4
在輸出中,您可以看到Link_num 8(Link 8)已連線到fab [14.0](交換矩陣插槽14),即Xbar 5。
若要識別fab [14.0] (插槽5中的交換矩陣),請輸入show module 命令:
show module
Xbar Ports Module-Type Model Status
--- ----- -------------------------------- ----------------- ------
4 0 Fabric Module 2 N7K-C7010-FAB-2 ok
Xbar MAC-Address(es) Serial-Num
--- -------------------------------------- ----------
1 NA JAF1739AQTP
2 NA JAF1739AJAA
3 NA JAF1739AQDG
4 NA JAF1739ATHG
5 NA JAF1739AQEF
在show module命令的輸出中,您可以檢視插槽5中的Xbar交換矩陣模組。
現在,您應該具有導致插槽1中的模組發生同步故障的交換矩陣的正確標識。在此示例中,交換矩陣已從插槽5中刪除,並且插槽1中的模組啟動時沒有任何錯誤。現在可以更換有故障的Xbar。
修訂 | 發佈日期 | 意見 |
---|---|---|
1.0 |
17-Jun-2015 |
初始版本 |