本文档介绍当Cisco Nexus 7000系列交换机上的Xbar同步故障导致模块关闭时如何识别有故障的交叉开关(Xbar)。此问题的故障排除过程包括数据收集、数据分析和消除过程,以隔离问题组件。
思科建议您了解Cisco Nexus操作系统(NX-OS)CLI。
本文档中的信息基于运行NX-OS版本6.1(2)的Cisco Nexus 7000系列交换机,但也可与任何NX-OS版本配合使用。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。
N7K-F248XP-25E模块因模块启动时出现Xbar同步故障而关闭。当模块插入机箱上的插槽1时,该模块关闭电源。这可能是由于以下原因之一:
如果N7K-F248XP-25E模块上怀疑出现硬件故障,您必须查看日志以确定故障的原因是模块故障还是Xbar同步故障。
为了进一步隔离本示例中的问题,模块被插入了另一个插槽,并如预期那样变为活动状态。这表示模块没有故障,因此问题出在Xbar交换矩阵或机箱上。
在插槽1中关闭模块时,出现此异常日志:
show module internal exceptionlog module 1
********* Exception info for module 1 ********
exception information --- exception instance 1 ----
Module Slot Number: 1
Device Id : 88
Device Name : XbarComplex
Device Errorcode : 0x00000008
Device ID : 00 (0x00)
Device Instance : 00 (0x00)
Dev Type (HW/SW) : 00 (0x00)
ErrNum (devInfo) : 08 (0x08)
System Errorcode : 0x40240012 xbar sync failed during module bringup
(DevErr is LinkNum)
Error Type : Informational
PhyPortLayer : Unknown
Port(s) Affected : none
DSAP : 0 (0x0)
UUID : 0 (0x0)
Time : Thu Mar 20 15:55:19 2014
(Ticks: 532B0F67 jiffies)
exception information --- exception instance 2 ----
Module Slot Number: 1
Device Id : 88
Device Name : XbarComplex
Device Errorcode : 0x00000008
Device ID : 00 (0x00)
Device Instance : 00 (0x00)
Dev Type (HW/SW) : 00 (0x00)
ErrNum (devInfo) : 08 (0x08)
System Errorcode : 0x40240012 xbar sync failed during module bringup
(DevErr is LinkNum)
Error Type : Informational
PhyPortLayer : Unknown
Port(s) Affected : none
DSAP : 0 (0x0)
UUID : 0 (0x0)
Time : Thu Mar 20 15:53:12 2014
(Ticks: 532B0EE8 jiffies)
根据这些例外日志,Xbar或插槽1中的机箱显然存在问题。
为了进一步隔离问题,您必须在监控插槽1中的模块时逐个移除每个Xbar,直到该模块能够正常通电。这确认了特定Xbar交换矩阵模块存在问题,在这种情况下,您将继续对故障硬件执行退货授权(RMA)。
但是,这是一个很长的过程,需要一个很长的维护窗口。要查找导致模块同步问题的确切Xbar交换矩阵插槽,请继续,如下所示:
show system internal xbar event-history errors
-----------------------------------------------------
7) Event:E_DEBUG, length:67, at 384460 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_perform_error_action(1413): MTS_OPC_LC_INSERTED error 0x1
8) Event:E_DEBUG, length:104, at 384347 usecs after Thu Mar 20 15:55:19 2014
[102] send_exception_log_msg_to_lcm(1101): module 1 DevId 88 dev_err 0x8 sys
_err 0x40240012 err_type 0x4
9) Event:E_DEBUG, length:59, at 384343 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_mod_ac_error(221): Sync fail for module 1 link 8
10) Event:E_DEBUG, length:66, at 384341 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_mod_ac_error(210): Error for Slot 0 error_code 0x877660c
11) Event:E_DEBUG, length:62, at 384298 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_sync_seq_failed(1169): Sync fail for module 1 link 8
在这些日志中,您可以看到Sync fail for module 1 link 8消息。然后,您必须确定与链路8关联的交换矩阵插槽。要确定这一点,必须检查show system internal xbar sw命令的输出:
show system internal xbar sw
Module in slot 1 (present = 0)
Dedicated X-link 255
rid 0x2000000 type 0 state 0 sub_type 0 node_id 0x0
sw_card_id 0x0 lc_node_addr 0x0 feature_bits 0x0
timer: hdl 0x86fcc20 rid 0x2000000 ev_id 0xffff timer_id 0x41a tim_type 0x2
Link_Info:: Num Links 10 max Edp 10
Link_num 0
is_synced 0 is_edp 0 num_sync_try 0
Link_num 1
is_synced 0 is_edp 0 num_sync_try 0
Link_num 2
is_synced 0 is_edp 0 num_sync_try 0
Link_num 3
is_synced 0 is_edp 0 num_sync_try 0
Link_num 4
is_synced 0 is_edp 0 num_sync_try 0
Link_num 5
is_synced 0 is_edp 0 num_sync_try 0
Link_num 6
is_synced 0 is_edp 0 num_sync_try 0
Link_num 7
is_synced 0 is_edp 0 num_sync_try 0
Link_num 8
is_synced 0 is_edp 0 num_sync_try 3
Link_num 9
is_synced 0 is_edp 0 num_sync_try 0
Link_Map:: Num Links 10 max Edp 10
Link_num 0
connected to fab [10.0] active_lnk 1
fi_to_mon 0 fi_to_use 0
Link_num 1
connected to fab [10.0] active_lnk 1
fi_to_mon 0 fi_to_use 0
Link_num 2
connected to fab [11.0] active_lnk 1
fi_to_mon 1 fi_to_use 1
Link_num 3
connected to fab [11.0] active_lnk 1
fi_to_mon 1 fi_to_use 1
Link_num 4
connected to fab [12.0] active_lnk 1
fi_to_mon 2 fi_to_use 2
Link_num 5
connected to fab [12.0] active_lnk 1
fi_to_mon 2 fi_to_use 2
Link_num 6
connected to fab [13.0] active_lnk 1
fi_to_mon 3 fi_to_use 3
Link_num 7
connected to fab [13.0] active_lnk 1
fi_to_mon 3 fi_to_use 3
Link_num 8
connected to fab [14.0] active_lnk 1
fi_to_mon 4 fi_to_use 4
Link_num 9
connected to fab [14.0] active_lnk 1
fi_to_mon 4 fi_to_use 4
在输出中,您可以看到Link_num 8(Link 8)已连接到fab [14.0](交换矩阵插槽14),即Xbar 5。
要标识fab [14.0](插槽5中的交换矩阵),请输入show module命令:
show module
Xbar Ports Module-Type Model Status
--- ----- -------------------------------- ----------------- ------
4 0 Fabric Module 2 N7K-C7010-FAB-2 ok
Xbar MAC-Address(es) Serial-Num
--- -------------------------------------- ----------
1 NA JAF1739AQTP
2 NA JAF1739AJAA
3 NA JAF1739AQDG
4 NA JAF1739ATHG
5 NA JAF1739AQEF
在show module命令的输出中,您可以在插槽5中查看Xbar交换矩阵模块。
现在,您应该正确识别导致插槽1中模块同步故障的交换矩阵。在本示例中,交换矩阵从插槽5中删除,并且插槽1中的模块启动时没有任何错误。现在可以更换有故障的Xbar。
版本 | 发布日期 | 备注 |
---|---|---|
1.0 |
17-Jun-2015 |
初始版本 |