本文档介绍如何解决Cisco Nexus 7000平台中报告的交换矩阵错误。交换矩阵循环冗余校验和(CRC)的故障排除涉及数据收集、数据分析和消除过程,以便隔离问题组件。本文档介绍交换矩阵CRC错误的最常见类型。
以下是带M1线卡的Nexus 7018交换矩阵模块的高级图:
上一幅图像概述了数据包通过交换矩阵模块时涉及的组件。阶段1(S1)、阶段2(S2)和阶段3(S3)是Nexus 7000交换矩阵的三个阶段,章鱼是队列引擎,Santa Cruz(SC)是交换矩阵ASIC,实例1和2是XBAR上的两个SC实例。本文档仅考虑一个XBAR。请记住,大多数Nexus 7000系列交换机都安装了三个或更多XBAR。
假设存在从模块1(M1)到模块2(M2)的单向流,M1上的入口Octopus-1对其从南部收到的数据包执行错误检查,而M2上的出口Octopus-1则从北部接收。如果在S3中检测到CRC,则在S1或S2中可能也发生了问题,因为在这些阶段不执行CRC检查。因此,路径中涉及的设备是入口章鱼、机箱、交叉开关交换矩阵和出口章鱼。
在M1/Fab1架构中,仅在出口线路卡(S3)上检测到CRC。
以下是错误消息示例:
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
CRC error from MOD 15 through XBAR slot 1/inst 1
M1报告了此问题,表示它通过XBAR插槽1/实例1从模块15(M15)收到具有错误CRC的数据包。
本节介绍四种最常见的交换矩阵CRC错误类型。
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with这意味着插槽1中的模块检测到从M15到XBAR插槽1/实例1的CRC错误。引起CRC错误的模块称为入口模块(本例中为M15),报告问题的模块是出口模块(M1)。XBAR 1是接收数据包的交叉栏。每个XBAR有两个实例。在本例中,M1检测到从M15到XBAR slot 1 instance 1的CRC错误。
CRC error from MOD 15 through XBAR slot 1/inst 1
%OC_USD-SLOT4-2-RF_CRC: OC2 received packets with在此消息中,模块4(M4)报告来自M1的CRC错误。请注意,XBAR信息缺失。系统无法确定数据包经过的XBAR。原因有很多,但最常见的是:数据包的交换矩阵报头中的信息可能已损坏,因此无法确定源模块;由于错误增加,已遍历的XBAR将从系统中删除。因此,每小时系统日志消息中未报告此事件。
CRC error from MOD 1
%OC_USD-2-RF_CRC: OC1 received packets with在这种情况下,设备检测到从模块16(M16)通过XBAR 1的CRC。但是,没有接收器模块。当Supervisor(SUP)检测到来自交换矩阵模块的CRC时,不会记录插槽信息。当您看不到插槽信息时,SUP检测到问题。这并不意味着超级用户是坏的。就像模块报告问题一样,有多种组件可能导致问题:M16、机箱(不太可能)、XBAR 1或SUP。
CRC error from MOD 16 through XBAR slot 1/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with源模块是从源坏数据包的入口Octopus收集的。引发中断以记录此错误消息的驱动程序并不总是知道错误数据包的源入口章鱼。这是因为未使用用于表示入口章鱼的某些位。如果系统确定多个模块已启用这些未使用的位,则系统必须假设其中任何一个模块可能是源,这会导致错误消息包含所有这些模块。 系统发现模块13(M13)不能有此冲突,因为这些位没有被使用;因此,它未被记录为潜在源。
CRC error from MOD 11 or 12 or 14 or 15 or 16 or 17 or 18
新线卡(M2)和交换矩阵模块2(FAB2)检测S1、S2或S3中的CRC。当您详细调查并查找故障和日志消息中的模式时,它有助于隔离故障组件。
以下是一些要问的问题:
这些问题的答案允许您从更可能导致更快解决的角度来分析故障排除过程。
本节建立用于解决这些问题的通用框架。
本节提供如何解决类似问题的示例。
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
在几个小时内,M1和模块3(M3)上仅出现来自模块7(M7)的CRC错误。
XBAR存在损坏或位置错误,导致发往M7的数据包损坏,或者M7存在损坏或位置错误。
如果您安装了三个XBAR,它将提供N+1冗余。因此,您一次可以关闭一个系统(在任何给定时间切勿关闭多个系统),并且只有极小的影响才能查看问题是否得到解决。输入以下命令以完成此过程:
N7K(config)# poweroff xbar 1
<monitor>
N7K(config)# no poweroff xbar 1
N7K(config)# poweroff xbar 2
<monitor>
N7K(config)# no poweroff xbar 2
N7K(config)# poweroff xbar 3
N7K(config)# no poweroff xbar 3
在此特定案例研究中,当XBAR关闭时未解决问题。
由于有两个模块报告CRC错误,因此不太可能是这两个模块(M1和M3)的原因。下一步是重新放置M7(入口模块),因为它很可能是故障组件。插错线卡可能导致此问题,建议在更换模块之前重新安装模块。
在本案例研究中,重新安装M7后,交换矩阵模块上的CRC错误继续增加。 此时(或在此之前)联系思科技术支持中心(TAC)以更换M7,因为重新拔插无法解决问题。
在本案例研究中,替换M7会停止交换矩阵CRC错误消息,并解决数据包丢失问题。
%OC_USD-SLOT11-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT12-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT13-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT15-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT2-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT4-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT5-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT7-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT8-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
多个模块通过XBAR 3报告来自模块12(M12)的CRC错误。
XBAR 3损坏或安装错误,或者M12安装错误或故障。
在本例中,XBAR 3按照之前描述的程序(在第一例研究中)被关闭,并监控进一步的错误。发现XBAR 3关闭时错误停止。此时,已重新拔插XBAR 3,并注意确保中板上没有弯曲针脚且模块已正确插入。重新启用XBAR 3后,问题不再出现。此问题归因于XBAR模块安装不正确。
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 7 or 13 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with CRC error from
MOD 1 or 2 or 3 or 7 or 15 or 17 through XBAR
slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 5 or 7 or 16 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
模块6(M6)报告从多个线卡和XBAR接收的CRC错误数据包。
M6安装错误或损坏。
M6最有可能是导致此问题的原因,因为它是所有错误消息中的一个常见模块。在错误消息中列出的所有模块中,最常出现的模块是M6。因此,请尝试重新安装M6,以便在更换之前查看问题是否已解决。
在本例中,M6已重新安装,但错误仍然存在。因此,您必须打开思科TAC案例以更换M6。更换M6后,不报告错误。
以下是用于进行故障排除/调试的命令列表:
版本 | 发布日期 | 备注 |
---|---|---|
1.0 |
13-Aug-2013 |
初始版本 |