简介
本文档为运行Cisco NX-OS系统软件的Cisco Nexus 7000系列交换机的常见硬件和架构问题提供简要说明和解决方案。
注意:本文档中描述的 syslog 和错误消息的确切格式可能会稍有不同。不同之处取决于 Supervisor 引擎上运行的软件版本。
问题:SpineControlBus故障
Nexus 7000管理引擎的主干控制测试失败:
Nexus7000# show module internal exceptionlog module 5
...
System Errorcode : 0x418b0022 Spine control test failed
Error Type : Warning
PhyPortLayer : 0x0
Port(s) Affected : none
Error Description : Module 10 Spine Control Bus test Failed
...
11) SpineControlBus E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 1597800
Last test execution time ----> Mon May 27 21:57:17 2013
First test failure time -----> Sun Nov 20 00:30:55 2011
Last test failure time ------> Mon May 27 21:57:17 2013
Last test pass time ---------> Mon May 27 21:56:47 2013
Total failure count ---------> 33
Consecutive failure count ---> 1
Last failure reason ---------> Spine control test failed
解决方案
此问题与Cisco Bug ID CSCuc72466相关。请参阅Nexus 7000常见问题:当SpineControlBus测试失败时,建议采取什么操作?。
问题:在NVRAM上发现坏块
诊断事件中出现NVRAM错误:
Nexus7000#show diagnostic events
1) Event:E_DEBUG, length:97, at 9664 usecs after Wed Dec 5 01:03:42 2012
[103] Event_ERROR: TestName->NVRAM TestingType->health monitoring module->5
Result->fail Reason->
#show diagnostic result module 5 test NVRAM detail
4) NVRAM-------------------------> E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 52596
Last test execution time ----> Wed Dec 5 01:03:41 2012
First test failure time -----> Tue Dec 4 23:28:45 2012
Last test failure time ------> Wed Dec 5 01:03:42 2012
Last test pass time ---------> Tue Dec 4 23:23:41 2012
Total failure count ---------> 20
Consecutive failure count ---> 20
Last failure reason ---------> Bad blocks found on nvram
这可能是硬件问题、Supervisor引擎故障或暂时问题。
解决方案
- 重新运行NVRAM测试,以查看这是否是错误警报。输入以下命令以禁用和重新启用诊断测试(如果为问题模块5提供了示例):
- no diagnostic monitor module 5 test NVRAM
- 诊断监控器模块5测试NVRAM
输入show diagnostic result module 5 test NVRAM detail命令以查看test命令的结果。
- 如果NVRAM测试再次失败,请重新拔插模块5。观察show diagnostic result module 5和show module命令的结果。
- 如果模块再次发生故障,请向问题插槽中的主管提出退货授权(RMA)请求。
问题:模块9闪存故障
在Supervisor 2/Supervisor 2E上可看到以下其中一项或全部内容:
- 错误消息:
DEVICE_TEST-2-COMPACT_FLASH_FAIL: Module 5 has failed test CompactFlash
20 times on device Compact Flash due to error The compact flash power test failed.
- 无法保存配置。
- 诊断测试失败:
Test results: (. = Pass, F = Fail, I = Incomplete,
U = Untested, A = Abort, E = Error disabled)
7) CompactFlash E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 23302
Last test execution time ----> Sun Apr 13 10:07:30 2014
First test failure time -----> Sun Apr 13 00:37:41 2014
Last test failure time ------> Sun Apr 13 10:07:40 2014
Last test pass time ---------> Sun Apr 13 00:07:41 2014
Total failure count ---------> 20
Consecutive failure count ---> 20
Last failure reason ---------> The compact flash power test
failed
Next Execution time ---------> Sun Apr 13 10:37:30 2014
根本原因
第二代Nexus 7000管理引擎随附两个相同的eUSB闪存,以实现冗余。闪存为bootflash、配置和其他相关信息提供了存储库。这两个闪烁被重新配置为独立磁盘冗余阵列(RAID)1阵列,实施内部镜像。借助冗余,Supervisor可以在丢失其中一个闪光时运行,但不能同时丢失两个闪光。
在该字段中,有一些实例表明,RAID软件在数月或数年的服务期内将其中一种或两种闪烁标记为损坏。主板的重置/重新启动会再次发现这些故障闪烁在下次启动时正常。
解决方案
完成以下步骤以验证这是否是硬件问题:
- 如果可能,请重新加载问题Supervisor。
- 如果重新加载后出现问题,您需要更换硬件。
- 如果问题通过重新加载解决,则根本原因与Cisco Bug ID CSCus22805有关。
问题:N7K-M132XP-12线卡端口环回测试失败
线路卡报告由于端口PortLoopback测试故障连续10次导致的诊断失败:
DIAG_PORT_LB-2-PORTLOOPBACK_TEST_FAIL Module:16 Test:PortLoopback
failed 10 consecutive times. Faulty module:Module 16 affected ports:5,7
Error:Loopback test failed. Packets lost on the LC at the Queueing engine ASIC
MODULE-4-MOD_WARNING Module 16 (serial: XXXX) reported warning on
ports 16/5-16/5 (Ethernet) due to Loopback test failed.
Packets lost on the LC at the Queueing engine ASIC in device 78
(device error 0x41830059)
根本原因
这是一条警告消息,在大多数情况下,它表示端口存在硬件问题。
解决方案
首先检查Cisco Bug ID CSCtn81109和Cisco Bug ID CSCti95293,因为这可能是软件问题。
首先重新拔插模块以重新初始化卡并重新运行启动硬件健全性测试。如果诊断测试仍显示同一卡出现故障,请更换该卡。
在方便的时间重新加载卡并收集以下命令的输出:
- show logging log
- show module
- show diagn result module all detail
或者,您只能重新运行此特定测试,无需重新加载卡。此示例显示模块16:
show diagnostic result module 16
diagnostic clear result module all
(config)# no diagnostic monitor module 16 test 5
(config)# diagnostic monitor module 16 test 5
diagnostic start module 16 test 5
show diagnostic result module 16 test 5
问题:N7K-M132XP-12线卡模块–4-MOD_WARNING
出现以下错误,可能会重新加载模块:
2013 Mar 27 00:40:23 DC3-7000-PRODD2-A23 MODULE-4-MOD_WARNING
Module 9 (serial: XXX) reported warning on ports 9/1-9/3 (Unknown)
due to BE2 Arbiter experienced an error in device 65 (device error 0xc410f613)
根本原因
这是由子卡上的奇偶校验错误或硬件问题引起的硬件故障。
解决方案
- 检查以下命令的输出:
- show version
- show system reset-reason module X
- show logging onboard internal reset-reason
- show module internal event-history module X
- show log
- 如果您的Cisco NS-OX版本早于4.2版,请升级到新版本,以确保集成了针对这些软件缺陷的修复程序(将出现奇偶校验错误的可能性降至最低):
- 如果错误重复出现,请重新拔插卡和显示器。
- 如果错误仍在重复,请更换问题模块。
其他已知软件缺陷
思科漏洞ID CSCtb98876
问题:N7K-M224XP-23L chico系列同步丢失错误
模块中会出现以下错误:
%MODULE-4-MOD_WARNING: Module # (Serial number: XXXX) reported warning
Ethernet#/# due to chico serdes sync loss in device DEV_SKYTRAIN
(device error 0xc9003600)
根本原因
这些错误表明模块#和Xbar/ASIC之间存在同步丢失问题。在大多数情况下,原因是模块硬件故障。
如果Cisco NS-OX的版本低于6.1(4),并且消息未持续显示,则可能受Cisco Bug ID CSCud91672的影响。缺陷的原因是NX-OS服务器设置与SKT之间两个通道上的诊断设置不同<—>SAC。
解决方案
收集以下命令的输出:
- show version
- show module
- show run
- show module internal event-history module X
- show module internal activity module X
- show module internal exception-log module X
- show module internal event-history errors
- show logging last 200
- show logging nvram
将交换机升级到NS-OX 6.1(4)版或更高版本,以查明故障原因。
执行此测试以确认卡是否有故障,而不是xbar或机箱插槽:
- 将问题模块移至机箱中的另一个空闲插槽。
- 如果有备用模块,请将其插入故障插槽。
- 如果步骤1后未发现错误,请将模块插回问题插槽并验证。
问题:N7K-F248XP-25 PrimaryBootROM和SecondaryBootROM测试失败
模块N7K-F248XP-25在PrimaryBootROM和SecondaryBootROM测试中均失败:
show module internal exceptionlog module 1 | i Error|xception
********* Exception info for module 1 ********
exception information --- exception instance 1 ----
Error Description : Secondary BootROM test failed
exception information --- exception instance 2 ----
Error Description : Primary BootROM test failed
根本原因
这通常由于BIOS文件损坏或线卡硬件故障而出现。
解决方案
Cisco Bug ID CSCuf82089添加了代码,以显示有关此类故障的更多描述性信息,以便进行更好的诊断。例如,它显示的是失败的组件,而不是当前的空值。
在某些情况下,问题是由模块上的BIOS损坏引起的。输入install module X bios forced命令以解决此问题。请注意,此命令可能会影响服务。建议仅在维护时段执行。
完成这些步骤以解决问题:
- 安排维护窗口并输入install module X bios强制命令作为可能的解决方法。仅在维护窗口期间输入此命令,以避免潜在的服务影响。
- 如果步骤1没有帮助,或者无法为此操作提供维护窗口,请更换模块。此示例输出显示失败的尝试:
Nexus7000# install module 1 bios forced
Warning: Installing Bios forcefully...!
Warning: Please do not remove or power off the module at this time
Upgrading primary bios
Started bios programming .... please wait
[# 0% ]
BIOS install failed for module 1, Error=0x40710027(BIOS flash-type verify failed)
BIOS is OK ...
Please try the command again...
问题:温度传感器故障
在平台上看到以下错误:
%PLATFORM-4-MOD_TEMPFAIL: Module-2 temperature sensor 7 failed
根本原因
由于内部ASIC定时,在特定条件下,这是ASIC中温度/电压块的间歇性问题。Cisco Bug ID CSCtw79052(仅限注册用户)描述了此问题的已知原因。
这是内部锁存温度的ASIC与采样有效位的软件之间的计时问题。问题是,它可以命中12个Clipper实例中的任何一个。此问题没有特定的触发器,而且是间歇性的。此问题不影响服务,并且其产生是因为温度读取逻辑存在问题,需要在驱动程序中进行更多重试。
解决方案
收集这些命令的输出并检查Cisco Bug ID CSCtw79052(仅限注册用户)的错误:
- show version
- show env temperature
- show sprom module <module #>
- Nexus#连接模块<module #>
- <module#>#show hardware internal sensor event-history errors
问题:Xbar错误/C7010-FAB-1在断电状态
C7010-FAB-1处于断电状态,出现以下错误:
%PLATFORM-3-EJECTOR_STAT_CHANGED: Ejectors' status in slot 13 has changed,
Left Ejector is OPEN, Right Ejector is CLOSE
%PLATFORM-3-EJECTOR_STAT_CHANGED: Ejectors' status in slot 13 has changed,
Left Ejector is OPEN, Right Ejector is OPEN
%PLATFORM-2-XBAR_REMOVE: Xbar 3 removed (Serial number XXX)
Xbar Ports Module-Type Model Status
--- ----- ----------------------------------- ------------------ ----------
3 0 Fabric Module N/A powered-dn
?
Xbar Power-Status Reason
--- ------------ ---------------------------
3 powered-dn failure(powered-down) since maximum number of bringups were exceeded
或者,出现xbar ASIC错误:
%MODULE-4-MOD_WARNING: Module 15 (serial: XXX) reported warning due to
X-bar Interface ASIC Error in device 70 (device error 0xc4600248)
%OC_USD-SLOT15-2-RF_CRC: OC2 received packets with CRC error from MOD 15
through XBAR slot 3/inst 2
根本原因
此问题是由于xbar模块故障或安装错误或机箱插槽错误所致。
解决方案
- 检查以下命令的输出:
- show version
- show module
- show logging
- show logging nvram
- show module internal exception-log
- show module internal event-history
- show core
- show system reset-reason
- show environment | xbar
- show system internal platform internal event-history xbar X是xbar #
- show system internal xbar-client internal event-history errors
- show system internal xbar all
- show system internal xbar event-history errors
- 对xbar模块执行硬重新拔插并检查状态。
- 如果重新拔插失败,请测试另一个插槽中的xbar或使用另一个xbar模块测试同一插槽,以确保机箱正常。
- 根据步骤2和3中执行的测试更换故障硬件。
问题:N7K-C7010-FAN-F故障风扇模块
观察到以下一个或多个风扇故障症状:
%PLATFORM-5-FAN_STATUS: Fan module 3 (Serial number XXX)
Fan3(fab_fan1) current-status is FAN_FAIL
Nexus 7000#show environment fan
Fan3(fab_fan1) N7K-C7010-FAN-F 1.1 Failure (Failed Fanlets: 2 6 7 8 9 10 14 15 )
Fan4(fab_fan2) N7K-C7010-FAN-F 1.1 Ok
...
#show hardware
----------------------------------
Chassis has 4 Fan slots
----------------------------------
Fan3(fab_fan1) failed
Model number is N7K-C7010-FAN-F
...
根本原因
在大多数情况下,这是风扇或机箱插槽故障。
解决方案
- 检查以下命令的输出:
- show version
- show module
- show inventory
- show log
- show log nvram
- show environment fan
- 在另一个正常的机箱中测试此N7K-C7010-FAN-F。
- 根据步骤1和2的结果更换风扇或机箱。
问题:%PLATFORM-2-PS_CAPACITY_CHANGE电源警报
系统会看到容量更改的警报,有时非常频繁。
%PLATFORM-2-PS_CAPACITY_CHANGE: Power supply PS2 changed its capacity.
possibly due to On/Off or power cable removal/
2013 Oct 17 17:06:40 ... last message repeated 14 times
根本原因
此问题是由于电源线有故障或断开,或电源故障。
解决方案
检查show env power detail命令的输出并研究电源状态。在本示例输出中,两个弦均已连接,但第二个弦仅显示1200W容量,而不是3000W容量,并且需要用于N7K-AC-6.0KW上的220V交流。电源测试正常。更换电源。
PS_2 total capacity: 4200 W Voltage:50Vchord 1 capacity: 3000 W chord 1
connected to 110v AC chord 2 capacity: 1200 W chord 2 connected to 220v AC
问题:%PLATFORM-5-PS_STATUS:电源X PS_FAIL警报
此警报在平台上显示:
%PLATFORM-5-PS_STATUS: PowerSupply 3 current-status is PS_FAIL
%PLATFORM-2-PS_FAIL: Power supply 3 failed or shut down (Serial number xxxxx)
根本原因
此警报是由于电源线有故障或断开,或电源故障所致。
解决方案
- 检查以下命令的输出:
- show environment power detail
- show power
- 重新拔插故障电源。使用冗余电源以确保电源不会脱机。
- 提交电源的RMA。使用冗余电源以确保电源不会脱机。
参考
Cisco Nexus 7000系列电源冗余
问题:FEX上的电源问题
FEX电源出现以下警报:
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 Module 1: Runtime diag detected major event:
Voltage failure on power supply: 1
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 System minor alarm on power
supply 1: failed
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 Recovered: System minor alarm
on power supply 1: failed
解决方案
检查硬件和电源问题。如果您有软件问题,则即使在交换硬件后,错误消息也会继续。
解决这些问题的方法包括:
- 重新拔插FEX电源。使用冗余电源以确保电源不会脱机。
- 提交FEX电源的RMA。使用冗余电源以确保电源不会脱机。
- 对第二个电源重复上述步骤。
查看并回答以下问题,以帮助定义故障的情况:
- 有多少FEX电源受到影响?
- 对于小警报,您是否交换了输入源,这有什么不同吗?
- 您是否有其他FEX电源存在问题?
- 您是否有其他相同电源的盒子?
- 是否更换了电源线?
- 环境中是否出现电涌或故障?
从以下命令收集输出以调查故障:
- show sprom fex 100 all
- show logging log |无更多
- show tech fex 100 |无更多
- attach fex 100
- show platform software satctrl trace
已知软件缺陷
思科漏洞ID CSCtr77620
问题:N7K-AC-6.0KW电源报告为故障
Emerson电源N7K-AC-6.0KW报告为故障/关闭,但交换机运行正常,并且出现故障电源的实际输出为非0。
根本原因
在两个输入都处于活动状态的电源上,当输入断开、重新连接和再次断开时,1.5秒内电源可锁存电压不足故障,NX-OS可将电源标记为发生故障。在另一种变体中,在具有两个输入的电源上,删除一个输入,等待20到30秒。电源可能会间歇性地设置内部故障警报,NX-OS报告电源发生故障。
Cisco Bug ID CSCty78612 对电源设备上的固件进行更改以解决此问题。
Cisco Bug ID CSCuc86262添加了软件增强功能,以便从这些错误故障中恢复。NX-OS现在可以自主监控电源设备(PSU)状态,并在报告状态与实际状态不同时将其修改为适当状态。
解决方案
输入show env power detail命令并验证实际输出以验证错误故障:
Nexus7000# show env power
Power Supply:
Voltage: 50 Volts
Power Actual Total
Supply Model Output Capacity Status
(Watts ) (Watts )
------- ------------------- ----------- ----------- --------------
1 N7K-AC-6.0KW 0 W 0 W Shutdown
2 N7K-AC-6.0KW 3888 W 6000 W Fail/Shut
关闭/打开PSU电源时,错误的“故障/关闭”状态将被清除。
Cisco Bug ID CSCty78612 对PSU上的固件进行更改。Cisco Bug ID CSCuc86262(仅限注册用户)对软件进行了增强。如果运行时的电源正常运行,则该软件会通过纠正错误位来从错误的故障/关闭通知中恢复。NX-OS版本5.2(9)、6.1(3)、6.2(2)及更高版本具有避免RMA的增强功能。
问题:软件数据包丢弃
当数据包出口接口上的IP数据包的高速率长于配置的MTU时,会丢弃部分大型数据包。
根本原因
这是预料之中的现象。当系统在数据包的出口接口上收到长度大于配置的MTU的IP数据包时,系统会将此数据包发送到控制平面,控制平面将处理分段。在NX-OS 4.1.3及更高版本中,速率限制器应用于此类已发送数据包。默认情况下,此值限制为最大500 pps。
解决方案
这是Cisco Bug ID CSCsu01048中的已知软件缺陷。
问题:USER-2-SYSTEM_MSG FIPS自测故障系统错误
系统将显示“USER-2-SYSTEM_MSG FIPS自测试失败,DCOS_rand - netstack”错误。
根本原因
每当生成随机数时,条件随机数生成器(CRNG)自测运行。如果测试失败,系统将记录系统日志消息。这是按照联邦信息处理标准(FIPS)建议执行的。但是,由于再次生成随机数,因此这种影响是无害的。
NX-OS中有两种类型的随机数生成器(RNG):
- FIPS RNG,在openssl加密库中实现
- 非FIPS RNG,即Linux RNG
根据FIPS,所有RNG必须实施条件随机数生成器测试(CRNGT)。 测试将当前生成的随机数与前一随机数进行比较。如果数字相同,则生成系统日志消息并生成一个随机数。
运行测试是为了确保随机数的唯一性。重新生成编号时,不会影响功能。
解决方案
此消息对系统操作无害。从Cisco NX-OS 5.2x版及更高版本,消息的严重性从2降低,因此在默认日志记录配置下不再显示消息。此日志记录作为交换机上各种功能的内部NX-OS自检的一部分进行。
这是Cisco Bug ID CSCtn70083中的已知软件缺陷。