簡介
本文件簡要說明在執行 Cisco NX-OS 系統軟體的 Cisco Nexus 7000 系列交換器上,常見的硬體和架構問題,並提供解決方案。
附註:本文檔描述的系統日誌和錯誤消息的確切格式可能略有不同。此變化取決於在Supervisor Engine上執行的軟體版本。
問題:SpineControlBus故障
Nexus 7000 Supervisor的主幹控制測試失敗:
Nexus7000# show module internal exceptionlog module 5
...
System Errorcode : 0x418b0022 Spine control test failed
Error Type : Warning
PhyPortLayer : 0x0
Port(s) Affected : none
Error Description : Module 10 Spine Control Bus test Failed
...
11) SpineControlBus E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 1597800
Last test execution time ----> Mon May 27 21:57:17 2013
First test failure time -----> Sun Nov 20 00:30:55 2011
Last test failure time ------> Mon May 27 21:57:17 2013
Last test pass time ---------> Mon May 27 21:56:47 2013
Total failure count ---------> 33
Consecutive failure count ---> 1
Last failure reason ---------> Spine control test failed
解決方案
此問題與Cisco錯誤ID CSCuc7246相關。請參閱Nexus 7000常見問題:當SpineControlBus測試失敗時,建議採取什麼措施?。
問題:在NVRAM中發現壞塊
診斷事件中出現NVRAM錯誤:
Nexus7000#show diagnostic events
1) Event:E_DEBUG, length:97, at 9664 usecs after Wed Dec 5 01:03:42 2012
[103] Event_ERROR: TestName->NVRAM TestingType->health monitoring module->5
Result->fail Reason->
#show diagnostic result module 5 test NVRAM detail
4) NVRAM-------------------------> E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 52596
Last test execution time ----> Wed Dec 5 01:03:41 2012
First test failure time -----> Tue Dec 4 23:28:45 2012
Last test failure time ------> Wed Dec 5 01:03:42 2012
Last test pass time ---------> Tue Dec 4 23:23:41 2012
Total failure count ---------> 20
Consecutive failure count ---> 20
Last failure reason ---------> Bad blocks found on nvram
這可能是硬體問題、Supervisor引擎故障或暫時問題。
解決方案
- 重新運行NVRAM測試以檢視這是否為誤報。輸入以下命令可禁用並重新啟用診斷測試(如針對問題模組5提供了示例):
- 無診斷監控模組5測試NVRAM
- 診斷監視器模組5測試NVRAM
輸入show diagnostic result module 5 test NVRAM detail命令以檢視test命令的結果。
- 如果NVRAM測試再次失敗,請重新拔插模組5。觀察show diagnostic result module 5和show module命令的結果。
- 如果模組再次失敗,請在出現問題的插槽中向主管提出退貨授權(RMA)請求。
問題:模組9快閃記憶體故障
在Supervisor 2/Supervisor 2E上可以看到以下一個或所有內容:
- 錯誤消息:
DEVICE_TEST-2-COMPACT_FLASH_FAIL: Module 5 has failed test CompactFlash
20 times on device Compact Flash due to error The compact flash power test failed.
- 無法儲存配置。
- 診斷測試失敗:
Test results: (. = Pass, F = Fail, I = Incomplete,
U = Untested, A = Abort, E = Error disabled)
7) CompactFlash E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 23302
Last test execution time ----> Sun Apr 13 10:07:30 2014
First test failure time -----> Sun Apr 13 00:37:41 2014
Last test failure time ------> Sun Apr 13 10:07:40 2014
Last test pass time ---------> Sun Apr 13 00:07:41 2014
Total failure count ---------> 20
Consecutive failure count ---> 20
Last failure reason ---------> The compact flash power test
failed
Next Execution time ---------> Sun Apr 13 10:37:30 2014
根本原因
第二代Nexus 7000 Supervisor附帶兩個相同的eUSB閃爍,以實現冗餘。閃爍提供了用於bootflash、配置和其他相關資訊的儲存庫。這兩個閃屏被重新配置為獨立磁碟冗餘陣列(RAID)1陣列,以實現內部映象。有了冗餘,Supervisor可以在丟失其中一個閃爍(但不能同時丟失兩個)的情況下運行。
在欄位中有一些例項中,在服務數月或數年的時間範圍內,RAID軟體將這些閃爍中的一個或兩個標籤為損壞。主機板的重置/重新啟動重新發現這些故障閃爍,在下次啟動時正常。
解決方案
完成以下步驟,確認這是否屬於硬體問題:
- 如果可能,重新載入有問題的Supervisor。
- 如果在重新載入後發現問題,您需要更換硬體。
- 如果重新載入解決了問題,則根本原因與思科錯誤ID CSCus22805相關。
問題:N7K-M132XP-12線卡埠環回測試故障
由於埠PortLoopback測試失敗,線路卡會連續10次報告診斷失敗:
DIAG_PORT_LB-2-PORTLOOPBACK_TEST_FAIL Module:16 Test:PortLoopback
failed 10 consecutive times. Faulty module:Module 16 affected ports:5,7
Error:Loopback test failed. Packets lost on the LC at the Queueing engine ASIC
MODULE-4-MOD_WARNING Module 16 (serial: XXXX) reported warning on
ports 16/5-16/5 (Ethernet) due to Loopback test failed.
Packets lost on the LC at the Queueing engine ASIC in device 78
(device error 0x41830059)
根本原因
這是一條警告消息,在大多數情況下表示埠存在硬體問題。
解決方案
首先檢查思科錯誤ID CSCtn8109和思科錯誤ID CSCti95293,因為這可能是軟體問題。
首先重新拔插模組以重新初始化卡並重新運行啟動硬體正常測試。如果診斷測試仍然顯示同一卡的故障,請更換該卡。
在方便的時候重新載入卡,並收集以下命令的輸出:
- show logging log
- show module
- show diagn result module all detail
或者,您只能重新運行該特定測試,而無需重新載入卡。此示例顯示模組16:
show diagnostic result module 16
diagnostic clear result module all
(config)# no diagnostic monitor module 16 test 5
(config)# diagnostic monitor module 16 test 5
diagnostic start module 16 test 5
show diagnostic result module 16 test 5
問題:N7K-M132XP-12線卡模組–4-MOD_WARNING
系統會顯示以下錯誤,並且可能會重新載入模組:
2013 Mar 27 00:40:23 DC3-7000-PRODD2-A23 MODULE-4-MOD_WARNING
Module 9 (serial: XXX) reported warning on ports 9/1-9/3 (Unknown)
due to BE2 Arbiter experienced an error in device 65 (device error 0xc410f613)
根本原因
這是由子卡上的奇偶校驗錯誤或硬體問題引起的硬體故障。
解決方案
- 檢查以下命令的輸出:
- 顯示版本
- show system reset-reason module X
- show logging onboard internal reset-reason
- show module internal event-history module X
- 顯示日誌
- 如果您的Cisco NS-OX版本早於版本4.2,請升級到新版本,以確保整合了針對這些軟體缺陷的修復(最小化奇偶校驗錯誤的可能性):
- 思科錯誤ID CSCso72230 L1 D快取已啟用8541 CPU崩潰,出現L1 D快取奇偶校驗錯誤
- 思科錯誤ID CSCsr90831 — 啟用了L1 D快取的8541 CPU崩潰,並出現L1 D快取推送奇偶校驗錯誤
- 如果錯誤重複出現,請重新拔插卡和顯示器。
- 如果錯誤仍重複出現,請更換問題模組。
其他已知軟體缺陷
思科錯誤ID CSCtb98876
問題:N7K-M224XP-23L時鐘伺服器同步丟失錯誤
模組中出現以下錯誤:
%MODULE-4-MOD_WARNING: Module # (Serial number: XXXX) reported warning
Ethernet#/# due to chico serdes sync loss in device DEV_SKYTRAIN
(device error 0xc9003600)
根本原因
這些錯誤表示模組#和Xbar/ASIC之間存在同步丟失問題。在大多數情況下,原因是模組的硬體故障。
如果您的Cisco NS-OX版本早於6.1(4),且消息沒有連續顯示,則可能會受到Cisco錯誤ID CSCud91672的影響。出現缺陷的原因是NX-OS伺服器設定與SKT <—>SAC之間的兩個通道上的診斷設定不同。
解決方案
收集以下命令的輸出:
- 顯示版本
- show module
- show run
- show module internal event-history module X
- show module internal activity module X
- show module internal exception-log module X
- show module internal event-history errors
- show logging last 200
- show logging nvram
將交換機升級到NS-OX版本6.1(4)或更高版本,以便查明缺陷的原因。
執行此測試以確認卡是否故障,而不是xbar或機箱插槽故障:
- 將問題模組移至機箱中的另一個空閒插槽。
- 如果有備用模組,請將其插入有問題的插槽中。
- 如果在步驟1後未看到錯誤,請將模組插回問題插槽並驗證。
問題:N7K-F248XP-25主引導ROM和輔助引導ROM測試故障
模組N7K-F248XP-25在PrimaryBootROM和SecondaryBootROM測試中均失敗:
show module internal exceptionlog module 1 | i Error|xception
********* Exception info for module 1 ********
exception information --- exception instance 1 ----
Error Description : Secondary BootROM test failed
exception information --- exception instance 2 ----
Error Description : Primary BootROM test failed
根本原因
這通常是由於BIOS檔案損壞或線路卡硬體故障所致。
解決方案
思科漏洞ID CSCuf82089新增代碼,以顯示有關此類故障的更多描述性資訊,以便進行更佳的診斷。例如,它顯示的是出現故障的元件,而不是當前為空的值。
在某些情況下,問題是由模組上的BIOS損壞引起的。輸入install module X bios forced命令以解決此問題。請注意,此命令可能會影響服務。建議僅在維護時段內執行。
完成以下步驟即可解決問題:
- 安排維護視窗並輸入install module X bios forced命令作為可能的解決方法。僅在維護時段輸入此命令,以避免潛在的服務影響。
- 如果步驟1不起作用或無法為此操作設定維護視窗,請更換模組。此示例輸出顯示了失敗的嘗試:
Nexus7000# install module 1 bios forced
Warning: Installing Bios forcefully...!
Warning: Please do not remove or power off the module at this time
Upgrading primary bios
Started bios programming .... please wait
[# 0% ]
BIOS install failed for module 1, Error=0x40710027(BIOS flash-type verify failed)
BIOS is OK ...
Please try the command again...
問題:溫度感測器故障
平台中出現以下錯誤:
%PLATFORM-4-MOD_TEMPFAIL: Module-2 temperature sensor 7 failed
根本原因
由於內部ASIC定時,在一定條件下,ASIC中的溫度/電壓塊是一個間歇性問題。思科錯誤ID CSCtw79052描述此問題的已知原因。
這是將內部溫度鎖存的ASIC與對有效位進行取樣的軟體之間的計時問題。問題是,它可以對12個Clipper例項中的任何一個進行攻擊。此問題沒有特定觸發因素,並且是間歇性的。此問題不會影響服務,其原因是溫度讀取邏輯存在問題,需要在驅動程式中進行更多重試。
解決方案
收集這些命令的輸出,並檢查思科錯誤ID CSCtw79052:
- 顯示版本
- 顯示環境溫度
- show sprom module <module #>
- Nexus#連線模組<module #>
- <module#>#show hardware internal sensor event-history errors
問題:Xbar錯誤/C7010-FAB-1處於斷電狀態
C7010-FAB-1處於關閉狀態,出現以下錯誤:
%PLATFORM-3-EJECTOR_STAT_CHANGED: Ejectors' status in slot 13 has changed,
Left Ejector is OPEN, Right Ejector is CLOSE
%PLATFORM-3-EJECTOR_STAT_CHANGED: Ejectors' status in slot 13 has changed,
Left Ejector is OPEN, Right Ejector is OPEN
%PLATFORM-2-XBAR_REMOVE: Xbar 3 removed (Serial number XXX)
Xbar Ports Module-Type Model Status
--- ----- ----------------------------------- ------------------ ----------
3 0 Fabric Module N/A powered-dn
?
Xbar Power-Status Reason
--- ------------ ---------------------------
3 powered-dn failure(powered-down) since maximum number of bringups were exceeded
或者,出現xbar ASIC錯誤:
%MODULE-4-MOD_WARNING: Module 15 (serial: XXX) reported warning due to
X-bar Interface ASIC Error in device 70 (device error 0xc4600248)
%OC_USD-SLOT15-2-RF_CRC: OC2 received packets with CRC error from MOD 15
through XBAR slot 3/inst 2
根本原因
此問題是由於xbar模組故障或安裝不當,或機箱插槽故障。
解決方案
- 檢查以下命令的輸出:
- 顯示版本
- show module
- show logging
- show logging nvram
- show module internal exception-log
- show module internal event-history
- 顯示核心
- show system reset-reason
- 顯示環境 |在xbar中
- show system internal platform internal event-history xbar X是xbar #
- show system internal xbar-client internal event-history errors
- show system internal xbar all
- show system internal xbar event-history errors
- 對xbar模組執行硬重新拔插並檢查狀態。
- 如果重新拔插失敗,請在另一個插槽中測試xbar或使用另一個xbar模組測試同一插槽以確保機箱正常。
- 根據步驟2和3中執行的測試更換有故障的硬體。
問題:N7K-C7010-FAN-F故障風扇模組
觀察到以下一個或多個風扇故障症狀:
%PLATFORM-5-FAN_STATUS: Fan module 3 (Serial number XXX)
Fan3(fab_fan1) current-status is FAN_FAIL
Nexus 7000#show environment fan
Fan3(fab_fan1) N7K-C7010-FAN-F 1.1 Failure (Failed Fanlets: 2 6 7 8 9 10 14 15 )
Fan4(fab_fan2) N7K-C7010-FAN-F 1.1 Ok
...
#show hardware
----------------------------------
Chassis has 4 Fan slots
----------------------------------
Fan3(fab_fan1) failed
Model number is N7K-C7010-FAN-F
...
根本原因
在大多數情況下,這是風扇或機箱插槽故障。
解決方案
- 檢查以下命令的輸出:
- 顯示版本
- show module
- 顯示庫存
- 顯示日誌
- show log nvram
- 顯示環境風扇
- 在另一正常機箱中測試此N7K-C7010-FAN-F。
- 根據步驟1和2的結果更換風扇或機箱。
問題:%PLATFORM-2-PS_CAPACITY_CHANGE電源警報
出現有關容量變化的警報,有時非常頻繁。
%PLATFORM-2-PS_CAPACITY_CHANGE: Power supply PS2 changed its capacity.
possibly due to On/Off or power cable removal/
2013 Oct 17 17:06:40 ... last message repeated 14 times
根本原因
此問題是由電源線故障或斷開連線或電源故障造成的。
解決方案
檢查show env power detail命令的輸出,並研究電源狀態。在此示例輸出中,兩個和絃都連線,但第二個和絃顯示只有1200W的容量,而不是3000W,並且它需要用於N7K-AC-6.0KW上的220V交流。電源測試正常。更換電源。
PS_2 total capacity: 4200 W Voltage:50Vchord 1 capacity: 3000 W chord 1
connected to 110v AC chord 2 capacity: 1200 W chord 2 connected to 220v AC
問題:%PLATFORM-5-PS_STATUS:PowerSupply X PS_FAIL警報
此警報顯示在平台上:
%PLATFORM-5-PS_STATUS: PowerSupply 3 current-status is PS_FAIL
%PLATFORM-2-PS_FAIL: Power supply 3 failed or shut down (Serial number xxxxx)
根本原因
此警報是由於電源線故障或斷開連線,或電源故障。
解決方案
- 檢查以下命令的輸出:
- 重新拔插有故障的電源。使用冗餘電源以確保電源不會離線。
- 提交電源的RMA。使用冗餘電源以確保電源不會離線。
參考資料
Cisco Nexus 7000系列電源備援
問題:FEX上的電源問題
FEX電源會出現以下警報:
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 Module 1: Runtime diag detected major event:
Voltage failure on power supply: 1
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 System minor alarm on power
supply 1: failed
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 Recovered: System minor alarm
on power supply 1: failed
解決方案
檢查硬體和電源問題。如果存在軟體問題,即使交換硬體,錯誤消息也會繼續。
解決這些問題的方法包括:
- 重新拔插FEX電源。使用冗餘電源以確保電源不會離線。
- 提交FEX電源的RMA。使用冗餘電源以確保電源不會離線。
- 對第二個電源重複這些步驟。
檢視並回答以下問題,以幫助定義失敗的情況:
- 有多少個FEX電源受到影響?
- 對於輕微的警報,您是否交換了輸入源,這是否產生了任何影響?
- 是否有其他FEX電源出現問題?
- 您是否有其他相同電源的盒?
- 您更換電源線了嗎?
- 環境中是否有電源浪湧或故障?
收集這些命令的輸出,以調查故障:
- show sprom fex 100 all
- show logging log |不更多
- show tech fex 100 |不更多
- attach fex 100
- show platform software satctrl trace
已知軟體缺陷
思科錯誤ID CSCtr77620
問題:N7K-AC-6.0KW電源報告為故障
Emerson電源N7K-AC-6.0KW報告為「Fail/Shut(故障/關閉)」 ,但交換機運行正常,且出現問題的電源出現非0實際輸出。
根本原因
在雙輸入均處於活動狀態的電源上,當輸入在1.5秒內斷開、重新連線和再次斷開時,電源可以鎖定欠壓故障,NX-OS可以將電源標籤為發生故障。在另一個變型中,在具有兩個輸入的供應器上,移除一個輸入並等待20到30秒。電源可能會間歇性設定內部故障警報,NX-OS報告電源出現故障。
思科錯誤ID CSCty78612對電源裝置上的韌體進行更改以解決問題。
思科錯誤ID CSCuc86262新增了軟體增強功能,以便從這些錯誤故障中復原。現在,NX-OS可自動監控電源供應器(PSU)狀態,並在所報告的狀態不同於實際狀態時將它修改為適當的狀態。
解決方案
輸入show env power detail命令並驗證實際輸出,以驗證錯誤故障:
Nexus7000# show env power
Power Supply:
Voltage: 50 Volts
Power Actual Total
Supply Model Output Capacity Status
(Watts ) (Watts )
------- ------------------- ----------- ----------- --------------
1 N7K-AC-6.0KW 0 W 0 W Shutdown
2 N7K-AC-6.0KW 3888 W 6000 W Fail/Shut
關閉/開啟PSU時,會清除錯誤的「失敗/關閉」狀態。
思科錯誤ID CSCty78612對PSU上的韌體進行了更改。已通過Cisco錯誤ID CSCuc86262對軟體進行了增強,如果運行時電源運行正常,該錯誤ID會通過糾正錯誤位來恢復錯誤的失敗/關閉通知。NX-OS版本5.2(9)、6.1(3)、6.2(2)及更高版本具有可避免RMA的增強功能。
問題:軟體封包捨棄
當封包輸出介面上長於已設定MTU的IP封包速率較高時,就會捨棄部分大型封包。
根本原因
這是預期行為。當系統收到的IP資料包的長度大於資料包輸出介面上配置的MTU時,系統將此資料包傳送到負責分段的控制平面。在NX-OS 4.1.3及更高版本中,速率限制器應用於此類打孔資料包。預設情況下,此值最大限製為500 pps。
解決方案
這是Cisco錯誤ID CSCsu01048中的一個已知軟體缺陷。
問題:USER-2-SYSTEM_MSG FIPS自測試故障系統錯誤
顯示「USER-2-SYSTEM_MSG FIPS self-test failure in DCOS_rand - netstack」(USER-2-SYSTEM_MSG FIPS在DCOS_rand - netstack中自檢失敗)錯誤。
根本原因
每當產生隨機數時,條件隨機數產生器(CRNG)就會執行自測試。如果測試失敗,則會記錄系統日誌消息。這是按照聯邦資訊處理標準(FIPS)建議進行的。但是,由於隨機數再次生成,因此其影響是無害的。
NX-OS中有兩種型別的隨機數生成器(RNG):
- FIPS RNG,在openssl密碼庫中實作
- 非FIPS RNG,即linux RNG
根據FIPS,所有RNG都必須執行條件隨機數發生器測試(CRNGT)。 該測試將當前生成的隨機數與上一個隨機數進行比較。如果數字相同,則生成系統日誌消息並生成一個以上的隨機數。
運行測試以確保隨機數唯一性。由於重新生成編號,因此沒有功能影響。
解決方案
此消息對系統操作無害。從Cisco NX-OS版本5.2x及更高版本起,消息的嚴重性從2降下,因此不再使用預設日誌記錄配置看到消息。此日誌記錄是交換機上各種功能的內部NX-OS自測試的一部分。
這是Cisco錯誤ID CSCtn70083中的已知軟體缺陷。