簡介
本文提供相關步驟,說明如何疑難排解因伺服器電源狀態 MC 錯誤導致刀鋒無法探索的問題。
必要條件
需求
思科建議您瞭解以下主題的工作知識:
採用元件
本文中的資訊係根據以下軟體和硬體版本:
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
背景資訊
- 刀片韌體升級,伺服器在正常運行時間策略重新啟動後關閉。
- 資料中心中的某個電源事件。
以上可能是問題的可能觸發因素。
問題
此錯誤消息在重新啟動時或在發現過程中出現。
"無法更改刀片電源狀態"
UCSM報告無法通電的刀片的此警報
作為韌體升級的一部分重新啟動的刀片,或者任何其他維護都無法發現/啟動FSM中的以下消息:
"無法更改伺服器電源狀態 — MC錯誤(-20):管理控制器在處理請求時無法或失敗(sam:dme:ComputePhysicalTurnup:Execute)"
SEL日誌顯示如下所示的錯誤條目:
CIMC | Platform alert POWER_ON_FAIL #0xde | 取消斷言預測性故障 | 不肯定
CIMC | Platform alert POWER_ON_FAIL #0xde | 斷言預測性故障 | 已斷言
疑難排解
從UCSM CLI shell連線到刀片的cimc,並使用power 命令驗證刀片電源狀態
- ssh FI-IP-ADDR
- 連線cimc X
- 強化
Failure Scenario # 1
OP:[ status ]
Power-State: [ on ]
VDD-Power-Good: [ inactive ]
Power-On-Fail: [ active ]
Power-Ctrl-Lock: [ unlocked ]
Power-System-Status: [ Good ]
Front-Panel Power Button: [ Enabled ]
Front-Panel Reset Button: [ Enabled ]
OP-CCODE:[ Success ]
Failure Scenario #2
OP:[ status ]
Power-State: [ off ]
VDD-Power-Good: [ inactive ]
Power-On-Fail: [ inactive ]
Power-Ctrl-Lock: [ permanent lock ] <<<----------------
Power-System-Status: [ Bad ] <<<---------------
Front-Panel Power Button: [ Disabled ]
Front-Panel Reset Button: [ Disabled ]
OP-CCODE:[ Success ]
工作場景#的輸出
[ help ]# power
OP:[ status ]
Power-State: [ on ]
VDD-Power-Good: [ active ]
Power-On-Fail: [ inactive ]
Power-Ctrl-Lock: [ unlocked ]
Power-System-Status: [ Good ]
Front-Panel Power Button: [ Enabled ]
Front-Panel Reset Button: [ Enabled ]
OP-CCODE:[ Success ]
[ power ]#
驗證感測器值#
POWER_ON_FAIL | 磁碟 — > | 離散 | 0x0200 | 不適用 | 不適用 | 不適用 | 不適用 | 不適用 | 不適用 | >>>不工作
感測器值#
POWER_ON_FAIL | 磁碟 — > | 離散 | 0x0100 | 不適用 | 不適用 | 不適用 | 不適用 | 不適用 | 不適用 | >>>>工作
執行sensors命令並檢查電源和電壓感測器的值。比較相同型號的刀片式伺服器處於通電狀態時的輸出。
如果某些感測器的「Reading(讀取)」或「Status(狀態)」列為「NA(不可用)」 ,這可能並非始終是硬體故障。
日誌代碼段#
Sel.log#
CIMC | Platform alert POWER_ON_FAIL #0xde | 斷言預測性故障 | 已斷言
power-on-fail.hist(位於tmp/techsupport_pidXXXX/CIMCX_TechSupport-nvram.tar.gz中)
如果上述操作不起作用,請收集UCSM和機箱技術支援日誌捆綁包。
它有助於進一步調查此問題。
出現上述症狀時,請嘗試這些步驟以恢復問題。
第1步:驗證刀片FSM狀態是否為「Failed」(失敗),說明為「state-MC Error(-20)」。
導航到Equipment > Chassis X > Server Y > FSM
第2步:記下受影響的刀片序列號並停用刀片。
<<< IMP:在停用之前,請從「General(常規)」頁籤中記下「Problem blade serial number(問題刀片序列號)」。第4步的稍後階段需要此步驟>>>
導航至Equipment > Chassis X > Server Y > General > Server Maintenance > Decommission > Ok。
步驟 3.FI-A/B#重置插槽x/y
例如#Chassis2-Server1受到影響。
FI-A#重設插槽2/1
運行上述命令後,等待30-40秒
第4步:重新使用已停用的刀片。
導航到Equipment > Dedeauthenticated > Servers > Look for the server we deauthenticated(Find correct blade with Serial number Notes in Step-2 before deauthenticated)>選中Recommission Tick box with correct Blade(Validate with Serial number)>Save Changes。
第5步:解析插槽(如果觀察到)。
導航至Equipment > Chassis X > Server Y。
如果重新授權的刀片出現「Resolve Slot Issue(解決插槽問題)」彈出視窗,請驗證其序列號,然後按一下here接受插槽中的伺服器。
應該立即啟動刀片發現。
等待伺服器發現完成。監控「伺服器FSM」頁籤中的進度。
步驟 6.如果步驟1至5不幫助,並且FSM再次失敗,則停用刀片並嘗試物理重新拔插它。
如果仍然是硬體問題,如果伺服器無法發現與Cisco TAC的聯絡。
NOTE: If you have B200 M4 blade and notice failure scenario #2 , please refer following bug and Contact TAC
CSCuv90289
B200 M4 fails to power on due to POWER_SYS_FLT
相關資訊
發現機箱的過程
UCSM伺服器管理指南