簡介
本文檔介紹如何排除大多數型別的UCS伺服器都可能出現的伺服器不可訪問故障的常見原因。
必要條件
需求
思科建議您瞭解如何在統一計算系統管理器(UCSM)和Intersight管理模式(IMM)中管理伺服器。
採用元件
本文件所述內容不限於特定軟體和硬體版本。
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
背景資訊
使用者在其UCS域中可能會收到一個常見故障,即通知您伺服器無法訪問。這可能有許多原因,根據監控工具和UCSM/IMM版本的不同,故障看起來可能有所不同。
System Notification from [UCSM Domain Name] - diagnostic:GOLD-minor - 2023-05-25 01:56:41 GMT-04:00 Recovered : Server x/y (service profile: org-root/ls-[service_profile]) inaccessible
Serial number: [Server Serial]
Alert: System Name: [UCSM Domain Name]
Time of Event:2022-08-31 03:15:04 GMT-05:00 Event Description:Server x (service profile: org-root/ls-[service_profile]) inaccessible Severity Level:4
如果正在使用IMM,則在GUI中可能會看到「Connection to Server was lost」消息。還可以觀察到Intersight故障斷開的情況。
與伺服器的連線已丟失IMM
當刀片上的思科整合管理控制器(CIMC)遇到問題,並且重新啟動或嘗試重新啟動時,將顯示此警報。這會觸發伺服器不可訪問警報,因為當刀片的管理平面重新啟動時,UCSM/IMM無法與刀片通訊,因此它認為無法訪問。一旦CIMC重新啟動,刀片狀態將恢復正常。
這就是為什麼您可以收到此警報,然後當您檢查域時,伺服器看起來運行正常。
常見缺陷參考
思科漏洞ID CSCwe19822 -適用於4.2(2c)/5.0(1c)之後的M5/M6伺服器(適用於X系列)
思科漏洞ID CSCwa85667 -適用於4.1(3e) - 4.2(2a)之間的M5/M6伺服器還包括5.0(1b)以後的X系列
思科漏洞ID CSCvz62711 -適用於4.1(3d) - 4.2(2a)之間的M5/M6伺服器
思科漏洞ID CSCwi50991 -適用於4.3(2e)之前代碼中的M5/M6系列刀片
思科漏洞ID CSCvv79912 -適用於介於4.0(4h)和4.2(1a)/4.1(3d)之間的M5/M6伺服器
思科漏洞ID CSCvh25786 -適用於2.0(13f)和3.0(4a)以後的M4/M5伺服器
疑難排解
案例 1
第一種、也是最常見的情況是收到警報,然後當檢查UCSM/IMM時,伺服器看起來運行正常、運行正常,並且沒有(新)故障。檢查作業系統時,系統似乎已啟動並正常執行,沒有中斷。
UCSM中的正常伺服器
日誌捆綁包在一個OBFL日誌中顯示此消息,該日誌位於CIMCx_TechSupport.tar.gz > obfl > obfl-log。
3:2022 Sep 8 10:54:33 UTC:+0000:(4.2(2d)):kernel:-:[watchdog_init]:976:BMC Watchdog resetted BMC.
這說明CIMC崩潰並自行重新啟動。
在此場景中,由於CIMC成功重新啟動,因此不需要進一步操作,並且伺服器沒有問題。
案例 2
下一個情況是接收警報,然後當檢查UCSM/IMM時,如果使用UCSM,伺服器仍顯示為不可訪問;如果使用IMM,伺服器仍顯示為已斷開連線。 檢查作業系統時,系統似乎已啟動並正常執行,不會造成任何中斷。
由於作業系統已啟動並正常運行,但UCSM/IMM無法與刀片通訊,這意味著CIMC未重新啟動或在進程中停止。
此場景中的第一步是使用SSH或控制檯連線到交換矩陣互聯(FI),然後運行此命令,用受影響的機箱/刀片替換x/y。結果有三種。
1)與CIMC的連線成功。
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
Trying 127.5.1.1...
Connected to 127.5.1.1.
Escape character is '^]'.
CIMC Debug Firmware Utility Shell [ support ]
[ help ]#
如果顯示此輸出,則CIMC上仍有一些生命期,您可以嘗試重置CIMC以恢復刀片。
如果正在使用UCSM,請導航到裝置>機箱>機箱編號>伺服器>伺服器編號>恢復伺服器>重置CIMC。
刀鋒伺服器的位置
重置CIMC
如果正在使用IMM,請導航到受影響的伺服器並選擇Actions > System > Reboot Management Controller。
重新啟動管理控制器IMM
如果重新啟動CIMC後,伺服器恢復正常,則問題已得到解決,無需進一步操作。
如果故障仍然存在,請按照下一個connect cimc輸出的故障排除步驟操作。
2)與CIMC的連線失敗。
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
Trying 127.5.1.8...
telnet: Unable to connect to remote host: No route to host
3)與CIMC攤位的連線。在這種情況下,執行指令後不會有任何反應,嘗試轉義(Ctrl + C)時會看到這種情況。
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
^C
Console escape. Commands are:
l go to line mode
c go to command mode
z suspend telnet
e exit telent
continuing...
最後兩個輸出中任一個的故障排除相同。在這些情況下,CIMC完全關閉,無法與交換矩陣互聯通訊。需要重新啟動伺服器才能恢復CIMC。重新引導刀片時,始終建議使用維護窗口。
如果正在使用UCSM,您可以透過使用SSH連線到交換矩陣互聯並運行此命令來用受影響的機箱/伺服器替換x/y來模擬物理重新放置刀片。您必須輸入正確的機箱/伺服器,因為此命令不會提示您進行確認。
UCSM-A# reset slot x/y
註:reset slot命令會立即重新啟動指定插槽x/y中的刀片。如果作業系統仍在執行,請確定伺服器可以安全地重新開機。
如果成功,此命令不會返回任何內容。如果命令無法執行,將顯示一條消息。
如果正在使用IMM,或者reset slot命令未能解決無法訪問的問題,則唯一的另一個選項是實際重新定向刀片。
如果在物理重新拔插刀片後,問題仍然存在,請聯絡TAC以進行進一步的故障排除。
案例 3
最終情況是收到警報,然後當檢查UCSM/IMM時,如果使用UCSM,伺服器仍顯示為不可訪問;如果使用IMM,伺服器仍顯示為已斷開。 檢查作業系統時,系統已關閉且無法存取。
在這種情況下,所能做的只是重新啟動伺服器。如果無法重新開機,請實際重新安裝伺服器。
如果在物理重新拔插刀片後,問題仍然存在,請聯絡TAC以進行進一步的故障排除。
結論
接收伺服器不可訪問的故障的原因有很多,有些比其他原因的影響更大。此處提供的步驟是評估是否需要任何故障診斷或您的域是否健康且無需任何操作的好地方。