簡介
本檔案介紹重新部署Cisco Hyperflex群集中離線節點的程式。
必要條件
需求
僅支援從Intersight部署且從5.0(2b)版開始的Hyperflex群集。此功能尚不支援通過Hyperflex安裝程式部署並匯入到Intersight的群集。
此Intersight功能支援的方案型別:
- FI/標準集群、鏈式集群、邊緣集群和DC-No-FI集群
- 使用SED的集群(自加密驅動器)
- 僅從Intersight部署群集
- 重新部署ESXi和SCVM
- 僅重新部署SCVM
不支援的方案
- 1GbE HyperFlex邊緣和延展群集。
- 匯入到Intersight的群集
授權
重新部署HyperFlex節點需要Intersight Essentials或高級許可證。HyperFlex群集中的所有伺服器都必須宣告並配置Intersight Essentials或高級許可證。
採用元件
- Cisco Intersight
- Cisco UCSM(可選)
- Cisco UCS伺服器
- 思科Hyperflex集群版本5.0(2c)
- VMWare ESXi
- VMware vCenter
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
背景資訊
出於多種原因,維護群集的正常運行會成為一項優先任務,但最重要的是,在超覆蓋儲存解決方案中,為了保證資料完整性,必須進行冗餘。有多種情形需要同時重新部署ESXi和SCVM(儲存控制器虛擬機器),例如更換融合節點中的引導驅動器。
對於從Intersight部署的群集,您可以重新部署SCVM以將其新增回Hyperflex群集,現在無需通過Intersight的TAC幫助即可執行此活動。
警告:必須強調的是,不成功執行此過程可能會導致群集出現多個意外問題,例如未來的群集升級失敗和群集擴展失敗。
組態
在本示例中,我們使用名為Medellin的3節點邊緣群集,該群集因M.2磁碟故障而損壞了節點3
從Intersight出發,我們的出發點假設已經涵蓋幾個方面:
- 已更換M.2儲存
- Hyperflex群集仍不正常,因為它已使該節點離線
群集節點離線驗證
您可以看到群集不正常,如前所述,並且您需要恢復已修復M.2問題的離線節點
從Intersight轉到基礎設施服務> Hyperflex群集>概述>事件。您可以檢視可復原狀態
在同一個Overview頁籤中,您可以看到哪些特定節點也處於離線狀態
從vCenter中,我們還會收到有關群集運行狀況不佳的警報
最後,您還可以在CLI中評估群集狀態:
hxshell:~$ hxcli cluster status
Cluster UUID : 6104001978967674717:7117835385033814973
Cluster Ready : Yes
Resiliency Health : WARNING
Operational Status : ONLINE
ZK Quorum Status : ONLINE
ZK Node Failures Tolerable : 0
hxshell:~$ hxcli cluster info
Cluster Name : Medellin
Cluster UUID : 6104001978967674717:7117835385033814973
Cluster State : ONLINE
Cluster Access Policy : Lenient
Space Status : NORMAL
Raw Capacity : 9.8 TiB
Total Capacity : 3.0 TiB
Used Capacity : 30.4 GiB
Free Capacity : 3.0 TiB
Compression Savings : 62.06%
Deduplication Savings : 0.00%
Total Savings : 62.06%
# of Nodes Configured : 3
# of Nodes Online : 2
Data IP Address : 169.254.218.1
Resiliency Health : WARNING
Policy Compliance : NON_COMPLIANT
Data Replication Factor : 3 Copies
# of node failures tolerable : 0
# of persistent device failures tolerable : 1
# of cache device failures tolerable : 1
Zone Type : Unknown
All Flash : No
重新部署步驟
步驟 1. 重新安裝ESXi作業系統。 為此,您可以轉至Servers >選擇Server > Options(三個點)>選擇啟動KVM。
注意:您必須下載與群集中其他節點運行的完全相同的ESXi版本相同的Cisco Hyperflex自定義映像。您可以從此處下載
啟動KVM後,導航到虛擬媒體>選擇啟用虛擬裝置
然後選擇瀏覽>從本地電腦選擇Hyperflex ESXi iso映像>選擇對映驅動器
導覽至Power>,視伺服器的狀態而定,選擇Power on System或Reset System或Power Cycle System
提示: Reset System(warm boot)重新啟動系統而不關閉電源,而Power Cycle System(cold boot)關閉系統然後重新開啟。在此情況中,SCVM已損壞且正在重新安裝ESXi時,兩個選項均滿足相同目的
您需要引導到CD/DVD虛擬裝置裝置。導航到Tools > Select Keyboard >看到Boot Menu提示時按F6
進入啟動選單,選擇Cisco vKVM-Mapped vDVD1.24並按Enter
選擇我已經閱讀了上述通知並希望繼續並按下Enter鍵鍵
根據使用的特定啟動裝置,您會定期看到計算節點的不同選項,以及收斂節點的另一個選項(必須在此處選擇)
之後,系統會提示您輸入使用者名稱和密碼。輸入username erase >按下Enter > Type password erase> hit 輸入
注意:如果輸入的密碼/使用者名稱錯誤,系統將返回一個步驟,您可以重試
此時開始安裝,您可以通過vKVM對其進行監控
步驟 2.導航到Infrastructure Service > Hyperflex Clusters >選擇Hyperflex群集>選擇操作>選擇Redeploy節點
提示:如果只有SCVM損壞且需要重新安裝,則必須先關閉伺服器,然後選擇重新部署(如果不運行),並出現錯誤「由於此群集中沒有離線主機,無法觸發重新部署節點」。
步驟 3.選擇離線節點>選擇繼續
步驟 4.驗證安全、vCenter和代理設定策略是否與同一群集對應,然後選擇「下一步」
但是,如果僅重新部署SCVM且ESXi完整,則從安全策略中,您必須取消選擇「此節點上的虛擬機器監控程式使用出廠預設密碼」選項,並確保在選擇「下一步」之前更新當前ESXi密碼
步驟 5.選擇驗證和重新部署
步驟 6.等待工作流完成
附註: 您可以監視進度,但通常需要幾個小時
最終重新部署完成,Medellin群集恢復正常狀態
群集正常狀態驗證
從Intersight驗證
導航到Hyperflex群集 >選擇群集>選擇概述選項卡
從Hyperflex Connect驗證
從Intersight與HXDP共進午餐,以驗證其狀態
通過CLI進行驗證
在CLI中,您可以使用以下命令:hxcli cluster status、hxcli cluster info、hxcli cluster health、hxcli node list
hxshell:~$ hxcli cluster status
Cluster UUID : 6104001978967674717:7117835385033814973
Cluster Ready : Yes
Resiliency Health : HEALTHY
Operational Status : ONLINE
ZK Quorum Status : ONLINE
ZK Node Failures Tolerable : 1
hxshell:~$ hxcli cluster info
Cluster Name : Medellin
Cluster UUID : 6104001978967674717:7117835385033814973
Cluster State : ONLINE
Cluster Access Policy : Lenient
Space Status : NORMAL
Raw Capacity : 9.8 TiB
Total Capacity : 3.0 TiB
Used Capacity : 31.7 GiB
Free Capacity : 3.0 TiB
Compression Savings : 80.90%
Deduplication Savings : 0.00%
Total Savings : 80.90%
# of Nodes Configured : 3
# of Nodes Online : 3
Data IP Address : 169.254.218.1
Resiliency Health : HEALTHY
Policy Compliance : COMPLIANT
Data Replication Factor : 3 Copies
# of node failures tolerable : 1
# of persistent device failures tolerable : 2
# of cache device failures tolerable : 2
Zone Type : Unknown
All Flash : No
相關資訊
HyperFlex節點重新部署工作流