簡介
本文檔介紹用於成功運行HyperFlex集群升級過程的最佳實踐。
s
必要條件
需求
思科建議瞭解以下主題:
- 整合運算系統管理員(UCSM)
- 思科整合式管理控制器(CIMC)
- HyperFlex
- 整合式Elastic Sky X (ESXi)
- vCenter
- Intersight
採用元件
- HyperFlex連線4.5(2e)
- UCSM 4.2.(1f)
- Intersight
- vCenter 7.0 U3
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
升級前步驟
版本選擇
所選目標版本的決定取決於HyperFlex環境需求。其目的是改進、修復和利用舊版的新軟體。
閱讀HyperFlex版本說明以辨識新功能、新支援的硬體、元件之間的互通性、準則、限制、安全性修正以及已解決的警告等資訊。
若要檢查版本說明資訊,請按一下這裡。
相容性
在執行Hyperflex叢集升級之前,請確認所有版本皆相容。思科建議:
- 驗證HyperFlex、統一計算系統(UCS)和ESXi/vCenter版本的互操作性。
- 檢查目標HyperFlex目標版本支援的所有硬體型號。
- 有關Cisco HyperFlex軟體要求和建議的資訊,請參閱此處。
- 此處列出的所有UCS和VMware版本均由Cisco提出建議並經過嚴格測試。
- 思科建議使用一些更可靠且經過嚴格測試的HyperFlex版本。
- 建議的HyperFlex版本可以使用金星號來找到,請檢視此處。
升級指南
檢視提供要執行的分步說明的Cisco HyperFlex升級指南。
這些指南提供不同情境型別的相關資訊,例如:
- 組合升級。涉及升級所有HyperFlex群集元件
- 個別升級。 涉及升級其中一個HyperFlex群集元件
- 離線升級。是否需要關閉HyperFlex叢集?
- 升級工作流程,視叢集型別而定(標準、鏈結、邊緣)
- 您可以在此處找到升級指南。
- 如果集群是使用Cisco Intersight部署的,請使用Intersight。請檢視此處的指南。
考量
- 思科建議在工作流程流量較低的時段或維護時段執行線上升級。
- 完成升級所需的時間是群集大小的相關性。
- 請考慮離線升級需要所有來賓虛擬機器器(VM)離線。
- 思科建議監控新可用版本的HyperFlex版本說明,以避免目前版本被用作壽命終止(EOL)。
- 請檢視此處的Cisco HyperFlex發行版本註釋指南。
升級前工具
在HyperFlex升級執行前執行狀況檢查,以更正可能的失敗並避免升級期間的意外行為。
有兩種不同的方法可以執行這些運行狀況檢查。
超檢查
此工具是對HyperFlex系統進行主動自我檢查以確保其穩定性和恢復能力的實用程式。
Hypercheck指南資訊可在此找到。
Intersight運行狀況檢查
這是建議的預檢查方法。它會定期更新,以包括易於檢測潛在錯誤配置的新故障排除功能。
它會及時發現新發現的警告,這些警告會在升級過程中帶來不便。Intersight HealthCheck指南資訊可在此找到。
Intersight HealthCheck演示
步驟 1.登入Intersight 並導航到基礎架構服務,然後選擇HyperFlex Clusters並選擇Cluster。
示例顯示了名為San_Jose的群集。在「操作」下拉選單中,選擇「運行運行狀況檢查」。
注意:此範例顯示單一叢集上執行的狀況檢查。您可以同時選取並執行多個叢集上的狀況檢查。
確認您的集群,然後按一下Next。
工作流程可讓您視需要略過某些檢查。
步驟 2.按一下Start開始預檢查。
檢查進度列並等待HealthCheck任務完成。
步驟 3. 完成HealthCheck任務後,可以在幾個位置檢查結果。
運行狀況檢查頁籤顯示一般結果。該示例已過濾為no-show Passed和Not Run結果。
步驟 4.按一下受影響的節點驗證有問題的節點。
在Overview頁籤中,選中Events:Alarms、Requests和Advisories。
展開每個事件以瞭解更多詳細資訊。
示例顯示請求已展開,請按一下Run Selected Hypercheck Health Checks Failed。
它會顯示所有成功和失敗的檢查。
步驟 5.按一下Show Additional Details的切換。
每個Invoke Check都可以展開,從而提供已檢查內容的精細檢視。
它以JSON格式提供日誌、輸入和輸出的詳細資訊。
教學影片
檢查影片。
Intersight運行狀況檢查影片。
注意:某些修復需要技術支援中心(TAC)干預。如有必要,請建立案例。
重要驗證
刪除UCSM上未使用的包
UCS Manager韌體管理器需要將UCS韌體包下載到交換矩陣互聯引導快閃記憶體分割槽中。 檢查並刪除元件上不再使用的舊韌體套件,以避免將不必要的檔案填滿網狀架構互連開機快閃磁碟分割。
驗證交換矩陣互聯空間。
步驟 1.導航到裝置,選擇矩陣互聯,然後選擇矩陣互聯。該示例顯示了交換矩陣互聯A(主)。
步驟 2.在常規面板上,選擇本地儲存資訊並展開它。
驗證上游交換機上是否啟用了生成樹埠(STP) PortFast
如果上游交換機支援STP PortFast命令,則強烈建議啟用該命令。 啟用PortFast功能會導致交換機或中繼埠立即或在一個linkup事件時進入STP轉發狀態,從而繞過偵聽和學習狀態。
PortFast功能在埠級別啟用,並且此埠可以是物理埠或邏輯埠。
交換矩陣互聯埠或介面卡上的物理埠錯誤
在UCSM上驗證與上行鏈路或伺服器埠上的埠錯誤相關的任何故障,以避免出現不希望發生的故障轉移情況。
步驟 1.登入UCSM並導航到Equipment頁籤,展開Rack-Mounts,然後展開Servers。示例顯示了伺服器1。
步驟 2.展開Adapters,然後展開NICs。
步驟 3.驗證每個網路介面卡(NIC)是否乾淨。
在標準集群和擴展集群的上游配置儲存資料VLAN
需要在上游裝置上配置儲存資料VAN,以確保在交換矩陣互聯B發生故障時完成故障切換。
確保您符合HyperFlex安裝指南中列出的所有要求。
MTU和故障切換
確保虛擬機器器網路介面卡(vmnic)上的兩條路徑的網路連線流。
使用本指南,確認已根據UCS策略正確配置了正確的NIC組。
在基礎架構升級期間,請等待ESXi上行鏈路啟動,然後再重新啟動其他交換矩陣互聯。
執行測試升級資格
從Cisco HyperFlex版本4.0(2a)開始,「升級」(Upgrade)頁面將顯示上次集群升級資格測試結果,以及UCS伺服器、HX資料平台和/或ESXi的上次測試版本。
要執行升級資格測試,請登入HX Connect:
步驟 1.選擇Upgrade > Test Upgrade Elitability。
步驟 2.選中UCS Server Firmware覈取方塊以測試UCS伺服器韌體的升級資格。
步驟 3.輸入Cisco UCS Manager完全限定域名(FQDN)或IP地址、使用者名稱和密碼。在Current Version欄位中,點選Discover以選擇升級前需要驗證的UCS韌體包版本。
步驟 4.選中HX Data Platform覈取方塊以測試HyperFlex資料平台的升級資格。
步驟 5.輸入vCenter使用者名稱和密碼。上傳升級前需要驗證的Cisco HyperFlex資料平台升級捆綁包。
步驟 6.選中ESXi覈取方塊以測試ESXi的升級資格。
步驟 7.輸入vCenter管理員使用者名稱和密碼。上傳升級前需要驗證的Cisco HyperFlex自定義映像離線捆綁包
步驟 8.按一下「驗證」。
步驟 9.將顯示升級資格測試的進度。
驗證使用者和密碼
驗證以下的密碼:
- vCenter管理員
- ESXi根目錄
- 儲存控制器虛擬機器器(SCVM)管理員和根
驗證進入維護模式
確保在維護模式操作期間,主機上運行的虛擬機器可遷移到另一台主機。如果VM無法遷移,則需要關閉電源。如果VM不會自動遷移,但可以手動遷移,請檢查是否存在任何與DRS相關的問題。
驗證是否已啟用DRS,並設定為完全自動化(如果授權使用DRS)。如果DRS已停用,則在升級過程提示時,需要手動干預以手動啟動VM。
有關詳細資訊,請參閱VMware指南。
驗證vMotion配置
確認vMotion已正確配置以避免無法完成的維護模式任務。
有關vMotion故障排除的更多資訊,請在此檢視。
驗證已在群集上啟用EVC (增強型VMotion相容性)。
步驟 1.登入到VMware vCenter,然後導航到Home and Clusters。
步驟 2.點選vCenter集群。本示例顯示名為San_Jose的集群。
步驟 3.選擇Configure,在Configuration下按一下VMware EVC,然後選擇EDIT。
步驟 4.確保將所用相應處理器的EVC模式更改為Enabled。
驗證虛擬機器(VM)中的關聯規則
驗證在訪客VM上是否建立了任何關聯規則。
步驟 1.從VMware vCenter轉到群集。
步驟 2.導覽至Home and Clusters。本示例顯示名為San_Jose的集群。
步驟 3.選擇Configure。在配置下,選擇VM/主機規則,並驗證是否建立了任何規則。
ESXi Agent Manager (EAM)
從HXDP 5.0(x)及更高版本開始,EAM不再用於ESXi主機管理SCVM網路和資料儲存。
從HXDP 5.0(x)和早期版本開始,網路和資料儲存庫需要有SCVM資訊。
驗證ESXi Agent Manager (EAM)運行正常。
步驟 1.登入到VMware vCenter。
步驟 2.導航到Home和Clusters,然後導航到每個ESXi節點。
步驟 3.在VMware vCenter群集上,導航到配置,然後從虛擬機器中選擇代理VM設定。
此範例顯示空格,因為HyperFlex叢集範例位於5.0(2c)上
如果使用了EAM,請確認vCenter上未顯示任何證書錯誤。
更多EAM資訊可在此找到
vCenter和ESXi許可證
如果從6.x升級到7.0,請確保在升級前擁有新的許可證。
升級後,您只有60天處於評估模式。
SSH建議
HXUSER鎖定
嘗試登入失敗可能會導致ESXi使用者被鎖定。
驗證hxuser或root使用者狀態
步驟 1.在ESXi節點中以root身份打開SSH會話。
步驟 2.運行pam_tally2 —user hxuser(或root使用者)。
步驟 3.確定hxuser或root已經鎖定。
[root@esxi1:~] pam_tally2 --user hxuser
Login Failures Latest failure From
hxuser 0
[root@esxi1:~] pam_tally2 --user root
Login Failures Latest failure From
root 0
[root@esxi1:~]
要解鎖提及的ESXi使用者,請執行以下操作:
步驟 1.運行pam_tally2 —user hxuser —reset(或root使用者)。
步驟 2.確保「Failures(失敗)」計數減少到0。
[root@esxi1:~] pam_tally2 --user hxuser --reset
Login Failures Latest failure From
hxuser 0
[root@esxi1:~] pam_tally2 --user root --reset
Login Failures Latest failure From
root 0
鎖定模式或停止
提高ESXi主機的安全性需要您啟用鎖定模式。此配置可阻止因為HyperFlex群集升級必須停用鎖定模式而進行的HyperFlex升級。
要停用ESXi鎖定模式:
步驟 1.將SSH作為root直接運行到ESXi主機。
步驟 2.按F2進行初始設定。
步驟 3.輸入根憑證以開啟DUCI設定。
步驟 4.轉到Configure Lockdown Modesetting並將它更改為disabled。
要從vCenter停用鎖定模式,
步驟 1.瀏覽到vSphere Web客戶端清單中的主機。
步驟 2.按一下「管理」標籤,然後按一下「設定」。(對於6.7,按一下「配置」(Configuretab)頁籤)。
步驟 3.在「系統」下,選擇「安全配置檔案」。
步驟 4.在「鎖定模式」面板中,按一下「編輯」。
步驟 5.按一下「鎖定模式」並選取其中一個鎖定模式選項。
有關鎖定模式的詳細資訊,請參閱此處
複製
如果已配置並啟用複製,則需要在升級前暫停複製。
使用run stcli dp schedule pause命令暫停複製,並在升級後使用stcli dp schedule resume命令啟用複製。
磁碟機故障
驅動器故障導致HyperFlex群集升級失敗。若要檢查HyperFlex Connect GUI中是否有「已封鎖」或「已忽略」的磁碟:
步驟 1.打開HyperFlex連線GUI,轉到https://<HyperFlex-virtual-ip-addres或fqdn>。
步驟 2.轉至System Information,然後選擇System Overview頁籤。
步驟 3.檢查是否有任何磁碟錯誤。
磁碟問題需要由Cisco TAC修復。
先前的主機板更換、重新部署和節點移除
主機板更換還會導致用新的ID替換以前的主機UID,如果在更換任務期間出現一些問題,UID不匹配可能會導致HyperFlex升級失敗。
注意: Intersight HealtCheck建議ID不匹配,強烈建議將HyperFlex群集連線到Intersight並運行HyperFlex群集運行狀況檢查。
要更換主機板,請比較ESXi CLI中的stNode UUID,確保UUID資訊與Hyperflex群集中的UUID匹配。
收集UID:
步驟 1.以根使用者身份打開到ESXi節點的SSH會話。
步驟 2.運行此命令:hostsvc/hostsumm | grep -i uuid | grep -v例項。
步驟 3.收集UUID資訊。
[root@esxi2:~] vim-cmd hostsvc/hostsumm | grep -i uuid | grep -v inst
uuid = "1f82077d-6702-214d-8814-e776ffc0f53c", <----- ESXi2 ID
[root@esxi2:~]
[root@esxi2:~]
若要取得HyperFlex叢集節點上的UUID資訊:
步驟 1.對HyperFlex群集IP地址運行SSH。
步驟 2.運行命令stcli cluster info | 還有.
步驟 3.收集stNodes ID。
hxshell:~$ stcli cluster info | more
stNodes:
----------------------------------------
id: c4a24480-e935-6942-93ee-987dc8e9b5d9
type: node
name: esxi1
----------------------------------------
id: 1f82077d-6702-214d-8814-e776ffc0f53c <----- ID for ESXi2
type: node
name: esxi2
----------------------------------------
id: 50a5dc5d-c419-9c48-8914-d91a98d43fe7
type: node
name: esxi3
----------------------------------------
確保stcli cluster info ID與ESXi節點上顯示的資訊匹配。
HX和vCenter中的不匹配
驗證vCenter資訊(如HyperFlex群集上的Datacenter、群集和Datastore名稱)是否與vCenter匹配。資訊不相符會導致HyperFlex叢集升級失敗。
若要取得最新資訊,請執行下列動作:
步驟 1.以admin身份運行SSH進入HyperFlex集群IP。
步驟 2.運行stcli cluster info | grep -i vcenter。
步驟 3.收集群集中已註冊的vCenter資訊。
hxshell:~$ stcli cluster info | grep -i vcenter
vCenterClusterName: vcenter-cluster
vCenterDatacenter: hx-cluster-name
vCenterURL: https://vcenter-url
vCenterDatacenterId: datacenter-name
vCenterClusterId: domain-c5124
vCenterUrl: https://vcenter-url
vCenterVersion: 7.0.2 Build-18455184
HyperFlex vCenter重新註冊
請考慮名稱區分大小寫。如果先前輸出的名稱和vCenter資訊不匹配,則需要重新註冊vCenter。
要將vCenter重新註冊到Hyperflex集群,請此處檢查vCenter註冊影片
要重新註冊Vcenter:
步驟 1.以admin身份對群集IP地址運行SSH。
步驟 2.運行stcli cluster reregister命令。
stcli cluster reregister [-h] --vcenter-datacenter NEWDATACENTER --vcenter-cluster NEWVCENTERCLUSTER --vcenter-url NEWVCENTERURLIP [--vcenter-sso-url NEWVCENTERSSOURL] --vcenter-user NEWVCENTERUSER
hxshell:~$ stcli cluster reregister --vcenter-datacenter MyData-Center --vcenter-cluster Cluster-Name --vcenter-url https://vcenter1-url --vcenter-user <vCenter user>
Reregister StorFS cluster with a new vCenter ...
Enter NEW vCenter Administrator password:
Cluster reregistration with new vCenter succeeded
hxshell:~$
相關資訊