簡介
本文描述如何排除Hyperflex群集的常見Intersight運行狀況檢查故障。
必要條件
需求
思科建議您瞭解以下主題:
- 基本瞭解網路時間協定(NTP)和域名系統(DNS)。
- 對Linux命令列有基礎認識。
- 對VMware ESXi有基礎認識。
- 對VI文本編輯器有基礎認識。
- Hyperflex集群操作。
採用元件
本檔案中的資訊是根據:
Hyperflex資料平台(HXDP)5.0.(2a)及更高版本
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
背景資訊
Cisco Intersight能夠在Hyperflex群集上運行一系列測試,以確保群集運行狀況在日常操作和維護任務中處於最佳狀態。
從HX 5.0(2a)開始,Hyperflex在Hyperflex命令列中引入具有升級許可權的撥號使用者帳戶,以進行故障排除。 使用SSH作為管理使用者連線到Hyperflex群集管理IP(CMIP),然後切換到撥號使用者。
HyperFlex StorageController 5.0(2d)
admin@192.168.202.30's password:
This is a Restricted shell.
Type '?' or 'help' to get the list of allowed commands.
hxshell:~$ su diag
Password:
____ __ _____ _ _ _ _____
| ___| / /_ _ | ____(_) __ _| |__ | |_ |_ _|_ _____
|___ \ _____ | '_ \ _| |_ | _| | |/ _` | '_ \| __| _____ | | \ \ /\ / / _ \
___) | |_____| | (_) | |_ _| | |___| | (_| | | | | |_ |_____| | | \ V V / (_) |
|____/ \___/ |_| |_____|_|\__, |_| |_|\__| |_| \_/\_/ \___/
|___/
Enter the output of above expression: 5
Valid captcha
diag#
疑難排解
修復ESXi VIB檢查「安裝的某些VIB正在使用已棄用的vmkAPI」
升級到ESXi 7.0及更高版本時,Intersight可以確保Hyperflex群集中的ESXi主機沒有基於舊版vmkapi的依賴關係構建的驅動程式。VMware提供受影響的vSphere安裝包(VIB)的清單,並在本文中說明此問題:KB 78389
登入到Hyperflex Connect Web使用者介面(UI),然後導航至系統資訊。按一下Nodes並選擇Hyperflex(HX)節點。然後,按一下Enter HX Maintenance Mode。
使用SSH客戶端連線到ESXi主機的管理IP地址。然後,使用以下命令確認ESXi主機上的VIB:
esxcli software vib list
使用以下命令刪除VIB:
esxcli software vib remove -n driver_VIB_name
重新啟動ESXi主機。重新聯機後,從HX Connect中選擇HX node,然後按一下退出HX Maintenance Mode。
等待HX群集變為正常狀態。然後,對群集中的其他節點執行相同的步驟。
Fix vMotion Enabled「VMotion is Disabled on the ESXi Host」(在ESXi主機上已禁用vMotion修復)
此檢查可確保在HX群集中的所有ESXi主機上啟用vMotion。在vCenter中,每個ESXi主機都必須具有虛擬交換機(vSwitch)以及vMotion的vmkernel介面。
使用SSH作為管理使用者連線到Hyperflex群集管理IP(CMIP),然後運行以下命令:
hx_post_install
選擇選項1配置vMotion:
admin@SpringpathController:~$ hx_post_install
Select hx_post_install workflow-
1. New/Existing Cluster
2. Expanded Cluster (for non-edge clusters)
3. Generate Certificate
Note: Workflow No.3 is mandatory to have unique SSL certificate in the cluster. By Generating this certificate, it will replace your current certificate. If you're performing cluster expansion, then this option is not required.
Selection: 1
Logging in to controller HX-01-cmip.example.com
HX CVM admin password:
Getting ESX hosts from HX cluster...
vCenter URL: 192.168.202.35
Enter vCenter username (user@domain): administrator@vsphere.local
vCenter Password:
Found datacenter HX-Clusters
Found cluster HX-01
post_install to be run for the following hosts:
HX-01-esxi-01.example.com
HX-01-esxi-02.example.com
HX-01-esxi-03.example.com
Enter ESX root password:
Enter vSphere license key? (y/n) n
Enable HA/DRS on cluster? (y/n) y
Successfully completed configuring cluster HA.
Disable SSH warning? (y/n) y
Add vmotion interfaces? (y/n) y
Netmask for vMotion: 255.255.254.0
VLAN ID: (0-4096) 208
vMotion MTU is set to use jumbo frames (9000 bytes). Do you want to change to 1500 bytes? (y/n) y
vMotion IP for HX-01-esxi-01.example.com: 192.168.208.17
Adding vmotion-208 to HX-01-esxi-01.example.com
Adding vmkernel to HX-01-esxi-01.example.com
vMotion IP for HX-01-esxi-02.example.com: 192.168.208.18
Adding vmotion-208 to HX-01-esxi-02.example.com
Adding vmkernel to HX-01-esxi-02.example.com
vMotion IP for HX-01-esxi-03.example.com: 192.168.208.19
Adding vmotion-208 to HX-01-esxi-03.example.com
Adding vmkernel to HX-01-esxi-03.example.com
註:對於使用HX Installer部署的邊緣群集,需要從HX Installer CLI運行hx_post_install指令碼。
修復vCenter連線檢查「vCenter連線檢查失敗」
使用SSH作為管理使用者連線到Hyperflex群集管理IP(CMIP),然後切換到撥號使用者。使用以下命令確保HX群集已註冊到vCenter:
diag# hxcli vcenter info
Cluster Name : San_Jose
vCenter Datacenter Name : MX-HX
vCenter Datacenter ID : datacenter-3
vCenter Cluster Name : San_Jose
vCenter Cluster ID : domain-c8140
vCenter URL : 10.31.123.186
vCenter URL必須顯示vCenter伺服器的IP地址或完全限定域名(FQDN)。如果未顯示正確的資訊,請使用以下命令向vCenter重新註冊HX集群:
diag# stcli cluster reregister --vcenter-datacenter MX-HX --vcenter-cluster San_Jose --vcenter-url 10.31.123.186 --vcenter-user administrator@vsphere.local
Reregister StorFS cluster with a new vCenter ...
Enter NEW vCenter Administrator password:
Cluster reregistration with new vCenter succeeded
使用以下命令確保HX CMIP和vCenter之間連通:
diag# nc -uvz 10.31.123.186 80
Connection to 10.31.123.186 80 port [udp/http] succeeded!
diag# nc -uvz 10.31.123.186 443
Connection to 10.31.123.186 443 port [udp/https] succeeded!
修復程式狀態檢查「清除程式檢查失敗」
使用SSH作為管理使用者連線到Hyperflex CMIP,然後切換到撥號使用者。運行此命令以標識未運行清除程式服務的節點:
diag# stcli cleaner info
{ 'type': 'node', 'id': '7e83a6b2-a227-844b-87fb-f6e78e6a59be', 'name': '172.16.1.6' }: ONLINE
{ 'type': 'node', 'id': '8c83099e-b1e0-6549-a279-33da70d09343', 'name': '172.16.1.8' }: ONLINE
{ 'type': 'node', 'id': 'a697a21f-9311-3745-95b4-5d418bdc4ae0', 'name': '172.16.1.7' }: OFFLINE
在這種情況下,172.16.1.7是清除程式未運行的儲存控制器虛擬機器(SCVM)的IP地址。 使用SSH連線到群集中每個SCVM的管理IP地址,然後使用以下命令查詢eth1的IP地址:
diag# ifconfig eth1
eth1 Link encap:Ethernet HWaddr 00:0c:29:38:2c:a7
inet addr:172.16.1.7 Bcast:172.16.255.255 Mask:255.255.0.0
UP BROADCAST RUNNING MULTICAST MTU:9000 Metric:1
RX packets:1036633674 errors:0 dropped:1881 overruns:0 frame:0
TX packets:983950879 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:723797691421 (723.7 GB) TX bytes:698522491473 (698.5 GB)
使用以下命令在受影響的節點上啟動清除程式服務:
diag# sysmtool --ns cleaner --cmd start
修復NTP服務狀態「NTPD服務狀態為關閉」
使用SSH作為管理使用者連線到HX CMIP,然後切換到診斷使用者。運行此命令以確認NTP服務已停止。
diag# service ntp status
* NTP server is not running
如果NTP服務未運行,請運行此命令以啟動NTP服務。
diag# priv service ntp start
* Starting NTP server
...done.
修復NTP伺服器可接通性「NTP伺服器可接通性檢查失敗」
使用SSH作為管理使用者連線到HX CMIP,然後切換到診斷使用者。確保HX群集已配置可訪問NTP伺服器。運行此命令可顯示群集中的NTP配置。
diag# stcli services ntp show
10.31.123.226
確保HX群集中的每個SCVM與埠123上的NTP伺服器之間存在網路連線。
diag# nc -uvz 10.31.123.226 123
Connection to 10.31.123.226 123 port [udp/ntp] succeeded!
如果群集中配置的NTP伺服器不再使用,您可以在群集中配置不同的NTP伺服器。
stcli services ntp set NTP-IP-Address
警告:stcli services ntp set overwrite the current NTP configuration in the cluster。
修復DNS伺服器可達性「DNS可達性檢查失敗」(DNS Reachability Check Failed)
使用SSH作為管理使用者連線到HX CMIP,然後切換到診斷使用者。確保HX群集已配置可訪問DNS伺服器。運行此命令可顯示群集中的DNS配置。
diag# stcli services dns show
10.31.123.226
確保HX群集中的每個SCVM與埠53上的DNS伺服器之間存在網路連線。
diag# nc -uvz 10.31.123.226 53
Connection to 10.31.123.226 53 port [udp/domain] succeeded!
如果群集中配置的DNS伺服器不再使用,您可以在群集中配置不同的DNS伺服器。
stcli services dns set DNS-IP-Adrress
警告:stcli services dns set overwrite the current DNS configuration in the cluster。
修復控制器VM版本「ESXi主機上的設定檔案中缺少控制器VM版本值」
此檢查可確保每個SCVM在配置檔案中包含guestinfo.stctlvm.version = "3.0.6-3"。
登入HX Connect並確保群集運行正常。
使用SSH和根帳戶連線到群集中的每台ESXi主機。然後運行此命令
[root@San-Jose-Server-1:~] grep guestinfo /vmfs/volumes/SpringpathDS-FCH2119V1NH/stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx
guestinfo.stctlvm.version = "3.0.6-3"
guestinfo.stctlvm.configrdm = "False"
guestinfo.stctlvm.hardware.model = "HXAF240C-M4SX"
guestinfo.stctlvm.role = "storage"
注意:群集上的datastore名稱和SCVM名稱可以不同。可以鍵入Spring,然後按Tab鍵自動完成資料儲存名稱。對於SCVM名稱,可以鍵入stCtl,然後按Tab鍵自動完成SCVM名稱。
如果SCVM的配置檔案不包括guestinfo.stctlvm.version = "3.0.6-3",請登入vCenter並選擇SCVM。按一下Actions,導航至Power,然後選擇Shut Down Guest OS以正常關閉SCVM。
在ESXi命令列介面(CLI)中,使用以下命令建立SCVM配置檔案的備份:
cp /vmfs/volumes/SpringpathDS-FCH2119V1NH/stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx /vmfs/volumes/SpringpathDS-FCH2119V1NH/stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx.bak
然後,運行以下命令開啟SCVM的配置檔案:
[root@San-Jose-Server-1:~] vi /vmfs/volumes/SpringpathDS-FCH2119V1NH/stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx
按I鍵編輯檔案,然後導航到檔案末尾並新增以下行:
guestinfo.stctlvm.version = "3.0.6-3"
按ESC鍵並鍵入:wq以儲存更改。
使用vim-cmd vmsvc/getallvms命令識別SCVM的虛擬機器ID(VMID),並重新載入SCVM的配置檔案:
[root@San-Jose-Server-1:~] vim-cmd vmsvc/getallvms
Vmid Name File Guest OS Version Annotation
1 stCtlVM-FCH2119V1NH [SpringpathDS-FCH2119V1NH] stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx ubuntu64Guest vmx-15
[root@San-Jose-Server-1:~] vim-cmd vmsvc/reload 1
使用以下命令重新載入並開啟SCVM的電源:
[root@San-Jose-Server-1:~] vim-cmd vmsvc/reload 1
[root@San-Jose-Server-1:~] vim-cmd vmsvc/power.on 1
您必須等待HX群集恢復正常,然後才能移動到下一個SCVM。
在受影響的SCVM上逐一重複相同的過程。
最後,使用SSH登入到每個SCVM並切換以診斷使用者帳戶。使用以下命令一次重新啟動stMgr一個節點:
diag# priv restart stMgr
stMgr start/running, process 22030
在移至下一個SCVM之前,請確保stMgr已使用以下命令完全運行:
diag# stcli about
Waiting for stmgr management server on port 9333 to get ready . .
productVersion: 5.0.2d-42558
instanceUuid: EXAMPLE
serialNumber: EXAMPLE,EXAMPLE,EXAMPLE
locale: English (United States)
apiVersion: 0.1
name: HyperFlex StorageController
fullName: HyperFlex StorageController 5.0.2d
serviceType: stMgr
build: 5.0.2d-42558 (internal)
modelNumber: HXAF240C-M4SX
displayVersion: 5.0(2d)
相關資訊