简介
本文档介绍如何排除Hyperflex群集的常见Intersight运行状况检查故障。
先决条件
要求
Cisco 建议您了解以下主题:
- 基本了解网络时间协议(NTP)和域名系统(DNS)。
- 基本了解Linux命令行。
- 对VMware ESXi的基本了解。
- 对VI文本编辑器有基本的了解。
- Hyperflex集群操作。
使用的组件
本文档中的信息基于:
Hyperflex数据平台(HXDP)5.0.(2a)及更高版本
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
背景信息
Cisco Intersight能够在Hyperflex集群上运行一系列测试,以确保集群的运行状况在日常操作和维护任务中处于最佳状态。
从HX 5.0(2a)开始,Hyperflex在Hyperflex命令行中引入具有升级权限的拨号用户帐户,以进行故障排除。 使用SSH作为管理用户连接到Hyperflex集群管理IP(CMIP),然后切换到拨号用户。
HyperFlex StorageController 5.0(2d)
admin@192.168.202.30's password:
This is a Restricted shell.
Type '?' or 'help' to get the list of allowed commands.
hxshell:~$ su diag
Password:
____ __ _____ _ _ _ _____
| ___| / /_ _ | ____(_) __ _| |__ | |_ |_ _|_ _____
|___ \ _____ | '_ \ _| |_ | _| | |/ _` | '_ \| __| _____ | | \ \ /\ / / _ \
___) | |_____| | (_) | |_ _| | |___| | (_| | | | | |_ |_____| | | \ V V / (_) |
|____/ \___/ |_| |_____|_|\__, |_| |_|\__| |_| \_/\_/ \___/
|___/
Enter the output of above expression: 5
Valid captcha
diag#
故障排除
修复ESXi VIB检查“安装的某些VIB正在使用已弃用的vmkAPI”
升级到ESXi 7.0及更高版本时,Intersight确保Hyperflex群集中的ESXi主机没有基于旧版vmkapi的依赖关系构建的驱动程序。VMware提供受影响的vSphere安装包(VIB)的列表,并在本文中描述此问题:KB 78389
登录到Hyperflex Connect Web用户界面(UI),然后导航到系统信息。单击Nodes并选择Hyperflex(HX)节点。然后,单击Enter HX Maintenance Mode。
使用SSH客户端连接到ESXi主机的管理IP地址。然后,使用以下命令确认ESXi主机上的VIB:
esxcli software vib list
使用以下命令删除VIB:
esxcli software vib remove -n driver_VIB_name
重新启动ESXi主机。重新联机后,从HX Connect中选择HX node,然后单击Exit HX Maintenance Mode。
等待HX集群变为正常。然后,对集群中的其他节点执行相同步骤。
Fix vMotion Enabled “VMotion is Disabled on the ESXi Host”
此检查可确保在HX集群中的所有ESXi主机上启用vMotion。在vCenter中,每个ESXi主机必须有一个虚拟交换机(vSwitch)以及一个vMotion的vmkernel接口。
使用SSH作为管理用户连接到Hyperflex集群管理IP(CMIP),然后运行以下命令:
hx_post_install
选择选项1以配置vMotion:
admin@SpringpathController:~$ hx_post_install
Select hx_post_install workflow-
1. New/Existing Cluster
2. Expanded Cluster (for non-edge clusters)
3. Generate Certificate
Note: Workflow No.3 is mandatory to have unique SSL certificate in the cluster. By Generating this certificate, it will replace your current certificate. If you're performing cluster expansion, then this option is not required.
Selection: 1
Logging in to controller HX-01-cmip.example.com
HX CVM admin password:
Getting ESX hosts from HX cluster...
vCenter URL: 192.168.202.35
Enter vCenter username (user@domain): administrator@vsphere.local
vCenter Password:
Found datacenter HX-Clusters
Found cluster HX-01
post_install to be run for the following hosts:
HX-01-esxi-01.example.com
HX-01-esxi-02.example.com
HX-01-esxi-03.example.com
Enter ESX root password:
Enter vSphere license key? (y/n) n
Enable HA/DRS on cluster? (y/n) y
Successfully completed configuring cluster HA.
Disable SSH warning? (y/n) y
Add vmotion interfaces? (y/n) y
Netmask for vMotion: 255.255.254.0
VLAN ID: (0-4096) 208
vMotion MTU is set to use jumbo frames (9000 bytes). Do you want to change to 1500 bytes? (y/n) y
vMotion IP for HX-01-esxi-01.example.com: 192.168.208.17
Adding vmotion-208 to HX-01-esxi-01.example.com
Adding vmkernel to HX-01-esxi-01.example.com
vMotion IP for HX-01-esxi-02.example.com: 192.168.208.18
Adding vmotion-208 to HX-01-esxi-02.example.com
Adding vmkernel to HX-01-esxi-02.example.com
vMotion IP for HX-01-esxi-03.example.com: 192.168.208.19
Adding vmotion-208 to HX-01-esxi-03.example.com
Adding vmkernel to HX-01-esxi-03.example.com
注意:对于使用HX安装程序部署的Edge群集,需要从HX安装程序CLI运行hx_post_install脚本。
修复vCenter连接检查“vCenter连接检查失败”
使用SSH作为管理用户连接到Hyperflex集群管理IP(CMIP),然后切换到diag用户。确保使用以下命令将HX集群注册到vCenter:
diag# hxcli vcenter info
Cluster Name : San_Jose
vCenter Datacenter Name : MX-HX
vCenter Datacenter ID : datacenter-3
vCenter Cluster Name : San_Jose
vCenter Cluster ID : domain-c8140
vCenter URL : 10.31.123.186
vCenter URL必须显示vCenter服务器的IP地址或完全限定域名(FQDN)。如果它未显示正确的信息,请使用以下命令通过vCenter重新注册HX集群:
diag# stcli cluster reregister --vcenter-datacenter MX-HX --vcenter-cluster San_Jose --vcenter-url 10.31.123.186 --vcenter-user administrator@vsphere.local
Reregister StorFS cluster with a new vCenter ...
Enter NEW vCenter Administrator password:
Cluster reregistration with new vCenter succeeded
使用以下命令确保HX CMIP和vCenter之间连通:
diag# nc -uvz 10.31.123.186 80
Connection to 10.31.123.186 80 port [udp/http] succeeded!
diag# nc -uvz 10.31.123.186 443
Connection to 10.31.123.186 443 port [udp/https] succeeded!
修复程序状态检查“清理程序检查失败”
使用SSH作为管理用户连接到Hyperflex CMIP,然后切换到拨号用户。运行以下命令以标识未运行清除程序服务的节点:
diag# stcli cleaner info
{ 'type': 'node', 'id': '7e83a6b2-a227-844b-87fb-f6e78e6a59be', 'name': '172.16.1.6' }: ONLINE
{ 'type': 'node', 'id': '8c83099e-b1e0-6549-a279-33da70d09343', 'name': '172.16.1.8' }: ONLINE
{ 'type': 'node', 'id': 'a697a21f-9311-3745-95b4-5d418bdc4ae0', 'name': '172.16.1.7' }: OFFLINE
在这种情况下,172.16.1.7是存储控制器虚拟机(SCVM)的IP地址,清除程序未在该虚拟机上运行。 使用SSH连接到集群中每个SCVM的管理IP地址,然后使用以下命令查找eth1的IP地址:
diag# ifconfig eth1
eth1 Link encap:Ethernet HWaddr 00:0c:29:38:2c:a7
inet addr:172.16.1.7 Bcast:172.16.255.255 Mask:255.255.0.0
UP BROADCAST RUNNING MULTICAST MTU:9000 Metric:1
RX packets:1036633674 errors:0 dropped:1881 overruns:0 frame:0
TX packets:983950879 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:723797691421 (723.7 GB) TX bytes:698522491473 (698.5 GB)
使用以下命令在受影响的节点上启动清除程序服务:
diag# sysmtool --ns cleaner --cmd start
修复NTP服务状态“NTPD服务状态为DOWN”
使用SSH作为管理用户连接到HX CMIP,然后切换到拨号用户。运行此命令以确认NTP服务已停止。
diag# service ntp status
* NTP server is not running
如果NTP服务未运行,请运行此命令以启动NTP服务。
diag# priv service ntp start
* Starting NTP server
...done.
修复NTP服务器可达性“NTP服务器可达性检查失败”(Fix NTP Server Reachability Check Failed)
使用SSH作为管理用户连接到HX CMIP,然后切换到拨号用户。确保HX集群已配置可访问的NTP服务器。运行此命令可显示集群中的NTP配置。
diag# stcli services ntp show
10.31.123.226
确保HX集群中的每个SCVM与端口123上的NTP服务器之间存在网络连接。
diag# nc -uvz 10.31.123.226 123
Connection to 10.31.123.226 123 port [udp/ntp] succeeded!
如果集群中配置的NTP服务器不再使用,您可以在集群中配置不同的NTP服务器。
stcli services ntp set NTP-IP-Address
警告:stcli services ntp set覆盖集群中的当前NTP配置。
修复DNS服务器可达性“DNS可达性检查失败”
使用SSH作为管理用户连接到HX CMIP,然后切换到拨号用户。确保HX集群已配置了可访问的DNS服务器。运行此命令可显示集群中的DNS配置。
diag# stcli services dns show
10.31.123.226
确保HX集群中的每个SCVM与端口53上的DNS服务器之间存在网络连接。
diag# nc -uvz 10.31.123.226 53
Connection to 10.31.123.226 53 port [udp/domain] succeeded!
如果集群中配置的DNS服务器不再使用,您可以在集群中配置不同的DNS服务器。
stcli services dns set DNS-IP-Adrress
警告:stcli services dns set覆盖集群中的当前DNS配置。
修复控制器VM版本“ESXi主机上的设置文件中缺少控制器VM版本值”
此检查可确保每个SCVM在配置文件中包含guestinfo.stctlvm.version = "3.0.6-3"。
登录HX Connect并确保集群正常运行。
使用根帐户的SSH连接到集群中的每台ESXi主机。然后,运行此命令
[root@San-Jose-Server-1:~] grep guestinfo /vmfs/volumes/SpringpathDS-FCH2119V1NH/stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx
guestinfo.stctlvm.version = "3.0.6-3"
guestinfo.stctlvm.configrdm = "False"
guestinfo.stctlvm.hardware.model = "HXAF240C-M4SX"
guestinfo.stctlvm.role = "storage"
注意:集群上的datastore名称和SCVM名称可以不同。可以键入Spring,然后按Tab键自动完成Datastore名称。对于SCVM名称,可以键入stCtl,然后按Tab键自动完成SCVM名称。
如果SCVM的配置文件不包括guestinfo.stctlvm.version = "3.0.6-3",请登录vCenter并选择SCVM。单击Actions,导航到Power,然后选择Shut Down Guest OS以正常关闭SCVM。
在ESXi命令行界面(CLI)中,使用以下命令创建SCVM配置文件的备份:
cp /vmfs/volumes/SpringpathDS-FCH2119V1NH/stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx /vmfs/volumes/SpringpathDS-FCH2119V1NH/stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx.bak
然后,运行此命令以打开SCVM的配置文件:
[root@San-Jose-Server-1:~] vi /vmfs/volumes/SpringpathDS-FCH2119V1NH/stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx
按I键编辑文件,然后导航到文件末尾并添加以下行:
guestinfo.stctlvm.version = "3.0.6-3"
按ESC键并键入:wq以保存更改。
使用命令vim-cmd vmsvc/getallvms确定SCVM的虚拟机ID(VMID),并重新加载SCVM的配置文件:
[root@San-Jose-Server-1:~] vim-cmd vmsvc/getallvms
Vmid Name File Guest OS Version Annotation
1 stCtlVM-FCH2119V1NH [SpringpathDS-FCH2119V1NH] stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx ubuntu64Guest vmx-15
[root@San-Jose-Server-1:~] vim-cmd vmsvc/reload 1
使用以下命令重新加载并打开SCVM的电源:
[root@San-Jose-Server-1:~] vim-cmd vmsvc/reload 1
[root@San-Jose-Server-1:~] vim-cmd vmsvc/power.on 1
您必须等待HX集群再次恢复正常,然后才能进入下一个SCVM。
在受影响的SCVM上逐个重复相同的过程。
最后,使用SSH登录每个SCVM并切换以诊断用户帐户。使用以下命令,一次重新启动stMgr一个节点:
diag# priv restart stMgr
stMgr start/running, process 22030
在移至下一个SCVM之前,请确保stMgr可使用此命令完全运行:
diag# stcli about
Waiting for stmgr management server on port 9333 to get ready . .
productVersion: 5.0.2d-42558
instanceUuid: EXAMPLE
serialNumber: EXAMPLE,EXAMPLE,EXAMPLE
locale: English (United States)
apiVersion: 0.1
name: HyperFlex StorageController
fullName: HyperFlex StorageController 5.0.2d
serviceType: stMgr
build: 5.0.2d-42558 (internal)
modelNumber: HXAF240C-M4SX
displayVersion: 5.0(2d)
相关信息