简介
本文档介绍通过Intersight部署Hyperflex集群的常见故障排除场景。
先决条件
要求
Cisco 建议您了解以下主题:
使用的组件
本文档不限于特定的软件和硬件版本。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
背景信息
Intersight安装程序工作流程按照图中所示的任务部署hyperflex集群:
任务名称 |
定义 |
PreparePreClusterInfoTask |
生成包含部署集群所需信息的配置文件(例如,配置文件路径、软件YAML文件)。 |
ServerConfigurationValiationTask |
验证UCS服务器配置,确保其具备所需的硬件和固件配置(例如,磁盘大小/PID验证、正确的NIC等)。 |
PreConfigurationValidationTask |
在服务器配置启动之前验证网络配置(例如,DNS、NTP、vCenter可达性、重复IP检查) |
PrepareLocalImageRepoTask |
将软件映像(控制器VM OVA、hxdp包)下载到本地映像存储。只有在连接的设备环境中运行此任务时,此任务才会包含在工作流程中。 |
服务器配置任务 |
在UCS服务器上执行所需的配置。对于通过FI连接的部署,这涉及服务配置文件的创建和关联。 |
虚拟机监控程序EsxConfigurationTask |
配置虚拟机监控程序上的网络部分。这包括使用Serial Over Lan将上行链路添加到管理vSwitch并配置IP地址、主机名和DNS/NTP配置。 |
PreDeployValidationTask |
在集群部署开始之前执行验证。验证包括网络可达性检查和节点尚未属于其他群集的验证。 |
PrepareHypervisorDeploymentTask |
为控制器虚拟机(VM)配置准备虚拟机监控程序。从ESXi获取主机信息并确保设置正确的操作系统参数。 |
虚拟机监控程序网络任务 |
配置ESXi主机的网络部分。包括在主机上配置集群运行所需的不同vSwitch/端口组。 |
HypervisorSoftwareUpdateTask |
在虚拟机监控程序上更新软件,如有必要,该软件会包括主机上的所需VIB。 |
HypervisorDatastoreTask |
如果需要,为控制器VM创建datastore。 |
部署HyperflexControllerVm |
如有必要,在虚拟机监控程序上部署存储控制器OVA。 |
ConfigVmTask |
在控制器VM上配置网络部分,包括配置所需参数和数据/管理网络。 |
DeploySoftwareVmTask |
在控制器VM上安装HXDP软件包。 |
CollectNodeInfoTask |
收集节点信息,例如UUID和IP。 |
CollectInventoryDataTask |
将资产数据发送到控制器VM。 |
CreateClusterValidationTask |
执行验证以确保控制器VM已准备好加入集群。包括MTU检查并验证存储服务是否就绪。 |
CreateClusterTask |
创建存储群集并使控制器VM将群集中的所有节点连接在一起。 |
安装后主机配置 |
部署集群后配置主机。包括ESXi密码更改至Hyperflex集群配置文件中提供的新密码。 |
PostInstallStorageControllerVmConfig |
在部署集群后配置控制器VM,包括将控制器VM密码更改为Hyperflex集群配置文件中提供的新密码 |
ClusterAutoClaimTask |
向Intersight用户帐户声明HyperFlex集群。 |
问题
以下是可以在集群部署中找到的常见错误:
验证错误/警告:
- 重复的IP(在同一交换矩阵互联上出错,如果全局重叠,则发出警告)
- 2节点群集创建
- 选择2个复制因子(建议数据复制因子为3)
运行时验证:
- DNS,无法访问NTP
- vCenter无法访问或不正确的凭证
- 管理IP地址已在使用
部署错误:
- 同一第2层域(上行链路交换机)中两个不同集群的相同数据VLAN
- 交叉链路
- ESXi IP配置失败(由于ESXi凭证不正确)
解决方案
根据失败的任务和遇到的错误,您可以执行建议的操作:
无法访问DNS/NTP
Validator_NTP_List, Status Code: 9 (FAILED), Message: There are no reachable NTP servers from list
操作:检查IP(如果不正确),修改策略并重新启动工作流。
vCenter不可达
"vCenter reachability and credential check : vCenter server is not reachable or invalid vCenter credentials."
操作:检查vCenter IP/凭证(如果不正确),修改策略并重新启动工作流。
重复 IP
“IP address x.x.x.x already in use. Please verify there are no duplicate IPs.”
操作:检查IP是否已使用,如果是,请修改策略并重新启动工作流。
与主机的连接失败
failed in Task: 'Connection to host' with Error: 'Host(x.x.x.x) is not reachable via device connector.
Please check the VLAN ID, IP address and gateway settings.'
操作:检查VLAN/IP/网关(如果不正确),修改策略并重新启动工作流。
自动声明失败
"failed to claim the HyperFlex device connector.
This cluster requires continued connectivity to Intersight to ensure Fault Tolerance is maintained.
The cluster cannot tolerate failures until this step is completed. Please check the cluster connectivity to Intersight and perform a manual claim. "
操作:申领设备申领过程中概述的HyperFlex群集,并重新启动工作流程。
无法配置服务器配置文件关联
failed in Task: 'Failed to Configure Server Profile Association
操作:
ESXi IP配置通过CIMC Serial Over LAN通过控制台访问完成。有时CIMC SoL无法使控制台进入登录提示符。通过KVM检查CIMC控制台到ESXi,重置CIMC并重新启动工作流。
任务失败:监控操作系统启动
Configuring CIMC server: failed in Task: 'Failed to Configure Server Profile Association.' with Error: 'failed in Task: 'Monitor OS boot' with Error: 'OS Installation has failed'\"}}}}'
操作:
- 确保ESXi根密码正确
- 对于首次安装,请确保检查出厂默认的密码。
- 要重新安装,请确保取消选中原厂默认密码。
- 检查SoL访问失败。
- 检查设备连接器在操作系统引导期间是否断开连接。
如果是新安装,请确保提供的密码不是默认密码(Cisco123),即使选中了出厂默认密码单选按钮后也是如此。
此操作的结果是安装程序能够登录到ESXi,但无法设置密码,因为默认密码的强度较弱
任务失败:根据Sha1验证OVA
Deploying Storage Controller VM on ESXi host: Failed in Task: “Verify OVA against Sha1"
操作:
- 检查ESXi是否未配置DNS。
- 检查ESXi管理IP子网是否被阻止访问Intersight。
任务失败:将主机添加到vCenter群集
failed in Task: Add host to vCenter Cluster with Error: Try adding host manually to vCenter and retry. failed to add the host x.x.x.x with 3 attempts
操作:
vCenter版本必须高于或等于集群中的所有主机。将vCenter升级到更高或等同于ESXi版本,或将ESXi降级到较低稳定版本。
任务失败:网络存储控制器虚拟机配置失败
failed in Task: 'Check Network for Storage Controller VM Configuration Result' with Error: 'Configure networking failed with error: Error while connecting to ESXi host. Please check the connection and retry'
操作:
EXSI API服务器偶尔不及时响应。
- 检查hostd服务状态以确保正在运行。
- 重新启动ESXi并重试部署。
由于MTU问题,工作流失败
failed in Task: 'Verify Storage Cluster' with Error: 'id: 2 entityRef: id: x.x.x.x name: x.x.x cluster message: Could not ping x.x.x.x with MTU 9000 during failover test.
Verify the VLAN and MTU on the upstream switch is correct prior to continuing. severity: warning'
操作:
并非所有路径都启用巨型帧,当启用巨型帧时,必须在上行链路交换机中配置MTU值9216。 确保MTU已设置为所有路径中的巨型帧,并重新启动工作流
任务失败:正在将软件包复制到存储控制器VM
failed in Task: 'Copying Software Packages to Storage Controller VM(outbound)' with Error: 'Unexpected failure during module execution.
操作:
- 确保存在从SCVM到Intersight的网络连接。
- 检验网络中是否允许所需的端口。
- 有关网络要求,请参阅安装前检查链接。
相关信息