简介
本文档介绍用于成功运行HyperFlex集群升级过程的最佳实践。
s
先决条件
要求
建议掌握下列主题的相关知识:
- 统一计算系统管理器(UCSM)
- 思科集成管理控制器(CIMC)
- HyperFlex
- 集成Elastic Sky X (ESXi)
- vCenter
- Intersight
使用的组件
- HyperFlex Connect 4.5(2e)
- UCSM 4.2.(1f)
- Intersight
- vCenter 7.0 U3
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
升级前步骤
版本选择
对所选目标版本的决策取决于HyperFlex环境需求。其目的是改进、修复和利用旧版软件中的新软件。
阅读HyperFlex版本说明,了解新功能、新支持的硬件、组件之间的互操作性、指南、限制、安全修复以及已解决的警告等信息。
要检查版本说明信息,请单击此处。
兼容性
在运行Hyperflex集群升级之前,请确认所有版本均兼容。思科建议:
- 验证HyperFlex、统一计算系统(UCS)和ESXi/vCenter版本的互操作性。
- 检查目标HyperFlex目标版本支持的所有硬件型号。
- 有关Cisco HyperFlex软件的要求和建议,请参阅此处。
- 此处列出的所有UCS和VMware版本均由思科提供建议并进行严格测试。
- 思科建议使用一些更可靠且经过严格测试的HyperFlex版本。
- 建议的HyperFlex版本可以使用金星形图找到,请查看此处。
升级指南
查看提供要执行的分步说明的Cisco HyperFlex升级指南。
这些指南提供有关不同类型的场景的信息,例如:
- 组合升级。涉及升级所有HyperFlex集群组件
- 单独升级。 涉及升级其中一个HyperFlex集群组件
- 离线升级。是否需要HyperFlex集群关闭。
- 根据群集类型(标准、流、边缘)升级工作流程
- 升级指南可在此处找到。
- 如果集群是使用Cisco Intersight部署的,请使用Intersight。此处查看指南。
考虑事项
- 思科建议在低工作流量时段或维护时段执行在线升级。
- 完成升级所需的时间是集群大小的相关性。
- 请考虑离线升级要求所有访客虚拟机(VM)离线。
- 思科建议监控新可用版本的HyperFlex版本说明,以避免当前版本被用作寿命终止(EOL)。
- 请查看此处的思科HyperFlex发行版本注释指南。
升级前工具
在HyperFlex升级运行之前执行运行状况检查,以更正潜在故障并避免升级过程中的意外行为。
执行这些运行状况检查有两种不同的方法。
超级检查
此工具是对HyperFlex系统进行主动自检以确保其稳定性和恢复能力的实用程序。
有关超级检查指南信息,请此处找到。
Intersight运行状况检查
这是建议的预检查方法。它会定期更新,以包括新的故障排除功能,这些功能可以轻松检测潜在的错误配置。
它会及时发现新发现的警告,这些警告会在升级过程中带来不便。Intersight HealthCheck指南信息可在此处找到。
Intersight运行状况检查演示
第 1 步:登录Intersight 并导航到Infrastructure Service,然后选择HyperFlex Clusters并选择Cluster。
示例显示了一个名为San_Jose的集群。在操作(Actions)下拉菜单中,选择运行运行状况检查(Run Health Check)。
注意:此示例显示了对单个集群执行的运行状况检查。您可以同时选择多个群集并执行运行状况检查。
确认您的集群,然后单击Next。
工作流程允许您根据需要跳过某些检查。
第二步:单击Start以启动预先检查。
检查进度条并等待运行状况检查任务完成。
第三步: 完成HealthCheck任务后,可以在几个位置检查结果。
运行状况检查选项卡显示常规结果。此示例已过滤至no-show Passed和Not Run结果。
第四步:点击受影响的节点,验证有问题的节点。
在概述选项卡中,选中事件:警报、请求和建议。
展开每个事件以了解详细信息。
示例显示Requests 已展开,请单击Run Selected Hypercheck Health Checks Failed。
它显示所有成功和失败的检查。
第五步:单击Show Additional Details开关。
每个Invoke Check都可以展开,从而提供已检查内容的精细视图。
它以JSON格式提供日志、输入和输出的详细信息。
教学视频
Hpercheck视频。
Intersight运行状况检查视频。
注意:某些修复需要技术支持中心(TAC)的干预。如有必要,请提交报告。
重要验证
删除UCSM上未使用的包
UCS Manager固件管理器需要将UCS固件包下载到交换矩阵互联引导闪存分区中。 检查并删除组件上不再使用的旧固件包,以避免使用不必要的文件填充交换矩阵互联引导闪存分区。
验证交换矩阵互联空间。
步骤1:导航到设备,选择交换矩阵互联,然后选择交换矩阵互联。示例显示交换矩阵互联A(主要)。
第二步:在常规面板上,选择Local Storage Information,然后展开它。
检验上游交换机上是否启用了生成树端口(STP) PortFast
如果上游交换机支持STP PortFast命令,则强烈建议启用该命令。 启用PortFast功能会使交换机或中继端口立即或在一次linkup事件时进入STP转发状态,从而绕过侦听和学习状态。
PortFast功能在端口级别启用,此端口可以是物理或逻辑端口。
交换矩阵互联端口或适配器上的物理端口错误
在UCSM上验证与上行链路或服务器端口上的端口错误相关的任何故障,以避免出现意外故障切换情况。
步骤1:登录UCSM并导航到Equipment选项卡,展开Rack-Mounts,然后展开Servers。示例显示了服务器1。
第二步:展开Adapters,然后展开NICs。
第三步:验证每个网络接口卡(NIC)是否干净。
在标准和扩展群集的上游配置存储数据VLAN
需要在上游设备上配置存储数据VAN,以确保在交换矩阵互联B发生故障时完成故障切换。
确保您有HyperFlex安装指南中列出的所有要求。
MTU和故障切换
确保虚拟机网络接口卡(vmnic)上的两条路径的网络连接流。
使用本指南确认已根据UCS策略正确配置了正确的NIC组合。
在基础架构升级期间,请等待ESXi上行链路恢复运行,然后再重新启动其他交换矩阵互联。
执行测试升级资格
从Cisco HyperFlex版本4.0(2a)开始,“升级”(Upgrade)页面将显示上次集群升级资格测试结果和上次测试的UCS服务器、HX数据平台和/或ESXi版本。
要执行升级资格测试,请登录HX Connect:
步骤1:选择Upgrade > Test Upgrade Eligibility。
第二步:选中UCS Server Firmware复选框以测试UCS服务器固件的升级资格。
第三步:输入Cisco UCS Manager完全限定域名(FQDN)或IP地址、用户名和密码。在Current Version字段中,点击Discover以选择升级前需要验证的UCS固件包版本。
第四步:选中HX Data Platform复选框以测试HyperFlex数据平台的升级资格。
第五步:输入vCenter用户名和密码。上传需要在升级前验证的思科HyperFlex数据平台升级捆绑包。
第六步:选中ESXi复选框以测试ESXi的升级资格。
步骤 7.输入vCenter管理员用户名和密码。上传在升级前需要验证的Cisco HyperFlex自定义映像脱机捆绑包
步骤 8点击验证(Validate)。
步骤 9将显示升级资格测试的进度。
验证用户和密码
验证的密码:
- vCenter管理员
- ESXi根
- 存储控制器虚拟机(SCVM)管理员和根
验证是否进入维护模式
确保在维护模式运行期间,主机上运行的虚拟机可迁移到另一台主机。如果VM无法迁移,则需要关闭其电源。如果VM不会自动迁移,但可以手动迁移,请检查是否存在任何与DRS相关的问题。
检验DRS是否已启用并设置为完全自动(如果已获得DRS许可)。如果DRS已禁用,当升级过程提示时,需要手动干预vMotion虚拟机。
有关详细信息,请参阅VMware 指南。
验证vMotion配置
确认vMotion已正确配置,以避免无法完成维护模式任务。
有关vMotion故障排除的详细信息,请此处查看。
验证集群上是否已启用EVC(增强的VMotion兼容性)。
步骤1:登录到VMware vCenter,然后导航到Home and Clusters。
第二步:点击vCenter集群。本示例显示一个名为San_Jose的集群。
第三步:选择Configure,在Configuration下单击VMware EVC,然后选择EDIT。
第四步:确保将所用相应处理器的EVC模式更改为已启用。
验证虚拟机(VM)中的关联规则
验证是否在访客VM上创建了任何关联规则。
步骤1:从VMware vCenter转至集群。
第二步:导航到Home and Clusters。本示例显示一个名为San_Jose的集群。
第三步:选择Configure。在配置下,选择VM/主机规则,并验证是否已创建任何规则。
ESXi代理管理器(EAM)
从HXDP 5.0(x)及更高版本开始,ESXi主机上不再使用EAM来管理SCVM网络和数据存储。
从HXDP 5.0(x)及早期版本开始,网络和Datastore需要拥有SCVM信息。
要验证ESXi Agent Manager (EAM)运行正常,请执行以下操作:
步骤1:登录到VMware vCenter。
第二步:导航到Home和Clusters,然后导航到每个ESXi节点。
第三步:在VMware vCenter群集上,导航到配置,然后从虚拟机中选择代理VM设置。
该示例显示空格,因为HyperFlex集群示例在5.0(2c)上
如果使用了EAM,请确认vCenter上未显示任何证书错误。
有关更多EAM信息,请参阅此处
vCenter和ESXi许可证
如果从6.x升级到7.0,请确保在升级之前已拥有新的许可证。
升级后,您只有60天的评估模式。
SSH建议
HXUSER锁定
登录失败可能导致锁定ESXi用户。
验证hxuser或root用户状态
步骤1:在ESXi节点中打开作为根的SSH会话。
第二步:运行pam_tally2 —user hxuser(或根用户)。
第三步:确保hxuser或root已被锁定。
[root@esxi1:~] pam_tally2 --user hxuser
Login Failures Latest failure From
hxuser 0
[root@esxi1:~] pam_tally2 --user root
Login Failures Latest failure From
root 0
[root@esxi1:~]
要解锁提及的ESXi用户,请执行以下操作:
步骤1:运行pam_tally2 —user hxuser —reset(或root用户)。
第二步:确保“Failures(失败)”计数减少到0。
[root@esxi1:~] pam_tally2 --user hxuser --reset
Login Failures Latest failure From
hxuser 0
[root@esxi1:~] pam_tally2 --user root --reset
Login Failures Latest failure From
root 0
锁定模式或已停止
要提高ESXi主机的安全性,需要启用锁定模式。此配置会阻止HyperFlex升级,因为对于HyperFlex集群升级必须禁用锁定模式。
要禁用ESXi锁定模式,请执行以下操作:
步骤1:以root用户身份直接对ESXi主机运行SSH。
第二步:按F2进行初始设置。
第三步:输入根凭证以打开DUCI设置。
第四步:转到Configure Lockdown 模式设置并将其更改为disabled。
要从vCenter禁用锁定模式,
步骤1:浏览至vSphere Web客户端资产中的主机。
第二步:点击管理选项卡,然后点击设置。(对于6.7,请单击“配置”选项卡)。
第三步:在System下,选择Security Profile。
第四步:在“锁定模式”面板中,单击“编辑”。
第五步:单击“锁定模式”,然后选择一个锁定模式选项。
有关锁定模式的详细信息,请此处找到
复制
如果已配置并启用复制,则需要在升级前暂停复制。
使用run stcli dp schedule pause命令暂停复制,并使用stcli dp schedule resume命令在升级后启用复制。
驱动器故障
驱动器故障导致HyperFlex集群升级失败。要检查HyperFlex Connect GUI中是否存在“已阻止列表”或“已忽略”磁盘,请执行以下操作:
步骤1:打开HyperFlex连接GUI,转到https://<HyperFlex-virtual-ip-address or fqdn>。
第二步:转至System Information,然后选择System Overview选项卡。
第三步:检查是否存在任何磁盘错误。
磁盘问题需要由思科TAC解决。
先前的主板更换、重新部署和节点删除
主板更换导致用新的ID替换以前的主机UID,如果在更换任务期间出现一些问题,UID不匹配可能会导致HyperFlex升级失败。
注意:Intersight HealtCheck建议ID不匹配,强烈建议将HyperFlex集群连接到Intersight并运行HyperFlex集群HealtCheck。
对于主板更换,请比较ESXi CLI中的stNode UUID,确保UUID信息与Hyperflex集群中的UUID匹配。
收集UID:
步骤1:以根用户身份打开到ESXi节点的SSH会话。
第二步:运行此命令:hostsvc/hostsumm | grep -i uuid | grep -v inst.
第三步:收集UUID信息。
[root@esxi2:~] vim-cmd hostsvc/hostsumm | grep -i uuid | grep -v inst
uuid = "1f82077d-6702-214d-8814-e776ffc0f53c", <----- ESXi2 ID
[root@esxi2:~]
[root@esxi2:~]
要获取HyperFlex群集节点上的UUID信息,请执行以下操作:
步骤1:对HyperFlex集群IP地址运行SSH。
第二步:运行命令stcli cluster info | 更多 .
第三步:收集stNodes ID。
hxshell:~$ stcli cluster info | more
stNodes:
----------------------------------------
id: c4a24480-e935-6942-93ee-987dc8e9b5d9
type: node
name: esxi1
----------------------------------------
id: 1f82077d-6702-214d-8814-e776ffc0f53c <----- ID for ESXi2
type: node
name: esxi2
----------------------------------------
id: 50a5dc5d-c419-9c48-8914-d91a98d43fe7
type: node
name: esxi3
----------------------------------------
确保stcli cluster info ID与ESXi节点上显示的信息匹配。
HX和vCenter不匹配
验证vCenter信息(如HyperFlex群集上的数据中心、群集和数据存储名称)是否与vCenter匹配。信息不匹配导致HyperFlex集群升级失败。
要获取最新信息,请执行以下操作:
步骤1:以管理员身份对HyperFlex集群IP运行SSH。
第二步:运行stcli cluster info | grep -i vcenter。
第三步:收集集群中已注册的vCenter信息。
hxshell:~$ stcli cluster info | grep -i vcenter
vCenterClusterName: vcenter-cluster
vCenterDatacenter: hx-cluster-name
vCenterURL: https://vcenter-url
vCenterDatacenterId: datacenter-name
vCenterClusterId: domain-c5124
vCenterUrl: https://vcenter-url
vCenterVersion: 7.0.2 Build-18455184
HyperFlex vCenter重新注册
请注意名称区分大小写。如果名称与之前输出的vCenter信息不匹配,则需要重新注册vCenter。
要将vCenter重新注册到Hyperflex集群,请此处检查vCenter注册视频
要重新注册Vcenter,请执行以下操作:
步骤1:以管理员身份运行到集群IP地址的SSH。
第二步:运行stcli cluster reregister命令。
stcli cluster reregister [-h] --vcenter-datacenter NEWDATACENTER --vcenter-cluster NEWVCENTERCLUSTER --vcenter-url NEWVCENTERURLIP [--vcenter-sso-url NEWVCENTERSSOURL] --vcenter-user NEWVCENTERUSER
hxshell:~$ stcli cluster reregister --vcenter-datacenter MyData-Center --vcenter-cluster Cluster-Name --vcenter-url https://vcenter1-url --vcenter-user <vCenter user>
Reregister StorFS cluster with a new vCenter ...
Enter NEW vCenter Administrator password:
Cluster reregistration with new vCenter succeeded
hxshell:~$
相关信息