简介
本文档介绍如何排除由于带有vGPU的VM的vMotion错误导致的升级故障。
先决条件
Nvidia GPU的Hyperflex/Esxi群集具有不一致的ECC配置。
要求
支持Nvidia GPU的vCenter群集。
使用的组件
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
- Intersight(本例中为SaaS)
- HyperFlex 5.0(2a)
- Nvidia GPU(Tesla T4)
背景信息
在此特定场景中,vMotion发生故障,原因是Nvidia GPU的ECC配置不一致,导致升级HyperFlex时出错。
注意:使用Pascal架构的NVIDIA GPU卡(例如Tesla V100、P100、P40以及Tesla M6和M60 GPU)支持ECC内存以提高数据完整性。但是,NVIDIA vGPU软件不支持ECC。因此,使用NVIDIA vGPU时,必须确保所有GPU均禁用ECC内存。
问题
由于Nvidia GPU上的ECC配置不一致,已识别vMotion故障。
失败的任务:“验证升级前HXDP验证”。
解决方案
在受影响的节点上禁用ECC模式。
如何识别受影响的节点?
手动vMotion将显示节点的错误 "将VM迁移到此节点时出错:"VM XXXX所需的一个或多个设备(pciPassthru0)在主机XXXX上不可用"
步骤:
# esxcli software vib list |grep –i NVIDIA
[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02 Driver Version: 470.182.02 CUDA Version: N/A |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla T4 On | 00000000:AF:00.0 Off | 0 |
| N/A 35C P8 16W / 70W | 1971MiB / 15359MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
# nvidia-smi –q
ECC Mode
Current : Enabled
Pending : Enabled
# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.
# nvidia-smi –q
ECC Mode
Current : Disabled
Pending : Disabled
禁用ECC模式并重新启动节点后,vMotion将成功,升级将继续。
相关信息
Nvidia — 资源不足。一个或多个设备
VMware — 将GPU与vSphere上的虚拟机配合使用