对使用vGPU的VM的vMotion错误导致的升级故障进行故障排除

已更新: 2023 年 7 月 28 日

文档 ID:220697

非歧视性语言

此产品的文档集力求使用非歧视性语言。在本文档集中，非歧视性语言是指不隐含针对年龄、残障、性别、种族身份、族群身份、性取向、社会经济地位和交叉性的歧视的语言。由于产品软件的用户界面中使用的硬编码语言、基于 RFP 文档使用的语言或引用的第三方产品使用的语言，文档中可能无法确保完全使用非歧视性语言。深入了解思科如何使用包容性语言。

关于此翻译

思科采用人工翻译与机器翻译相结合的方式将此文档翻译成不同语言，希望全球的用户都能通过各自的语言得到支持性的内容。请注意：即使是最好的机器翻译，其准确度也不及专业翻译人员的水平。 Cisco Systems, Inc. 对于翻译的准确性不承担任何责任，并建议您总是参考英文原始文档（已提供链接）。

简介

本文档介绍如何排除由于带有vGPU的VM的vMotion错误导致的升级故障。

先决条件

Nvidia GPU的Hyperflex/Esxi群集具有不一致的ECC配置。

注：确认系统不受CSCvp的影响47724

要求

支持Nvidia GPU的vCenter群集。

使用的组件

本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始（默认）配置。如果您的网络处于活动状态，请确保您了解所有命令的潜在影响。

Intersight(本例中为SaaS)
HyperFlex 5.0(2a)
Nvidia GPU(Tesla T4)

背景信息

在此特定场景中，vMotion发生故障，原因是Nvidia GPU的ECC配置不一致，导致升级HyperFlex时出错。

注意：使用Pascal架构的NVIDIA GPU卡（例如Tesla V100、P100、P40以及Tesla M6和M60 GPU）支持ECC内存以提高数据完整性。但是，NVIDIA vGPU软件不支持ECC。因此，使用NVIDIA vGPU时，必须确保所有GPU均禁用ECC内存。

问题

由于Nvidia GPU上的ECC配置不一致，已识别vMotion故障。

失败的任务：“验证升级前HXDP验证”。

akmalla_0-1690277621408

解决方案

在受影响的节点上禁用ECC模式。

如何识别受影响的节点？

手动vMotion将显示节点的错误 "将VM迁移到此节点时出错："VM XXXX所需的一个或多个设备(pciPassthru0)在主机XXXX上不可用"

步骤：

列出安装在ESXi虚拟机监控程序中的VIB

 # esxcli software vib list |grep –i NVIDIA

检查NVIDIA驱动程序操作

[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02   Driver Version: 470.182.02   CUDA Version: N/A      |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            On   | 00000000:AF:00.0 Off |                    0 |
| N/A   35C    P8    16W /  70W |   1971MiB / 15359MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

发现受影响节点上启用了ECC（纠错码）模式。

# nvidia-smi –q
ECC Mode
Current                     : Enabled
Pending                     : Enabled

禁用纠错码(ECC)

# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.

检查ECC模式是否已禁用：

# nvidia-smi –q
ECC Mode
Current                     : Disabled
Pending                     : Disabled

禁用ECC模式并重新启动节点后，vMotion将成功，升级将继续。

对使用vGPU的VM的vMotion错误导致的升级故障进行故障排除

非歧视性语言

关于此翻译

目录

简介

先决条件

要求

使用的组件

背景信息

问题

解决方案

在受影响的节点上禁用ECC模式。

相关信息

修订历史记录

由思科工程师提供

此文档是否有帮助?

联系我们

本文档适用于以下产品