概要
このドキュメントでは、vGPUを搭載したVMのvMotionエラーによるアップグレード障害をトラブルシューティングする方法について説明します。
前提条件
Nvidia GPUのECC構成に一貫性がないHyperflex/Esxiクラスタ。
要件
VMに対してNvidia GPUを有効にしたvCenterクラスタ。
使用するコンポーネント
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、クリアな(デフォルト)設定で作業を開始しています。本稼働中のネットワークでは、各コマンドによって起こる可能性がある影響を十分確認してください。
- Intersight(この場合はSaaS)
- HyperFlex 5.0(2a)
- Nvidia GPU (Tesla T4)
背景説明
この特定のシナリオでは、HyperFlexのアップグレード中にエラーを引き起こしたNvidia GPUのECC設定に一貫性がない問題が原因で、vMotionが失敗しました。
注:Tesla M6およびM60 GPUだけでなく、Tesla V100、P100、P40などのPascalアーキテクチャを使用するNVIDIA GPUカードは、データの整合性を向上させるためにECCメモリをサポートしています。ただし、NVIDIA vGPUソフトウェアはECCをサポートしていません。したがって、NVIDIA vGPUを使用するときは、すべてのGPUでECCメモリが無効になっていることを確認する必要があります。
問題
Nvidia GPUのECC設定に一貫性がないため、vMotionの障害が検出されました。
失敗したタスク: 'アップグレード前のHXDP検証の確認'。
解決方法
影響を受けるノードでECCモードを無効にします。
影響を受けるノードはどのように特定されましたか。
手動vMotionはノードのエラーを表示します 「Error while migrating VMs to this node: "One or more devices (pciPassthru0) required by VM XXXX are not available on host XXXX"(このノードへのVMの移行中にエラーが発生しました: VM XXXXに必要な1つ以上のデバイス(pciPassthru0)がホストXXXXで使用できません)」
手順:
- ESXiハイパーバイザにインストールされたVIBを一覧表示します。
# esxcli software vib list |grep –i NVIDIA
[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02 Driver Version: 470.182.02 CUDA Version: N/A |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla T4 On | 00000000:AF:00.0 Off | 0 |
| N/A 35C P8 16W / 70W | 1971MiB / 15359MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
- 影響を受けるノードで有効なECC(Error Correcting Code)モードが見つかりました。
# nvidia-smi –q
ECC Mode
Current : Enabled
Pending : Enabled
# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.
# nvidia-smi –q
ECC Mode
Current : Disabled
Pending : Disabled
ECCモードを無効にしてノードを再起動すると、vMotionは成功し、アップグレードが進行します。
関連情報
Nvidia – リソースが不足しています。1つ以上のデバイス
VMware:vSphere上の仮想マシンでGPUを使用