簡介
本文檔介紹如何對使用vGPU的VM由於vMotion錯誤而導致的升級故障進行故障排除。
必要條件
Nvidia GPU的ECC配置不一致的Hyperflex/Esxi群集。
需求
支援VM的Nvidia GPU的vCenter群集。
採用元件
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
- Intersight(本例中為SaaS)
- HyperFlex 5.0(2a)
- Nvidia GPU(Tesla T4)
背景資訊
在此特定場景中,vMotion由於Nvidia GPU的ECC配置不一致而失敗,導致升級HyperFlex時出錯。
註:使用Pascal架構的NVIDIA GPU卡(如Tesla V100、P100、P40以及Tesla M6和M60 GPU)支援ECC記憶體以提高資料完整性。但是,NVIDIA vGPU軟體不支援ECC。因此,在使用NVIDIA vGPU時,必須確保所有GPU上均禁用了ECC記憶體。
問題
由於Nvidia GPU上的ECC配置不一致,已識別vMotion故障。
失敗的任務:「驗證升級前HXDP驗證」。
解決方案
在受影響的節點上禁用ECC模式。
如何識別受影響的節點?
手動vMotion將顯示節點的錯誤 將VM遷移到此節點時出錯:「VM XXXX所需的一個或多個裝置(pciPassthru0)在主機XXXX上不可用」
步驟:
# esxcli software vib list |grep –i NVIDIA
[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02 Driver Version: 470.182.02 CUDA Version: N/A |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla T4 On | 00000000:AF:00.0 Off | 0 |
| N/A 35C P8 16W / 70W | 1971MiB / 15359MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
# nvidia-smi –q
ECC Mode
Current : Enabled
Pending : Enabled
# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.
# nvidia-smi –q
ECC Mode
Current : Disabled
Pending : Disabled
禁用ECC模式並重新啟動節點後,vMotion將成功並且升級將繼續。
相關資訊
Nvidia — 資源不足。一個或多個裝置
VMware — 將GPU與vSphere上的虛擬機器配合使用