對使用vGPU的VM進行vMotion錯誤導致的升級失敗進行故障排除

已更新: 2023 年 7 月 28 日

文件 ID:220697

無偏見用語

本產品的文件集力求使用無偏見用語。針對本文件集的目的，無偏見係定義為未根據年齡、身心障礙、性別、種族身分、民族身分、性別傾向、社會經濟地位及交織性表示歧視的用語。由於本產品軟體使用者介面中硬式編碼的語言、根據 RFP 文件使用的語言，或引用第三方產品的語言，因此本文件中可能會出現例外狀況。深入瞭解思科如何使用包容性用語。

關於此翻譯

思科已使用電腦和人工技術翻譯本文件，讓全世界的使用者能夠以自己的語言理解支援內容。請注意，即使是最佳機器翻譯，也不如專業譯者翻譯的內容準確。Cisco Systems, Inc. 對這些翻譯的準確度概不負責，並建議一律查看原始英文文件（提供連結）。

簡介

本文檔介紹如何對使用vGPU的VM由於vMotion錯誤而導致的升級故障進行故障排除。

必要條件

Nvidia GPU的ECC配置不一致的Hyperflex/Esxi群集。

註：確認系統不受CSCvp47724影響

需求

支援VM的Nvidia GPU的vCenter群集。

採用元件

本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除（預設）的組態來啟動。如果您的網路運作中，請確保您瞭解任何指令可能造成的影響。

Intersight(本例中為SaaS)
HyperFlex 5.0(2a)
Nvidia GPU(Tesla T4)

背景資訊

在此特定場景中，vMotion由於Nvidia GPU的ECC配置不一致而失敗，導致升級HyperFlex時出錯。

註：使用Pascal架構的NVIDIA GPU卡（如Tesla V100、P100、P40以及Tesla M6和M60 GPU）支援ECC記憶體以提高資料完整性。但是，NVIDIA vGPU軟體不支援ECC。因此，在使用NVIDIA vGPU時，必須確保所有GPU上均禁用了ECC記憶體。

問題

由於Nvidia GPU上的ECC配置不一致，已識別vMotion故障。

失敗的任務：「驗證升級前HXDP驗證」。

akmalla_0-1690277621408

解決方案

在受影響的節點上禁用ECC模式。

如何識別受影響的節點？

手動vMotion將顯示節點的錯誤 將VM遷移到此節點時出錯：「VM XXXX所需的一個或多個裝置(pciPassthru0)在主機XXXX上不可用」

步驟：

列出安裝在ESXi虛擬機器監控程式中的VIB

 # esxcli software vib list |grep –i NVIDIA

檢查NVIDIA驅動程式操作

[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02   Driver Version: 470.182.02   CUDA Version: N/A      |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            On   | 00000000:AF:00.0 Off |                    0 |
| N/A   35C    P8    16W /  70W |   1971MiB / 15359MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

發現受影響節點上啟用了ECC（糾錯碼）模式。

# nvidia-smi –q
ECC Mode
Current                     : Enabled
Pending                     : Enabled

禁用糾錯碼(ECC)

# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.

檢查ECC模式是否已禁用：

# nvidia-smi –q
ECC Mode
Current                     : Disabled
Pending                     : Disabled

禁用ECC模式並重新啟動節點後，vMotion將成功並且升級將繼續。

對使用vGPU的VM進行vMotion錯誤導致的升級失敗進行故障排除

無偏見用語

關於此翻譯

目錄

簡介

必要條件

需求

採用元件

背景資訊

問題

解決方案

在受影響的節點上禁用ECC模式。

相關資訊

修訂記錄

由思科工程師貢獻

這份文件是否有所幫助？

讓思科協助您

本文件適用於這些產品