Introduzione
In questo documento viene descritto come risolvere gli errori di aggiornamento causati da un errore vMotion per le VM con vGPU.
Prerequisiti
Cluster Hyperflex/Esxi con configurazione ECC incoerente per GPU Nvidia.
Nota: l'opzione CSCvp47724 non influisce sul sistema di conferma
Requisiti
Cluster vCenter con GPU Nvidia abilitata per le VM.
Componenti usati
Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.
- Intersight (SaaS in questo caso)
- HyperFlex 5.0(2a)
- GPU Nvidia (Tesla T4)
Premesse
In questo scenario specifico, vMotion ha avuto esito negativo a causa di problemi con la configurazione ECC incoerente per le GPU Nvidia, che hanno causato errori durante l'aggiornamento di HyperFlex.
Nota: le schede GPU NVIDIA che utilizzano l'architettura Pascal, come Tesla V100, P100, P40, nonché le GPU Tesla M6 e M60, supportano la memoria ECC per una maggiore integrità dei dati. Tuttavia, il software NVIDIA vGPU non supporta ECC. Quando si utilizza NVIDIA vGPU, è necessario verificare che la memoria ECC sia disabilitata su tutte le GPU.
Problema
Errore vMotion identificato a causa di una configurazione ECC incoerente sulla GPU Nvidia.
Attività non riuscita: 'Verifica convalide HXDP pre-aggiornamento'.
Soluzione
Disabilitare la modalità ECC nel nodo interessato.
Come è stato identificato il nodo interessato?
Manual vMotion visualizzerà l'errore per il nodo "Errore durante la migrazione delle macchine virtuali in questo nodo: "Uno o più dispositivi (pciPassthru0) richiesti dalla macchina virtuale XXXX non sono disponibili nell'host XXXX"
Passaggi:
- Elencare il VIB installato nell'hypervisor ESXi
# esxcli software vib list |grep –i NVIDIA
- Controllare il funzionamento del driver NVIDIA
[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02 Driver Version: 470.182.02 CUDA Version: N/A |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla T4 On | 00000000:AF:00.0 Off | 0 |
| N/A 35C P8 16W / 70W | 1971MiB / 15359MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
- È stata rilevata la modalità ECC (Error Correcting Code) abilitata sul nodo interessato.
# nvidia-smi –q
ECC Mode
Current : Enabled
Pending : Enabled
- Disabilita ECC (Error Correcting Code)
# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.
- Verificare che la modalità ECC sia disattivata:
# nvidia-smi –q
ECC Mode
Current : Disabled
Pending : Disabled
Dopo aver disattivato la modalità ECC e riavviato il nodo, vMotion avrà esito positivo e l'aggiornamento procederà.
Informazioni correlate
Nvidia - Risorse insufficienti. Uno o più dispositivi
VMware - Utilizzo di GPU con macchine virtuali su vSphere