Introduction
Ce document décrit comment dépanner l'échec de la mise à niveau en raison d'une erreur vMotion pour les VM avec vGPU.
Conditions préalables
Cluster Hyperflex/Exxi avec configuration ECC incohérente pour les processeurs graphiques Nvidia.
Remarque : vérifiez que le système n'est pas affecté par CSCvp47724
Exigences
Cluster vCenter avec processeur graphique Nvidia activé pour les machines virtuelles.
Composants utilisés
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. Si votre réseau est en ligne, assurez-vous de bien comprendre l’incidence possible des commandes.
- Intersight (SaaS dans ce cas)
- HyperFlex 5.0(2a)
- Processeur graphique Nvidia (Tesla T4)
Informations générales
Dans ce scénario spécifique, vMotion échouait en raison de problèmes de configuration ECC incohérente pour les processeurs graphiques Nvidia, ce qui provoquait une erreur lors de la mise à niveau d'HyperFlex.
Remarque : les cartes GPU NVIDIA qui utilisent l'architecture Pascal, telles que les cartes GPU Tesla V100, P100, P40, ainsi que les cartes GPU Tesla M6 et M60, prennent en charge la mémoire ECC pour améliorer l'intégrité des données. Cependant, le logiciel vGPU NVIDIA ne prend pas en charge ECC. Vous devez donc vous assurer que la mémoire ECC est désactivée sur tous les GPU lors de l'utilisation du vGPU NVIDIA.
Problème
Échec de vMotion identifié en raison d'une configuration ECC incohérente sur le processeur graphique Nvidia.
Échec de la tâche : 'Vérifier les validations HXDP avant mise à niveau'.
Solution
Désactivez le mode ECC sur le noeud affecté.
Comment le noeud affecté a-t-il été identifié ?
Manual vMotion affiche une erreur pour le noeud "Erreur lors de la migration des VM vers ce noeud : "Un ou plusieurs périphériques (pciPassthru0) requis par la VM XXXX ne sont pas disponibles sur l'hôte XXXX"
Étapes :
- Indiquez le VIB installé dans l'hyperviseur ESXi
# esxcli software vib list |grep –i NVIDIA
- Vérifier le fonctionnement du pilote NVIDIA
[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02 Driver Version: 470.182.02 CUDA Version: N/A |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla T4 On | 00000000:AF:00.0 Off | 0 |
| N/A 35C P8 16W / 70W | 1971MiB / 15359MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
- Le mode ECC (Error Correcting Code) a été détecté sur le noeud affecté.
# nvidia-smi –q
ECC Mode
Current : Enabled
Pending : Enabled
- Désactiver le code ECC (Error Correcting Code)
# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.
- Vérifiez que le mode ECC est désactivé :
# nvidia-smi –q
ECC Mode
Current : Disabled
Pending : Disabled
Après la désactivation du mode ECC et le redémarrage du noeud, vMotion réussit et la mise à niveau progresse.
Informations connexes
Nvidia - Ressources insuffisantes. Un ou plusieurs périphériques
VMware - Utilisation de processeurs graphiques avec des machines virtuelles sur vSphere