Dépanner l'échec de la mise à niveau en raison d'une erreur vMotion pour les VM avec vGPU

Mis à jour:28 juillet 2023

ID du document:220697

Langage exempt de préjugés

Dans le cadre de la documentation associée à ce produit, nous nous efforçons d’utiliser un langage exempt de préjugés. Dans cet ensemble de documents, le langage exempt de discrimination renvoie à une langue qui exclut la discrimination en fonction de l’âge, des handicaps, du genre, de l’appartenance raciale de l’identité ethnique, de l’orientation sexuelle, de la situation socio-économique et de l’intersectionnalité. Des exceptions peuvent s’appliquer dans les documents si le langage est codé en dur dans les interfaces utilisateurs du produit logiciel, si le langage utilisé est basé sur la documentation RFP ou si le langage utilisé provient d’un produit tiers référencé. Découvrez comment Cisco utilise le langage inclusif.

À propos de cette traduction

Cisco a traduit ce document en traduction automatisée vérifiée par une personne dans le cadre d’un service mondial permettant à nos utilisateurs d’obtenir le contenu d’assistance dans leur propre langue. Il convient cependant de noter que même la meilleure traduction automatisée ne sera pas aussi précise que celle fournie par un traducteur professionnel.

Table des matières

Introduction

Conditions préalables

Exigences

Composants utilisés

Informations générales

Problème

Solution

Désactivez le mode ECC sur le noeud affecté.

Informations connexes

Introduction

Ce document décrit comment dépanner l'échec de la mise à niveau en raison d'une erreur vMotion pour les VM avec vGPU.

Conditions préalables

Cluster Hyperflex/Exxi avec configuration ECC incohérente pour les processeurs graphiques Nvidia.

Remarque : vérifiez que le système n'est pas affecté par CSCvp47724

Exigences

Cluster vCenter avec processeur graphique Nvidia activé pour les machines virtuelles.

Composants utilisés

The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. Si votre réseau est en ligne, assurez-vous de bien comprendre l’incidence possible des commandes.

Intersight (SaaS dans ce cas)
HyperFlex 5.0(2a)
Processeur graphique Nvidia (Tesla T4)

Informations générales

Dans ce scénario spécifique, vMotion échouait en raison de problèmes de configuration ECC incohérente pour les processeurs graphiques Nvidia, ce qui provoquait une erreur lors de la mise à niveau d'HyperFlex.

Remarque : les cartes GPU NVIDIA qui utilisent l'architecture Pascal, telles que les cartes GPU Tesla V100, P100, P40, ainsi que les cartes GPU Tesla M6 et M60, prennent en charge la mémoire ECC pour améliorer l'intégrité des données. Cependant, le logiciel vGPU NVIDIA ne prend pas en charge ECC. Vous devez donc vous assurer que la mémoire ECC est désactivée sur tous les GPU lors de l'utilisation du vGPU NVIDIA.

Problème

Échec de vMotion identifié en raison d'une configuration ECC incohérente sur le processeur graphique Nvidia.

Échec de la tâche : 'Vérifier les validations HXDP avant mise à niveau'.

akmalla_0-1690277621408

Solution

Désactivez le mode ECC sur le noeud affecté.

Comment le noeud affecté a-t-il été identifié ?

Manual vMotion affiche une erreur pour le noeud "Erreur lors de la migration des VM vers ce noeud : "Un ou plusieurs périphériques (pciPassthru0) requis par la VM XXXX ne sont pas disponibles sur l'hôte XXXX"

Étapes :

Indiquez le VIB installé dans l'hyperviseur ESXi

 # esxcli software vib list |grep –i NVIDIA

Vérifier le fonctionnement du pilote NVIDIA

[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02   Driver Version: 470.182.02   CUDA Version: N/A      |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            On   | 00000000:AF:00.0 Off |                    0 |
| N/A   35C    P8    16W /  70W |   1971MiB / 15359MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

Le mode ECC (Error Correcting Code) a été détecté sur le noeud affecté.

# nvidia-smi –q
ECC Mode
Current                     : Enabled
Pending                     : Enabled

Désactiver le code ECC (Error Correcting Code)

# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.

Vérifiez que le mode ECC est désactivé :

# nvidia-smi –q
ECC Mode
Current                     : Disabled
Pending                     : Disabled

Après la désactivation du mode ECC et le redémarrage du noeud, vMotion réussit et la mise à niveau progresse.

Informations connexes

Nvidia - Ressources insuffisantes. Un ou plusieurs périphériques

VMware - Utilisation de processeurs graphiques avec des machines virtuelles sur vSphere

Historique de révision

Révision	Date de publication	Commentaires
1.0	01-Aug-2023	Première publication

Contribution d’experts de Cisco

Akash Malla
TAC Cisco

Dépanner l'échec de la mise à niveau en raison d'une erreur vMotion pour les VM avec vGPU

Langage exempt de préjugés

À propos de cette traduction

Table des matières

Introduction

Conditions préalables

Exigences

Composants utilisés

Informations générales

Problème

Solution

Désactivez le mode ECC sur le noeud affecté.

Informations connexes

Historique de révision

Contribution d’experts de Cisco

Ce document vous est-il utile?

Contacter Cisco

Ce document s’applique à ces produits