Einleitung
In diesem Dokument wird die Fehlerbehebung bei einem Upgrade-Fehler aufgrund eines vMotion-Fehlers für VMs mit vGPU beschrieben.
Voraussetzungen
Hyperflex/Esxi-Cluster mit inkonsistenter ECC-Konfiguration für Nvidia GPUs.
Hinweis: Bestätigen, dass das System nicht von CSCvp47724 betroffen ist
Anforderungen
vCenter-Cluster mit aktivierter Nvidia GPU für VMs
Verwendete Komponenten
Die Informationen in diesem Dokument beziehen sich auf Geräte in einer speziell eingerichteten Testumgebung. Alle Geräte, die in diesem Dokument benutzt wurden, begannen mit einer gelöschten (Nichterfüllungs) Konfiguration. Wenn Ihr Netzwerk in Betrieb ist, stellen Sie sicher, dass Sie die möglichen Auswirkungen aller Befehle kennen.
- Intersight (in diesem Fall SaaS)
- HyperFlex 5.0(2a)
- Nvidia GPU (Tesla T4)
Hintergrundinformationen
In diesem speziellen Szenario schlug vMotion aufgrund von Problemen mit der inkonsistenten ECC-Konfiguration für Nvidia GPUs fehl, was beim Upgrade von HyperFlex einen Fehler verursachte.
Hinweis: NVIDIA GPU-Karten, die die Pascal-Architektur verwenden, wie Tesla V100, P100, P40, sowie die Tesla M6 und M60 GPUs, unterstützen ECC-Speicher für eine verbesserte Datenintegrität. Die NVIDIA vGPU-Software unterstützt ECC jedoch nicht. Sie müssen daher sicherstellen, dass der ECC-Speicher auf allen GPUs deaktiviert ist, wenn Sie NVIDIA vGPU verwenden.
Problem
vMotion-Fehler aufgrund inkonsistenter ECC-Konfiguration auf der Nvidia GPU identifiziert.
Fehlgeschlagene Aufgabe: 'Überprüfung von HXDP-Validierungen vor dem Upgrade'.
Lösung
Deaktivieren Sie den ECC-Modus auf dem betroffenen Knoten.
Wie wurde der betroffene Knoten identifiziert?
Manuelle vMotion zeigt einen Fehler für den Knoten an. "Fehler beim Migrieren von VMs zu diesem Knoten: "Ein oder mehrere von VM XXXX benötigte Geräte (pciPassthru0) sind auf Host XXXX nicht verfügbar."
Schritte:
- Führen Sie die VIB auf, die im ESXi-Hypervisor installiert wurde.
# esxcli software vib list |grep –i NVIDIA
- Überprüfen Sie den Betrieb des NVIDIA-Treibers
[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02 Driver Version: 470.182.02 CUDA Version: N/A |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla T4 On | 00000000:AF:00.0 Off | 0 |
| N/A 35C P8 16W / 70W | 1971MiB / 15359MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
- Der ECC-Modus (Error Correcting Code) wurde für den betroffenen Knoten aktiviert.
# nvidia-smi –q
ECC Mode
Current : Enabled
Pending : Enabled
- Fehlerkorrekturcode (ECC) deaktivieren
# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.
- Vergewissern Sie sich, dass der ECC-Modus deaktiviert ist:
# nvidia-smi –q
ECC Mode
Current : Disabled
Pending : Disabled
Nach der Deaktivierung des ECC-Modus und dem Neustart des Knotens wird vMotion erfolgreich ausgeführt, und das Upgrade wird durchgeführt.
Zugehörige Informationen
NVIDIA - Unzureichende Ressourcen. Ein oder mehrere Geräte
VMware - Verwenden von GPUs mit virtuellen Systemen auf vSphere