Inleiding
In dit document wordt beschreven hoe u problemen kunt oplossen met upgradefouten als gevolg van vMotion-fouten voor VM's met vGPU.
Voorwaarden
Hyperflex/Esxi-cluster met inconsistente ECC-configuratie voor Nvidia GPU’s.
Opmerking: bevestig dat het systeem niet wordt beïnvloed door CSCvp47724
Vereisten
vCenter-cluster met Nvidia GPU ingeschakeld voor VM's.
Gebruikte componenten
De informatie in dit document is gebaseerd op de apparaten in een specifieke laboratoriumomgeving. Alle apparaten die in dit document worden beschreven, hadden een opgeschoonde (standaard)configuratie. Als uw netwerk live is, moet u zorgen dat u de potentiële impact van elke opdracht begrijpt.
- Intersight (SaaS in dit geval)
- HyperFlex 5.0(2a)
- Nvidia GPU (Tesla T4)
Achtergrondinformatie
In dit specifieke scenario faalde vMotion door problemen met inconsistente ECC-configuratie voor Nvidia GPU’s, waardoor er fouten ontstonden bij het upgraden van HyperFlex.
Opmerking: NVIDIA GPU-kaarten die de Pascal-architectuur gebruiken, zoals de Tesla V100, P100, P40, evenals de Tesla M6 en M60 GPU's, ondersteunen het ECC-geheugen voor verbeterde gegevensintegriteit. De NVIDIA vGPU-software ondersteunt echter geen ECC. U moet er daarom voor zorgen dat het ECC-geheugen op alle GPU’s wordt uitgeschakeld wanneer u NVIDIA vGPU gebruikt.
Probleem
vMotion-fout geïdentificeerd door inconsistente ECC-configuratie op de Nvidia GPU.
Taken die zijn mislukt: 'Controleer de HXDP-valideringen vóór de upgrade'.
Oplossing
Schakel de ECC-modus in op het betreffende knooppunt.
Hoe is de aangetaste knoop geïdentificeerd?
Handmatige vMotion geeft een fout voor de node weer "Fout bij migreren van VM's naar dit knooppunt: "Een of meer apparaten (pciPassthru0) die door VM XXXX zijn vereist, zijn niet beschikbaar op host XXXX"
Stappen:
- Maak een lijst van de VIB die in de ESXi Hypervisor is geïnstalleerd
# esxcli software vib list |grep –i NVIDIA
- Controleer de werking van het NVIDIA-stuurprogramma
[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02 Driver Version: 470.182.02 CUDA Version: N/A |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla T4 On | 00000000:AF:00.0 Off | 0 |
| N/A 35C P8 16W / 70W | 1971MiB / 15359MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
- Gevonden ECC-modus (Error Correcting Code) ingeschakeld op het betreffende knooppunt.
# nvidia-smi –q
ECC Mode
Current : Enabled
Pending : Enabled
- Error Correcting Code (ECC) uitschakelen
# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.
- Controleer of de ECC-modus is uitgeschakeld:
# nvidia-smi –q
ECC Mode
Current : Disabled
Pending : Disabled
Na het uitschakelen van de ECC-modus en het opnieuw opstarten van het knooppunt, wordt vMotion uitgevoerd en wordt de upgrade uitgevoerd.
Gerelateerde informatie
Nvidia - Onvoldoende middelen. Een of meer apparaten
VMware - GPU’s gebruiken met virtuele machines op vSphere