Introducción
Este documento describe cómo resolver problemas de falla de actualización debido a un error de vMotion para VM con vGPU.
Prerequisites
Clúster Hyperflex/Esxi con configuración ECC incoherente para las GPU Nvidia.
Nota: Confirmar que el sistema no se ve afectado por CSCvp47724
Requirements
Clúster vCenter con GPU Nvidia habilitada para VM.
Componentes Utilizados
La información que contiene este documento se creó a partir de los dispositivos en un ambiente de laboratorio específico. Todos los dispositivos que se utilizan en este documento se pusieron en funcionamiento con una configuración verificada (predeterminada). Si tiene una red en vivo, asegúrese de entender el posible impacto de cualquier comando.
- Entrevista (SaaS en este caso)
- HyperFlex 5.0 (2 a)
- GPU NVIDIA (Tesla T4)
Antecedentes
En este escenario específico, vMotion fallaba debido a problemas con la configuración ECC incoherente para las GPU de NVIDIA, lo que causaba un error al actualizar HyperFlex.
Nota: las tarjetas GPU NVIDIA que utilizan la arquitectura Pascal, como Tesla V100, P100, P40, así como las GPU Tesla M6 y M60, admiten memoria ECC para mejorar la integridad de los datos. Sin embargo, el software NVIDIA vGPU no admite ECC. Por lo tanto, debe asegurarse de que la memoria ECC esté desactivada en todas las GPU cuando utilice NVIDIA vGPU.
Problema
Error de vMotion identificado debido a una configuración ECC incoherente en la GPU Nvidia.
Tarea fallida: 'Verificar las validaciones HXDP previas a la actualización'.
Solución
Desactive el modo ECC en el nodo afectado.
¿Cómo se identificó el nodo afectado?
vMotion manual mostrará un error para el nodo "Error al migrar las VM a este nodo: "Uno o más dispositivos (pciPassthru0) requeridos por VM XXXX no están disponibles en el host XXXX"
Pasos:
- Enumera el VIB instalado en el hipervisor ESXi
# esxcli software vib list |grep –i NVIDIA
- Compruebe el funcionamiento del controlador NVIDIA
[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02 Driver Version: 470.182.02 CUDA Version: N/A |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla T4 On | 00000000:AF:00.0 Off | 0 |
| N/A 35C P8 16W / 70W | 1971MiB / 15359MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
- Se ha encontrado activado el modo ECC (código de corrección de errores) en el nodo afectado.
# nvidia-smi –q
ECC Mode
Current : Enabled
Pending : Enabled
- Deshabilitar código de corrección de errores (ECC)
# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.
- Compruebe que el modo ECC está desactivado:
# nvidia-smi –q
ECC Mode
Current : Disabled
Pending : Disabled
Después de deshabilitar el modo ECC y reiniciar el nodo, vMotion se realizará correctamente y la actualización progresará.
Información Relacionada
Nvidia - Recursos insuficientes. Uno o más dispositivos
VMware: uso de GPU con máquinas virtuales en vSphere