Solucionar problemas de error de actualización debido a un error de vMotion para VM con vGPU

Actualizado:28 de julio de 2023

ID del documento:220697

Lenguaje no discriminatorio

El conjunto de documentos para este producto aspira al uso de un lenguaje no discriminatorio. A los fines de esta documentación, "no discriminatorio" se refiere al lenguaje que no implica discriminación por motivos de edad, discapacidad, género, identidad de raza, identidad étnica, orientación sexual, nivel socioeconómico e interseccionalidad. Puede haber excepciones en la documentación debido al lenguaje que se encuentra ya en las interfaces de usuario del software del producto, el lenguaje utilizado en función de la documentación de la RFP o el lenguaje utilizado por un producto de terceros al que se hace referencia. Obtenga más información sobre cómo Cisco utiliza el lenguaje inclusivo.

Acerca de esta traducción

Cisco ha traducido este documento combinando la traducción automática y los recursos humanos a fin de ofrecer a nuestros usuarios en todo el mundo contenido en su propio idioma. Tenga en cuenta que incluso la mejor traducción automática podría no ser tan precisa como la proporcionada por un traductor profesional. Cisco Systems, Inc. no asume ninguna responsabilidad por la precisión de estas traducciones y recomienda remitirse siempre al documento original escrito en inglés (insertar vínculo URL).

Contenido

Introducción

Prerequisites

Requirements

Componentes Utilizados

Antecedentes

Problema

Solución

Desactive el modo ECC en el nodo afectado.

Información Relacionada

Introducción

Este documento describe cómo resolver problemas de falla de actualización debido a un error de vMotion para VM con vGPU.

Prerequisites

Clúster Hyperflex/Esxi con configuración ECC incoherente para las GPU Nvidia.

Nota: Confirmar que el sistema no se ve afectado por CSCvp47724

Requirements

Clúster vCenter con GPU Nvidia habilitada para VM.

Componentes Utilizados

La información que contiene este documento se creó a partir de los dispositivos en un ambiente de laboratorio específico. Todos los dispositivos que se utilizan en este documento se pusieron en funcionamiento con una configuración verificada (predeterminada). Si tiene una red en vivo, asegúrese de entender el posible impacto de cualquier comando.

Entrevista (SaaS en este caso)
HyperFlex 5.0 (2 a)
GPU NVIDIA (Tesla T4)

Antecedentes

En este escenario específico, vMotion fallaba debido a problemas con la configuración ECC incoherente para las GPU de NVIDIA, lo que causaba un error al actualizar HyperFlex.

Nota: las tarjetas GPU NVIDIA que utilizan la arquitectura Pascal, como Tesla V100, P100, P40, así como las GPU Tesla M6 y M60, admiten memoria ECC para mejorar la integridad de los datos. Sin embargo, el software NVIDIA vGPU no admite ECC. Por lo tanto, debe asegurarse de que la memoria ECC esté desactivada en todas las GPU cuando utilice NVIDIA vGPU.

Problema

Error de vMotion identificado debido a una configuración ECC incoherente en la GPU Nvidia.

Tarea fallida: 'Verificar las validaciones HXDP previas a la actualización'.

akmalla_0-1690277621408

Solución

Desactive el modo ECC en el nodo afectado.

¿Cómo se identificó el nodo afectado?

vMotion manual mostrará un error para el nodo "Error al migrar las VM a este nodo: "Uno o más dispositivos (pciPassthru0) requeridos por VM XXXX no están disponibles en el host XXXX"

Pasos:

Enumera el VIB instalado en el hipervisor ESXi

 # esxcli software vib list |grep –i NVIDIA

Compruebe el funcionamiento del controlador NVIDIA

[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02   Driver Version: 470.182.02   CUDA Version: N/A      |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            On   | 00000000:AF:00.0 Off |                    0 |
| N/A   35C    P8    16W /  70W |   1971MiB / 15359MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

Se ha encontrado activado el modo ECC (código de corrección de errores) en el nodo afectado.

# nvidia-smi –q
ECC Mode
Current                     : Enabled
Pending                     : Enabled

Deshabilitar código de corrección de errores (ECC)

# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.

Compruebe que el modo ECC está desactivado:

# nvidia-smi –q
ECC Mode
Current                     : Disabled
Pending                     : Disabled

Después de deshabilitar el modo ECC y reiniciar el nodo, vMotion se realizará correctamente y la actualización progresará.

Información Relacionada

Nvidia - Recursos insuficientes. Uno o más dispositivos

VMware: uso de GPU con máquinas virtuales en vSphere

Historial de revisiones

Revisión	Fecha de publicación	Comentarios
1.0	01-Aug-2023	Versión inicial

Con la colaboración de ingenieros de Cisco

Akash Malla
Cisco TAC

Solucionar problemas de error de actualización debido a un error de vMotion para VM con vGPU

Lenguaje no discriminatorio

Acerca de esta traducción

Contenido

Introducción

Prerequisites

Requirements

Componentes Utilizados

Antecedentes

Problema

Solución

Desactive el modo ECC en el nodo afectado.

Información Relacionada

Historial de revisiones

Con la colaboración de ingenieros de Cisco

¿Resultó útil este documento?

Contacte a Cisco

Este documento se aplica a estos productos