Solucionar problemas de falha de atualização devido a erro do vMotion para VMs com vGPU

Atualizado:28 de julho de 2023

ID do documento:220697

Linguagem imparcial

O conjunto de documentação deste produto faz o possível para usar uma linguagem imparcial. Para os fins deste conjunto de documentação, a imparcialidade é definida como uma linguagem que não implica em discriminação baseada em idade, deficiência, gênero, identidade racial, identidade étnica, orientação sexual, status socioeconômico e interseccionalidade. Pode haver exceções na documentação devido à linguagem codificada nas interfaces de usuário do software do produto, linguagem usada com base na documentação de RFP ou linguagem usada por um produto de terceiros referenciado. Saiba mais sobre como a Cisco está usando a linguagem inclusiva.

Sobre esta tradução

A Cisco traduziu este documento com a ajuda de tecnologias de tradução automática e humana para oferecer conteúdo de suporte aos seus usuários no seu próprio idioma, independentemente da localização. Observe que mesmo a melhor tradução automática não será tão precisa quanto as realizadas por um tradutor profissional. A Cisco Systems, Inc. não se responsabiliza pela precisão destas traduções e recomenda que o documento original em inglês (link fornecido) seja sempre consultado.

Introdução

Pré-requisitos

Requisitos

Componentes Utilizados

Informações de Apoio

Problema

Solução

Desative o modo ECC no nó afetado.

Informações Relacionadas

Introdução

Este documento descreve como solucionar problemas de falha de atualização devido ao erro vMotion para VMs com vGPU.

Pré-requisitos

Cluster Hyperflex/Esxi com configuração ECC inconsistente para GPUs Nvidia.

Observação: confirmar se o sistema não é afetado por CSCvp47724

Requisitos

Cluster vCenter com GPU Nvidia habilitada para VMs.

Componentes Utilizados

As informações neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. Todos os dispositivos utilizados neste documento foram iniciados com uma configuração (padrão) inicial. Se a rede estiver ativa, certifique-se de que você entenda o impacto potencial de qualquer comando.

Intersight (SaaS neste caso)
HyperFlex 5.0(2a)
GPU Nvidia (Tesla T4)

Informações de Apoio

Neste cenário específico, o vMotion estava falhando devido a problemas com configuração ECC inconsistente para GPUs Nvidia, o que estava causando erro ao atualizar o HyperFlex.

Observação: as placas de GPU NVIDIA que usam a arquitetura Pascal, como Tesla V100, P100, P40, bem como as GPUs Tesla M6 e M60, suportam memória ECC para melhorar a integridade dos dados. No entanto, o software NVIDIA vGPU não suporta ECC. Portanto, você deve garantir que a memória ECC esteja desativada em todas as GPUs ao usar NVIDIA vGPU.

Problema

Falha do vMotion identificada devido à configuração ECC inconsistente na GPU Nvidia.

Falha na tarefa: 'Verificar Validações HXDP Pré-Atualização'.

akmalla_0-1690277621408

Solução

Desative o modo ECC no nó afetado.

Como o nó afetado foi identificado?

O vMotion manual exibirá o erro do nó "Erro ao migrar VMs para este nó: "Um ou mais dispositivos (pciPassthru0) exigidos pela VM XXXX não estão disponíveis no host XXXX"

Etapas:

Listar o VIB que foi instalado no hipervisor ESXi

 # esxcli software vib list |grep –i NVIDIA

Verifique a operação do driver NVIDIA

[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02   Driver Version: 470.182.02   CUDA Version: N/A      |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            On   | 00000000:AF:00.0 Off |                    0 |
| N/A   35C    P8    16W /  70W |   1971MiB / 15359MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

Encontrado o modo ECC (Error Correcting Code) habilitado no nó afetado.

# nvidia-smi –q
ECC Mode
Current                     : Enabled
Pending                     : Enabled

Desabilitar ECC (Código de Correção de Erros)

# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.

Verifique se o modo ECC está desativado:

# nvidia-smi –q
ECC Mode
Current                     : Disabled
Pending                     : Disabled

Após desativar o modo ECC e reinicializar o nó, o vMotion terá êxito e a atualização prosseguirá.

Informações Relacionadas

Nvidia - Recursos insuficientes. Um ou mais dispositivos

VMware - Uso de GPUs com máquinas virtuais no vSphere

Histórico de revisões

Revisão	Data de publicação	Comentários
1.0	01-Aug-2023	Versão inicial

Colaborado por engenheiros da Cisco

Akash Malla
TAC da Cisco

Solucionar problemas de falha de atualização devido a erro do vMotion para VMs com vGPU

Linguagem imparcial

Sobre esta tradução

Contents

Introdução

Pré-requisitos

Requisitos

Componentes Utilizados

Informações de Apoio

Problema

Solução

Desative o modo ECC no nó afetado.

Informações Relacionadas

Histórico de revisões

Colaborado por engenheiros da Cisco

Este documento lhe foi útil?

Contate a Cisco

Este documento se refere a estes produtos