Introdução
Este documento descreve como solucionar problemas de falha de atualização devido ao erro vMotion para VMs com vGPU.
Pré-requisitos
Cluster Hyperflex/Esxi com configuração ECC inconsistente para GPUs Nvidia.
Observação: confirmar se o sistema não é afetado por CSCvp47724
Requisitos
Cluster vCenter com GPU Nvidia habilitada para VMs.
Componentes Utilizados
As informações neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. Todos os dispositivos utilizados neste documento foram iniciados com uma configuração (padrão) inicial. Se a rede estiver ativa, certifique-se de que você entenda o impacto potencial de qualquer comando.
- Intersight (SaaS neste caso)
- HyperFlex 5.0(2a)
- GPU Nvidia (Tesla T4)
Informações de Apoio
Neste cenário específico, o vMotion estava falhando devido a problemas com configuração ECC inconsistente para GPUs Nvidia, o que estava causando erro ao atualizar o HyperFlex.
Observação: as placas de GPU NVIDIA que usam a arquitetura Pascal, como Tesla V100, P100, P40, bem como as GPUs Tesla M6 e M60, suportam memória ECC para melhorar a integridade dos dados. No entanto, o software NVIDIA vGPU não suporta ECC. Portanto, você deve garantir que a memória ECC esteja desativada em todas as GPUs ao usar NVIDIA vGPU.
Problema
Falha do vMotion identificada devido à configuração ECC inconsistente na GPU Nvidia.
Falha na tarefa: 'Verificar Validações HXDP Pré-Atualização'.
Solução
Desative o modo ECC no nó afetado.
Como o nó afetado foi identificado?
O vMotion manual exibirá o erro do nó "Erro ao migrar VMs para este nó: "Um ou mais dispositivos (pciPassthru0) exigidos pela VM XXXX não estão disponíveis no host XXXX"
Etapas:
- Listar o VIB que foi instalado no hipervisor ESXi
# esxcli software vib list |grep –i NVIDIA
- Verifique a operação do driver NVIDIA
[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02 Driver Version: 470.182.02 CUDA Version: N/A |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla T4 On | 00000000:AF:00.0 Off | 0 |
| N/A 35C P8 16W / 70W | 1971MiB / 15359MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
- Encontrado o modo ECC (Error Correcting Code) habilitado no nó afetado.
# nvidia-smi –q
ECC Mode
Current : Enabled
Pending : Enabled
- Desabilitar ECC (Código de Correção de Erros)
# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.
- Verifique se o modo ECC está desativado:
# nvidia-smi –q
ECC Mode
Current : Disabled
Pending : Disabled
Após desativar o modo ECC e reinicializar o nó, o vMotion terá êxito e a atualização prosseguirá.
Informações Relacionadas
Nvidia - Recursos insuficientes. Um ou mais dispositivos
VMware - Uso de GPUs com máquinas virtuais no vSphere