소개
이 문서에서는 vGPU를 사용하는 VM의 vMotion 오류로 인한 업그레이드 실패를 해결하는 방법에 대해 설명합니다.
사전 요구 사항
Nvidia GPU를 위한 일관성 없는 ECC 구성이 있는 Hyperflex/Esxi 클러스터.
요구 사항
VM에 Nvidia GPU가 활성화된 vCenter 클러스터
사용되는 구성 요소
이 문서의 정보는 특정 랩 환경의 디바이스를 토대로 작성되었습니다. 이 문서에 사용된 모든 디바이스는 초기화된(기본) 컨피그레이션으로 시작되었습니다. 현재 네트워크가 작동 중인 경우 모든 명령의 잠재적인 영향을 미리 숙지하시기 바랍니다.
- Intersight(이 경우 SaaS)
- HyperFlex 5.0(2a)
- Nvidia GPU(Tesla T4)
배경 정보
이 시나리오에서는 HyperFlex를 업그레이드하는 동안 오류가 발생한 Nvidia GPU에 대한 일관성 없는 ECC 컨피그레이션 문제로 인해 vMotion이 실패했습니다.
참고: Tesla V100, P100, P40, Tesla M6 및 M60 GPU와 같은 파스칼 아키텍처를 사용하는 NVIDIA GPU 카드는 ECC 메모리를 지원하여 데이터 무결성을 향상시킵니다. 그러나 NVIDIA vGPU 소프트웨어는 ECC를 지원하지 않습니다. 따라서 NVIDIA vGPU를 사용할 때 모든 GPU에서 ECC 메모리가 비활성화되어 있는지 확인해야 합니다.
문제
nvidia GPU의 ECC 컨피그레이션이 일관되지 않아 vMotion 장애가 확인되었습니다.
실패한 작업: '업그레이드 전 HXDP 유효성 검사'
솔루션
영향을 받는 노드에서 ECC 모드를 비활성화합니다.
영향을 받는 노드는 어떻게 식별되었습니까?
수동 vMotion은 노드에 대한 오류를 표시합니다. "이 노드로 VM을 마이그레이션하는 동안 오류가 발생했습니다. "VM XXXX에 필요한 하나 이상의 장치(pciPassthru0)를 호스트 XXXX에서 사용할 수 없습니다."
단계:
# esxcli software vib list |grep –i NVIDIA
[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02 Driver Version: 470.182.02 CUDA Version: N/A |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla T4 On | 00000000:AF:00.0 Off | 0 |
| N/A 35C P8 16W / 70W | 1971MiB / 15359MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
- 영향을 받는 노드에서 ECC(Error Correcting Code) 모드가 활성화되었습니다.
# nvidia-smi –q
ECC Mode
Current : Enabled
Pending : Enabled
- ECC(Error Correcting Code) 비활성화
# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.
# nvidia-smi –q
ECC Mode
Current : Disabled
Pending : Disabled
ECC 모드를 비활성화하고 노드를 재부팅하면 vMotion이 성공하고 업그레이드가 진행됩니다.
관련 정보
Nvidia - 리소스가 부족합니다. 하나 이상의 디바이스
VMware - vSphere의 가상 머신과 함께 GPU 사용