المقدمة
يوضح هذا المستند كيفية أستكشاف أخطاء الترقية وإصلاحها بسبب خطأ vMotion لأجهزة VMs باستخدام vGPU.
المتطلبات الأساسية
مجموعة HyperFlex/ESXi مع تهيئة ECC غير متناسقة لوحدات معالجة الرسومات (GPU) من Nvidia.
المتطلبات
مجموعة vCenter مع تمكين وحدة معالجة الرسومات (GPU) من Nvidia للأجهزة الافتراضية.
المكونات المستخدمة
تم إنشاء المعلومات الواردة في هذا المستند من الأجهزة الموجودة في بيئة معملية خاصة. بدأت جميع الأجهزة المُستخدمة في هذا المستند بتكوين ممسوح (افتراضي). إذا كانت شبكتك قيد التشغيل، فتأكد من فهمك للتأثير المحتمل لأي أمر.
- Intersight (SaaS في هذه الحالة)
- HyperFlex 5.0(2a)
- وحدة معالجة الرسومات (GPU) من NVIDIA (Tesla T4)
معلومات أساسية
في هذا السيناريو المحدد، تعرض vMotion للفشل بسبب مشاكل تتعلق بتكوين ECC غير المتسق لوحدات معالجة الرسومات (GPU) من Nvidia، والذي كان يتسبب في حدوث خطأ أثناء ترقية HyperFlex.
ملاحظة: تدعم بطاقات وحدات معالجة الرسومات (GPU) من NVIDIA التي تستخدم البنية الأساسية Pascal، مثل Tesla V100 و P100 و P40، بالإضافة إلى وحدات معالجة الرسومات (GPU) طراز Tesla M6 و M60، ذاكرة نظام تصحيح الأخطاء (ECC) لتحسين تكامل البيانات. ومع ذلك، فإن برنامج vGPU من NVIDIA لا يدعم نظام تصحيح الأخطاء (ECC). ولذلك، يجب عليك التأكد من تعطيل ذاكرة نظام تصحيح الأخطاء (ECC) على جميع وحدات معالجة الرسومات (GPU) عند إستخدام وحدة معالجة الرسومات (GPU) vGPU من NVIDIA.
المشكلة
تم تحديد فشل vMotion بسبب عدم توافق تكوين ECC على وحدة معالجة الرسومات (GPU) من Nvidia.
مهمة فاشلة: 'التحقق من صحة HXDP قبل الترقية'.
الحل
قم بتعطيل وضع ECC على العقدة المتأثرة.
كيف تم تحديد العقدة المتأثرة؟
سيعرض Manual vMotion خطأ للعقدة "حدث خطأ أثناء ترحيل أجهزة VM إلى هذه العقدة: "لا يتوفر جهاز واحد أو أكثر (pciPassthru0) مطلوبا بواسطة VM XXXX على الجهاز المضيف xxx"
الخطوات:
- سرد VIB الذي تم تثبيته في برنامج مراقبة الأجهزة الافتراضية ESXi
# esxcli software vib list |grep –i NVIDIA
- تحقق من عملية برنامج تشغيل NVIDIA
[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02 Driver Version: 470.182.02 CUDA Version: N/A |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla T4 On | 00000000:AF:00.0 Off | 0 |
| N/A 35C P8 16W / 70W | 1971MiB / 15359MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
- تم تمكين وضع ECC (تصحيح الخطأ للتعليمات البرمجية) الموجود على العقدة المتأثرة.
# nvidia-smi –q
ECC Mode
Current : Enabled
Pending : Enabled
- تعطيل رمز تصحيح الخطأ (ECC)
# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.
# nvidia-smi –q
ECC Mode
Current : Disabled
Pending : Disabled
بعد تعطيل وضع ECC وإعادة تشغيل العقدة، سينجح vMotion وستتقدم الترقية.
معلومات ذات صلة
NVIDIA - موارد غير كافية. جهاز واحد أو أكثر
VMware - إستخدام وحدات معالجة الرسومات (GPU) مع الأجهزة الافتراضية على vSphere