المقدمة
يوضح هذا المستند كيفية أستكشاف أخطاء التحقق من صحة Intersight الشائعة لمجموعات HyperFlex وإصلاحها.
المتطلبات الأساسية
المتطلبات
توصي Cisco بأن تكون لديك معرفة بالمواضيع التالية:
- فهم أساسي لبروتوكول وقت الشبكة (NTP) ونظام اسم المجال (DNS).
- الفهم الأساسي لسطر أوامر لينوكس.
- الفهم الأساسي لبرنامج VMware ESXi.
- الفهم الأساسي لمحرر النص السادس.
- عمليات مجموعة HyperFlex.
المكونات المستخدمة
تستند المعلومات الواردة في هذا المستند إلى:
نظام HyperFlex Data Platform (HXDP) 5.0.(2a) وأعلى
تم إنشاء المعلومات الواردة في هذا المستند من الأجهزة الموجودة في بيئة معملية خاصة. بدأت جميع الأجهزة المُستخدمة في هذا المستند بتكوين ممسوح (افتراضي). إذا كانت شبكتك قيد التشغيل، فتأكد من فهمك للتأثير المحتمل لأي أمر.
معلومات أساسية
توفر تقنية Intersight من Cisco إمكانية إجراء سلسلة من الاختبارات على مجموعة HyperFlex لضمان صحة المجموعة في حالة مثالية لمهام العمليات والصيانة اليومية.
بدءا من HX 5.0(2a)، يقدم HyperFlex حساب مستخدم diag مع امتيازات متزايدة لاستكشاف الأخطاء وإصلاحها في سطر أوامر HyperFlex. قم بالاتصال ب IP (CMIP) الخاص بإدارة مجموعة HyperFlex باستخدام SSH كمستخدم إداري ثم قم بالتبديل إلى مستخدم diag.
HyperFlex StorageController 5.0(2d)
admin@192.168.202.30's password:
This is a Restricted shell.
Type '?' or 'help' to get the list of allowed commands.
hxshell:~$ su diag
Password:
____ __ _____ _ _ _ _____
| ___| / /_ _ | ____(_) __ _| |__ | |_ |_ _|_ _____
|___ \ _____ | '_ \ _| |_ | _| | |/ _` | '_ \| __| _____ | | \ \ /\ / / _ \
___) | |_____| | (_) | |_ _| | |___| | (_| | | | | |_ |_____| | | \ V V / (_) |
|____/ \___/ |_| |_____|_|\__, |_| |_|\__| |_| \_/\_/ \___/
|___/
Enter the output of above expression: 5
Valid captcha
diag#
استكشاف الأخطاء وإصلاحها
إصلاح ESXi VIB تحقق من "إستخدام بعض الشخصيات المهمة المثبتة لواجهات VMKapi مهملة"
عند الترقية إلى برنامج ESXi 7.0 والإصدارات الأحدث، تضمن Intersight عدم إحتواء مضيفي برنامج ESXi في مجموعة برنامج HyperFlex على برامج تشغيل تم تصميمها باستخدام اعتمادات على إصدارات VMKAPI القديمة. توفر VMware قائمة بحزم تثبيت vSphere (VIBs) المتأثرة وتصف هذه المشكلة في هذه المقالة: كيلوبايت 78389
قم بتسجيل الدخول إلى واجهة مستخدم ويب (UI) الخاصة بالاتصال عبر الويب HyperFlex، ثم انتقل إلى معلومات النظام. انقر فوق العقد وحدد عقدة HyperFlex (HX). بعد ذلك، انقر فوق إدخال وضع صيانة HX.
أستخدم عميل SSH للاتصال بعنوان IP الخاص بإدارة مضيف ESXi. بعد ذلك، قم بتأكيد VIBs على مضيف ESXi باستخدام هذا الأمر:
esxcli software vib list
أزلت ال VIB مع هذا أمر:
esxcli software vib remove -n driver_VIB_name
أعد تمهيد مضيف ESXi. عندما تعود إلى الإنترنت، من اتصال HX، حدد عقدة HX وانقر فوق إنهاء وضع صيانة HX.
انتظر حتى يصبح نظام HX Cluster سليما. ثم قم بتنفيذ الخطوات نفسها للعقد الأخرى في نظام المجموعة.
تم تعطيل Fix vMotion Enabled "VMotion على مضيف ESXi"
يضمن هذا التحقق تمكين vMotion على كافة الأجهزة المضيفة ل ESXi في مجموعة HX. من vCenter، يجب أن يكون لكل مضيف ESXi محول ظاهري (vSwitch) بالإضافة إلى واجهة vKernel ل vMotion.
قم بالاتصال ب IP لإدارة مجموعة HyperFlex (CMIP) باستخدام SSH كمستخدم إداري ثم قم بتشغيل هذا الأمر:
hx_post_install
حدد الخيار 1 لتكوين vMotion:
admin@SpringpathController:~$ hx_post_install
Select hx_post_install workflow-
1. New/Existing Cluster
2. Expanded Cluster (for non-edge clusters)
3. Generate Certificate
Note: Workflow No.3 is mandatory to have unique SSL certificate in the cluster. By Generating this certificate, it will replace your current certificate. If you're performing cluster expansion, then this option is not required.
Selection: 1
Logging in to controller HX-01-cmip.example.com
HX CVM admin password:
Getting ESX hosts from HX cluster...
vCenter URL: 192.168.202.35
Enter vCenter username (user@domain): administrator@vsphere.local
vCenter Password:
Found datacenter HX-Clusters
Found cluster HX-01
post_install to be run for the following hosts:
HX-01-esxi-01.example.com
HX-01-esxi-02.example.com
HX-01-esxi-03.example.com
Enter ESX root password:
Enter vSphere license key? (y/n) n
Enable HA/DRS on cluster? (y/n) y
Successfully completed configuring cluster HA.
Disable SSH warning? (y/n) y
Add vmotion interfaces? (y/n) y
Netmask for vMotion: 255.255.254.0
VLAN ID: (0-4096) 208
vMotion MTU is set to use jumbo frames (9000 bytes). Do you want to change to 1500 bytes? (y/n) y
vMotion IP for HX-01-esxi-01.example.com: 192.168.208.17
Adding vmotion-208 to HX-01-esxi-01.example.com
Adding vmkernel to HX-01-esxi-01.example.com
vMotion IP for HX-01-esxi-02.example.com: 192.168.208.18
Adding vmotion-208 to HX-01-esxi-02.example.com
Adding vmkernel to HX-01-esxi-02.example.com
vMotion IP for HX-01-esxi-03.example.com: 192.168.208.19
Adding vmotion-208 to HX-01-esxi-03.example.com
Adding vmkernel to HX-01-esxi-03.example.com
ملاحظة: بالنسبة للمجموعات الطرفية التي تم نشرها مع HX Installer، يلزم تشغيل البرنامج النصي hx_post_install من واجهة سطر الأوامر (CLI) الخاصة ب HX Installer.
التحقق من اتصال vCenter "فشل التحقق من اتصال vCenter"
الاتصال ب IP الخاص بإدارة مجموعة HyperFlex (CMIP) باستخدام SSH كمستخدم إداري والمحول إلى مستخدم diag. تأكد من تسجيل مجموعة HX في vCenter باستخدام هذا الأمر:
diag# hxcli vcenter info
Cluster Name : San_Jose
vCenter Datacenter Name : MX-HX
vCenter Datacenter ID : datacenter-3
vCenter Cluster Name : San_Jose
vCenter Cluster ID : domain-c8140
vCenter URL : 10.31.123.186
يجب أن يعرض عنوان URL الخاص ب vCenter عنوان IP أو اسم المجال المؤهل بالكامل (FQDN) الخاص بخادم vCenter. إذا لم تقم بعرض المعلومات الصحيحة، فقم بإعادة تسجيل قطاع HX باستخدام vCenter باستخدام هذا الأمر:
diag# stcli cluster reregister --vcenter-datacenter MX-HX --vcenter-cluster San_Jose --vcenter-url 10.31.123.186 --vcenter-user administrator@vsphere.local
Reregister StorFS cluster with a new vCenter ...
Enter NEW vCenter Administrator password:
Cluster reregistration with new vCenter succeeded
تأكد من وجود اتصال بين HX CMIP و vCenter باستخدام الأوامر التالية:
diag# nc -uvz 10.31.123.186 80
Connection to 10.31.123.186 80 port [udp/http] succeeded!
diag# nc -uvz 10.31.123.186 443
Connection to 10.31.123.186 443 port [udp/https] succeeded!
إصلاح التحقق من حالة التنظيف "فشل التحقق من النظافة"
قم بالاتصال ب HyperFlex CMIP باستخدام SSH كمستخدم إداري ثم قم بالتبديل إلى مستخدم diag. قم بتشغيل هذا الأمر لتعريف العقدة التي لا تعمل فيها الخدمة الأكثر نظافة:
diag# stcli cleaner info
{ 'type': 'node', 'id': '7e83a6b2-a227-844b-87fb-f6e78e6a59be', 'name': '172.16.1.6' }: ONLINE
{ 'type': 'node', 'id': '8c83099e-b1e0-6549-a279-33da70d09343', 'name': '172.16.1.8' }: ONLINE
{ 'type': 'node', 'id': 'a697a21f-9311-3745-95b4-5d418bdc4ae0', 'name': '172.16.1.7' }: OFFLINE
في هذه الحالة، يكون 172.16.1.7 هو عنوان IP الخاص بالجهاز الظاهري (SCVM) لوحدة التحكم في التخزين حيث لا يعمل جهاز التنظيف. قم بالاتصال بعنوان IP الخاص بالإدارة لكل SCVM في المجموعة باستخدام SSH ثم ابحث عن عنوان IP الخاص ب eth1 باستخدام هذا الأمر:
diag# ifconfig eth1
eth1 Link encap:Ethernet HWaddr 00:0c:29:38:2c:a7
inet addr:172.16.1.7 Bcast:172.16.255.255 Mask:255.255.0.0
UP BROADCAST RUNNING MULTICAST MTU:9000 Metric:1
RX packets:1036633674 errors:0 dropped:1881 overruns:0 frame:0
TX packets:983950879 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:723797691421 (723.7 GB) TX bytes:698522491473 (698.5 GB)
بدء تشغيل الخدمة الأكثر نظافة على العقدة المتأثرة باستخدام هذا الأمر:
diag# sysmtool --ns cleaner --cmd start
إصلاح حالة خدمة NTP "حالة خدمة NTPD معطلة"
قم بالاتصال ب HX CMIP باستخدام SSH كمستخدم إداري ثم قم بالتبديل إلى مستخدم diag. قم بتشغيل هذا الأمر لتأكيد إيقاف خدمة NTP.
diag# service ntp status
* NTP server is not running
إذا لم تكن خدمة NTP قيد التشغيل، فعليك تشغيل هذا الأمر لبدء تشغيل خدمة NTP.
diag# priv service ntp start
* Starting NTP server
...done.
فشل إصلاح إمكانية الوصول إلى خادم NTP "فحص إمكانية الوصول إلى خوادم NTP"
قم بالاتصال ب HX CMIP باستخدام SSH كمستخدم إداري ثم قم بالتبديل إلى مستخدم diag. تأكد من أن نظام مجموعة HX به خادم (خوادم) NTP قابلة للوصول إليه. قم بتشغيل هذا الأمر لإظهار تكوين NTP في نظام المجموعة.
diag# stcli services ntp show
10.31.123.226
تأكد من وجود اتصال شبكة بين كل SCVM في مجموعة HX وخادم NTP على المنفذ 123.
diag# nc -uvz 10.31.123.226 123
Connection to 10.31.123.226 123 port [udp/ntp] succeeded!
في حالة عدم إستخدام خادم NTP الذي تم تكوينه في نظام المجموعة بعد الآن، يمكنك تكوين خادم NTP مختلف في نظام المجموعة.
stcli services ntp set NTP-IP-Address
تحذير: تقوم مجموعة NTP لخدمات STCLI باستبدال تكوين NTP الحالي في نظام المجموعة.
إصلاح إمكانية الوصول إلى خادم DNS "فشل التحقق من إمكانية الوصول إلى DNS"
قم بالاتصال ب HX CMIP باستخدام SSH كمستخدم إداري ثم قم بالتبديل إلى مستخدم diag. تأكد من أن نظام مجموعة HX به خادم (خوادم) DNS قابلة للوصول إليه. قم بتشغيل هذا الأمر لإظهار تكوين DNS في نظام المجموعة.
diag# stcli services dns show
10.31.123.226
تأكد من وجود اتصال شبكة بين كل SCVM في مجموعة HX وخادم DNS على المنفذ 53.
diag# nc -uvz 10.31.123.226 53
Connection to 10.31.123.226 53 port [udp/domain] succeeded!
في حالة عدم إستخدام خادم DNS المكون في نظام المجموعة بعد الآن، يمكنك تكوين خادم DNS مختلف في نظام المجموعة.
stcli services dns set DNS-IP-Adrress
تحذير: يقوم تعيين DNS لخدمات STCLI باستبدال تكوين DNS الحالي في نظام المجموعة.
إصلاح إصدار وحدة التحكم VM "قيمة إصدار وحدة التحكم VM مفقودة من ملف الإعدادات الموجود على مضيف ESXi"
يضمن هذا التحقق أن كل SCVM يتضمن guestinfo.stctlvm.version = "3.0.6-3" في ملف التكوين.
قم بتسجيل الدخول إلى اتصال HX وتأكد من سلامة نظام المجموعة.
قم بالاتصال بكل مضيف ESXi في المجموعة باستخدام SSH مع الحساب الجذر. ثم قم بتشغيل هذا الأمر
[root@San-Jose-Server-1:~] grep guestinfo /vmfs/volumes/SpringpathDS-FCH2119V1NH/stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx
guestinfo.stctlvm.version = "3.0.6-3"
guestinfo.stctlvm.configrdm = "False"
guestinfo.stctlvm.hardware.model = "HXAF240C-M4SX"
guestinfo.stctlvm.role = "storage"
تحذير: يمكن أن يكون اسم datastore واسم SCVM مختلفين على نظام المجموعة لديك. يمكنك كتابة Spring، ثم الضغط على مفتاح Tab لإكمال اسم DataStore تلقائيا. لاسم SCVM، يمكنك كتابة stCTL، ثم الضغط على مفتاح Tab للإكمال التلقائي لاسم SCVM.
إذا لم يتضمن ملف التكوين الخاص ب SCVM guestinfo.stctlvm.version = سجل الدخول إلى vCenter "3.0.6-3" وحدد SCVM. انقر فوق عمليات، انتقل إلى الطاقة، ثم حدد نظام تشغيل الضيف الذي تم إيقاف تشغيله لإيقاف تشغيل SCVM بشكل سلس.
من واجهة سطر الأوامر (CLI) الخاصة ب ESXi، قم بإنشاء نسخة إحتياطية من ملف تكوين SCVM باستخدام هذا الأمر:
cp /vmfs/volumes/SpringpathDS-FCH2119V1NH/stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx /vmfs/volumes/SpringpathDS-FCH2119V1NH/stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx.bak
بعد ذلك، قم بتشغيل هذا الأمر لفتح ملف تكوين SCVM:
[root@San-Jose-Server-1:~] vi /vmfs/volumes/SpringpathDS-FCH2119V1NH/stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx
اضغط على المفتاح i لتحرير الملف، ثم انتقل إلى نهاية الملف وأضف هذا السطر:
guestinfo.stctlvm.version = "3.0.6-3"
اضغط على مفتاح ESC واكتب :wq لحفظ التغييرات.
التعرف على معرف الجهاز الظاهري (VMID) الخاص ب SCVM باستخدام الأمر vim-cmd vmsvc/getTALLVMS وإعادة تحميل ملف تكوين SCVM:
[root@San-Jose-Server-1:~] vim-cmd vmsvc/getallvms
Vmid Name File Guest OS Version Annotation
1 stCtlVM-FCH2119V1NH [SpringpathDS-FCH2119V1NH] stCtlVM-FCH2119V1NH/stCtlVM-FCH2119V1NH.vmx ubuntu64Guest vmx-15
[root@San-Jose-Server-1:~] vim-cmd vmsvc/reload 1
إعادة التحميل والتشغيل على SCVM باستخدام الأوامر التالية:
[root@San-Jose-Server-1:~] vim-cmd vmsvc/reload 1
[root@San-Jose-Server-1:~] vim-cmd vmsvc/power.on 1
تحذير: في هذا المثال، VMID هو 1.
يجب الانتظار حتى يعود نظام مجموعة HX سليما قبل الانتقال إلى نظام SCVM التالي.
كرر الإجراء نفسه على SCVMs المتأثرة واحد في كل مرة.
وأخيرا، قم بتسجيل الدخول إلى كل SCVM باستخدام SSH والمحول إلى حساب مستخدم diag. قم بإعادة تشغيل عقدة stMgr واحدة في وقت واحد باستخدام هذا الأمر:
diag# priv restart stMgr
stMgr start/running, process 22030
قبل الانتقال إلى SCVM التالي، تأكد من أن stMgr قيد التشغيل الكامل باستخدام هذا الأمر:
diag# stcli about
Waiting for stmgr management server on port 9333 to get ready . .
productVersion: 5.0.2d-42558
instanceUuid: EXAMPLE
serialNumber: EXAMPLE,EXAMPLE,EXAMPLE
locale: English (United States)
apiVersion: 0.1
name: HyperFlex StorageController
fullName: HyperFlex StorageController 5.0.2d
serviceType: stMgr
build: 5.0.2d-42558 (internal)
modelNumber: HXAF240C-M4SX
displayVersion: 5.0(2d)
معلومات ذات صلة
تحذير: في هذا المثال، قيمة VMID هي 1.