أستكشاف مشكلات الأداء وحلها في مجموعات HyperFlex

تم التحديث:٢٦ يوليو ٢٠٢٣

معرّف المستند:220651

لغة خالية من التحيز

تسعى مجموعة الوثائق لهذا المنتج جاهدة لاستخدام لغة خالية من التحيز. لأغراض مجموعة الوثائق هذه، يتم تعريف "خالية من التحيز" على أنها لغة لا تعني التمييز على أساس العمر، والإعاقة، والجنس، والهوية العرقية، والهوية الإثنية، والتوجه الجنسي، والحالة الاجتماعية والاقتصادية، والتمييز متعدد الجوانب. قد تكون الاستثناءات موجودة في الوثائق بسبب اللغة التي يتم تشفيرها بشكل ثابت في واجهات المستخدم الخاصة ببرنامج المنتج، أو اللغة المستخدمة بناءً على وثائق RFP، أو اللغة التي يستخدمها منتج الجهة الخارجية المُشار إليه. تعرّف على المزيد حول كيفية استخدام Cisco للغة الشاملة.

حول هذه الترجمة

ترجمت Cisco هذا المستند باستخدام مجموعة من التقنيات الآلية والبشرية لتقديم محتوى دعم للمستخدمين في جميع أنحاء العالم بلغتهم الخاصة. يُرجى ملاحظة أن أفضل ترجمة آلية لن تكون دقيقة كما هو الحال مع الترجمة الاحترافية التي يقدمها مترجم محترف. تخلي Cisco Systems مسئوليتها عن دقة هذه الترجمات وتُوصي بالرجوع دائمًا إلى المستند الإنجليزي الأصلي (الرابط متوفر).

المحتويات

المقدمة

تحديد الهوية

أنواع نظام المجموعة

شرح مخطط الأداء

IOPS

سعة المعالجة

زمن الانتقال

تواتر

عوامل خارجية

التعرف على مشكلات الأداء على مستوى الأجهزة الافتراضية للضيوف

ويندوز

ESXi

فحص PVSCSI

التحقق من محول الشبكة

فحص RSS

المقدمة

يصف هذا المستند تأثير الأداء في بيئة HyperFlex، من منظور الجهاز الظاهري الضيف (VM) ومضيف ESXi و(SCVM)

تحديد الهوية

لاستكشاف أخطاء الأداء وإصلاحها في بيئة HyperFlex، من المهم تحديد نوع المجموعة، والعملية التي يتم فيها تقليل الأداء، ومعدل انخفاض الأداء، ومستوى تأثير الأداء الذي يتسبب في انخفاض الأداء.

هناك مستويات متعددة من التأثير في مجموعة تعمل بتقنية HyperFlex، وذلك على مستوى الأجهزة المضيفة VM الضيف ومستوى مضيف برنامج ESXi ومستوى جهاز التحكم في التخزين VM.

أنواع نظام المجموعة

● العقد المختلطة: تستخدم محركات أقراص مزودة بذاكرة مصنوعة من مكونات صلبة (SSD) للتخزين المؤقت ومحركات أقراص ثابتة لمستوى السعة.

● عقد All-Flash: تستخدم محركات أقراص مزودة بذاكرة مصنوعة من مكونات صلبة (SSD) أو وحدات تخزين Express (NVMe) غير متطايرة للذاكرة المؤقتة ومحركات أقراص مزودة بذاكرة مصنوعة من مكونات صلبة (SSD) لطبقة السعة.

● عقد All-NVMe: توفر وحدات تخزين NVMe لكل من التخزين المؤقت وعقد NVMe من مستوى السعة أعلى أداء لأحمال العمل كثيرة المتطلبات مع التخزين المؤقت

شرح مخطط الأداء

تتميز أنظمة HyperFlex بميزة مراقبة الأداء، كما تعرض المخططات أداء القراءة والكتابة لمجموعة وحدات التخزين.

IOPS

عمليات الإدخال/الإخراج في الثانية (IOPS) هي مقياس أداء شائع يستخدم لقياس أجهزة تخزين الكمبيوتر، بما في ذلك محركات الأقراص الثابتة. يستخدم هذا المقياس لتقييم الأداء لأحمال عمل الإدخال/الإخراج العشوائية.

IOPS performance chart. مخطط أداء عمليات الإدخال والإخراج في الثانية (IOPS).

سعة المعالجة

توضح الصورة معدل نقل البيانات في مجموعة وحدات التخزين التي يتم قياسها ميجابت في الثانية.

Throughput performance chart. مخطط أداء الخرج.

زمن الانتقال

يمثل زمن الوصول مقياسا للمدة التي يستغرقها إكمال طلب إدخال/إخراج واحد. يتم قياس المدة بين إصدار الطلب وتلقي الاستجابة بالمللي ثانية.

Latency performance chart. مخطط أداء زمن الوصول.

تواتر

ومن المهم تحديد تواتر ومدة تأثير الأداء لاستعراض الأثر المحتمل على البيئة.

إذا تأثر الأداء طوال الوقت، فمن الضروري التحقق من المكان الذي بدأ فيه هذا الأداء بتخفيض قيمته والتحقق من أية تغييرات أو مشاكل في التكوين بين نظام المجموعة.

إذا كان الأداء يؤثر بشكل متقطع، فمن الضروري التحقق مما إذا كانت هناك عملية أو خدمة قيد التشغيل في ذلك الوقت.

عوامل خارجية

يمكن أن يتأثر أداء المجموعة بعوامل خارجية مثل اللقطات وعمليات النسخ الاحتياطي.

راجع هذه الروابط للحصول على مزيد من المعلومات حول العوامل الخارجية:

لقطات vSphere من VMware: أداء أفضل الممارسات.

التقرير الرسمي للنسخ الاحتياطي والنسخ المتماثل لخدمة HyperFlex Systems و VEEAM من Cisco.

التعرف على مشكلات الأداء على مستوى الأجهزة الافتراضية للضيوف

وهذا هو المستوى الأكثر وضوحا للتأثير في بيئة عمل تقنية HyperFlex، كما أنه يؤثر بشكل مباشر على الخدمات التي توفرها الأجهزة الافتراضية (VM)، كما أنه أكثر وضوحا بالنسبة للمستخدمين المتضررين بشكل مباشر.

فيما يلي إختبارات معتادة لتحديد الأداء في أنظمة التشغيل الشائعة.

ويندوز

راجع الأدوات المتوفرة للتعرف على مشكلات الأداء في الأجهزة الافتراضية من نظام التشغيل Windows Guest:

مراقبة الأداء

مراقب الموارد

ESXi

بعد تحديد تأثير الأداء ومراجعة الأسباب المحتملة لتراجع الأداء، يتم إجراء بعض عمليات فحص الأداء لتحسين الأداء.

تحقق من زيادة التوفير (يجب ألا يتجاوز العدد الإجمالي لوحدات المعالجة المركزية vCPUs التي تم تعيينها لجميع الأجهزة الافتراضية إجمالي عدد المراكز الفعلية المتوفرة على الجهاز المضيف ESXi).
حتى إذا كان نظام التشغيل الضيف لا يستخدم بعض وحدات المعالجة المركزية الافتراضية (vCPU) الخاصة به، فإن تكوين أجهزة VM باستخدام وحدات المعالجة المركزية الافتراضية (vCPU) هذه لا يزال يفرض بعض متطلبات الموارد الصغيرة على ESXi التي تترجم إلى إستهلاك حقيقي لوحدة المعالجة المركزية (CPU) على الجهاز المضيف
يؤدي تخصيص مساحة أكبر من الذاكرة إلى زيادة زيادة زيادة زيادة غير ضرورية في مصروفات ذاكرة الجهاز الظاهري (VM)، كما يمكن أن يؤدي إلى التنازع على الذاكرة، لا سيما في حالة إستخدام حجوزات.
تحقق من أن برنامج تشغيل البالون لا يحتفظ بذاكرة مؤقتة، لمزيد من المعلومات، ارجع إلى هذا الارتباط.

مراجعة أستكشاف مشكلات أداء الأجهزة الافتراضية ESX/ESXi وإصلاحها.

فحص PVSCSI

تعد مهايئات SCSI شبه العكسية (PVSCSI) مهايئات تخزين فائقة الأداء يمكنها تحقيق إنتاجية أعلى واستخدام أقل لوحدة المعالجة المركزية (CPU) للأجهزة الافتراضية التي تتطلب وحدات إدخال وإخراج عالية على الأقراص، ومن المستحسن إستخدام مهايئات PVSCSI. تعد وحدة التحكم في بروتوكول PVSCSI بمثابة مهايئ SCSI فائق الأداء متوافقا مع المحاكاة الافتراضية يتيح أقل زمن وصول ممكن وأعلى سعة معالجة مع أقل حمل لوحدة المعالجة المركزية.

PVSCSI adapter. مهايئ PVSCSI.

التحقق من محول الشبكة

VMXnet 3 هي بطاقة واجهة شبكة (NIC) شبه منظمة مصممة للأداء وتوفر ميزات عالية الأداء شائعة الاستخدام على الشبكات الحديثة، مثل الإطارات كبيرة الحجم والدعم متعدد قوائم الانتظار (المعروف أيضا باسم "تغيير حجم جانب التلقي في Windows") وعمليات إلغاء تحميل IPv6 وتوصيل المقاطعة عبر بروتوكول MSI/MSI-X وعمليات إيقاف تحميل الأجهزة.

تأكد من أن نوع المحول هو VMXNET3.

Network adapter. مهايئ الشبكة.

فحص RSS

ملاحظة: ينطبق هذا الفحص فقط على الأجهزة الافتراضية الضيفة التي تعمل بنظام تشغيل Windows.

تطوير جانب التلقي (RSS) هو تقنية برنامج تشغيل الشبكة التي تتيح التوزيع الفعال لمعالجة إستقبال الشبكة عبر وحدات المعالجة المركزية المتعددة في أنظمة المعالجات المتعددة.

تحتوي خوادم Windows على تهيئة برنامج تشغيل تتيح توزيع حمل معالجة الشبكة في وضع kernel عبر وحدات معالجة مركزية متعددة.

تحقق مما إذا تم تمكينها، قم بتشغيل هذا الأمر على Windows PowerShell:

netsh interface tcp set global rss=enabled

لتمكين مراجعة RSS لهذا الارتباط

التحقق من وحدة المعالجة المركزية (CPU) القابلة للتوصيل دون إيقاف التشغيل

التوصيل السريع لوحدة المعالجة المركزية (CPU) عبارة عن ميزة تتيح لمسؤول الأجهزة الافتراضية (VM) إمكانية إضافة وحدات المعالجة المركزية (CPU) إلى الجهاز الظاهري (VM) دون الاضطرار إلى إيقاف تشغيله. وهذا يسمح بإضافة موارد وحدة المعالجة المركزية (CPU) بشكل فوري دون مقاطعة الخدمة. عند تمكين التوصيل السريع لوحدة المعالجة المركزية (CPU) على جهاز افتراضي (VM)، يتم تعطيل قدرة vNUMA.

CPU hot plug disabled. تم تعطيل التوصيل السريع لوحدة المعالجة المركزية (CPU).

مراجعة أفضل الممارسات لأنظمة التشغيل والتطبيقات الشائعة:

نظام التشغيل Windows.

إرشادات ضبط الأداء ل Windows Server 2022.

ريد هات.

3 نصائح عن تحسين أداء عملية لينوكس مع الأولوية والتآلف.

خادم SQL.

إنشاء خادم Microsoft SQL على VMware.

شركة RedHat.

دليل ضبط الأداء.

تحديد مشكلات الأداء على مستوى الأجهزة المضيفة

لتحديد تأثير الأداء على مستوى المضيف، يمكنك مراجعة مخططات الأداء التي قام مضيف ESXi بتكوينها في برنامج ESXi Hypervisor، كما يمكنك التحقق من عدد البيئات المضيفة التي تأثرت.

يمكنك عرض مخططات الأداء في vCenter في علامة التبويب المراقبة، انقر فوق علامة التبويب أداء.

vCenter performance charts. مخططات أداء vCenter.

في هذه المخططات، يمكنك عرض مخططات الأداء المتعلقة بوحدة المعالجة المركزية (CPU) والذاكرة والقرص. ارجع إلى هذا الارتباط لفهم المخططات.

ملاحظة: تتسبب أخطاء CRC وعدم تطابق وحدة الحد الأقصى للنقل (MTU) خاصة في شبكة التخزين في حدوث مشاكل في زمن الوصول. يجب أن تستخدم حركة مرور بيانات التخزين إطارات كبيرة الحجم.

وحدة التحكم في الإدخال/الإخراج للتخزين والتحقق من عمق قائمة الانتظار

يتم إستخدام وحدة التحكم في الإدخال/الإخراج (SIOC) أثناء التخزين للتحكم في إستخدام وحدات الإدخال/الإخراج لجهاز افتراضي، كما أن من الضروري أن يتم تعطيل هذه الميزة في مجموعات HyperFlex بالتدريج من أجل فرض مستويات مشاركة وحدات الإدخال/الإخراج المحددة مسبقا.

يقصد ب Queue Depth عدد طلبات الإدخال/الإخراج (I/O) المعلقة التي يمكن لمورد التخزين معالجتها في أي وقت.

يمكنك إستخدام هذه الخطوات للتحقق من تعطيل SIOC ومن تكوين عمق قائمة الانتظار.

تأكيد تشغيل SIOC على ESXi وتكوين عمق قائمة الانتظار

الخطوة 1. SSH إلى مضيف HX ESXi وأصدر الأمر لإدراج مخططات البيانات.

[root@] vsish -e ls /vmkModules/nfsclient/mnt
encrypted_app/
Prod/                                        <----- Datastore name 
Dev/
App/

الخطوة 2. أستخدم اسم مخزن البيانات وأصدر الأمر.

vsish -e get /vmkModules/nfsclient/mnt/
     
     
       /properties [root@] vsish -e get /vmkModules/nfsclient/mnt/Prod/properties mount point information { volume name:Prod server name:7938514614702552636-8713662604223381594 server IP:127.0.0.1 server volume:172.16.3.2:Prod UUID:63dee313-dfecdf62 client src port:641 busy:0 socketSendSize:1048576 socketReceiveSize:1048576 maxReadTransferSize:65536 maxWriteTransferSize:65536 reads:0 readsFailed:0 writes:285 writesFailed:0 readBytes:0 writeBytes:10705 readTime:0 writeTime:4778777 readSplitsIssued:0 writeSplitsIssued:285 readIssueTime:0 writeIssueTime:4766494 cancels:0 totalReqsQueued:0 metadataReqsQueued(non IO):0 reqsInFlight:0 readOnly:0 hidden:0 isPE:0 isMounted:1 isAccessible:1 unstableWrites:0 unstableNoCommit:0 maxQDepth:1024 <-------- Max Qdepth configuration iormState:0 <-------- I/O control disabled latencyThreshold:30 shares:52000 podID:0 iormInfo:0 NFS operational state: 0 -> Up enableDnlc:1 closeToOpenCache:0 highToAvgLatRatio:10 latMovingAvgSmoothingLevel:2 activeWorlds:55 inPreUnmount:0 }

الخطوة 3. في المخرجات ابحث عن الخط

iormState:0 0= disabled 2= enabled

يجب أن يكون maxQDepth للخط 1024

الخطوة 4. يجب تكرار الخطوات نفسها لباقي مخططات البيانات

تعطيل SIOC

invalider in order to أعجزت ال SIOC يركض هذا steps.

الخطوة 1. قم بتسجيل الدخول إلى vSphere باستخدام عميل HTML.

الخطوة 2. من القائمة المنسدلة، حدد "التخزين" ثم حدد "مخزن بيانات HX" القابل للتطبيق في الجزء الأيسر.

Select datastore. تحديد موقع البيانات.

الخطوة 3. في القسم العلوي بالجزء الأيمن من مخطط البيانات، حدد علامة التبويب تكوين.

Configure tab. علامة التبويب تكوين.

الخطوة 4. في القسم الأيسر من القسم الأوسط تحت المزيد، حدد عام، وعلى الجانب الأيمن قم بالتمرير لأسفل إلى إمكانيات DataStore وانقر فوق تحرير

Edit datastore capabilities. تحرير قدرات مركز البيانات.

في حالة إلغاء تحديد زر إلغاء تحديد تحديد خيار تعطيل التحكم في الإدخال/الإخراج الخاص بوحدة التخزين ومجموعة الإحصائيات، قم بالتحقق منه.

Disable storage I/O control. تعطيل التحكم في الإدخال/الإخراج لوحدات التخزين.

إذا تم التحقق من زر تعطيل تحكم الإدخال/الإخراج في التخزين وراديو مجموعة الإحصائيات، قم بالتبديل بين تمكين التحكم في الإدخال/الإخراج في التخزين وجمع الإحصائيات وتعطيل التحكم في الإدخال/الإخراج في التخزين وجمع الإحصائيات.

Storage I/O control disabled. تم تعطيل التحكم بالإدخال/الإخراج في وحدة التخزين.

الخطوة 5. كرر الخطوة من 1 إلى 4 حسب الحاجة لكل مخططات البيانات الأخرى.

تعديل MaxQDepth

لتعديل الأمر maxQDepth، قم بإصدار الأمر التالي لكل مخزن بيانات.

vsish -e set /vmkModules/nfsclient/mnt/
     
     
       /properties maxQDepth 1024

التحقق من Rx_NO_BUFF

يمكن أن تؤدي خوادم HyperFlex ذات حركة مرور الشبكة الكثيفة أو حركة مرور الشبكة ذات الدوران المصغر إلى فقدان الحزم الذي يظهر في شكل rx_no_bufs.

لتحديد هذه المشكلة، قم بتشغيل هذه الأوامر في مضيف ESXi للتحقق من عدادات rx_no_buf.

/usr/lib/vmware/vm-support/bin/nicinfo.sh | egrep "^NIC:|rx_no_buf"
NIC: vmnic0
rx_no_bufs: 1
NIC: vmnic1
rx_no_bufs: 2
NIC: vmnic2
rx_no_bufs: 2
NIC: vmnic3
rx_no_bufs: 71128211 <---------Very high rx_no_bufs counter
NIC: vmnic4
rx_no_bufs: 1730
NIC: vmnic5
rx_no_bufs: 897
NIC: vmnic6
rx_no_bufs: 24952
NIC: vmnic7
rx_no_bufs: 2

انتظر بضع دقائق ثم قم بتشغيل الأمر مرة أخرى وتحقق مما إذا كانت عدادات rx_no_bufs لا تزيد.

إذا كانت هذه العدادات منخفضة (< 1000) بعد ذلك مع فقد قليل للحزم بسبب تكوين قائمة الانتظار الافتراضية ومن المحتمل ألا تكون هناك حاجة إلى إجراء أي ضبط.
إذا كانت هذه العدادات مرتفعة (> 10000)، فسيكون هناك بعض التأثير بسبب تكوين قائمة الانتظار هذه، وقد تساعد عملية الضبط هذه قليلا.
إذا كانت هذه العدادات مرتفعة جدا (> 1،000،000)، فسيكون هناك تأثير أكبر، لذا يوصى بزيادة قوائم الانتظار.
إذا كان RX_NO_BUFS يتزايد بشكل نشط، فهذا يعني أن الحزمة قامت بإنشائه على طول الشبكة ووصلت إلى الطبقة الافتراضية ثم يتم إسقاط الحزمة.

إذا رأيت العداد الموجود على هذه القيم، فالرجاء الاتصال ب Cisco TAC لضبط تكوين بطاقة واجهة الشبكة (vNIC) للحصول على أداء أفضل.

مراجعة أفضل الممارسات والتحققات الإضافية على مستوى ESXi.

أفضل ممارسات الأداء لبرنامج vSphere 7. 0 من VMware.

تعريف مشاكل الأداء مستوى الجهاز الظاهري لوحدة التحكم في التخزين (SCVM)

صحة المجموعة

تحقق مما إذا كان نظام المجموعة سليما.

hxshell:~$ sysmtool --ns cluster --cmd healthdetail
Cluster Health Detail:
---------------------:
State: ONLINE                       <---------- State of the cluster 
HealthState: HEALTHY                <---------- Health of the cluster 
Policy Compliance: COMPLIANT
Creation Time: Tue May 30 04:48:45 2023
Uptime: 7 weeks, 19 hours, 45 mins, 51 secs
Cluster Resiliency Detail:
-------------------------:
Health State Reason: Storage cluster is healthy.
# of nodes failure tolerable for cluster to be fully available: 1
# of node failures before cluster goes into readonly: NA
# of node failures before cluster goes to be crticial and partially available: 3
# of node failures before cluster goes to enospace warn trying to move the existing data: NA
# of persistent devices failures tolerable for cluster to be fully available: 2
# of persistent devices failures before cluster goes into readonly: NA
# of persistent devices failures before cluster goes to be critical and partially available: 3
# of caching devices failures tolerable for cluster to be fully available: 2
# of caching failures before cluster goes into readonly: NA
# of caching failures before cluster goes to be critical and partially available: 3
Current ensemble size: 3
Minimum data copies available for some user data: 3
Minimum cache copies remaining: 3
Minimum metadata copies available for cluster metadata: 3
Current healing status:
Time remaining before current healing operation finishes:
# of unavailable nodes: 0

hxshell:~$

يظهر هذا الإخراج نظام مجموعة غير صحيح بسبب عقدة غير متوفرة.

hxshell:~$ sysmtool --ns cluster --cmd healthdetail
Cluster Health Detail:
---------------------:
State: ONLINE                   <-------State of the cluster
HealthState: UNHEALTHY          <-------Health of the cluster 
Policy Compliance: NON-COMPLIANT
Creation Time: Tue May 30 04:48:45 2023
Uptime: 7 weeks, 19 hours, 55 mins, 9 secs
Cluster Resiliency Detail:
-------------------------:
Health State Reason: Storage cluster is unhealthy.Storage node 172.16.3.9 is unavailable.                  <----------- Health state reason
# of nodes failure tolerable for cluster to be fully available: 0
# of node failures before cluster goes into readonly: NA
# of node failures before cluster goes to be crticial and partially available: 2
# of node failures before cluster goes to enospace warn trying to move the existing data: NA
# of persistent devices failures tolerable for cluster to be fully available: 1
# of persistent devices failures before cluster goes into readonly: NA
# of persistent devices failures before cluster goes to be critical and partially available: 2
# of caching devices failures tolerable for cluster to be fully available: 1
# of caching failures before cluster goes into readonly: NA
# of caching failures before cluster goes to be critical and partially available: 2
Current ensemble size: 3
Minimum data copies available for some user data: 2
Minimum cache copies remaining: 2
Minimum metadata copies available for cluster metadata: 2
Current healing status: Rebuilding/Healing is needed, but not in progress yet. Warning: Insufficient node or space resources may prevent healing. Storage Node 172.16.3.9 is either down or initializing disks.
Time remaining before current healing operation finishes:
# of unavailable nodes: 1

hxshell:~$

يظهر هذا الناتج مجموعة غير صحية بسبب إعادة البناء.

Cluster Health Detail:
---------------------:
State: ONLINE
HealthState: UNHEALTHY
Policy Compliance: NON-COMPLIANT
Creation Time: Tue May 30 04:48:45 2023
Uptime: 7 weeks, 20 hours, 2 mins, 4 secs
Cluster Resiliency Detail:
-------------------------:
Health State Reason: Storage cluster is unhealthy.
# of nodes failure tolerable for cluster to be fully available: 1
# of node failures before cluster goes into readonly: NA
# of node failures before cluster goes to be crticial and partially available: 2
# of node failures before cluster goes to enospace warn trying to move the existing data: NA
# of persistent devices failures tolerable for cluster to be fully available: 1
# of persistent devices failures before cluster goes into readonly: NA
# of persistent devices failures before cluster goes to be critical and partially available: 2
# of caching devices failures tolerable for cluster to be fully available: 1
# of caching failures before cluster goes into readonly: NA
# of caching failures before cluster goes to be critical and partially available: 2
Current ensemble size: 3
Minimum data copies available for some user data: 3
Minimum cache copies remaining: 2
Minimum metadata copies available for cluster metadata: 2
Current healing status: Rebuilding is in progress, 58% completed.
Time remaining before current healing operation finishes: 18 hr(s), 10 min(s), and 53 sec(s)
# of unavailable nodes: 0

تعرض هذه الأوامر ملخصا عاما لصحة نظام المجموعة وتعلمك إذا كان هناك شيء يؤثر على تشغيل نظام المجموعة، على سبيل المثال، إذا كان هناك قرص مدرج في القائمة السوداء أو عقدة غير متصلة أو إذا كان نظام المجموعة يتعافى.

العقد المشاركة في الإدخال/الإخراج

يمكن أن يتأثر الأداء بعقد لا تشارك في عمليات الإدخال والإخراج، للتحقق من العقد التي تشارك في الإدخال/الإخراج، قم بإصدار هذه الأوامر.

تلميح: من الإصدار 5.0(2a)، يتوفر مستخدم diag للسماح للمستخدمين بالحصول على مزيد من الامتيازات لاستكشاف الأخطاء وإصلاحها من خلال الوصول إلى المجلدات والأوامر المحظورة التي لا يمكن الوصول إليها عبر سطر الأوامر priv الذي تم تقديمه في الإصدار 4.5.x من HyperFlex.

الخطوة 1. أدخل إلى طبقة diag على جهاز تحكم في التخزين موجود على الجهاز الظاهري.

hxshell:~$ su diag
Password:
 _   _ _                      _  _             _____ _                      ___
| \ | (_)_ __   ___          | || |           |  ___(_)_   _____           / _ \ _ __   ___
|  \| | | '_ \ / _ \  _____  | || |_   _____  | |_  | \ \ / / _ \  _____  | | | | '_ \ / _ \
| |\  | | | | |  __/ |_____| |__   _| |_____| |  _| | |\ V /  __/ |_____| | |_| | | | |  __/
|_| \_|_|_| |_|\___|            |_|           |_|   |_| \_/ \___|          \___/|_| |_|\___|


Enter the output of above expression: -1
Valid captcha

الخطوة 2. قم بإصدار هذا الأمر للتحقق من العقد التي تشارك في عمليات الإدخال/الإخراج، ويجب أن يكون عدد عناوين IP مساويا لعدد العقد المجمعة في نظام المجموعة.

diag# nfstool -- -m | cut -f2 | sort | uniq
172.16.3.7
172.16.3.8
172.16.3.9

فحص الخدمات الداخلية

منظف

ومن الأهداف الرئيسية للمنظمة هو تحديد كتل التخزين الميتة والحية في النظام وإزالة الميتات منها، وتحرير مساحة التخزين التي يشغلها هي وظيفة أساسية، كما أن عدوانها يستند إلى سياسة.

يمكنك التحقق من الخدمة النظيفة بإصدار الأمر التالي.

bash-4.2# stcli cleaner info
{ 'name': '172.16.3.7', 'id': '1f82077d-6702-214d-8814-e776ffc0f53c', 'type': 'node' }: OFFLINE                <----------- Cleaner shows as offline 
{ 'name': '172.16.3.8', 'id': 'c4a24480-e935-6942-93ee-987dc8e9b5d9', 'type': 'node' }: OFFLINE
{ 'name': '172.16.3.9', 'id': '50a5dc5d-c419-9c48-8914-d91a98d43fe7', 'type': 'node' }: OFFLINE

أصدرت in order to بدأت العملية أنظف، هذا أمر.

bash-4.2# stcli cleaner start                                                                                  
WARNING: This command should be executed ONLY by Cisco TAC support as it may have very severe consequences. Do you want to proceed ? (y/n): y
bash-4.2# stcli cleaner info
{ 'type': 'node', 'id': '1f82077d-6702-214d-8814-e776ffc0f53c', 'name': '172.16.3.7' }: ONLINE
{ 'type': 'node', 'id': 'c4a24480-e935-6942-93ee-987dc8e9b5d9', 'name': '172.16.3.8' }: ONLINE
{ 'type': 'node', 'id': '50a5dc5d-c419-9c48-8914-d91a98d43fe7', 'name': '172.16.3.9' }: ONLINE           <---------All nodes need to be online
bash-4.2#

تحذير: يجب تنفيذ هذا الأمر باستخدام موافقة Cisco TAC.

إعادة التوازن

تتم إعادة توازن مجموعة وحدات التخزين وفقا لجدول زمني منتظم. يستخدم هذا المحول لإعادة توزيع البيانات المخزنة عبر التغييرات التي تطرأ على التخزين المتوفر وللاستعادة حالة مجموعة وحدات التخزين.

يتم تشغيل إعادة التوازن في مجموعات لأسباب مختلفة:

المورد الفعلي (العقدة/القرص) معطل بينما يقوم HX بتغيير موقع عقد VNODE هذه إلى مورد مادي مختلف في نظام المجموعة.
ولا تستخدم جميع محركات الأقراص الفردية عبر المجموعة بشكل قابل للمقارنة، ولذلك تم إنشاء بعض النقاط الساخنة من حيث توافر البيانات داخل مجموعة HX (تجميع البيانات).
يمكن تشغيل إعادة التوازن أيضا إذا لم يكن التوافق مع المنطقة موجودا حتى إذا كان نظام المجموعة سليما.
عند إضافة عقدة جديدة إلى نظام المجموعة الموجود، تقوم العقدة (العقد) المضافة بالكتابة الجديدة بمجرد انضمامها إلى نظام المجموعة الموجود.

تحقق من تمكين إعادة التوازن لنظام المجموعة.

hxshell:~$ stcli rebalance status
rebalanceStatus:
    percentComplete: 0
    rebalanceState: cluster_rebalance_not_running
rebalanceEnabled: True     <---------Rebalance should be enabled 
hxshell:~$

تحذير: يجب تنفيذ أي عملية متعلقة بإعادة التوازن باستخدام موافقة Cisco TAC.

فشل القرص

يجب ألا يحتوي نظام المجموعة على أي أقراص مدرجة في القائمة السوداء أو موارد غير متصلة للتشغيل بشكل صحيح.

تحتاج إلى التحقق من وجود أي قرص مدرج ضمن القائمة السوداء على نظام المجموعة في واجهة اتصال HX.

Blacklisted disk. القرص الموجود في القائمة السوداء.

تحقق من واجهة سطر الأوامر (CLI) بحثا عن أي موارد غير متصلة على كل عقدة تجميع.

sysmtool --ns cluster --cmd offlineresources 
UUID                                Type         State      InUse      Last modified            
----                                ----         -----      -----      -------------            
000cca0b019b4a80:0000000000000000   DISK         DELETED    YES          <------- Offline disk                       
5002538c405e0bd1:0000000000000000   DISK         BLOCKLISTED NO          <------- Blacklisted disk                         
5002538c405e299e:0000000000000000   DISK         DELETED    NO                                  
Total offline resources: 3, Nodes: 0, Disks: 3

تحقق من وجود أي موارد مدرجة في القائمة السوداء.

hxshell:~$ sysmtool --ns disk --cmd list | grep -i blacklist
Blacklist Count: 0
Blacklist Count: 0
Blacklist Count: 0
Blacklist Count: 0
State: BLACKLISTED
Blacklist Count: 5
Blacklist Count: 0
Blacklist Count: 0

يجب التحقق مما إذا كان هناك أي قرص معطل في كل عقدة تحويل باستخدام هذا الأمر.

admin:~$ cat /var/log/springpath/diskslotmap-v2.txt
0.0.1:5002538e000d59a3:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302248:HXT76F3Q:SATA:SSD:3662830:Inactive:/dev/sdj    <---------Inactive disk
1.0.2:5002538c40be79ac:Samsung:SAMSUNG_MZ7LM240HMHQ-00003:S4EGNX0KC04551:GXT51F3Q:SATA:SSD:228936:Active:/dev/sdb
1.0.3:5002538e000d599e:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302243:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdc
1.0.4:5002538e000d59a0:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302245:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdd
1.0.5:5002538e000eb00b:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302480:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdi
1.0.6:5002538e000d599b:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302240:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdf
1.0.7:5002538e000d57f6:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M301819:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdh
1.0.8:5002538e000d59ab:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302256:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sde
1.0.9:5002538e000d59a1:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302246:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdg
1.0.10:5002538e0008c68f:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M200500:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdj
0.1.192:000cca0b01c83180:HGST:UCSC-NVMEHW-H1600:SDM000026904:KNCCD111:NVMe:SSD:1526185:Active:/dev/nvme0n1
admin:~$

مثال على عقدة بدون أي فشل بالقرص.

hxshell:~$ sysmtool --ns cluster --cmd offlineresources
No offline resources found              <-------- No offline resources 

hxshell:~$ sysmtool --ns disk --cmd list | grep -i blacklist
hxshell:~$                              <-------- No blacklisted disks
hxshell:~$ cat /var/log/springpath/diskslotmap-v2.txt
1.14.1:55cd2e404c234bf9:Intel:INTEL_SSDSC2BX016T4K:BTHC618505B51P6PGN:G201CS01:SATA:SSD:1526185:Active:/dev/sdc
1.14.2:5000c5008547c543:SEAGATE:ST1200MM0088:Z4009D7Y0000R637KMU7:N0A4:SAS:10500:1144641:Active:/dev/sdd
1.14.3:5000c5008547be1b:SEAGATE:ST1200MM0088:Z4009G0B0000R635L4D3:N0A4:SAS:10500:1144641:Active:/dev/sde
1.14.4:5000c5008547ca6b:SEAGATE:ST1200MM0088:Z4009F9N0000R637JZRF:N0A4:SAS:10500:1144641:Active:/dev/sdf
1.14.5:5000c5008547b373:SEAGATE:ST1200MM0088:Z4009GPM0000R634ZJHB:N0A4:SAS:10500:1144641:Active:/dev/sdg
1.14.6:5000c500854310fb:SEAGATE:ST1200MM0088:Z4008XFJ0000R6374ZE8:N0A4:SAS:10500:1144641:Active:/dev/sdh
1.14.7:5000c50085424b53:SEAGATE:ST1200MM0088:Z4008D2S0000R635M4VF:N0A4:SAS:10500:1144641:Active:/dev/sdi
1.14.8:5000c5008547bcfb:SEAGATE:ST1200MM0088:Z4009G3W0000R637K1R8:N0A4:SAS:10500:1144641:Active:/dev/sdj
1.14.9:5000c50085479abf:SEAGATE:ST1200MM0088:Z4009J510000R637KL1V:N0A4:SAS:10500:1144641:Active:/dev/sdk
1.14.11:5000c5008547c2c7:SEAGATE:ST1200MM0088:Z4009FR00000R637JPEQ:N0A4:SAS:10500:1144641:Active:/dev/sdl
1.14.13:5000c5008547ba93:SEAGATE:ST1200MM0088:Z4009G8V0000R634ZKLX:N0A4:SAS:10500:1144641:Active:/dev/sdm
1.14.14:5000c5008547b69f:SEAGATE:ST1200MM0088:Z4009GG80000R637KM30:N0A4:SAS:10500:1144641:Active:/dev/sdn
1.14.15:5000c5008547b753:SEAGATE:ST1200MM0088:Z4009GH90000R635L5F6:N0A4:SAS:10500:1144641:Active:/dev/sdo
1.14.16:5000c5008547ab7b:SEAGATE:ST1200MM0088:Z4009H3P0000R634ZK8T:N0A4:SAS:10500:1144641:Active:/dev/sdp  <------All disks are active
hxshell:~$

ذاكرة حرة

افحص الذاكرة الحرة بهذا الأمر، الذاكرة الحرة يجب أن تكون أكثر من 2048 ميغابايت (خالية +ذاكرة مؤقتة).

hxshell:~$ free –m                       
              total        used        free      shared  buff/cache   available
Mem:       74225624    32194300    38893712        1672     3137612    41304336
Swap:             0           0           0
hxshell:~$

إذا كانت ذاكرة التخزين المؤقت + الحرة أقل من 2048، فمن الضروري تحديد العملية التي تقوم بإنشاء حالة نفاد الذاكرة.

ملاحظة: يمكنك إستخدام الأمر top لتحديد العمليات التي تستهلك الكثير من الذاكرة، ومع ذلك، يجب إجراء أي تغييرات باستخدام موافقة TAC، اتصل ب Cisco TAC لاستكشاف أخطاء شروط OOM وإصلاحها.

نهاية شرط المساحة

تتمثل أفضل ممارسة لاستخدام مساحة مجموعة وحدات التخزين في عدم تجاوز نسبة 76 بالمائة في طريقة عرض سعة المحول طراز HX Connect. أكثر من 76 بالمائة، يؤدي الاستخدام في طريقة عرض سعة اتصال HX إلى انخفاض الأداء.

إذا كان نظام مجموعة وحدات التخزين يواجه حالة ENOSPC، فإن الجهاز الذي يعمل بشكل تلقائي عند أولوية عالية، الأمر الذي يمكن أن يتسبب في مشاكل في الأداء في نظام المجموعة، فالأولوية يتم تحديدها من خلال إستخدام مساحة نظام المجموعة.

إذا وصل نظام مجموعة التخزين إلى حالة تحذير من ENOSPC، فإن الجهاز النظيف يزيد من شدته من خلال زيادة عدد عمليات الإدخال/الإخراج لجمع القمامة باستخدام شرط مجموعة ENOSPC، فإنه يتم تشغيله على رأس الأولويات.

يمكنك التحقق من حالة ENOSPCINFO على نظام المجموعة باستخدام هذا الأمر.

hxshell:~$ sysmtool --ns cluster --cmd enospcinfo
Cluster Space Details:
---------------------:
Cluster state: ONLINE
Health state: HEALTHY
Raw capacity: 42.57T
Usable capacity: 13.06T
Used capacity: 163.08G
Free capacity: 12.90T
Enospc state: ENOSPACE_CLEAR    <--------End of space status
Space reclaimable: 0.00
Minimum free capacity
required to resume operation: 687.12G
Space required to clear
ENOSPC warning: 2.80T           <--------Free space until the end of space warning appears 
Rebalance In Progress: NO
Flusher in progress: NO
Cleaner in progress: YES
Disk Enospace: NO

hxshell:~$

راجع إدارة السعة في تقرير Cisco HyperFlex لتحديد أفضل الممارسات لإدارة المساحة على مجموعة HyperFlex لديك.

أستكشاف أخطاء مخططات الأداء وإصلاحها

في بعض الأحيان لا تعرض مخططات أداء HyperFlex معلومات.

Hyperflex performance charts. مخططات أداء HyperFlex.

إذا واجهت هذا السلوك تحتاج إلى مراجعة ما إذا كانت خدمات الحالة قيد التشغيل في نظام المجموعة.

hxshell:~$ priv service carbon-cache status
carbon-cache stop/waiting

hxshell:~$ priv service carbon-aggregator status
carbon-aggregator stop/waiting

hxshell:~$ priv service statsd status
statsd stop/waiting

إذا لم تكن العمليات قيد التشغيل، ابدأ تشغيل الخدمات يدويا.

hxshell:~$ priv service carbon-cache start
carbon-cache start/running, process 15750

hxshell:~$ priv service carbon-aggregator start
carbon-aggregator start/running, process 15799

hxshell:~$ priv service statsd start
statsd start/running, process 15855

معلومات ذات صلة

محفوظات المراجعة

المراجعة	تاريخ النشر	التعليقات
1.0	27-Jul-2023	الإصدار الأولي

تمت المساهمة بواسطة مهندسو Cisco

Alan Medrano
Cisco TAC Engineer
Ana Montenegro
CX Technical Leader

أستكشاف مشكلات الأداء وحلها في مجموعات HyperFlex

لغة خالية من التحيز

حول هذه الترجمة

المحتويات

المقدمة

تحديد الهوية

أنواع نظام المجموعة

شرح مخطط الأداء

IOPS

سعة المعالجة

زمن الانتقال

تواتر

عوامل خارجية

التعرف على مشكلات الأداء على مستوى الأجهزة الافتراضية للضيوف

ويندوز

ESXi

فحص PVSCSI

التحقق من محول الشبكة

فحص RSS

التحقق من وحدة المعالجة المركزية (CPU) القابلة للتوصيل دون إيقاف التشغيل

تحديد مشكلات الأداء على مستوى الأجهزة المضيفة

وحدة التحكم في الإدخال/الإخراج للتخزين والتحقق من عمق قائمة الانتظار

تأكيد تشغيل SIOC على ESXi وتكوين عمق قائمة الانتظار

تعطيل SIOC

تعديل MaxQDepth

التحقق من Rx_NO_BUFF

تعريف مشاكل الأداء مستوى الجهاز الظاهري لوحدة التحكم في التخزين (SCVM)

صحة المجموعة

العقد المشاركة في الإدخال/الإخراج

فحص الخدمات الداخلية

منظف

إعادة التوازن

فشل القرص

ذاكرة حرة

نهاية شرط المساحة

أستكشاف أخطاء مخططات الأداء وإصلاحها

معلومات ذات صلة

محفوظات المراجعة

تمت المساهمة بواسطة مهندسو Cisco

هل كان هذا المستند مفيدًا؟

اتصل بنا

ينطبق هذا المستند على هذه المنتجات