المقدمة
يصف هذا المستند أنواعا مختلفة من أخطاء القرص، وكيفية تصنيفها، وأدوات يمكنك إستخدامها للتعرف عليها.
المتطلبات الأساسية
المتطلبات
لا توجد متطلبات خاصة لهذا المستند.
المكونات المستخدمة
تستند المعلومات الواردة في هذا المستند إلى الأقراص الثابتة في نظام الحوسبة الموحدة (UCS).
تم إنشاء المعلومات الواردة في هذا المستند من الأجهزة الموجودة في بيئة معملية خاصة. بدأت جميع الأجهزة المُستخدمة في هذا المستند بتكوين ممسوح (افتراضي). إذا كانت شبكتك مباشرة، فتأكد من فهمك للتأثير المحتمل لأي أمر.
معلومات أساسية
كما يوضح المستند أيضا الدور الذي تلعبه وحدة التحكم في "محرك الأقراص الثابتة (HDD)" و"الصفيف الاحتياطي للأقراص المستقلة (RAID)" عند تحديد أخطاء متوسطة في محركات الأقراص.
ملاحظة: يشار إلى الأخطاء المتوسطة أيضا بأخطاء الوسائط
معالجة أخطاء متوسطة لمحرك الأقراص الثابتة
ما الذي يسبب أخطاء متوسطة في محرك الأقراص الثابتة؟
أكثر أسباب الأخطاء المتوسطة شيوعا هو رداءة الإشارة التي ينتج عنها
- موقع قراءة عنوان الناقل المنطقي (LBA) غير الموثوق به. يمكن إستردادها أحيانا من خلال عمليات إعادة المحاولة المتعددة.
- حالات عابرة، يكتب الذباب العالي بسبب الجسيمات الناعمة.
- حالات عابرة تنتج عن أحداث صدمة أو اهتزاز أو إصغائية مؤقتة تؤدي إلى كتابة خارج المسار.
- وظيفة تعيين الأخطاء الضعيفة في تصنيع محرك الأقراص الثابتة التي تؤدي إلى إضافة مواقع العيوب الرئيسية الحالية.
كيف يكتشف محرك الأقراص الثابتة الخطأ الوسيط؟
الخطوة 1.يقوم محرك الأقراص الثابتة بإجراء عمليات مسح لوسائط الخلفية بشكل دوري لاكتشاف الأخطاء.
الخطوة 2. يحاول محرك الأقراص الثابتة القراءة من الوسائط، ولسبب ما، يتعذر إسترداد البيانات المكتوبة.
الخطوة 3. في حالة عدم قدرة محرك الأقراص الثابتة على إسترداد البيانات التي تمت كتابتها، يقوم هذا الأخير باستدعاء رمز إسترداد محرك الأقراص الثابتة الذي سيحاول القيام بعدة خطوات إسترداد للخطأ لقراءة البيانات من الوسائط بنجاح.
الخطوة 4. في حالة فشل جميع خطوات الاسترداد، سيقوم محرك الأقراص بإنشاء خطأ 03/11/0x مرة أخرى إلى المضيف وسيتم وضع (وحدات) LBA في قائمة العيوب المعلقة.
كيف يمكن لوحدة التحكم RAID اكتشاف الأخطاء المتوسطة؟
- ستصادف وحدة التحكم في RAID أخطاء متوسطة أثناء عمليات القراءة أثناء الدوريات والتحقق من تناسق عمليات القراءة العادية وعمليات إعادة الإنشاء وعمليات القراءة/التعديل/الكتابة.
- استنادا إلى تكوين RAID، قد تكون وحدة التحكم قادرة على معالجة الخطأ المتوسط الذي تم الإعلام عنه بواسطة محرك الأقراص الثابتة، ولن يتطلب الأمر أي إجراء آخر.
- في بعض الحالات، لن تكون وحدة التحكم قادرة على معالجة خطأ الوسيط وستمرر الخطأ إلى المضيف لمعالجة الخطأ.
متى يرى نظام التشغيل (OS) أخطاء متوسطة؟
- إذا أبلغ HDD عن خطأ متوسط وتعذر على وحدة التحكم RAID معالجة الاسترداد، فسيتم إعلام المضيف بالخطأ.
- لم يعد هذا الإعلام مجرد رسالة إستشارية من شأنها إعلام النظام بوقوع الحدث، بل هو طلب من نظام التشغيل أن يعمل لأن محرك الأقراص الثابتة ووحدة التحكم في RAID لم يتمكنا من إستعادة البيانات من الخطأ المتوسط.
- إذا كان نظام التشغيل يحتوي على السياق المطلوب لحل خطأ الوسيط بشكل صحيح، فيجب معالجته بواسطة نظام التشغيل
- إذا كانت الأقراص موجودة في مجموعة من الأقراص (JBOD) فقط، فسيرى نظام التشغيل الأخطاء نظرا لعدم تصحيحها بواسطة وحدة التحكم. وهذا شائع في بيئات شبكات منطقة التخزين الظاهرية (VSAN)/HyperFlex (HX).
دور محرك الأقراص الثابتة
العيوب الكبيرة (G-list) مستوى محرك الأقراص الثابتة
اثناء تشغيل محرك الأقراص، قد يأتي الرأس عبر قطاع يكون مستوى القراءة المغنطيسية فيه ضعيفا. ولا تزال البيانات قابلة للقراءة ولكن قد تنخفض عن الحد المفضل لمستويات القراءة المؤهلة في القطاع الجيد. سيعتبر محرك الأقراص هذا قطاعا يمكنه قطع هذه البيانات عن أي موقع جديد متوفر في قائمة الاحتياطي الجيد المعروفة. بمجرد نقل البيانات، تتم إضافة عنوان القطاع القديم إلى قائمة العيوب المطورة، ولا يتم إستخدامه مرة أخرى أبدا. تعد هذه العملية خطأ وسائط قابل للاسترداد. وسوف يعطي هذا المحرك المحرك المحرك الذكي بمجرد استنفاد أغلب قطاعات الغيار الجيدة المعروفة.
دور وحدة التحكم RAID
قراءة الدوريات
- يعتبر خيار Patrol Read (قراءة دورية) أحد الخيارات التي يحددها المستخدم ويقوم بتنفيذ عمليات قراءة محرك الأقراص في الخلفية ويقوم بتخطيط أي مناطق تالفة في محرك الأقراص.
- إجراء عمليات فحص "قراءة دورية" بحثا عن أخطاء القرص الفعلية التي قد تؤدي إلى تعطل محرك الأقراص. وتشمل هذه التحققات عادة محاولة إتخاذ إجراء تصحيحي. يمكن تمكين قراءة الدوريات أو تعطيلها من خلال التنشيط التلقائي أو اليدوي.
- تقوم ميزة "قراءة دورية" بالتحقق بشكل دوري من جميع قطاعات الأقراص المادية المتصلة بوحدة تحكم، والتي تتضمن المنطقة المحجوزة للنظام في محركات الأقراص التي تم تكوينها ل RAID. أعمال قراءة الدوريات لجميع مستويات RAID وجميع محركات الأقراص الاحتياطية الساخنة.
- تبدأ هذه العملية فقط عندما تكون وحدة التحكم في RAID خاملة لفترة زمنية محددة ولا تكون هناك مهام خلفية نشطة أخرى، رغم أنه يمكن أن تستمر في التشغيل في نفس الوقت الذي يتم فيه تشغيل عمليات الإدخال/الإخراج (I/O) الثقيلة.
- لا يمكنك إجراء عمليات قراءة دورية على محركات الأقراص التي تم تكوينها في JBOD.
ملاحظة:توصي خدمة Latent Semantic Indexing (LSI) بترك إعدادات تكرار القراءة في الدورية وإعدادات قراءة الدوريات الأخرى عند القيم الافتراضية لتحقيق أفضل أداء للنظام. إذا قررت تغيير القيم، قم بتسجيل القيمة الافتراضية الأصلية هنا بحيث يمكنك استعادتها لاحقا.
ملاحظة: لا تقوم Patrol Read بالإبلاغ عن التقدم الذي أحرزته أثناء تشغيلها. يتم الإبلاغ عن حالة قراءة الدوريات في سجل الأحداث فقط.
خيارات قراءة الدوريات كما هو موضح في الصورة:
أمثلة MegaCLI
للاطلاع على معلومات عن حالة قراءة الدورية والتأخر بين عمليات القراءة خلال الدورية:
# MegaCLI64 -AdpPR -Info -All
لمعرفة معدل قراءة الدوريات الحالي، قم بتنفيذ:
# MegaCLI64 -AdpGetProp PatrolReadRate -aALL
لتعطيل الدوريات التلقائية، تتم قراءة:
# MegaCLI64 -ADPpr -DSBL -All
لتمكين الدوريات التلقائية قراءة:
#MegaCLI64 -AdpPR -EnblAuto -All
لبدء عملية الفحص اليدوي لقراءة "دورية":
# MegaCLI64 -AdpPR -Start -All
لإيقاف دورية قراءة المسح:
# MegaCLI64 -AdpPR -Stop -All
التحقق من التناسق
- في RAID، يتحقق التحقق من التناسق من صحة البيانات المكررة في صفيف ما. على سبيل المثال، في نظام يتميز بالتماثل، يعني التحقق من التناسق إحتساب التماثل بين محركات أقراص البيانات ومقارنة النتائج بمحتويات محرك أقراص التماثل.
- لا يدعم JBOD التحقق من التناسق.
- لا يدعم RAID 0 فحص التناسق.
- يستخدم RAID 1 مقارنة البيانات وليس التماثل.
- تقوم RAID 6 بحساب التماثل لمحركي أقراص متماثلة وتحقق من ذلك.
ملاحظة: من المستحسن إجراء فحص تناسق مرة واحدة على الأقل في الشهر.
خيارات إدارة فحص التناسق موضح في الصورة:
خيارات جدولة التحقق من التناسق كما هو موضح في الصورة:
أمثلة MegaCLI
لمعرفة وقت التحقق من التناسق المجدول التالي:
#MegaCLI64 -adpCcSched -معلومات -all
لتغيير وقت التحقق من التناسق المجدول:
#MegaCLI64 -AdpCCSched -SetSTartTime 20171028 02 -aAll
لتعطيل التحقق من التناسق:
#MegaCLI64 -adpCcSched -DSBL -All
الحالات التي يتعذر فيها على وحدة التحكم RAID إصلاح خطأ متوسط
- في جبود
- نظام تشغيل المضيف مسؤول عن الأخطاء المتوسطة.
- في وحدة التحكم RAID 0
- لا يوجد تكرار، لذلك يتعذر على وحدة التحكم تزويد محرك الأقراص الثابتة بالبيانات المراد كتابتها إلى LBA.
- في وحدة التحكم RAID 1
- عندما يتعذر على وحدة التحكم تحديد النسخة المطابقة التي تحتوي على البيانات الصحيحة. سيحدث هذا فقط إذا كان من الممكن قراءة كلا شبكتي LBA، ولكن البيانات لا تتطابق.
- تقنية RAID 5
- إذا كان في خطا أو أكثر بنفس الشريط. قد يحدث على الأرجح بعد بدء إعادة بناء صفيف. يعتبر محرك الأقراص الذي تمت إعادة بنائه أحد الأخطاء، وسيكون الخطأ الثاني هو خطأ متوسط في أي عملية إعادة إنشاء محرك أقراص آخر. ولن يكون المراقب المالي قادرا على إعادة بناء البيانات اللازمة لإعادة بناء قانون البحار على محرك الاستبدال.
- تقنية RAID 6
- إذا كان في 3 أخطاء أو أكثر بنفس الشريط. من المرجح أن يحدث ذلك عند إعادة إنشاء صفيف. يعتبر محرك الأقراص الذي تمت إعادة بنائه أحد الأخطاء، وسيكون الخطأ المتوسط على أي محركي أقراص آخرين أثناء عملية إعادة الإنشاء قيد التقدم هو الخطأ الثاني والثالث، أو خطأ متوسط أو فشل ثان في محرك الأقراص. ولن يتمكن المراقب المالي من إعادة بناء البيانات اللازمة لإعادة بناء وحدات العمل المحلية على محركات الأقراص مع الأخطاء.
معلومات ذات صلة