المقدمة
يصف هذا المستند خطوات أستكشاف أخطاء الذاكرة وإصلاحها لمعالجة خوادم UCS.
المتطلبات الأساسية
المتطلبات
توصي Cisco بأن تكون لديك معرفة بالمواضيع التالية.
- الفهم الأساسي ل UCS.
- الفهم الأساسي لبنية الذاكرة.
المكونات المستخدمة
تستند المعلومات الواردة في هذا المستند إلى إصدارات البرامج والمكونات المادية التالية:
- خوادم فئة UCS M5 و M6 و M7 وما فوقها.
- برنامج UCS Manager
- وحدة التحكم المتكاملة في الإدارة (CIMC) من Cisco
- وضع Cisco Intersight المدار (IMM)
تم إنشاء المعلومات الواردة في هذا المستند من الأجهزة الموجودة في بيئة معملية خاصة. بدأت جميع الأجهزة المُستخدمة في هذا المستند بتكوين ممسوح (افتراضي). إذا كانت شبكتك قيد التشغيل، فتأكد من فهمك للتأثير المحتمل لأي أمر.
معلومات أساسية
أخطاء الذاكرة
تمت مصادفة أخطاء في الذاكرة عند محاولة قراءة موقع ذاكرة. لا تتطابق القيمة التي تمت قراءتها من الذاكرة مع القيمة المفترض أن تكون هناك. وتصنف هذه الأخطاء إلى نوعين:
1. الأخطاء البسيطة
الأخطاء المرنة عابرة ولا تستمر في تكرارها. وهذه مؤقتة ويمكن غالبا تصحيحها عن طريق إعادة محاولة قراءة موقع الذاكرة أو إعادة كتابته.
2. أخطاء ثابتة
والعيوب الفيزيائية الدائمة تسبب هذه. لا تؤدي إعادة كتابة موقع الذاكرة وإعادة محاولة الوصول إلى القراءة إلى إزالة خطأ فادح. ونتيجة لذلك، يكون خطأ الذاكرة هذا غير قابل للتصحيح، ويجب إستبدال الذاكرة مع إستمرار الخطأ في التكرار.
أخطاء يمكن تصحيحها
وفي حالة اكتشاف الأخطاء وتصحيحها، فإنها تعتبر قابلة للتصحيح. ويمكن تحقيق ذلك من خلال إعادة محاولة القراءة أو من خلال حساب محتويات الذاكرة الصحيحة باستخدام بيانات رمز تصحيح الأخطاء (ECC) وإعادة كتابة البيانات المناسبة في الذاكرة. بعد اكتشاف خطأ وتصحيحه، تقوم وحدة التحكم في الإدارة المتكاملة (IMC) من Cisco بتسجيل الحدث في سجل أحداث النظام.
بشكل نموذجي، الأخطاء التي يمكن تصحيحها هي نتيجة لأخطاء بسيطة. إذا إستمرت الأخطاء التي يمكن تصحيحها داخل نفس موقع الذاكرة على مدى فترة ممتدة، فقد يشير ذلك إلى خطأ ثابت محتمل.
تصحيح بيانات الأجهزة المزدوجة المتكيفة (ADDDC)
يمكن أن يقوم توفير ADDDC بتصحيح فشلي DRAM المتتاليين إذا كانا موجودين في نفس المنطقة. يقوم ADDDC بنقل البيانات ديناميكيا من وحدات بت الفاشلة إلى الذاكرة الاحتياطية، مما يمنع الأخطاء التي يمكن تصحيحها من أن تصبح غير قابلة للتصحيح. يلزم وجود حد من أخطاء ECC القابلة للتصحيح لتشغيل الآلية.
تساعد ADDDC في بعض السيناريوهات التي تسبق فيها أخطاء ECC القابلة للتصحيح أخطاء ECC غير قابلة للتصحيح.
إصلاح حزمة النشر (PPR)
يمكن لبرنامج "إصلاح حزمة النشر (PPR)" إصلاح مناطق الذاكرة المعطلة داخل وحدة ذاكرة DIMM بشكل دائم من خلال زيادة كفاءة صفوف DRAM المكررة. تتيح عملية الإصلاح الدائمة هذه في الموقع إمكانية إسترداد البيانات بسرعة فائقة من الأخطاء الثابتة دون الحاجة إلى إستبدال وحدة ذاكرة DIMM. لإجراء إصلاح، يجب أن يواجه النظام حدث ADDDC وأن يمر بدورة إعادة تشغيل واحدة على الأقل. لا يؤثر نشاط الإصلاح هذا على الأداء أو على إجمالي الذاكرة المتوفرة لنظام التشغيل.
يتم تمكين PPR و ADDDC بشكل افتراضي، ومع ذلك، يمكن أن تكون قابلة للتكوين. يتطلب PPR تمكين وضع RAS لتوفر ADDDC أيضا. إذا كان إعداد RAS آخر غير توفير ADDDC أو إعدادات النظام الأساسي الافتراضية، فإن PPR لا يكون قيد التشغيل. وضع PPR الوحيد المدعوم هو ppr الثابت، مما يعني أن عمليات الإصلاح دائمة.
توفير سطر ذاكرة التخزين المؤقت الجزئية (PCLS)
هناك آلية لمنع الخطأ في وحدة التحكم في الذاكرة. وهو يعمل من خلال تحديد أجزاء صغيرة من البيانات في الذاكرة معيبة. ويتم تسجيل هذه المواقع المعيبة في دليل خاص، إلى جانب بيانات النسخ الاحتياطي التي يمكن إستبدالها. عند الوصول إلى الذاكرة، في حالة حدوث خطأ في نقاط الخطأ هذه، تستخدم وحدة التحكم بيانات النسخ الاحتياطي من الدليل لضمان تشغيل كل شيء بسلاسة.
ملاحظة: تتوفر الميزات وفقا لبنية وحدة المعالجة المركزية (CPU) وإصدار البرنامج الثابت الذي يتم تشغيله على الخادم. تأكد من أنك تستخدم أحدث إصدار موصى به للتعامل مع أخطاء الذاكرة بشكل أفضل.
أستكشاف أخطاء RAS وإصلاحها
برنامج UCS Manager
بشكل عام، تعتبر هذه الأخطاء في "إدارة UCS" كحدث RAS.
في ملخص الصحة، يمكنك العثور على مزيد من المعلومات حول الخطأ، ما إذا كان PCLS أو PPR قد تم تشغيله.
مثال PCLS
على خوادم M6 والإصدارات الأحدث، لديك الخيار لتمكين توفير بند ذاكرة التخزين المؤقت المحلية (PCLS) كخيار BIOS، والذي يعد آلية لمنع الأخطاء. يجب إعادة تشغيل الخادم في أقرب وقت ممكن، حتى يمكن تشغيل PPR وإصلاح DIMM. بمجرد إعادة تمهيد الخادم، قم بمراقبة أخطاء إدارة UCS الإضافية ل DIMM نفسها.
وكما يذكر التنبيه، يوصى بإعادة تشغيل الخادم في أقرب فرصة ملائمة، نظرا لوجود خطر مرتبط يتمثل في مواجهة خطأ غير قابل للتصحيح، ومن ثم التوقف عن العمل بشكل غير متوقع للخادم.
مثال على PPR
يحتوي الخادم على ADDDC و PPR ممكن، وقد حدث RAS. يقترح الخطأ إعادة التشغيل ل PPR لإصلاح ذاكرة DIMM. يلزم إعادة تشغيل الخادم في أقرب وقت ممكن حتى تتمكن PPR من تشغيل ذاكرة DIMM وإصلاحها.
بمجرد إعادة تمهيد الخادم، قم بمراقبة أخطاء إدارة UCS الإضافية ل DIMM نفسها.
وكما يذكر التنبيه، يوصى بإعادة تشغيل الخادم في أقرب فرصة ملائمة، نظرا لوجود خطر مرتبط يتمثل في مواجهة خطأ غير قابل للتصحيح، ومن ثم التوقف عن العمل بشكل غير متوقع للخادم.
وضع Intersight المدار
تم تمكين ADDDC على الخادم، وقد حدث VLS للبنك، مما يؤدي إلى إنشاء الخطأ الذي تراه. في هذا السيناريو، تتمثل الخطوة التالية في تنفيذ إعادة تشغيل الخادم في أقرب وقت ممكن للسماح بتنفيذ ppr (PPR).
وحدة التحكم المتكاملة في الإدارة (CIMC) من Cisco
يظهر الخطأ كما هو موضح عند إستخدام وحدة التحكم في الإدارة المتكاملة من Cisco. إذا كان الخادم يحتوي على ADDDC وحدث VLS، فهذا يعمل كما هو مصمم لمنع الأخطاء غير الصحيحة.
خطوات أستكشاف الأخطاء وإصلاحها
- تحقق من عدم وجود أخطاء DIMM أخرى للمثيل وخطأ غير قابل للتصحيح.
- جدولة إطار صيانة.
- ضع مضيف في وضع الصيانة، وأعد تشغيل الخادم لمحاولة إصلاح DIMM بشكل دائم باستخدام إصلاح ما بعد الحزمة (PPR).
خطوات إعادة تمهيد UCSM
ملاحظة: يمكنك إعادة تشغيل الخادم من نظام التشغيل أيضا. يستخدم هذا المثال خيار إعادة التشغيل من واجهة مستخدم الخادم.
انتقل إلى واجهة ويب لإدارة UCS.
الخادم النصلي
انتقل إلى الأجهزة > الهيكل > الخادم X.
خادم متكامل
انتقل إلى الأجهزة > الحوامل > الخادم X.
انقر فوق وحدة تحكم لوحة المفاتيح والفيديو والماوس.
على نوافذ KVM، انقر إجراءات الخادم، وحدد إعادة ضبط، وانقر موافق.
قم بمراقبة عملية إعادة تشغيل KVM، وتأكد من تمهيد نظام التشغيل بشكل صحيح.
خطوات إعادة تشغيل IMM
انتقل إلى علامة التبويب الخوادم، وتعرف على الخادم، وانقر فوق قائمة الإجراء (ثلاث نقاط).
بعد ذلك، حدد قائمة الطاقة ثم خيار دورة الطاقة.
انقر على زر دورة الطاقة لتأكيد العملية.
التحقق من التقدم تحت قائمة الطلبات.
خطوات إعادة تمهيد CIMC
انتقل إلى خيار طاقة المضيف وحدد دورة الطاقة.
قم بتشغيل لوحة المفاتيح والفيديو والماوس (KVM) لمراقبة عملية إعادة التمهيد، وتأكد من تمهيد نظام التشغيل بشكل صحيح.
مراقبة الأخطاء الجديدة
إذا لم تحدث أي أخطاء بعد إعادة التشغيل بمعنى عدم وجود حدث أو خطأ آخر في RAS متعلق بذاكرة DIMM، نجح إجراء النسخ الاحتياطي للبيانات (PPR) ويمكن إعادة إستخدام الخادم.
إذا وقعت أحداث ADDDC جديدة، قم بتكرار عملية إعادة التشغيل المحددة في الخطوات السابقة لإجراء إصلاحات دائمة إضافية باستخدام PPR.
إذا حدث خطأ غير قابل للتصحيح أو حدث خطأ غير قابل للتشغيل بعد إعادة التشغيل، يشير الخطأ إلى أنه يجب إستبدال الذاكرة.
ملاحظة: يرجى فتح حالة مع Cisco TAC لاستبدال DIMM إذا واجهت أي من هذه الأخطاء.
خطأ في ذاكرة UCS Manager غير قابلة للإصلاح
خطأ غير قابل للتصحيح في ذاكرة IMM
خطأ غير قابل للتصحيح. يشير الخطأ إلى أن DIMM به خطأ غير صحيح ويحتاج إلى إستبداله.
خطأ في ذاكرة CIMC غير القابلة للإصلاح
معلومات ذات صلة