المقدمة
خطأ التماثل هو انعكاس طفيف في الذاكرة. في الإلكترونيات والحوسبة، يمكن أن يؤدي التداخل الكهربي أو المغنطيسي من مصادر داخلية أو خارجية إلى قلب وحدة بت واحدة أو الذاكرة تلقائيا إلى الحالة المعاكسة. يجعل هذا الحدث وحدات بت البيانات الأصلية غير صحيحة ويعرف باسم خطأ التماثل.
عادة هذه الأخطاء تقع في نوعين مختلفين من الأخطاء، ناعم وصلب.
أخطاء التماثل الناعم، هذه الأحداث عابرة وعشوائية. عادة سيتم رؤيتها مرة واحدة فقط في بنك ذاكرة معين.
أخطاء تماثل صعبة، سببها خلل فيزيائي في أجهزة الذاكرة أو الدوائر المستخدمة لقراءة وكتابة خلايا الذاكرة. وعادة ما تشاهد هذه المواد بشكل متكرر وتتطلب إستبدالها.
تحدث معظم أخطاء التماثل بسبب ظروف بيئية كهراكدية أو مرتبطة بالغناطيسية. تنجم معظم الأخطاء أحادية الحدث في رقاقات الذاكرة عن: إشعاع الخلفية (مثل النيوترونات من الأشعة الكونية، المنشآت النووية)، والتداخل الكهرومغناطيسي (EMI)، والتصريف الإلكتروستاتيكي. قد تؤدي هذه الأحداث إلى تغيير الحالة الكهربائية لخلية أو أكثر من خلايا الذاكرة بشكل عشوائي أو قد تتداخل مع الدوائر المستخدمة في قراءة وكتابة خلايا الذاكرة.
المشكلة
تعد أخطاء التماثل حقيقة من حقائق الحياة عندما يتعلق الأمر بالذاكرة عالية الكثافة كما هو مستخدم في سلاسل ASR9k. إذا كيف نتعامل معها هو في الحقيقة كل ما يمكننا التحكم به. قد تواجه بعض سلاسل ASR9k (xmen/typhoon)، في ظروف نادرة، أخطاء في ذاكرة التخزين المؤقت من المستوى الأول. تظهر هذه على أنها حالة ذعر في kernel في ذاكرة التخزين المؤقت للبيانات أو ذاكرة التخزين المؤقت للأوامر (DCPERR أو ICPERR). وهناك خطأ آخر تم ملاحظته في مختلف بنوك الذاكرة التي تستخدمها NPs (معالجات الشبكة) على الأسطر. تظهر هذه عادة بداية من الأنواع التالية من سجلات الأخطاء:
٪PLATFORM-NP-0-NON_RECOVERYable_SOFT_ERROR
٪platform-NP-3-ECC
٪platform-pfm-0-card_reset_req
المشكلة هنا هي أن DCPERR/ICPERR ينتج عنها إعادة تحميل كامل للخط. ويصدق نفس القول على الغالبية العظمى من مختلف بنوك الذاكرة التابعة للبرنامج الوطني أيضا. ومن الواضح أن هذا ليس مثاليا لأن معظم السباقات لديها عدد من وحدات الحماية الوطنية. ما تأثير كل NPs على الخط إذا كان 1 NP فقط لديها مشكلة.
الحل
بالنسبة لأخطاء DCPERR و ICPERR التي شوهدت في مخابئ وحدة المعالجة المركزية الخاصة بإعصار LC، لدينا حل لتجنب الحاجة إلى الذعر وإعادة تحميل الخط. ويتم ذلك باستخدام CSCux30405. مدمج حاليا في الإصدار 5.3.3 والإصدارات الأعلى.
بالنسبة لذكريات الشرطة الوطنية هذا الأمر يصبح أكثر تعقيدا. بذل جهد كبير لفحص الذكريات المختلفة لنرى أي منها يمكننا ان نتجاهله بأمان أو نأتي بطريقة اقل تأثيرا لنستعيد عافيتنا. وقد تم دمج معظمها في 5.3.3 وما فوق، كما تم بناء وحدات إدارة الشبكات (SMU) على أساس أغلبية الإصدارات الشعبية.
ملاحظة: تسبب ذلك أيضا في ضمان CSCvc69282 حيث يمكن أن نرى انهيار kernel بسبب الانقطاعات المستمرة.
تحسينات معالجة خطأ NP السهل
وخلال النصف الأخير من عام 2015 وأوائل عام 2016، أدخلت تحسينات عديدة على معالجة الأخطاء البسيطة في الشرطة الوطنية في كل من الإعصار وتوماهوك. تم تحويل المعالجة للعديد من الذكريات المختلفة من طريقة تتطلب إعادة تحميل بطاقة الخط إلى شيء أكثر روعة مثل إصلاح الخطأ في الذاكرة أو تنفيذ إعادة تعيين NP بسرعة. كما تم تحسين معالجة الأخطاء التي ليس لها تأثير وظيفي ولكن لا يمكن مسحها ("لاصق") بحيث لا تستمر الأخطاء في التكرار. وبالإضافة إلى ذلك، تم إصلاح العديد من الأخطاء، وخاصة الأخطاء التي تحدث في ذاكرة توجيه NP أو TCAM الداخلية. حوالي 80-90٪ من الأخطاء التي لم يكن من الممكن إستردادها في السابق أصبحت الآن قابلة للاسترداد ولا تتطلب إعادة تحميل خط.
ويتم دمج جميع هذه التحسينات والإصلاحات في إصدارات 5.3.3 والإصدارات الأحدث. كما تتوفر الإصلاحات في الشركات الصغيرة ومتوسطة الحجم (SMU) المظلة لجميع إصدارات الصيانة الرئيسية:
434 - CSCux16975
512 - CSCux44633
513 - CSCux16975
531 - CSCux34531
532 - CSCux78563