المقدمة
يوضح هذا المستند كيفية أستكشاف أخطاء وحدات الذاكرة النمطية والمشاكل ذات الصلة وإصلاحها في حل نظام الحوسبة الموحدة (UCS) من Cisco.
المتطلبات الأساسية
المتطلبات
توصي Cisco بمعرفة نظام الحوسبة الموحدة (UCS) من Cisco.
المكونات المستخدمة
لا يقتصر هذا المستند على إصدارات برامج ومكونات مادية معينة.
ومع ذلك، يتناول هذا المستند:
- الخوادم النصلية Cisco UCS السلسلة B
- برنامج UCS Manager
- يستخدم UCS الوحدة النمطية المزدوجة للذاكرة الخطية (DIMM) كوحدات ذاكرة الوصول العشوائي.
تم إنشاء المعلومات الواردة في هذا المستند من الأجهزة الموجودة في بيئة معملية خاصة. بدأت جميع الأجهزة المُستخدمة في هذا المستند بتكوين ممسوح (افتراضي). إذا كانت شبكتك قيد التشغيل، فتأكد من فهمك للتأثير المحتمل لأي أمر.
منهجية أستكشاف الأخطاء وإصلاحها
يغطي هذا القسم عدة أجزاء من مشاكل ذاكرة UCS.
- موضع الذاكرة
- أستكشاف أخطاء DIMM وإصلاحها عبر UCSM و CLI
- السجلات المطلوب إيداعها في الدعم الفني
البنود والاختصارات
DIMM |
الوحدة النمطية للذاكرة المزدوجة Dual-Line Memory Module |
نظام تصحيح الأخطاء (ECC) |
خطأ في تصحيح الرمز |
LVDIMM |
وحدات ذاكرة DIMM منخفضة الجهد الكهربائي |
MCA |
بنية فحص الجهاز |
عضوي |
الاختبار الذاتي المدمج للذاكرة |
إم آر |
رمز مرجع الذاكرة |
الاختبار الذاتي لبدء التشغيل (POST) |
تشغيل الاختبار الذاتي |
SPD |
اكتشاف التواجد التسلسلي |
ذاكرة DDR |
معدل بيانات مزدوج |
راس |
الموثوقية والتوفر وسهولة الصيانة |
وضع الذاكرة
يعد وضع الذاكرة أحد الجوانب المادية الأكثر بروزا لحل UCS.
عادة، يأتي الخادم مزودا بذاكرة تم تعبئتها مسبقا بالمبلغ المطلوب.
ومع ذلك، عندما تكون موضع شك، ارجع إلى دليل تثبيت الأجهزة.
للحصول على قواعد تجميع الذاكرة، راجع المواصفات الفنية للسلسلة B الخاصة بالنظام الأساسي المحدد.
وصلة المواصفات الفنية للفئة B:
أوراق البيانات
أخطاء الذاكرة
- خطأ DIMM
- Multibit = غير صالح
- تم تعيين مادة النشر بواسطة BIOS، أما نظام التشغيل فلا يرى DIMM.
- عادة ما يتسبب وقت التشغيل في إعادة تشغيل نظام التشغيل.
- SingleBit = قابل للتصحيح
- يستمر نظام التشغيل في رؤية وحدة ذاكرة DIMM.
- خطأ في تصحيح الرمز (ECC) خطأ
- خطأ التماثل
- خطأ في اكتشاف التواجد التسلسلي (SPD)
- خطأ في التكوين
- وحدات ذاكرة DIMM غير مدعومة
- لا يتم دعم مجموعة وحدات ذاكرة DIMM
- وحدات ذاكرة DIMM غير متزاوجة
- أخطاء عدم التطابق
تصحيح الأخطاء مقابل الأخطاء غير القابلة للتصحيح
تعتمد إمكانية تصحيح خطأ معين أو عدم تصحيحه على قوة رمز تصحيح الأخطاء (ECC) المستخدم داخل نظام الذاكرة.
يمكن للأجهزة المخصصة إصلاح الأخطاء التي يمكن تصحيحها عند حدوثها دون أي تأثير على تنفيذ البرنامج.
لم يتم تعطيل وحدات ذاكرة DIMM التي تحتوي على أخطاء يمكن تصحيحها، كما أنها متوفرة لاستخدام نظام التشغيل. يعرض الأمر Total Memory
و Effective Memory
هم أنفسهم.
يتم الإبلاغ عن هذه الأخطاء التي يمكن تصحيحها في حالة قابلية تشغيل UCSM باسم Degraded
في حين أن قابلية التشغيل الإجمالية Operable
مع أخطاء يمكن تصحيحها.
الأخطاء غير القابلة للتصحيح تجعل من المستحيل على التطبيق أو نظام التشغيل متابعة التنفيذ.
يتم تعطيل وحدات ذاكرة DIMM التي تحتوي على أخطاء غير قابلة للتصحيح ولا يراها نظام التشغيل. تغيير UCSM operState إلى Inoperable في هذه الحالة.
أستكشاف أخطاء DIMM وإصلاحها عبر UCSM و CLI
التحقق من الأخطاء من واجهة المستخدم الرسومية
UCSM |
السجلات |
الوصف |
حالة DIMM |
قابلية التشغيل |
سل |
التعليقات |
قابل للتشغيل |
قابل للتشغيل |
تحقق من سجل SEL بحثا عن الأخطاء المتعلقة ب DIMM. |
تم تثبيت وحدة ذاكرة DIMM وتشغيلها. |
قابل للتشغيل |
أذلتما |
تحقق من SEL بحثا عن أخطاء ECC. |
تم اكتشاف خطأ ECC DIMM قابل للتصحيح أثناء وقت التشغيل. |
استبعدتا |
غير متوفر |
لا توجد سجلات |
لم يتم تثبيت DIMM أو تلف بيانات SPD. |
معطل |
قابل للتشغيل |
تحقق من SEL بحثا عن أخطاء الهوية غير المنشئة. |
تحقق من كتالوج القدرات وقم بتحديثه. |
معطل |
غير متوفر |
تحقق من SEL في حالة فشل إدخال DIMM آخر في نفس القناة. |
DIMM صحيح ولكنه معطل بسبب تعذر الحفاظ على قاعدة التكوين بواسطة DIMM فاشل في نفس القناة. |
معطل |
غير متوفر |
لا توجد سجلات |
فشل قاعدة تكوين الذاكرة بسبب عدم وجود وحدات ذاكرة DIMM. |
غير قابل للتطبيق |
غير قابل للتشغيل/الاستبدال مطلوب |
|
تم الكشف عن خطأ ECC الخاص بالمستخدم. |
أذلتما |
غير قابل للتطبيق |
تحقق من SEL بحثا عن أخطاء ECC. |
تم اكتشاف حالة DIMM وإمكانية التشغيل بسبب حدوث أخطاء في نظام تصحيح الأخطاء (ECC) قبل إعادة تمهيد المضيف. |
أذلتما |
غير قابل للتشغيل/الاستبدال مطلوب |
تحقق من SEL بحثا عن خطأ ECC أثناء POST/MRC. |
تم اكتشاف خطأ ECC غير قابل للتصحيح أثناء وقت التشغيل، بينما يظل DIMM متوفرا لنظام التشغيل وتعطل نظام التشغيل ثم يعود للتشغيل ولكنه ما يزال بإمكانه إستخدام DIMM هذا. يمكن أن يقع خطأ مرة أخرى لاحقا. يجب إستبدال وحدة ذاكرة DIMM في معظم الحالات. |
للحصول على إحصائيات، انتقل إلى Equipment > Chassis > Server > Inventory > Memory,
ثم انقر بزر الماوس الأيمن Memory
وحدد show navigator.
التحقق من الأخطاء من CLI
تكون هذه الأوامر مفيدة عند أستكشاف أخطاء CLI وإصلاحها.
scope server x/y -> show memory detail
scope server x/y -> show memory-array detail
scope server x/y -> scope memory-array x -> show stats history memory-array-env-stats detail
من نطاق صفيف الذاكرة، يمكنك أيضا الوصول إلى DIMM.
scope server X/Y > scope memory-array Z > scope DIMM N
ومن هناك، يمكنك الحصول على إحصائيات لكل DIMM أو إعادة ضبط عدادات الأخطاء.
UCS/chassis/server/memory-array/dimm # reset-errors
UCS /chassis/server/memory-array/dimm* # commit-buffer
UCS /chassis/server/memory-array/dimm # show stats memory-error-state
إذا رأيت خطأ يمكن تصحيحه يطابق هذه المعلومات، يمكن تصحيح المشكلة بإعادة ضبط BMC بدلا من إعادة تعيين الخادم النصلي.
استعملت هذا cisco UCS مدير CLI أمر:
(لا تؤثر إعادة ضبط وحدة التحكم في إدارة اللوحة الأساسية (BMC) على نظام التشغيل الذي يعمل على الخادم النصلي.)
To reset memory-error counters on a Cisco UCS C-Series Rack Server operating in standalone mode, run the script on the CLI:
UCS-C# scope reset-ecc
UCS-C/reset-ecc # set enabled yes
UCS-C/reset-ecc *# commit
For colusa servers:
UCS# scope chassis
UCS /chassis # scope server x
UCS /chassis/server # reset-ecc
مع إصدارات UCS 2.27 و 3.1 وما فوقها، تمت إزالة حدود أخطاء الذاكرة التي تم تصحيحها.
لذلك، لم يعد يتم الإبلاغ عن وحدات الذاكرة على أنها Inoperable
أو Degraded
وذلك فقط بسبب أخطاء الذاكرة التي تم تصحيحها.
بحسب التقرير الرسمي الذي يقوم بإدارة أخطاء الذاكرة القابلة للتصحيح على خوادم Cisco UCS
إن متطلبات الصناعة من أجل سعة أكبر وعرض نطاق أكبر وفولتية تشغيل أقل تؤدي إلى زيادة معدلات أخطاء الذاكرة.
وبشكل تقليدي، تعاملت الصناعة مع الأخطاء التي يمكن تصحيحها بنفس الطريقة التي عاملت بها الأخطاء غير القابلة للتصحيح، مما تطلب إستبدال الوحدة النمطية فورا عند التنبيه.
بافتراض إجراء بحث مكثف على أن الأخطاء التي يمكن تصحيحها لا ترتبط بأخطاء غير صحيحة، وأن الأخطاء التي يمكن تصحيحها لا تقلل من أداء النظام، يوصي فريق Cisco UCS بعدم الاستبدال الفوري للوحدات النمطية التي تحتوي على أخطاء يمكن تصحيحها.
ينصح العملاء الذين لديهم تنبيه بالذاكرة المخفضة للأخطاء التي يمكن تصحيحها بإعادة تعيين خطأ الذاكرة واستئناف العملية. تساعد هذه التوصية على تجنب عدم انتظام الخادم بشكل غير ضروري. تؤدي التحسينات المستقبلية لإدارة الأخطاء إلى التمييز بين أنواع مختلفة من الأخطاء القابلة للتصحيح، كما تحدد الإجراءات المناسبة، إن وجدت، المطلوبة.
على الأقل، أستخدم الإصدار 2.1(3c) أو 2.2(1b) الذي لديه تحسين مع إدارة أخطاء ذاكرة UCS
تسجيل الملفات للتحقق من الدعم الفني
UCSM_X_TechSupport > sam_techsupportinfo
يوفر معلومات حول DIMM وصفيف الذاكرة.
الدعم الفني للهيكل/الخادم
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt -> Generic tech support information about sever X.
CIMCX_TechSupport\obfl\obfl-log -> OBFL logs provide an ongoing logs about status and boot of server X.
CIMCX_TechSupport\var\log\sel -> SEL logs for server X.
استنادا إلى النظام الأساسي/الإصدار، انتقل إلى الملفات في حزمة الدعم الفني.
var/nuova/BIOS > RankMarginTest.txt
var/nuova/BIOS > MemoryHob.txt
var/nuova/var/nuova/ BIOS > MrcOut_*.txt
توفر هذه الملفات معلومات حول الذاكرة كما هو موضح من مستوى BIOS.
يمكن إعادة الإشارة إلى المعلومات هناك مع جداول تقارير حالات DIMM.
مثال:
/var/nuova/BIOS/RankMarginTest.txt
- مفيد لإظهار نتائج الاختبار من عضو إختبار BIOS.
- ابحث عن الأخطاء.
- انظر لمعرفة ما إذا تم تخطيط أي وحدات ذاكرة DIMM أم لا.
- إظهار معلومات DIMM المحددة (المورد/السرعة/معرف فئة المورد (PID)).
DIMM |GB|R|MfgDate|Mod ID |DRAM ID |Reg ID |CtW Tck CLS Taa V|Freq|Part#
A1 18| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A2 26| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
يحتوي العمود الأول على قيمتين:
محدد موقع DIMM (F2)
حالة DIMM (01)
فيما يلي وصف مختصر لكل حالة:
0x00 // غير مثبت (لا يوجد DIMM)
0x01 // مثبت (أثناء العمل)
/// 0x02-0f (محجوز)
//// فشل
0x10 // تدريب فاشل
0x11 // فشل تدريب الساعة
/// 0x12-17 (محجوز)
0x18 // فشل MemBist
/// 0x19-1F (محجوز)
/// تم تجاهله
0x20 // متجاهل (معطل من وحدة تحكم التصحيح)
0x21 // تم تجاهله (تم الإعلام عن خطأ SPD بواسطة BMC)
0x22 // تم تجاهله (ليس RDIMM)
0x23 // تم تجاهله (ليس ECC)
0x24 // تم تجاهله (بخلاف X4)
0x25 // تم تجاهله (فشل PDIMM الأخرى في LDIMM نفسه)
0x26 // تم تجاهله (فشل LDIMM آخر في نفس القناة)
0x27 // تم تجاهله (فشلت قناة أخرى في LockStep أو Mirror)
0x28 // تم تجاهله (عدد PDIMM غير صحيح)
0x29 // تم تجاهله (عدم تطابق مؤسسة PDIMM)
0x2a // تم تجاهله (عدم تطابق مورد سجل PDIMM)
/// 0x2b-7f (محجوز)
var/nuova/BIOS > MemoryHob.txt
إظهار الذاكرة الفعالة والمعطلة المثبتة على الخادم.
+++ BEGINNING OF FILE
Memory Speed = 1067 MHz
Memory Mode = 00
RAS Modes = 03
MRC Flags = 0000000A
Total Memory = 98304 MB
Effective Memory = 90112 MB
Failed Memory = 8192 MB
Ignored Memory = 0 MB
Redundant Memory = 0 MB
|---------------------------------|
| Memory | Channel | DIMM Status |
| Channel | Status | 1 2 |
|---------------------------------|
| A | 01 | 01 01 |
| B | 01 | 01 01 |
| C | 01 | 01 01 |
| D | 01 | 01 01 |
| E | 01 | 01 01 |
| F | 01 | 01 18 |
|---------------------------------|
18h - يتم وضع علامة "فشل" على حالة DIMM عند فشلها في إختبار MemBist. استبدل بوحدات DIMM معروفة جيدا.
وصف حالة DIMM
00h غير مثبت (لا يوجد DIMM)
01h مثبت (العمل)
02h-0fh محجوز
فشل 10h (التدريب)
فشل 11h (التدريب على الساعة)
12h-17h محجوز
فشل 18h (MemBIST)
19h-1fh محجوز
20h متجاهل (معطل من وحدة تحكم التصحيح)
تم تجاهل الطراز 21h (تم الإعلام عن خطأ SPD بواسطة BMC)
22h متجاهل (غير RDIMM)
23h متجاهل (غير ECC)
24h متجاهل (بخلاف X4)
تم تجاهل 25h (فشل PDIMM الأخرى في نفس LDIMM)
تم تجاهل 26h (فشل LDIMM الأخرى في نفس القناة)
27h متجاهل (قناة أخرى في LockStep أو Mirror)
28h متجاهلة (عدد ذاكرة غير صالح)
تم تجاهل 29h (عدم تطابق المؤسسة)
2AH تم تجاهله (تسجيل عدم تطابق المورد)
2bh- 7fh محجوز
80h متجاهل ( تكرار الحل البديل)
81h متجاهل (ناقل i2c المتعثر)
82h - FFh محجوز
حظر DIMM
في Cisco UCS Manager
، والية Dual In-line Memory Module
(DIMM) استنادا إلى سجلات حدث SEL.
عندما يواجه نظام الإدخال والإخراج الأساسي (BIOS) خطأ ذاكرة غير قابل للإصلاح أثناء تنفيذ إختبار الذاكرة، يتم وضع علامة DIMM على أنه معيب.
يعتبر DIMM المعيب جهازا لا يعمل.
إذا قمت بتمكين حظر DIMM، فإن مدير Cisco UCS يراقب رسائل تنفيذ إختبار الذاكرة ويحظر أي DIMM التي تواجه أخطاء ذاكرة في بيانات DIMM SPD.
تم إدخال حظر DIMM كسياسة عالمية إختيارية في UCSM 2.2(2).
يجب أن يكون البرنامج الثابت للخادم هو 2.2(1)+ للخوادم النصلية من الفئة B و 2.2(3)+ للخوادم المركبة على حامل من الفئة C لتنفيذ هذه الميزة بشكل صحيح.
في UCSM 2.2(4)، ال DIMM، يتم تمكين BlockListing.
افتح ملف الدعم الفني .../var/log/DimmBL.log
افتح الملف /var/nuova/BIOS/MrcOut.txt إذا كان متوفرا
العثور على جدول حالة DIMM. البحث عن حالة DIMM:
حظر DIMM = 1E
العثور على جدول حالة DIMM. البحث عن حالة DIMM:
حالة DIMM:
00 - غير مثبت
01 - مثبت
10 - فشل (فشل في التدريب)
1e - فشل (يتم حظر DIMM بواسطة BMC)
1F - فشل (خطأ SPD)
25 - معطل (DIMM آخر فشل في نفس القناة.)
مثال:
حالة DIMM:
|====================|
| ذاكرة | حالة DIMM |
| قناة | 1 2 3 |
|====================|
| ج | 25 1F 25 |
| B | 01 01 01 |
| C | 1F 25 25 |
| D | 01 01 01 |
| E | 01 01 01 |
| و | 25 25 1E |
| G | 01 01 01 |
| H | 01 01 01 |
|====================|
حالة DIMM:
01 - مثبت
1e - فشل (يتم حظر DIMM بواسطة BMC)
1F - فشل (خطأ SPD)
25 - معطل (DIMM آخر فشل في نفس القناة)
طرق مسح أخطاء حظر DIMM
واجهة المستخدم الرسومية UCSM
واجهة سطر الأوامر UCSM
UCS-B/chassis/server # reset-all-memory-errors
معلومات ذات صلة
حشرات مرموقة
يحتوي منظم الجهد الكهربي لمعرف تصحيح الأخطاء من Cisco CSCug93076 B200M3-DDR على ضوضاء مفرطة تحت الحمل الخفيف
يقوم مستشعر أخطاء IPMI DIMM لمعرف تصحيح الأخطاء من Cisco CSCup07488 بإعداد DIMM المخفض بدون عدد أخطاء.
معرف تصحيح الأخطاء من Cisco CSCud22620 دقة محسنة في تحديد وحدات ذاكرة DIMM المخفضة
cisco بق id CSCuw44524 C460M4، B260M4 أو B460M4 IVB clear CMOS يستطيع سببت خطأ UECC
أخطاء معرف تصحيح الأخطاء من Cisco CSCur19705 ECC/UECC التي تمت ملاحظتها على B200M3
يفتقد وثائق خطوات إعادة ضبط ECC لمعرف تصحيح الأخطاء من Cisco CSCvm88447 لخوادم Colusa المستقلة