Einleitung
In diesem Dokument wird die Fehlerbehebung bei Speichermodulen und verwandten Problemen in der Cisco Unified Computing System (UCS)-Lösung beschrieben.
Voraussetzungen
Anforderungen
Cisco empfiehlt, über das Cisco Unified Computing System (UCS) informiert zu sein.
Verwendete Komponenten
Dieses Dokument ist nicht auf bestimmte Software- und Hardware-Versionen beschränkt.
In diesem Dokument werden jedoch folgende Punkte behandelt:
- Cisco UCS Blade-Server der B-Serie
- UCS-Manager
- Das UCS verwendet Dual In-Line Memory Module (DIMM) als RAM-Module.
Die Informationen in diesem Dokument beziehen sich auf Geräte in einer speziell eingerichteten Testumgebung. Alle Geräte, die in diesem Dokument benutzt wurden, begannen mit einer gelöschten (Nichterfüllungs) Konfiguration. Wenn Ihr Netzwerk in Betrieb ist, stellen Sie sicher, dass Sie die möglichen Auswirkungen aller Befehle kennen.
Methodik der Fehlerbehebung
In diesem Abschnitt werden verschiedene Bereiche behandelt, in denen UCS-Speicherprobleme auftreten können.
- Speicherplatzierung
- Fehlerbehebung bei DIMMs über UCSM und CLI
- Protokolle zum Einchecken des technischen Supports
Begriffe und Akronyme
DIMM |
Dual-In-Line-Speichermodul |
ECC |
Fehler beim Korrigieren des Codes |
LVDIMM |
Niederspannungs-DIMMs |
MCA |
Rechnerprüfungsarchitektur |
MITGLIED |
Integrierter Selbsttest |
MRC |
Speicherreferenzcode |
POST |
Selbsttest beim Einschalten |
SPD |
Serielle Anwesenheitserkennung |
DDR |
Doppelte Datenrate |
RAS |
Zuverlässigkeit, Verfügbarkeit und Benutzerfreundlichkeit |
Speicheranordnung
Die Speicherplatzierung ist einer der wichtigsten physischen Aspekte der UCS-Lösung.
In der Regel enthält der Server vorab einen Speicher mit der angeforderten Menge.
Im Zweifelsfall sollten Sie sich jedoch die Hardware-Installationsanleitung ansehen.
Die Regeln für die Speicherbestückung finden Sie in den technischen Spezifikationen der jeweiligen Plattform für die B-Serie.
Technisches Datenblatt der B-Serie:
Datenblätter
Speicherfehler
- DIMM-Fehler
- Multibit = nicht korrigierbar
- Der POST-Test wird vom BIOS zugeordnet; das Betriebssystem sieht keinen DIMM.
- Die Laufzeit verursacht normalerweise einen Neustart des Betriebssystems.
- Singlebit = korrigierbar
- Das Betriebssystem sieht weiterhin den DIMM.
- ECC-Fehler (Error Correcting Code)
- Paritätsfehler
- SPD-Fehler (Serial Presence Detect)
- Konfigurationsfehler
- Nicht unterstützte DIMMs
- Nicht unterstützte DIMM-Population
- Unpaarte DIMMs
- Fehler bei fehlender Zuordnung
- Nicht ermittelbarer Identitätsfehler
- Katalog überprüfen und aktualisieren.
Korrigierbare und nicht korrigierbare Fehler
Ob ein bestimmter Fehler korrigierbar oder nicht korrigierbar ist, hängt von der Stärke des innerhalb des Speichersystems verwendeten ECC-Codes ab.
Spezielle Hardware kann korrigierbare Fehler beheben, wenn diese auftreten, ohne die Ausführung des Programms zu beeinträchtigen.
Die DIMMs mit korrigierbaren Fehlern sind nicht deaktiviert und können vom Betriebssystem verwendet werden. Die Fehlermeldung Total Memory
und Effective Memory
sind gleich.
Diese behebbaren Fehler werden im UCSM-Betriebsstatus als Degraded
während die allgemeine Betriebsfähigkeit Operable
mit korrigierbaren Fehlern.
Nicht korrigierbare Fehler machen die weitere Ausführung der Anwendung oder des Betriebssystems unmöglich.
Die DIMMs mit nicht korrigierbaren Fehlern sind deaktiviert, und das Betriebssystem sieht sie nicht. In diesem Fall wird der UCSM-Betriebsstatus in "Inaktiv" geändert.
Fehlerbehebung bei DIMMs über UCSM und CLI
Fehler aus GUI überprüfen
UCSM |
Protokolle |
Beschreibung |
DIMM-Status |
Bedienbarkeit |
SEL |
Kommentare |
Operativ |
Operativ |
Prüfen Sie das SEL-Protokoll auf DIMM-Fehler. |
Ein DIMM ist installiert und funktioniert. |
Operativ |
Heruntergestuft |
Überprüfen Sie das SEL auf ECC-Fehler. |
Zur Laufzeit wird ein korrigierbarer ECC-DIMM-Fehler erkannt. |
Entfernt |
– |
Keine Protokolle |
Ein DIMM ist nicht installiert oder beschädigt. |
Deaktiviert |
Operativ |
Überprüfen Sie SEL auf nicht herstellbare Identitätsfehler. |
Funktionskatalog überprüfen und aktualisieren. |
Deaktiviert |
– |
Überprüfen Sie SEL, wenn ein anderes DIMM-Modul im gleichen Kanal fehlschlägt. |
Ein DIMM ist fehlerfrei, aber deaktiviert, da die Konfigurationsregel von einem fehlerhaften DIMM im gleichen Kanal nicht aufrechterhalten werden konnte. |
Deaktiviert |
– |
Keine Protokolle |
Fehler bei der Speicherkonfigurationsregel aufgrund fehlender DIMMs. |
funktionsuntüchtig |
Nicht funktionsfähig/Austausch erforderlich |
|
UE-ECC-Fehler wurde erkannt. |
Heruntergestuft |
funktionsuntüchtig |
Überprüfen Sie das SEL auf ECC-Fehler. |
Der DIMM-Status und die Funktionsfähigkeit haben sich geändert, da vor dem Neustart des Hosts ECC-Fehler erkannt wurden. |
Heruntergestuft |
Nicht funktionsfähig/Austausch erforderlich |
Prüfen Sie das Systemereignisprotokoll auf ECC-Fehler beim POST/MRC. |
Nicht korrigierbarer ECC-Fehler wurde während der Laufzeit erkannt, DIMM bleibt für das Betriebssystem verfügbar, das Betriebssystem stürzt ab und wird wieder aktiviert, kann aber weiterhin diesen DIMM verwenden. Fehler kann später erneut auftreten. In den meisten Fällen müssen DIMMs ersetzt werden. |
Um Statistiken abzurufen, navigieren Sie zu Equipment > Chassis > Server > Inventory > Memory,
und dann mit der rechten Maustaste klicken Memory
und wählen show navigator.
Fehler von CLI überprüfen
Diese Befehle sind nützlich, wenn Sie Fehler über die CLI beheben möchten.
scope server x/y -> show memory detail
scope server x/y -> show memory-array detail
scope server x/y -> scope memory-array x -> show stats history memory-array-env-stats detail
Über den Speicherbereich können Sie auch auf DIMM zugreifen.
scope server X/Y > scope memory-array Z > scope DIMM N
Von dort können Sie Per-DIMM-Statistiken abrufen oder die Fehlerzähler zurücksetzen.
UCS/chassis/server/memory-array/dimm # reset-errors
UCS /chassis/server/memory-array/dimm* # commit-buffer
UCS /chassis/server/memory-array/dimm # show stats memory-error-state
Wenn ein korrigierbarer Fehler angezeigt wird, der mit diesen Informationen übereinstimmt, kann das Problem durch Zurücksetzen des BMC behoben werden, anstatt den Blade-Server zurückzusetzen.
Verwenden Sie die folgenden CLI-Befehle von Cisco UCS Manager:
(Das Zurücksetzen des BMC hat keine Auswirkungen auf das auf dem Blade ausgeführte Betriebssystem.)
To reset memory-error counters on a Cisco UCS C-Series Rack Server operating in standalone mode, run the script on the CLI:
UCS-C# scope reset-ecc
UCS-C/reset-ecc # set enabled yes
UCS-C/reset-ecc *# commit
For colusa servers:
UCS# scope chassis
UCS /chassis # scope server x
UCS /chassis/server # reset-ecc
In den UCS-Versionen 2.27 und 3.1 und höher wurden die Schwellenwerte für speicherkorrigierte Fehler entfernt.
Speichermodule werden daher nicht mehr als Inoperable
Oder Degraded
ausschließlich aufgrund korrigierter Speicherfehler.
Gemäß Whitepaper Verwaltung korrigierbarer Speicherfehler auf Cisco UCS-Servern
Die Forderung der Branche nach höherer Kapazität, größerer Bandbreite und niedrigeren Betriebsspannungen führt zu höheren Speicherfehlerraten.
Bislang wurden korrigierbare Fehler in der Branche genauso behandelt wie unkorrigierbare Fehler, sodass das Modul bei Warnmeldungen sofort ausgetauscht werden musste.
Aufgrund umfangreicher Untersuchungen, die ergeben haben, dass behebbare Fehler nicht mit nicht behebbaren Fehlern korreliert werden und dass behebbare Fehler die Systemleistung nicht beeinträchtigen, empfiehlt das Cisco UCS-Team den sofortigen Austausch von Modulen mit behebbaren Fehlern.
Kunden, bei denen aufgrund korrigierbarer Fehler eine Warnung über einen verminderten Arbeitsspeicher vorliegt, wird empfohlen, den Arbeitsspeicherfehler zurückzusetzen und den Betrieb wieder aufzunehmen. Diese Empfehlung trägt dazu bei, unnötige Unterbrechungen des Serverbetriebs zu vermeiden. Bei künftigen Verbesserungen des Fehlermanagements wird zwischen verschiedenen Arten korrigierbarer Fehler unterschieden und ermittelt, welche Maßnahmen gegebenenfalls erforderlich sind.
Verwenden Sie mindestens Version 2.1(3c) oder 2.2(1b), die durch UCS-Speicherfehlermanagement optimiert wurde.
Protokolldateien für das Einchecken im technischen Support
UCSM_X_TechSupport > sam_techsupportinfo
enthält Informationen über DIMM und Speichergruppe.
Technischer Support für Chassis/Server
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt -> Generic tech support information about sever X.
CIMCX_TechSupport\obfl\obfl-log -> OBFL logs provide an ongoing logs about status and boot of server X.
CIMCX_TechSupport\var\log\sel -> SEL logs for server X.
Navigieren Sie auf Basis der Plattform/Version zu den Dateien im technischen Support-Paket.
var/nuova/BIOS > RankMarginTest.txt
var/nuova/BIOS > MemoryHob.txt
var/nuova/var/nuova/ BIOS > MrcOut_*.txt
Diese Dateien liefern Informationen über den Speicher aus der BIOS-Ebene.
Dort können Informationen wieder mit DIMM-Zustandsberichtstabellen querreferenziert werden.
Beispiel:
/var/nuova/BIOS/RankMarginTest.txt
- Hilfreich für die Anzeige der Testergebnisse von BIOS Training Test MEMBIST.
- Suchen nach Fehlern
- Prüfen Sie, ob DIMMs zugeordnet sind.
- Zeigt DIMM-spezifische Informationen an (Anbieter/Geschwindigkeit/PID).
DIMM |GB|R|MfgDate|Mod ID |DRAM ID |Reg ID |CtW Tck CLS Taa V|Freq|Part#
A1 18| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A2 26| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
Die erste Spalte hat zwei Werte:
DIMM Locator (F2)
DIMM-Status (01)
Im Folgenden finden Sie eine kurze Beschreibung für jeden Status:
0x00 // Nicht installiert (kein DIMM)
0x01 // Installiert (funktionsfähig)
/// 0x02-0F (Reserviert)
//// Failed
0x10 // Fehlgeschlagene Schulung
0x11 // Fehlgeschlagene Uhr
/// 0x12-17 (Reserviert)
0x18 // Fehlgeschlagenes MemBIST
/// 0x19-1F (Reserviert)
/// Ignoriert
0x20 // Ignoriert (Deaktiviert von Debug-Konsole)
0x21 // Ignoriert (SPD-Fehler vom BMC gemeldet)
0x22 // Ignoriert (Nicht-RDIMM)
0x23 // Ignoriert (kein ECC)
0x24 // Ignoriert (Nicht-x4)
0x25 // Ignoriert (Anderes PDIMM im selben LDIMM fehlgeschlagen)
0x26 // Ignoriert (Anderes LDIMM im gleichen Kanal fehlgeschlagen)
0x27 // Ignoriert (Anderer Kanal in LockStep oder Mirror fehlgeschlagen)
0x28 // Ignoriert (Ungültige PDIMM-Population)
0x29 // Ignoriert (PDIMM-Organisationskonflikt)
0x2A // Ignoriert (PDIMM-Registeranbieter stimmt nicht überein)
/// 0x2B-7F (Reserviert)
var/nuova/BIOS > MemoryHob.txt
Zeigt den auf dem Server installierten effektiven und fehlerhaften Speicher an.
+++ BEGINNING OF FILE
Memory Speed = 1067 MHz
Memory Mode = 00
RAS Modes = 03
MRC Flags = 0000000A
Total Memory = 98304 MB
Effective Memory = 90112 MB
Failed Memory = 8192 MB
Ignored Memory = 0 MB
Redundant Memory = 0 MB
|---------------------------------|
| Memory | Channel | DIMM Status |
| Channel | Status | 1 2 |
|---------------------------------|
| A | 01 | 01 01 |
| B | 01 | 01 01 |
| C | 01 | 01 01 |
| D | 01 | 01 01 |
| E | 01 | 01 01 |
| F | 01 | 01 18 |
|---------------------------------|
18h - Der DIMM-Status wird als fehlerhaft markiert, wenn er im MemBIST-Test fehlschlägt. Ersetzen Sie dies durch ein zweifelsfrei funktionierendes DIMM.
DIMM-Statusbeschreibung
00h Nicht installiert (kein DIMM)
01h Installiert (funktionsfähig)
02h-0Fh Reserviert
10h fehlgeschlagen (Schulung)
11h Fehlgeschlagen (Uhrentraining)
12h-17h Reserviert
18h fehlgeschlagen (MemBIST)
19.00 - 1. Fh reserviert
20h Ignoriert (Deaktiviert von Debug-Konsole)
21h Ignoriert (SPD-Fehler vom BMC gemeldet)
22 Stunden ignoriert (kein RDIMM)
23 Stunden ignoriert (kein ECC)
24 Std. ignoriert (nicht x4)
25h Ignoriert (Anderes PDIMM im selben LDIMM fehlgeschlagen)
26h Ignoriert (Anderes LDIMM im gleichen Kanal fehlgeschlagen)
27h Ignoriert (Anderer Kanal in LockStep oder Mirror)
28 Stunden ignoriert (ungültige Speicherbestückung)
29h Ignoriert (Organisationskonflikt)
2Ah ignoriert (Anbieterkonflikt registrieren)
2 Std. bis 7 Std. reserviert
80h Ignoriert (Workaround-Looping)
81h Ignoriert (eingesteckter I2C-Bus)
82 Std. - FFh reserviert
DIMM-Sperrliste
In Cisco UCS Manager
den Zustand der Dual In-line Memory Module
(DIMM) basiert auf SEL-Ereignisdatensätzen.
Wenn im BIOS während der Ausführung des Speichertests ein nicht korrigierbarer Speicherfehler auftritt, wird das DIMM als fehlerhaft markiert.
Ein fehlerhaftes DIMM gilt als nicht funktionsfähiges Gerät.
Wenn Sie die DIMM-Sperrliste aktivieren, überwacht Cisco UCS Manager die Meldungen zur Ausführung des Speichertests und listet alle DIMMs auf, bei denen Speicherfehler in den DIMM-SPD-Daten auftreten.
DIMM-Blocklisting wurde als optionale globale Richtlinie in UCSM 2.2(2) eingeführt.
Zur ordnungsgemäßen Implementierung dieser Funktion muss die Server-Firmware für Blades der B-Serie 2.2(1)+ und für Rack-Server der C-Serie 2.2(3)+ betragen.
In UCSM 2.2(4) ist Blocklisting für DIMMs aktiviert.
Öffnen Sie die Datei für den technischen Support .../var/log/DimmBL.log
Öffnen Sie die Datei /var/nuova/BIOS/MrcOut.txt, sofern verfügbar.
Suchen der DIMM-Statustabelle Suchen Sie nach DIMM-Status:
Liste der DIMM-Blockierungen = 1E
Suchen der DIMM-Statustabelle Suchen Sie nach DIMM-Status:
DIMM-Status:
00 - Nicht installiert
01 - Installiert
10 - Fehlgeschlagen (Trainingsfehler) Löschen
1E - Fehlgeschlagen (DIMM-Blockierung nach BMC aufgeführt)
1F - Fehler (SPD-Fehler)
25 - Deaktiviert (Anderes DIMM ist im gleichen Kanal fehlgeschlagen.)
Beispiel:
DIMM-Status:
|=======================|
| Arbeitsspeicher | DIMM-Status |
| Channel | 1 2 3 |
|=======================|
| A | 25,1 F 25 |
| B | 01 01 01 |
| C | 1 F 25 25 |
| G | 01 01 01 |
| O | 01 01 01 |
| F | 25 25 1E |
| G | 01 01 01 |
| H | 01 01 01 |
|=======================|
DIMM-Status:
01 - Installiert
1E - Fehlgeschlagen (DIMM-Blockierung nach BMC aufgeführt)
1F - Fehler (SPD-Fehler)
25 - Deaktiviert (Anderes DIMM im selben Kanal fehlgeschlagen)
Methoden zum Löschen von DIMM-Blocklistenfehlern
UCSM-GUI
UCSM-CLI
UCS-B/chassis/server # reset-all-memory-errors
Zugehörige Informationen
Wichtige Fehler
Cisco Bug-ID CSCug93076 B200M3-DDR-Spannungsregler hat übermäßiges Rauschen bei geringer Last
Der Cisco Bug-ID CSCup07488 IPMI-DIMM-Fehlersensor stellt "Dimm Degraded" ohne Fehleranzahl ein.
Cisco Bug-ID CSCud22620 Verbesserte Genauigkeit bei der Identifizierung von heruntergestuften DIMMs
Cisco Bug-ID CSCuw44524 C460M4, B260M4 oder B460M4 IVB Clear CMOS kann Speicher-UECC-Fehler verursachen
Cisco Bug-ID CSCur19705 ECC/UECC-Fehler bei B200M3 beobachtet
Cisco Bug-ID CSCvm8447ECC-Schritte-Dokumentation für Standalone-Colusa-Server fehlt