Einführung
Dieses Dokument beschreibt die Bedeutung eines gestohlenen Blocks auf einer Festplatte. Es beschreibt außerdem, wie ein gestohlener Baustein auftritt und wie die Sanierungsschritte durchgeführt werden.
Was ist ein punktierter Block?
Wenn ein Patrol Read-Vorgang oder ein Rebuild-Vorgang auf einen Medienfehler auf dem Quelllaufwerk trifft, wird ein Block auf dem Ziellaufwerk gestohlen, um die Verwendung der Daten mit der ungültigen Parität zu verhindern. Jede nachfolgende Leseoperation für den gestohlenen Block ist abgeschlossen, jedoch mit einem Fehler. Folglich verhindert das Zeichnen eines Blocks, dass bei Verwendung dieses Blocks später ungültige Paritätsgenerationen generiert werden.
Quelle: Benutzerhandbuch für MegaRAID® SAS-Software mit 12 Gbit/s, Rev. F, August 2014
Wie passieren gestohlene Blöcke?
Bei RAID5 werden die Daten in Form von Parität auf alle zugehörigen Festplatten verteilt. Wenn eines der Laufwerke fehlerhaft ist, können die Daten wiederhergestellt werden, indem die Parität für alle Laufwerke berechnet wird. Es gibt mehrere Dinge, die zu einem Durchbruch führen können, aber in der Regel beginnt es mit einem RAID, das über eine einzelne ausgefallene Festplatte verfügt, die auch ein Laufwerk mit vielen mittelmäßigen Fehlern oder in einem prädiktiven Fehlerzustand hat.
Der folgende Link bietet ein sehr gutes Szenario, in dem erläutert wird, wie ein Array gestochen werden kann:
http://www.theprojectbot.com/what-is-a-punctured-raid-array
Nach dem Lesen sollten Sie eine klare Vorstellung davon haben, dass beim Austauschen einer Festplatte ohne Überprüfung der anderen Festplatten einige fehlerhafte logische Blöcke oder mittlere Fehler neu platziert wurden und dann alle anderen Datenträger als ausgefallen angezeigt werden können.
Ein punktierter Block kann möglicherweise auf mehreren Laufwerken auftreten, wobei nur ein Laufwerk offiziell als "fehlerhaft" gilt. Dies kann dann auf Ersatzdatenträger repliziert werden, wodurch sich das Problem weiter verschärft.
Blocksymptome
Der Server kann mehrere Festplattenausfälle melden. Durch den einfachen Austausch der Festplatte wird das Problem NICHT behoben. Außerdem kann die E/A-Leistung beeinträchtigt sein.
Beweise für einen gestohlenen Block
Die Protokolle können Einträge enthalten, die den Zeilen unten ähneln.
6:2014 Jul 27 00:36:06:BMC:storage:-: SLOT-5: Unexpected sense: PD 0c(e0x12/s5) Path 500000e11986c502, CDB: 28 00 0e 71 66 e7 00 00 19 00, Sense: 3/11/01
6:2014 Jul 27 00:36:06:BMC:storage:-: SLOT-5: Unexpected sense: PD 13(e0x12/s7) Path 50000395083063f6, CDB: 28 00 0e 71 66 eb 00 00 15 00, Sense: 3/11/14
In der obigen Ausgabe bezieht e0x12/s5 sich auf HDD5. Der folgende Link beschreibt die Bedeutung des Sensorcodes (Sense: 11.3.14):
http://en.wikipedia.org/wiki/Key_Code_Qualifier
Dieser Sensor weist daher auf mittlere Fehler hin.
Folgende Ereignisse können in den Protokollen ebenfalls verhindert werden:
1:2014 Jul 16 10:42:43:BMC:storage:-: SLOT-5: Unrecoverable medium error during recovery on PD 0c(e0x12/s5) at e7166e7
1:2014 Jul 16 10:42:43:BMC:storage:-: SLOT-5: Puncturing bad block on PD 0c(e0x12/s5) at e7166e7
1:2014 Jul 19 03:46:22:BMC:storage:-: SLOT-5: Consistency Check detected uncorrectable multiple medium errors (PD 13(e0x12/s7) at e7166d9 on (null))
Mögliche Problembehebung
Immer wenn gestohlene Blöcke sich selbst darstellen, werden Datensicherungen dringend empfohlen. Wenn die oben genannten Meldungen angezeigt werden, besteht die Neigung, nach der fehlerhaften Festplatte zu suchen und sie zu ersetzen. Es besteht jedoch die Möglichkeit, dass mehrere fehlerhafte logische Blöcke über das Array verteilt wurden. Fehler oder fehlerhafte Festplatten mögen zwar die Ursache gewesen sein, gestohlene Blöcke werden jedoch nur durch die Rekonstruktion der betroffenen virtuellen Festplatte(n) behoben.
- Erstellen einer Datensicherung
- Löschen der RAID-Array-Konfiguration
- Erstellen eines neuen Arrays von Grund auf
Hinweis: Hinweis: Wählen Sie beim Erstellen der VD (virtuelles Laufwerk) die Option VOLLSTÄNDIGE/LANGSAME-Initialisierung anstelle der FAST-Initialisierung aus.
- Installieren Sie das Betriebssystem neu.
- Stellen Sie die Datensicherung wieder her.
Hinweis: Durch den Austausch von Festplatten werden nicht gestohlene Blöcke allein repariert. Wenn eine ausgefallene Festplatte vorhanden ist, sollte diese ausgetauscht werden. Andernfalls muss das RAID neu erstellt werden.
Verhindern von gestohlenen Blöcken
- Überwachen Sie RAIDs und den Zustand ihrer angeschlossenen Festplatten.
- Überprüfen Sie vor dem Austausch von Festplatten die Controller-Protokolle.
- Stellen Sie sicher, dass Patrol Reads und Consisency Checks aktiviert und ausgeführt sind (CSCul22968-Fehler prüfen).