Introduzione
Questo documento descrive il significato di un blocco perforato su un disco rigido. IT descrive inoltre come si verifica un blocco perforato e le fasi di correzione.
Che cos'è un blocco perforato?
Quando un'operazione Patrol Read o Rebuild rileva un errore di supporto sull'unità di origine, fora un blocco sull'unità di destinazione per impedire l'utilizzo dei dati con la parità non valida. Qualsiasi operazione di lettura successiva al blocco perforato viene completata, ma con un errore. Di conseguenza, la perforazione di un blocco impedisce qualsiasi generazione di parità non valida in seguito durante l'utilizzo di questo blocco.
Fonte: Guida per l'utente del software SAS MegaRAID® da 12 Gb/s, Rev. F, agosto 2014
Come avvengono i blocchi perforati?
In RAID5, i dati vengono distribuiti sotto forma di parità tra tutti i dischi membri. In questo caso, se una delle unità si guasta, i dati possono essere ricostruiti calcolando la parità su tutte le unità. Ci sono diverse cose che possono causare una foratura, ma di solito inizia con un RAID che ha una singola unità guasta che ha anche un'unità con molti errori medi o in uno stato Predictive Failure.
Il collegamento seguente offre un ottimo scenario in cui viene spiegato come un array può essere perforato:
http://www.theprojectbot.com/what-is-a-punctured-raid-array
Dopo averlo letto, è necessario avere la chiara idea che quando un disco rigido viene sostituito senza controllare gli altri dischi, alcuni blocchi logici errati o errori medi sono stati riposizionati e quindi qualsiasi altro disco potrebbe apparire come guasto.
Un blocco perforato può potenzialmente verificarsi su più unità, con una sola unità ufficialmente "guasta". che può quindi essere replicato sui dischi sostitutivi, aggravando ulteriormente il problema.
Sintomi del blocco perforato
Il server potrebbe segnalare più errori del disco rigido. La semplice sostituzione del disco rigido NON risolverà il problema. Inoltre, le prestazioni I/O potrebbero risultare ridotte.
Prova di un blocco perforato
I registri possono contenere voci simili alle righe seguenti.
6:2014 Jul 27 00:36:06:BMC:storage:-: SLOT-5: Unexpected sense: PD 0c(e0x12/s5) Path 500000e11986c502, CDB: 28 00 0e 71 66 e7 00 00 19 00, Sense: 3/11/01
6:2014 Jul 27 00:36:06:BMC:storage:-: SLOT-5: Unexpected sense: PD 13(e0x12/s7) Path 50000395083063f6, CDB: 28 00 0e 71 66 eb 00 00 15 00, Sense: 3/11/14
Nell'output precedente, e0x12/s5 indica che si riferisce all'HDD5. Il seguente link descrive il significato del codice di rilevamento (Sense: 3/11/14):
http://en.wikipedia.org/wiki/Key_Code_Qualifier
Pertanto, il sensore indica errori medi.
Nei registri potrebbero essere impediti anche i seguenti eventi:
1:2014 Jul 16 10:42:43:BMC:storage:-: SLOT-5: Unrecoverable medium error during recovery on PD 0c(e0x12/s5) at e7166e7
1:2014 Jul 16 10:42:43:BMC:storage:-: SLOT-5: Puncturing bad block on PD 0c(e0x12/s5) at e7166e7
1:2014 Jul 19 03:46:22:BMC:storage:-: SLOT-5: Consistency Check detected uncorrectable multiple medium errors (PD 13(e0x12/s7) at e7166d9 on (null))
Possibile risoluzione
In qualsiasi momento si presentino blocchi perforati, è consigliabile eseguire backup dei dati. Quando vengono visualizzati i messaggi di cui sopra, l'intenzione potrebbe essere quella di cercare il disco rigido danneggiato e sostituirlo. Tuttavia, è possibile che più blocchi logici danneggiati siano stati distribuiti sull'array. Anche se la causa potrebbe essere un guasto dei dischi rigidi, i blocchi perforati verranno risolti solo ricostruendo le unità virtuali interessate.
- Creare un backup dei dati
- Cancellare la configurazione della matrice RAID
- Creare un nuovo array
Nota: Nota: Durante la creazione del disco virtuale, selezionare inizializzazione FULL/SLOW anziché FAST.
- Reinstallare il sistema operativo
- Ripristinare il backup dei dati.
Nota: La sostituzione dei dischi rigidi NON correggerà i blocchi perforati da sola. In caso di guasto di un'unità, è necessario sostituirla, altrimenti è necessario ricostruire il RAID.
Prevenzione dei blocchi perforati
- Monitorare i RAID e lo stato delle relative unità membro.
- Prima di sostituire i dischi rigidi, esaminare i registri dei controller.
- Verificare che le letture di controllo e i controlli di coerenza siano attivati e in esecuzione (controllare rispetto al bug CSCul2968).