Introducción
Este documento describe el significado de un bloque punteado en un disco duro. It también describe cómo se produce un bloque Punctured y los pasos de remediación.
¿Qué es un bloque punteado?
Cuando una operación de lectura de patrulla o de reconstrucción encuentra un error de medios en la unidad de origen, pincha un bloque en la unidad de destino para evitar el uso de los datos con la paridad no válida. Se completa cualquier operación de lectura posterior al bloque perforado, pero con un error. Por consiguiente, la captura de un bloque evita cualquier generación de paridad no válida más adelante mientras se utiliza este bloque.
Fuente: Guía del usuario del software SAS MegaRAID® de 12 Gb/s, Rev. F, agosto de 2014
¿Cómo se producen los bloques perforados?
En RAID5, los datos se distribuyen en forma de paridad entre todos los discos miembro. En este caso, si una de las unidades falla, los datos se pueden reconstruir calculando la paridad en toda la unidad. Hay varias cosas que pueden causar una punción, pero normalmente comienza con un RAID que tiene una sola unidad fallida que también tiene una unidad con muchos errores medios o en un estado de falla predictiva.
El siguiente enlace proporciona un escenario muy bueno en el que se explica cómo se puede perforar una matriz:
http://www.theprojectbot.com/what-is-a-punctured-raid-array
Después de leerlo, debe tener una idea clara de que cuando se reemplaza un disco duro sin verificar los otros discos, se reubicaron algunos bloques lógicos defectuosos o errores de medios, y entonces cualquiera de los otros discos puede aparecer como fallados.
Un bloque perforado puede ocurrir potencialmente en varias unidades, con sólo una unidad oficialmente "fallando". Esto se puede replicar en discos de reemplazo, agravando aún más el problema.
Síntomas de bloques punteados
El servidor puede informar de varios fallos de disco duro. Simplemente sustituir el disco duro NO solucionará el problema. Además, el rendimiento de E/S puede verse degradado.
Evidencia de un bloque punteado
Los registros pueden contener entradas similares a las líneas siguientes.
6:2014 Jul 27 00:36:06:BMC:storage:-: SLOT-5: Unexpected sense: PD 0c(e0x12/s5) Path 500000e11986c502, CDB: 28 00 0e 71 66 e7 00 00 19 00, Sense: 3/11/01
6:2014 Jul 27 00:36:06:BMC:storage:-: SLOT-5: Unexpected sense: PD 13(e0x12/s7) Path 50000395083063f6, CDB: 28 00 0e 71 66 eb 00 00 15 00, Sense: 3/11/14
En la salida anterior, e0x12/s5 indica que se relaciona con HDD5. El siguiente enlace describe el significado del código de sentido (Sense: 11/03/14):
http://en.wikipedia.org/wiki/Key_Code_Qualifier
Por lo tanto, ese sensor indica errores medios.
Los siguientes eventos también podrían evitarse en los registros:
1:2014 Jul 16 10:42:43:BMC:storage:-: SLOT-5: Unrecoverable medium error during recovery on PD 0c(e0x12/s5) at e7166e7
1:2014 Jul 16 10:42:43:BMC:storage:-: SLOT-5: Puncturing bad block on PD 0c(e0x12/s5) at e7166e7
1:2014 Jul 19 03:46:22:BMC:storage:-: SLOT-5: Consistency Check detected uncorrectable multiple medium errors (PD 13(e0x12/s7) at e7166d9 on (null))
Posible solución
Cada vez que se presentan bloques perforados, se recomienda encarecidamente realizar copias de seguridad de los datos. Cuando se presentan los mensajes mencionados anteriormente, la tendencia puede ser buscar el disco duro que falla y reemplazarlo, sin embargo, existe la posibilidad de que se hayan distribuido múltiples bloques lógicos malos por toda la matriz. Aunque los discos duros defectuosos o defectuosos puedan haber sido la causa, los bloques perforados sólo se resolverán reconstruyendo las unidades virtuales afectadas.
- Crear una copia de seguridad de datos
- Borrar la configuración de matriz RAID
- Crear una nueva matriz desde el principio
Nota: Nota: Al crear el VD (unidad virtual), seleccione la inicialización FULL/SLOW en lugar de la inicialización FAST.
- Reinstalación del sistema operativo
- Restaure la copia de seguridad de los datos.
Nota: Reemplazar discos duros NO solucionará los bloques perforados por sí mismos. Si se produce un error en la unidad, debe sustituirse; de lo contrario, debe reconstruirse el RAID.
Prevención de bloques punteados
- Supervise RAID y el estado de las unidades de sus miembros.
- Antes de reemplazar cualquier disco duro, revise los registros del controlador.
- Asegúrese de que las Lecturas de Patrulla y las Verificaciones de consistencia estén activadas y ejecutadas (verifique el error CSCul22968).