Introducción
Este artículo es una extensión del documento "Nexus 7000 Supervisor 2/2E Compact Flash Failure Recovery" que aborda todos los posibles escenarios de falla. Es posible que este documento sea útil cuando la herramienta de recuperación de Flash no se ejecute. Se recomienda tener acceso de consola al dispositivo para realizar los cambios. Además, se recomienda encarecidamente no realizar ningún cambio en el kernel de Linux, que no se menciona en el documento, ya que esto puede tener un impacto en las operaciones del switch. Se recomienda la supervisión del TAC de Cisco.
Background
Como se explica en el otro documento, cada supervisor 2/2E N7K está equipado con 2 dispositivos flash eUSB en la configuración RAID1, uno primario y un espejo. Juntos proporcionan repositorios no volátiles para imágenes de inicio, configuración de inicio y datos de aplicaciones persistentes. En una situación en la que el Raid falla para un supervisor en el chasis, ejecutamos la herramienta de recuperación de flash, para reparar lo mismo. En casi todos los casos, recurrimos a la recarga/falla sobre el supervisor, si la herramienta de recuperación de flash no se ejecuta. Existe la posibilidad de corregir esto sin una recarga/failover en cierto escenario.
Prerequisites
Requirements
Cisco recomienda que tenga conocimiento del sistema operativo Cisco Nexus, los métodos de recuperación de disco flash o de almacenamiento y la depuración de nivel Linux.
Componentes Utilizados
Switches Nexus serie 7000
Síntoma
Se observa una falla de raid en un supervisor y mientras se intenta recuperar la memoria flash para los supervisores afectados, aparece el siguiente error al ejecutar la herramienta de recuperación de flash,
Los switches se ejecutarían en estado de falla Raid con código de error - 0xe1
ERROR: Cannot perform recovery. /dev/sdb has incorrect partition info.
ERROR: Disk /dev/sdb needs to be manually inspected for errors.
INFO: No recovery was attempted on module 5. All flashes left intact.
INFO: A detailed copy of the this log was saved as volatile:flash_repair_log_mod5.tgz.
Solución
Cargue el plugin de debug en el switch, para iniciar sesión en el shell de linux,
Switch# load bootflash:n7000-s2-debug-sh.6.1.4a.gbin
Tenga cuidado mientras ejecuta los comandos aquí.
Una vez que recibamos el mensaje de Linux, busque la partición afectada según el mensaje de error. En nuestro caso es /dev/sdb. Podría ser otras particiones también.
Linux(debug)# ls -l /dev/sd?
brw-r----- 1 root root 8, 0 Aug 28 2015 sda
brw-rw-r-- 1 root disk 8, 32 Dec 18 2013 sdc
brw-rw-r-- 1 root disk 8, 48 Dec 18 2013 sdd
brw-rw-r-- 1 root disk 8, 64 Dec 18 2013 sde
brw-rw-r-- 1 root disk 8, 80 Dec 18 2013 sdf
brw-rw-r-- 1 root disk 8, 96 Dec 18 2013 sdg
brw-rw-r-- 1 root disk 8, 112 Dec 18 2013 sdh
brw-rw-r-- 1 root disk 8, 128 Dec 18 2013 sdi
brw-rw-r-- 1 root disk 8, 144 Dec 18 2013 sdj
brw-rw-r-- 1 root disk 8, 160 Dec 18 2013 sdk
brw-rw-r-- 1 root disk 8, 176 Dec 18 2013 sdl
brw-rw-r-- 1 root disk 8, 192 Dec 18 2013 sdm
Se ha detectado que falta la partición, lo que ha producido un error al ejecutar la herramienta de recuperación. Cree manualmente la partición que falta, con el mismo permiso que otros bloques.
Linux(debug)# mknod -m 664 /dev/sdb b 8 16
Ahora, podemos ver la partición sdb bajo /dev,
Linux(debug)# ls -l /dev/sd?
brw-r----- 1 root root 8, 0 Aug 28 2015 sda
brw-rw-r-- 1 root root 8, 16 May 26 07:31 sdb
brw-rw-r-- 1 root disk 8, 32 Dec 18 2013 sdc
brw-rw-r-- 1 root disk 8, 48 Dec 18 2013 sdd
brw-rw-r-- 1 root disk 8, 64 Dec 18 2013 sde
brw-rw-r-- 1 root disk 8, 80 Dec 18 2013 sdf
brw-rw-r-- 1 root disk 8, 96 Dec 18 2013 sdg
brw-rw-r-- 1 root disk 8, 112 Dec 18 2013 sdh
brw-rw-r-- 1 root disk 8, 128 Dec 18 2013 sdi
brw-rw-r-- 1 root disk 8, 144 Dec 18 2013 sdj
brw-rw-r-- 1 root disk 8, 160 Dec 18 2013 sdk
brw-rw-r-- 1 root disk 8, 176 Dec 18 2013 sdl
brw-rw-r-- 1 root disk 8, 192 Dec 18 2013 sdm
Salga del shell de linux y ejecute nuevamente la herramienta de recuperación de flash.
Esta vez sin ningún mensaje de error y se recuperó la falla de Raid en la memoria flash primaria (0xf0). Se ha confirmado lo mismo mediante el comando,
"slot x show system internal raid | i i cmos|block | head line 5"
Debe funcionar correctamente sin tales errores y debe ser capaz de recuperar el Supervisor afectado del estado de falla Raid. En caso de que la herramienta de recuperación siga fallando, podría deberse a otra razón, o a una corrupción real con la partición, y podríamos tener que recurrir a una recarga/failover.
Información Relacionada