Introducción
Este documento explica las causas más frecuentes de los crash forzados por el software y describe la información que debe obtenerse para resolver problemas. Si abre una solicitud de servicio TAC por un crash forzado por el software, la información que le pedirán que recopile será esencial para resolver el problema.
Prerequisites
Requirements
Quienes lean este documento deben tener conocimiento de los siguientes temas:
Componentes Utilizados
Este documento no tiene restricciones específicas en cuanto a versiones de software y de hardware.
La información que contiene este documento se creó a partir de los dispositivos en un ambiente de laboratorio específico. Todos los dispositivos que se utilizan en este documento se pusieron en funcionamiento con una configuración verificada (predeterminada). If your network is live, make sure that you understand the potential impact of any command.
Convenciones
For more information on document conventions, refer to the Cisco Technical Tips Conventions.
Una caída forzada por software ocurre cuando el router detecta un error grave e irrecuperable y se recarga para no transmitir datos dañados. La gran mayoría de las caídas forzadas por software son causadas por errores de software de Cisco IOS®, aunque algunas plataformas (como la antigua Cisco 4000) pueden informar un problema de hardware como una caída forzada por software.
Si no ha encendido el router ni lo ha recargado manualmente, la salida del comando show version muestra lo siguiente:
Router uptime is 2 days, 21 hours, 30 minutes
System restarted by error - Software-forced crash, PC 0x316EF90 at 20:22:37 edt
System image file is "flash:c2500-is-l.112-15a.bin", booted via flash
Si tiene el resultado de un comando show version de su dispositivo Cisco, puede utilizar Cisco CLI Analyzer (sólo para clientes registrados) para mostrar los posibles problemas y soluciones.
Posibles Causas
Esta tabla explica las posibles razones de los desperfectos forzados por software:
Motivo |
Explicación |
Tiempos de espera de vigilancia |
El procesador utiliza temporizadores para evitar bucles infinitos y hace que el router deje de responder. En el funcionamiento normal, la CPU restablece esos temporizadores a intervalos regulares. Si no lo hace, se recargará el sistema. Los tiempos de espera de vigilancia que se notifican como caídas forzadas por software están relacionados con el software. Consulte Troubleshooting de Tiempos de Espera de Vigilancia para obtener información sobre otros tipos de tiempos de espera de vigilancia. El sistema estaba atascado en un loop antes de la recarga. Por lo tanto, el seguimiento de la pila no es necesariamente relevante. Puede reconocer este tipo de desperfecto forzado por software en estas líneas de los registros de la consola: %SYS-2-WATCHDOG: Process aborted on watchdog timeout, process = Exec
and
*** System received a Software forced crash ***
signal = 0x17, code = 0x24, context= 0x60ceca60
|
Memoria baja |
Cuando un router se queda sin memoria suficiente, puede recargarse y reportarlo como un desperfecto forzado por software. En este caso, los mensajes de error de falla de asignación de memoria aparecen en los registros de la consola: %SYS-2-MALLOCFAIL: Memory allocation of 734 bytes failed from 0x6015EC84,
pool Processor, alignment 0 |
Imagen de software dañada |
En el momento del inicio, un router puede detectar que una imagen del software del IOS de Cisco está dañada, devolver el mensaje la suma de comprobación de la imagen comprimida es incorrecta e intentar recargar. En este caso, el evento se notifica como un desperfecto forzado por software. Error : compressed image checksum is incorrect 0x54B2C70A
Expected a checksum of 0x04B2C70A
*** System received a Software forced crash ***
signal= 0x17, code= 0x5, context= 0x0
PC = 0x800080d4, Cause = 0x20, Status Reg = 0x3041f003
Esto puede deberse a una imagen del software del IOS de Cisco que se dañó durante la transferencia al router. En este caso, puede cargar una nueva imagen en el router para resolver el problema. [Para obtener un método de recuperación ROMMON para su plataforma, consulte Procedimiento de recuperación ROMmon para Cisco 7200, 7300, 7400, 7500, RSP7000, Catalyst 5500 RSM, uBR7100, uBR7200, uBR10000 y 12000 Series Routers.] También puede deberse a hardware de memoria defectuoso o a un error de software. |
Otros fallos |
El hardware del procesador detecta a menudo los errores que causan caídas, lo que llama automáticamente a un código especial de control de errores en el monitor ROM. El monitor ROM identifica el error, imprime un mensaje, almacena información acerca de la falla y reinicia el sistema. Hay caídas en las que nada de esto puede suceder (vea Tiempo de espera de vigilancia), y hay caídas en las que el software detecta el problema y llama a la función crashdump. Esta es una verdadera falla "forzada por el software". En las plataformas Power PC, "caída forzada por software" no es la razón de reinicio impresa cuando se llama a la función crashdump - al menos hasta hace muy poco. En esas plataformas (previo a la Versión 12.2(12.7) del software del IOS de Cisco), se las denomina excepciones “SIGTRA”: En todos los demás aspectos, SIGTRAP y SFC son iguales. |
Troubleshoot
Las caídas forzadas por el software son típicamente causadas por errores de procesamiento del software de Cisco IOS. Si hay mensajes de error de falla de asignación de memoria en los registros, consulte Solución de Problemas de Memoria.
Si no ve mensajes de error de falla de asignación de memoria y no ha recargado o apagado manualmente el router después del desperfecto forzado por el software, la mejor herramienta que puede utilizar es Cisco CLI Analyzer (sólo para clientes registrados) para buscar un ID de bug coincidente conocido. Esta herramienta incorpora la funcionalidad de la antigua herramienta Stack Decoder.
Ejemplo:
-
Recopile el resultado de show stack del router.
-
Vaya a la herramienta Cisco CLI Analyzer (sólo para clientes registrados).
-
Seleccione show stack en el menú desplegable.
-
Pegue en la salida que ha recopilado.
-
Haga clic en Submit (Enviar).
Si la salida descodificada del comando show stack coincide con un bug de software conocido, recibirá los ID de bug de los bugs de software más probables que podrían haber causado el crash forzado por el software.
-
Haga clic en los hipervínculos de identificación de bug para ver detalles adicionales de bug de Cisco Bug Toolkit (sólo clientes registrados) que pueden ayudarlo a determinar la coincidencia de bug ID correcta.
Cuando haya identificado un ID de bug que coincida con su error, consulte el campo "corregido en" para determinar la primera versión del software del IOS de Cisco que contiene el arreglo para el bug.
Si no está seguro sobre el ID de bug, o la versión del software del IOS de Cisco que contiene la solución para el problema, actualice su software del IOS de Cisco a la última versión en su tren de versiones. Esto ayuda porque, la última versión contiene correcciones para un gran número de errores. Incluso si esto no resuelve el problema, la generación de informes de errores y el proceso de resolución son más simples y rápidos cuando se tiene la última versión del software.
Si, después de utilizar el Analizador de Cisco CLI, sospecha o ha identificado positivamente un error que permanece sin resolver, le recomendamos que abra una solicitud de servicio TAC para proporcionar información adicional que ayude a resolver el error y para una notificación más rápida cuando el error se resuelva en última instancia.
Procedimientos de configuración
Si el problema se identifica como un nuevo error de software, un ingeniero del TAC de Cisco puede solicitar que configure el router para recopilar un vaciado de memoria. A veces se requiere un vaciado de memoria para identificar qué se puede hacer para corregir el error de funcionamiento del software.
Para recopilar información más útil en el vaciado de memoria, recomendamos que utilice el comando debug sanity oculto. Esto genera que se compruebe la integridad de cada memoria intermedia que se utiliza en el sistema tanto cuando se la asigna como cuando se la libera. El comando debug sanity se debe ejecutar en el modo EXEC privilegiado (modo enable) e involucra alguna CPU, pero no afecta significativamente la funcionalidad del router. Si desea inhabilitar la verificación de integridad, utilice el comando EXEC privilegiado undebug sanity.
Para los routers que poseen 16 MB o menos de memoria principal, puede utilizar el Protocolo trivial de transferencia de archivos (TFTP) para recolectar una descarga del núcleo Si el router posee más de 16MB de memoria principal, se recomienda el uso de un Protocolo de transferencia de archivos (FTP). Utilice los procedimientos de configuración de esta sección. Como alternativa, consulte Creación de vaciados de memoria.
Complete estos pasos para configurar su router:
-
Configure el router con el comando configure terminal.
-
Escriba exception dump n.n.n.n, donde n.n.n.n es la dirección IP del host del servidor de Protocolo trivial de transferencia de archivos (TFTP) remoto.
-
Salga del modo de configuración.
Procedimiento de configuración del host servidor TFTP
Complete estos pasos para configurar un host de servidor TFTP:
-
Cree un archivo en el directorio /tftpboot del host remoto con la ayuda de un editor de su elección. El nombre del archivo es el hostname-core (núcleo del nombre del host) del router de Cisco.
-
En sistemas UNIX, cambie el modo de permiso del archivo "hostname-core" para que tenga compatibilidad global (666). Puede verificar la configuración TFTP a través del comando copy running-config tftp en ese archivo.
-
Asegúrese de que tiene más de 16 MB de espacio libre en disco bajo /tftpboot.
Si el sistema colapsa, el comando exception dump crea su salida hacia el archivo anterior. Si el router tiene más de 16 MB de memoria principal, utilice el Protocolo de transferencia de archivos (FTP) o el Protocolo de copia remota (RCP) para obtener el vaciado de memoria. En el router, configure lo siguiente:
exception protocol ftp
exception dump n.n.n.n
ip ftp username
ip ftp password
ip ftp source-interface
exception core-file
Cuando haya recolectado un vaciado de memoria, cárguelo en ftp://ftp-sj.cisco.com/incoming (en UNIX, escriba pftp ftp-sj.cisco.com y luego cd incoming), notifique al propietario de su caso e incluya el nombre del archivo.
Información para recopilar si abre un pedido de servicio del TAC
Si aún necesita ayuda después de seguir los pasos de troubleshooting anteriores y desea crear una solicitud de servicio con el TAC de Cisco, asegúrese de incluir la siguiente información: |
- show technical-support output - La salida del comando show technical-support brinda información sobre el estado actual del router y también información clave almacenada por el router antes de una caída.
- Registros de la consola: los registros de la consola, que a menudo se guardan en un servidor syslog, pueden proporcionar información valiosa sobre los eventos que ocurren en el router antes de un desperfecto. Estas pistas suelen ser la información más importante que usted puede recoger.
- archivo crashinfo (si existe) - Cisco recomienda que utilice una versión de software del IOS de Cisco que soporte la función crashinfo para resolver problemas con éxito. Para ello, la versión debe satisfacer las demás necesidades de la red. Consulte Recuperación de Información del Archivo Crashinfo o utilice la herramienta Software Advisor (sólo clientes registrados) para localizar una versión de Cisco IOS Software que admita la función crashinfo. Una ventaja potencial es que si usted tiene una versión anterior del software del IOS de Cisco, las versiones más nuevas del software del IOS que soportan esta función podrían ya tener su bug arreglado.
Para adjuntar la información a su solicitud de servicio, cárguela a través de la Herramienta de Solicitud de Servicio TAC (sólo para clientes registrados). Si no puede acceder a la Herramienta de Solicitud de Servicio TAC, puede enviar la información en un archivo adjunto de correo electrónico a attach@cisco.com con su número de caso en la línea del asunto de su mensaje. Precaución: No recargue ni apague y encienda manualmente el router antes de recopilar la información anterior, si es posible, ya que esto puede provocar la pérdida de información importante necesaria para determinar la causa raíz del problema. |
Información Relacionada