Este documento explica cómo resolver problemas de tiempos de espera y fallas de ping de entramado en el Cisco 12000 Series Internet Router. Estos errores se indican con los siguientes mensajes de error:
%GRP-3-FABRIC_UNI: Unicast send timed out (3)
y
%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)
Para obtener más información sobre las convenciones del documento, consulte Convenciones de Consejos Técnicos de Cisco.
No hay requisitos previos específicos para este documento.
La información que contiene este documento se basa en las siguientes versiones de hardware.
Cisco 12000 Series Internet Routers
La información que se presenta en este documento se originó a partir de dispositivos dentro de un ambiente de laboratorio específico. All of the devices used in this document started with a cleared (default) configuration. Si la red está funcionando, asegúrese de haber comprendido el impacto que puede tener un comando antes de ejecutarlo.
El GRP y las tarjetas de línea (LC) del router de Internet Serie 12000 de Cisco se conectan a través de la estructura de configuración de barra cruzada, que proporciona un trayecto físico de alta velocidad para la mayoría de las comunicaciones entre tarjetas. Entre los mensajes que se envían el GRP y las tarjetas de línea por el switch de entramado se incluyen paquetes reales que se enrutan y se reciben, que reenvían información, estadísticas de tráfico y la mayor parte de la información de administración y control. De esta manera, es importante para el GRP asegurarse de que esta ruta está funcionando correctamente.
Los pings de recursos físicos son una de las cuatro aplicaciones que se ejecutan entre el GRP y el entramado de switches. Los otros son la Comunicación entre procesadores (IPC), los paquetes de red y las descargas de códigos. Los pings de fabric se implementan para proporcionar parte de un algoritmo de detección de fallas y un mecanismo de mantenimiento activo implementado mediante búferes en el Bus de mantenimiento (MBUS) y pings a través de las interfaces de fabric de tarjeta de línea.
En el GRP, los controladores de interfaz de estructura de Segmentación y reagrupación de celdas de Cisco (CSAR) procesan mensajes que deben enviarse y recibirse entre la estructura de conmutación y el GRP. Incluye los ping de fábrica. Los pings de la estructura son generados por el software y se envían desde la GRP primaria a cada tarjeta de línea cada seis segundos. Cada vez que una tarjeta de línea recibe una solicitud de ping del GRP, la LC envía una respuesta al GRP. Si el GRP no recibe respuesta a cinco pings de estructura consecutivos (tiempo total 30 segundos), declara que la tarjeta de línea está inactiva y la reinicia a través del BUS de mantenimiento (MBUS)
La mayoría de las veces, la tarjeta de línea está muy ocupada para responder a las peticiones de ping de recursos físicos del GRP. Estas fallas de ping en la estructura también pueden estar causadas por un defecto de la estructura o un error en el software IOS® de Cisco. Todas las posibles causas de fallas de ping de estructura se encuentran detalladas en la sección de resolución de problemas que aparece a continuación.
Los tiempos de espera agotados de ping de trama ocurren cuando el Procesador de ruta gigabit (GRP) detecta que se atascó un pedido de ping en la cola ToFab (hacia la trama del switch) del circuito integrado específico de aplicación (ASIC) de Segmentación y reensamblaje de celda de Cisco (CSAR). Este ASIC es responsable de dividir los paquetes en celdas de Cisco antes de enviarlos a través del entramado del switch a la tarjeta de línea de salida (LC).
Los errores de ping de entramado ocurren cuando una tarjeta de línea o el GRP secundario no pueden responder al pedido de ping de entramado ping desde el GRP principal por el switch fabric. Ese tipo de fallas son el síntoma de un problema que debe ser investigado.
Como se explica en la sección Fondo, el GRP envía un ping de entramado a las tarjetas de línea cada seis segundos y las tarjetas de línea deben responder. Cuando el GRP no recibe una respuesta a cinco pings de fabric consecutivos, restablece la tarjeta de línea enviando un mensaje de solicitud sobre el bus de mantenimiento (MBUS) e informa de un desperfecto forzado por el software, como se ve en el resultado del comando show context slot {#}.
Desde los registros de la consola o el comando show log, puede tener los siguientes mensajes de error antes del mensaje de error de ping de estructura:
%GRP-3-FABRIC_UNI: Unicast send timed out (3) %GRP-3-FABRIC_UNI: Unicast send timed out (3) %GRP-3-FABRIC_UNI: Unicast send timed out (3)
donde el número (3) representa la ranura de la tarjeta de línea hacia donde el GRP primario intentó enviar un ping de estructura.
Este mensaje indica que hay un paquete atascado en la cola ToFab del CSAR ASIC en el GRP principal. Si algo se bloquea en alguno de los dos búferes CSAR por más de 100 milisegundos (msecs), el búfer se descarga y se genera un mensaje de tiempo de espera.
Si el GRP envía su mensaje de solicitud de ping de entramado, pero la tarjeta de línea no responde, o la tarjeta de línea responde pero el entramado del switch es defectuoso por lo que pierde el mensaje, no verá este mensaje antes del mensaje de falla de ping de entramado. Por lo tanto, si recibe el mensaje de error "%GRP-3-FABRIC_UNI", esto significa que algo no pudo ser transmitido a una ranura por el entramado durante 100 ó 200 milisegundos. Es posible que, debido al mensaje %GRP-3-FABRIC_UNI, no pueda enviar las señales de mantenimiento al LC y se produzca un falla de ping de estructura al cabo de, en este caso, 30 segundos. Sin embargo, puede obtener fallas de ping de recursos físicos sin el "%GRP-3-FABRIC_UNI" y viceversa.
El GRP primario puede determinar que una tarjeta de línea o un GRP secundario se ha degradado al punto de que es apropiado un volcado de diagnóstico del núcleo. En este momento, el GRP envía un mensaje a través del MBUS hacia la tarjeta de línea y le pide a la CPU de la tarjeta de línea que falle, de manera que se pueda obtener un vaciado de memoria.
%LCINFO-3-CRASH: Line card in slot 3 crashed %GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)
La tarjeta de línea crea una descarga de memoria si está configurada con el comando exception crashinfo y los comandos relacionados (para obtener información específica acerca de cómo configurar descargas de memoria, vea Configuración de la descarga de memoria en una tarjeta de línea GSR). La cadena de calificación en el resultado del comando show context slot {#} indica el motivo de la recarga. En el caso de una falla de ping de fabric, la razón es siempre "caída forzada por software".
CRASH INFO: Slot 1, Index 1, Crash at 00:42:45 KST Mon Mar 12 2001 VERSION: GS Software (GLC1-LC-M), Version 12.0(18)ST, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) TAC Support: http://www.cisco.com/tac Compiled Thu 09-Aug-01 22:06 by nmasa Card Type: 2 Ports OC3 Channelized to DS1/E1 , S/N CAT00400500 System exception: sig=23, code=0x24, ! --- SIG=23 indicates a software-forced crash. context=0x41303B04 System restarted by a Software forced crash STACK TRACE: -Traceback= 400C3970 400C1F90 40815D5C 407D3144 400C7488
Después de que la tarjeta de línea se caiga, envía un mensaje inicial para notificar al GRP primario. El GRP luego, espera la tarjeta de línea para enviar otra información acerca del desperfecto a través del MBUS. El GRP debería recibir información completa dentro de unos milisegundos, tras recibir el primer mensaje de la tarjeta de línea. En el improbable caso que los mensajes de información del desperfecto no sean recibidos por GRP dentro de un límite de tiempo razonable (10 segundos), el GRP imprime un mensaje de error y le comunica al resto del software GRP que la tarjeta de línea ha colapsado.
Durante el funcionamiento normal del router, el GRP primario hace ping continuamente a las tarjetas de línea, y las tarjetas de línea responden. Cualquier falla de ping es un síntoma de otro problema que debe ser investigado. Estos problemas incluyen:
Nota: Si se puede reproducir la falla, configure no service auto-reset en el GRP. Este comando inhabilita una recarga de la tarjeta de línea en la próxima falla de ping de estructura y le permite conectarse a la tarjeta de línea mediante el comando attach <nº de ranura> a fin de capturar los comandos show relevantes.
La razón más probable es que un depurador del software del IOS de Cisco en el que se está inhabilitando un proceso, se interrumpe lo suficiente como para perder cinco pings de estructura consecutivos. Intente actualizar a la última versión del software Cisco IOS en su serie a fin de evitar problemas ya resueltos. Para obtener asistencia para la actualización, vea el área Cisco Download Software.
La tarjeta de línea quizás esté ejerciendo contrapresión durante mucho tiempo por lo que el programador no permite que se reciba el tráfico desde el entramado del switch. Este síntoma sugiere un problema de congestión de la interfaz. Use los siguientes comandos para confirmar estos síntomas:
comando show controller frfab queue en la tarjeta de línea. Busque una cola libre no IPC con pocos búfers disponibles o con ninguno.
show controllers csar queue en el GRP. Como se muestra en el siguiente resultado de ejemplo, busque valores distintos de cero para "Max Length" y que "Max Length" iguale al valor "Length":
router#show controllers csar queue 1190 Free Q Slot Length Max Length 0 0 7 1 0 2 2 70 70 ! -- CSAR queue for slot 2 is building and reaching max length. 3 0 2 4 0 3 5 0 0 ...
El CSAR coloca en cola hasta 50 paquetes para una tarjeta de línea de destino. Luego de 50 paquetes, sólo paquetes de ping de recursos físicos están en cola. Si el límite de cola luego aumenta a 70, el CSAR deja de poner en cola todos los paquetes —incluidos los pings de estructura— en la tarjeta de línea. Tanto el GRP como todas las tarjetas de línea tienen 64k memorias intermedias de segmentación CSAR en las que almacenar mensajes. Si estos búfers están ocupados, el router usa una cola de retención de software para almacenar los mensajes. También configura un temporizador para asegurar que los mensajes de ping en la estructura no continúen en esta cola demasiado tiempo.
Alto nivel de utilización de la CPU en la tarjeta de línea - Aparece comúnmente durante la recalculación de un tabla extensa de Cisco Express Forwarding (CEF) tras un cambio de tabla de ruteo masivo o después de una oscilación de link y reinicio de la sesión del Protocolo de la gateway marginal (BGP). La utilización de la CPU también puede ser elevada cuando se conmuta el tráfico en el software. Esto sucede principalmente en las tarjetas de línea del Motor 0, donde la mayoría de las funciones se implementan en el software. Si éste es el caso, puede verificar la configuración de la tarjeta de línea y eliminar las funciones que pudieran afectar la CPU en el motor 0 LC. La alta utilización de CPU también puede deberse a un error de funcionamiento. Determine la utilización de la CPU con el comando execute-on slot <slot#> show proc cpu o el comando execute-on slot <slot#> show tech si el comando anterior no se soporta en la versión de software del IOS de Cisco que se está ejecutando en el router. Considere actualizarse a la última versión del software del IOS de Cisco en su tren para trabajar con problemas conocidos.
La tarjeta de línea se está quedando sin búferes de comunicación entre procesos (IPC), que se utilizan para intercambiar mensajes de control entre las tarjetas de línea y el GRP. Consulte los pasos de diagnóstico y solución de averías en Solución de problemas de mensajes de error relacionados con CEF. Si está tratando de resolver un problema de IPC, asegúrese de que su Router de Internet Cisco de la serie 12000 esté ejecutando, como mínimo, la versión 12.0(18)S del IOS de Cisco. Esta versión ha introducido un mayor tamaño predeterminado de 5000 para la memoria caché IPC para mejorar su estabilidad y escalabilidad.
Problema de hardware en la tarjeta de línea. Es importante notar que menos del 10% de las fallas de ping de estructura se deben a problemas de hardware. Antes de comunicarse con el TAC de Cisco para solicitar el reemplazo de hardware, intente realizar estos pasos:
Busque mensajes de tiempo de espera IPC impresos antes de la falla de ping de estructura. Vea también la sección IPC a continuación.
Reasiente la tarjeta de línea.
Apague y encienda el router.
Si no tiene acceso físico al router, ejecute el comando hw-module slot <slot #> reload para volver a cargar la tarjeta de línea manualmente.
El núcleo del router de Internet de la serie 12000 de Cisco es el circuito de fabric de switch, que proporciona interconexiones de velocidad gigabit sincronizadas para las tarjetas de línea y el GRP. El circuito del switch fabric contiene dos tipos de tarjetas:
Tarjetas del reloj programador (CSC)
Tarjetas de entramado de switches (SFC)
Si falla una de estas tarjetas, los mensajes ping no pueden seguir atravesando la estructura. En este caso, debería ver también otros mensajes que apuntan a un defecto de la estructura, como alguno de los siguientes:
%FABRIC-3-CRC: Switch card 18
Utilice el comando show controllers fia para determinar si tiene o no un CSC o SFC defectuoso. Utilice el comando execute-on all show controllers fia para capturar el resultado de todas las tarjetas de línea. Compare el resultado del GRP con el resultado de las tarjetas de línea para determinar si debe reemplazarse una tarjeta de estructura de conmutación fallada.
El siguiente resultado de ejemplo apunta a un problema con sfc0 en la ranura 18. Primero trate de restaurar esta tarjeta y luego solicite un reemplazo si el contador de errores crc16 sigue aumentando.
Router#show controllers fia Fabric configuration: Full bandwidth redundant Master Scheduler: Slot 17 From Fabric FIA Errors ----------------------- redund FIFO parity 0 redund overflow 0 cell drops 1 crc32 lkup parity 0 cell parity 0 crc32 0 Switch cards present 0x001F Slots 16 17 18 19 20 Switch cards monitered 0x001F Slots 16 17 18 19 20 Slot: 16 17 18 19 20 Name: csc0 csc1 sfc0 sfc1 sfc2 -------- -------- -------- -------- -------- Los 0 0 0 0 0 state Off Off Off Off Off crc16 0 0 4334 0 0 ! --- Check the CRCs under SFC0 (slot 18) To Fabric FIA Errors ----------------------- sca not pres 0 req error 0 uni FIFO overflow 0 grant parity 0 multi req 0 uni FIFO undrflow 0 cntrl parity 0 uni req 0 crc32 lkup parity 0 multi FIFO 0 empty DST req 0 handshake error 0 cell parity 0
En algunos informes de fallas de ping de fabric, el router notificó mensajes de error de verificación de redundancia cíclica (CRC) antes de la falla. Verifique los CRC en las tarjetas de entramado de conmutación usando el comando show controllers fia en el GRP y execute-on all show controllers fia en las tarjetas de línea. Los errores CRC sólo en el GRP (y no en alguna tarjeta de línea) señalan un GRP defectuoso. Primero intente volver a colocar el GRP y luego solicite un reemplazo si los errores CRC continúan aumentando.
Los problemas con el software Inter-Process Communication (IPC) que se ejecuta entre el GRP y las tarjetas de línea se han resuelto en varias versiones de Cisco IOS Software Release 12.0S. En este caso, debería ver algunos mensajes de error relacionados con IPC en el registro, junto con los mensajes de tiempo de espera de ping de estructura. Intente ejecutar la última versión del software Cisco IOS para solucionar problemas conocidos con IPC. Consulte también el área Cisco Download Software para obtener ayuda sobre la selección de una versión.
Vea Resolución de problemas de los mensajes de error relacionados con CEF si el resultado del comando show log muestra un mensaje asociado con la Base de información de reenvío CEF (FIB) similar al que se muestra a continuación:
%FIB-3-FIBDISABLE: Fatal error, slot 2: IPC failure
Utilice los siguientes comandos debug y show para resolver problemas relacionados con los mensajes de falla/tiempo de espera agotado de ping de estructura en el Router de Internet de la serie 12000 de Cisco.
debug fabric events – Imprime los errores detectados por GRP. Este comando de depuración genera muy pocos mensajes y sólo cuando existe una situación de error.
debug fabric ping - Imprime cualquier error detectado en el proceso de ping de entramado por el GRP. Este comando de depuración genera muy pocos mensajes y sólo cuando existe una situación de error.
Capture los siguientes comandos para cada tarjeta de línea de reinicio. Reemplace X por el número de ranura correspondiente.
execute-on slot X debug fabric events – Imprime errores detectados por la tarjeta de línea en sus respuestas de ping. Este comando produce muy pocos mensajes y sólo en una condición de error.
exec slot X debug fabric ping – Imprime un mensaje cuando la tarjeta de línea recibe un ping de entramado. Esta depuración genera una línea de salida a cada segundo para cada tarjeta de línea en la que se activa.
Luego de que se caiga la tarjeta de línea, capture los siguientes comandos de la consola GRP:
show context all detail
show fabric
show controllers fia
show controllers csar queue
execute-on all show controllers fia
show tech
show log
Capture también los siguientes comandos sobre el estado de la tarjeta de línea:
execute-on slot <slot#> show proc CPU
execute-on slot <ranura#> show controller tofab queue
execute-on slot <slot#> show controller tofab stat
execute-on slot <ranura#> show controller frfab queue
execute-on slot <no. de ranura> show controller frfab stat
execute-on slot <slot#> show ipc stat
execute-on slot <ranura#> show ipc queue
execute-on slot <ranura Nº> show stack
execute-on slot <slot#> show tech
Si continúa experimentando problemas luego de haber seguido todos los pasos de solución de problemas, recopile toda la información necesaria mencionada anteriormente y comuníquese con su representante de Cisco TAC a fin de obtener una solución de problemas más integral.
Aquí está el resultado de algunos útiles comandos show:
router#show controllers csar From Fabric Error Stats ------------------------ 0 out of order, 0 unexpected first 0 unexpected last, 0 unknown rx type, 0 corrupted pak, 0 parity 0 first/last, 0 sequence, 0 cell avail, 0 reassembly, To Fabric Stats ------------------------ Slot Tx Pkts TX Th Pkts Rx Pkts Rx Th Pkts To Fab timeout 0 580278 490214 281061 1336470 0 1 18854 66592 18390 945419 0 2 6 50824 0 896290 0 3 0 0 0 0 0 4 0 51909 0 895430 0 5 0 0 0 0 0 6 0 35113 0 880247 0 7 0 52690 0 52690 0 8 0 0 0 0 0 9 0 0 0 0 0 10 0 0 0 0 0 11 0 0 0 0 0 12 0 0 0 0 0 13 0 0 0 0 0 14 0 0 0 0 0 15 0 0 0 0 0 0 too big, 1 Buf0 free, 1 Buf1 free 0 Copy fail Fabric access Error Stats -------------------------- 0 parity errors, 0 bad access size, 0 invalid address 0 queue full parity, 0 flushed buffer router#show controllers fia Fabric configuration: Full bandwidth, nonredundant fabric Master Scheduler: Slot 16 From Fabric FIA Errors ----------------------- redund fifo parity 0 redund overflow 0 cell drops 0 crc32 lkup parity 0 cell parity 0 crc32 0 Switch cards present 0x001D Slots 16 18 19 20 Switch cards monitored 0x001D Slots 16 18 19 20 Slot: 16 17 18 19 20 Name: csc0 csc1 sfc0 sfc1 sfc2 -------- -------- -------- -------- -------- los 0 0 0 0 0 state Off Off Off Off Off crc16 0 254 0 0 0 ! --- Check the CRC error here. In this case CSC1 in slot 17. To Fabric FIA Errors ----------------------- sca not pres 0 req error 0 uni FIFO overflow 0 grant parity 0 multi req 0 uni FIFO undrflow 0 cntrl parity 0 uni req 0 crc32 lkup parity 0 multi FIFO 0 empty dst req 0 handshake error 0 cell parity 0
Puede encontrar más detalles sobre el comando show controllers fia en Cómo leer el resultado del comando show controller fia.
router#show fabric Dest ToFab FrFab Bad Seq Unexpected Slot Pkts Pkts Pkts ---------------------------------------------------- Slot0 26327 26327 0 0 Slot1 26325 26325 0 0 Slot2 26321 26321 0 0 Slot4 26315 26315 0 0 Slot6 26311 26311 0 0 Slot7 26334 26334 0 0 multicast timeout 0 failed pak 0 Current fabric timeout is 6000 fabric send fails 58
Si todavía necesita ayuda después de seguir los pasos de resolución de problemas anteriores y desea crear una solicitud de servicio con el TAC de Cisco, adjunte la siguiente información a su caso para solucionar problemas de ping de estructura en el router de Internet de la serie 12000 de Cisco: |
---|
Nota: No recargue ni apague manualmente el router antes de recopilar la información anterior, si es posible, ya que esto puede provocar la pérdida de información importante necesaria para determinar la causa raíz del problema. |
Revisión | Fecha de publicación | Comentarios |
---|---|---|
1.0 |
15-Jan-2008 |
Versión inicial |