Este documento explica como solucionar problemas de timeouts de ping de estrutura e falhas no Cisco 12000 Series Internet Router. Essas falhas são indicadas pelas seguintes mensagens de erro:
%GRP-3-FABRIC_UNI: Unicast send timed out (3)
e
%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)
Para obter mais informações sobre convenções de documento, consulte as Convenções de dicas técnicas Cisco.
Não existem requisitos específicos para este documento.
As informações neste documento são baseadas na versão de hardware abaixo.
Cisco 12000 Series Internet Routers
As informações neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. All of the devices used in this document started with a cleared (default) configuration. Se você estiver trabalhando em uma rede ativa, certifique-se de que entende o impacto potencial de qualquer comando antes de utilizá-lo.
O GRP e os Lind Cards (LCs) no Cisco 12000 Series Internet Router são conectados por meio do Switch Fabric de barras cruzadas, que fornecerá um caminho físico de alta velocidade para a maior parte da comunicação entre placas. Entre as mensagens passadas entre o GRP e as placas de linha pela tela do Switch estão incluídos pacotes reais que estão sendo roteados e recebidos, encaminhando informações, estatísticas de tráfego e a maior parte das informações de gerenciamento e controle. Portanto, é importante para o GRP assegurar-se de que este caminho esteja operando corretamente.
Os pings de tela são um dos quatro aplicativos executados entre o GRP e a tela do Switch. IPC (Inter-Processor Communication), pacotes de rede e downloads de códigos são os outros. Os pings de estrutura são implementados para fornecer parte de um algoritmo de detecção de falha e mecanismo de manutenção de atividade implementados usando buffers no Barramento de manutenção (MBUS) e pings através das interfaces de estrutura da placa de linha.
Os drivers de Interface de Estrutura Cisco Cell Segmentation and Reassembly (CSAR) nas mensagens de identificação GRP devem ser enviadas e recebidas entre o Switch Fabric e o GRP. Isso inclui pings de telas. Os pings de construção são gerados pelo software e enviados do GRP principal para cada placa de linha a cada 6 segundos. Sempre que uma placa de linha recebe uma solicitação de ping do GRP, o LC envia uma resposta ao GRP. Se o GRP não receber nenhuma resposta para cinco pings de tela consecutivos (tempo total de 30 segundos), ele declara a placa de linha inativa e reinicia-a por meio do Barramento de manutenção (MBUS).
Na maior parte do tempo, a placa da linha está simplesmente muito ocupada para responder às solicitações de ping na tela a partir do GRP. Estas falhas de ping de tela também podem ser provocadas por telas com defeito ou um bug no software Cisco IOS®. Todas as possíveis causas das falhas de ping de construção estão detalhadas na seção de Troubleshooting abaixo.
Os intervalos de ping de tela ocorrem quando o Gigabit Route Processor (GRP) detecta se a solicitação de ping foi inserida na fila ToFab (em direção ao Switch Fabric) do Application-Specific Integrated Circuit (ASIC) de Cisco Cell Segmentation and Reassembly (CSAR). Esse ASIC é responsável por dividir os pacotes em células Cisco antes de enviá-los através da matriz de comutação para a placa de linha de saída (LC).
Falhas de ping de construção ocorrem quando uma placa de linha ou o GRP secundário falha em responder a uma solicitação de ping de construção a partir do GRP principal sobre a tela do Switch. Essas falhas são um sintoma de um problema que deve ser investigado.
Conforme explicado na seção Plano de Fundo, o GRP envia um ping de estrutura às placas de linha a cada seis segundos, e as placas de linha devem responder. Quando o GRP não recebe uma resposta para cinco pings de tela consecutivos, ele redefine a placa de linha enviando uma mensagem de solicitação sobre o barramento de manutenção (MBUS) e relata um travamento forçado por software, como visto na saída do comando show context slot {#}.
Nos registros de console ou no comando show log, é possível que você receba as seguintes mensagens de erro antes da mensagem de falha de ping da estrutura:
%GRP-3-FABRIC_UNI: Unicast send timed out (3) %GRP-3-FABRIC_UNI: Unicast send timed out (3) %GRP-3-FABRIC_UNI: Unicast send timed out (3)
onde o número (3) representa o slot da placa de linha para o qual o GRP primário tentou enviar um ping de tela.
Esta mensagem indica que um pacote está paralisado na fila ToFab do CSAR ASIC no GRP principal. Se algo ficar preso em um dos dois buffers CSAR por mais de 100 milissegundos (mseg), o buffer será esvaziado e será gerada uma mensagem de intervalo.
Se o GRP enviar sua mensagem de solicitação de ping de estrutura, mas a placa de linha não responde, ou a placa de linha responde, mas a matriz de comutação está com defeito, portanto ela perde a mensagem, você não verá essa mensagem antes da mensagem de falha de ping de estrutura. Portanto, se aparecer a mensagem de erro "%GRP-3-FABRIC_UNI", isso significa que algo não pôde ser transmitido para um slot na tela para 100 ou 200 ms. Pode ser que, devido à mensagem %GRP-3-FABRIC_UNI, você não possa enviar as manutenções de atividade para a LC e você termine com uma falha de ping de tela após, neste caso, 30 segundos. Todavia, você pode receber falhas de ping de construção sem o "%GRP-3-FABRIC_UNI" e vice-versa.
O GRP principal pode determinar que uma placa de linha ou um GRP secundário se degradou a um ponto em que é apropriado um dump central de diagnóstico. Neste momento, o GRP envia uma mensagem via MBUS à placa de linha e solicita o travamento da CPU da placa de linha, para poder obter um dump central.
%LCINFO-3-CRASH: Line card in slot 3 crashed %GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)
A placa de linha cria a cópia parcial central se estiver configurada com a exceção de informação de travamento e os comandos relacionados (consulte Configuring a Core Dump on a GSR Line Card para obter informações específicas de GSR sobre como configurar cópias parciais centrais). A string de qualificação na saída do comando show context slot {#} indica o motivo do recarregamento. No caso de uma falha de ping de estrutura, o motivo é sempre "travamento forçado por software".
CRASH INFO: Slot 1, Index 1, Crash at 00:42:45 KST Mon Mar 12 2001 VERSION: GS Software (GLC1-LC-M), Version 12.0(18)ST, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) TAC Support: http://www.cisco.com/tac Compiled Thu 09-Aug-01 22:06 by nmasa Card Type: 2 Ports OC3 Channelized to DS1/E1 , S/N CAT00400500 System exception: sig=23, code=0x24, ! --- SIG=23 indicates a software-forced crash. context=0x41303B04 System restarted by a Software forced crash STACK TRACE: -Traceback= 400C3970 400C1F90 40815D5C 407D3144 400C7488
Depois que a placa de linha travar, ela enviará uma mensagem inicial para notificar o GRP principal. O GRP aguarda que a placa de ingresso envie outras informações sobre o travamento através do MBUS. O GRP deve receber informações completas alguns milissegundos depois de receber a primeira mensagem da placa de linha. Na improvável circunstância de mensagens subseqüentes de informações de travamento não serem recebidas pelo GRP em um limite de tempo razoável (10 segundos), o GRP imprimirá uma mensagem de erro e informará o restante do software GRP que a placa de linha está travada.
Durante a operação normal do roteador, o GRP principal envia pings continuamente às placas de linha e as placas de linha respondem. Qualquer falha de ping é um sintoma de outro problema que deve ser investigado. Estes problemas incluem:
Observação: se a falha puder ser reproduzida, configure no service auto-reset no GRP. Esse comando desativa um recarregamento da placa de linha na próxima falha de ping da tela e permite conectar à placa de linha usando o comando attach <slot#> para capturar os comandos show relevantes.
O motivo mais provável pode ser um erro de software do Cisco IOS, no qual um processo está desabilitando as interrupções por tempo suficiente para perder cinco pings de tela consecutivos. Tente atualizar para a versão mais recente do Cisco IOS Software em seu treinamento para evitar problemas já resolvidos. Para obter assistência para atualização, consulte a área Software de download da Cisco.
The line card may be exerting back-pressure for too long, so the scheduler is not allowing any traffic to be received from the Switch fabric. Esse sintoma sugere um problema de congestionamento da interface. Use os comandos a seguir para confirmar esses sintomas:
comando show controller frfab queue na placa de linha. Procure uma fila livre não IPC sem nenhum ou com poucos buffers disponíveis.
comando show controllers csar queue no GRP. Procure valores que não sejam zero para "Comprimento Máx." e para "Comprimento Máx.” igual ao valor de “Comprimento”, conforme mostrado na seguinte saída de exemplo:
router#show controllers csar queue 1190 Free Q Slot Length Max Length 0 0 7 1 0 2 2 70 70 ! -- CSAR queue for slot 2 is building and reaching max length. 3 0 2 4 0 3 5 0 0 ...
O CSAR enfileira até 50 pacotes para uma placa de linha de destino. Depois de 50 pacotes, apenas os pacotes de ping de tela são colocados em fila. Se o limite de fila aumentar para 70, o CSAR pára de enfileirar todos os pacotes — incluindo pings de estrutura — para a placa de linha. O GRP e todas as placas de linha têm buffers de segmentação CSAR de 64 k nos quais as mensagens devem ser armazenadas. Se esses buffers estiverem ocupados, o roteador usará uma fila de espera de software para armazenar as mensagens. Também define um temporizador para assegurar que as mensagens de ping da estrutura não permaneçam nesta fila por muito tempo.
Alto uso de CPU na placa de linha - normalmente observado durante o recálculo de uma grande tabela do Cisco Express Forwarding (CEF) após uma alteração maciça na tabela de roteamento ou após uma sincronização de enlaces e reinicialização da sessão de Border Gateway Protocol (BGP). O CPU também pode estar alto na switching de tráfego no software. Isso acontece principalmente em placas de linha Engine 0, onde a maioria dos recursos é implementada em software. Se esse for o caso, você pode verificar a configuração na placa de linha e remover os recursos que poderiam causar impacto na CPU da LC do Engine 0. A alta utilização da CPU também pode ocorrer devido a um erro. Determine a utilização da CPU com o comando execute-on slot <slot#> show proc cpu ou execute-on slot <slot#> show tech se o comando anterior não for suportado na versão do software Cisco IOS que está sendo executado no roteador. Considere atualizar para a versão de desenvolvimento mais recente do Cisco IOS Software para solucionar problemas conhecidos.
A placa de linha está ficando sem buffers de comunicação entre processos (IPC), que são usados para trocar mensagens de controle entre as placas de linha e o GRP. Consulte as etapas de solução de problemas em Troubleshooting CEF-Related Error Messages (Solução de Problemas de Mensagens de Erro Relacionadas a CEF). Se o seu Troubleshooting aponta para um problema com o IPC, certifique-se de que seu Cisco 12000 Series Internet Router está executando no mínimo o Cisco IOS Software Release 12.0(18)S . Esta versão introduziu um tamanho padrão maior de 5000 para o cache IPC para melhorar sua estabilidade e escalabilidade.
Problema de hardware na placa de linha. É importante notar que menos de 10% das falhas de ping de tela resultam de um problema de hardware. Antes de entrar em contato com o TAC da Cisco para solicitar substituição de hardware, tente as seguintes etapas:
Procure as mensagens de tempo limite de IPC impressas antes da falha de ping de estrutura. Consulte também a seção IPC abaixo.
Reencaixe a placa de linha.
Desligue e religue o roteador.
Caso não tenha acesso físico ao roteador, execute o comando hw-module slot <slot #> reload para realizar uma recarga manual da placa de linha.
O coração do Cisco 12000 Series Internet Router é o circuito de matriz de comutação, que fornece interconexões sincronizadas de velocidade de gigabit para as placas de linha e o GRP. O circuito da matriz de comutação contém dois tipos de placas:
Placas programadoras e de relógio (CSCs)
SFCs (placas de tela do Switch)
Se uma dessas placas estiver falhando, as mensagens de ping não poderão mais passar através da tela. Nesse caso, você também verá outras mensagens apontando para a estrutura defeituosa, entre elas:
%FABRIC-3-CRC: Switch card 18
Use o comando show controllers fia para determinar se você tem um CSC ou SFC ruim. Utilize o comando execute-on all show controllers fia para capturar a saída de todas as placas de linhas. Compare a saída a partir de GRP com a saída a partir das placas de ingresso de forma a determinar se uma placa de estrutura de switching defeituosa precisa ser substituída.
A seguinte saída de exemplo aponta para um problema com sfc0 no slot 18. Primeiro, tente reinstalar essa placa e, em seguida, requisite a substituição caso o contador de erros crc16 continue aumentando.
Router#show controllers fia Fabric configuration: Full bandwidth redundant Master Scheduler: Slot 17 From Fabric FIA Errors ----------------------- redund FIFO parity 0 redund overflow 0 cell drops 1 crc32 lkup parity 0 cell parity 0 crc32 0 Switch cards present 0x001F Slots 16 17 18 19 20 Switch cards monitered 0x001F Slots 16 17 18 19 20 Slot: 16 17 18 19 20 Name: csc0 csc1 sfc0 sfc1 sfc2 -------- -------- -------- -------- -------- Los 0 0 0 0 0 state Off Off Off Off Off crc16 0 0 4334 0 0 ! --- Check the CRCs under SFC0 (slot 18) To Fabric FIA Errors ----------------------- sca not pres 0 req error 0 uni FIFO overflow 0 grant parity 0 multi req 0 uni FIFO undrflow 0 cntrl parity 0 uni req 0 crc32 lkup parity 0 multi FIFO 0 empty DST req 0 handshake error 0 cell parity 0
Em alguns relatórios de falhas de ping de estrutura, o roteador relatou mensagens de erro de verificação de redundância cíclica (CRC) antes da falha. Verifique CRCs nas placas de matriz de comutação usando o comando show controllers fia no GRP e o execute-on all show controllers fia nas placas de linha. Erros de CRC no GRP indicam apenas (e não em uma placa de linha) para um GRP com falha. Primeiro, tente recolocar o GRP e, em seguida, solicite uma substituição se os erros de CRC continuarem a aumentar.
Problemas com o software de comunicação entre processos (IPC) em execução entre o GRP e as placas de linha foram resolvidos em várias versões do Cisco IOS Software Release 12.0S. Nesse caso, você deve ver algumas mensagens de erro relacionadas ao IPC no log, juntamente com mensagens de timeout de ping de estrutura. Tente executar a versão mais recente do software Cisco IOS para resolver problemas conhecidos com o IPC. Consulte também a área Download de software da Cisco para obter assistência na seleção de uma versão.
Consulte Troubleshooting de Mensagens de Erros Relacionadas ao CEF se a saída do comando show log exibir uma mensagem relacionada ao CEF Forwarding Information Base (FIB) semelhante a esta:
%FIB-3-FIBDISABLE: Fatal error, slot 2: IPC failure
Use os seguintes comandos debug e show para fazer troubleshooting de mensagens de falha/tempo limite de ping de estrutura no Cisco 12000 Series Internet Router:
debug fabric events - Imprime qualquer erro detectado pelo GRP. Esse comando debug gera pouquíssimas mensagens e somente em uma condição de erro.
debug fabric ping - Imprime todos os erros detectados no processo de ping de estrutura pelo GRP. Esse comando debug gera pouquíssimas mensagens e somente em uma condição de erro.
Capture os comandos a seguir para cada placa de linha de redefinição. Substitua X pelo número do slot apropriado.
execute-on slot X debug fabric events - Imprime erros detectados pela placa de ingresso nas respostas de ping. Esse comando produz muito poucas mensagens e somente em uma condição de erro.
exec slot X debug fabric ping - Imprime uma mensagem quando a placa de ingresso recebe um ping de construção. Essa depuração gera uma linha de saída por segundo para cada placa de linha na qual ela é habilitada.
Após o travamento da placa de linha, capture os comandos a seguir do console de GRP:
show context all detail
show fabric
show controllers fia
show controllers csar queue
execute-on all show controllers fia
show tech
show log
Capture também os seguintes comandos sobre o status da placa de linha:
execute-on slot <slot#> show proc CPU
execute-on slot <nºslot> show controller tofab queue
execute-on slot <slot#> exibir estado controle tofab
execute-on slot <nºslot> show controller frfab queue
execute-on slot <slot#> show controller frfab stat
execute-on slot <slot#> show ipc stat
execute-on slot <slot#> show ipc queue
o execute-on slot <slot#> mostra empilhamento
execute-on slot <slot#> show tech
Se você ainda encontrar problemas depois de seguir todas as etapas de Troubleshooting, reúna todas as informações solicitadas acima e ligue para o representante do TAC da Cisco para resolver os problemas que ainda persistem.
Aqui está a saída de alguns comandos show úteis:
router#show controllers csar From Fabric Error Stats ------------------------ 0 out of order, 0 unexpected first 0 unexpected last, 0 unknown rx type, 0 corrupted pak, 0 parity 0 first/last, 0 sequence, 0 cell avail, 0 reassembly, To Fabric Stats ------------------------ Slot Tx Pkts TX Th Pkts Rx Pkts Rx Th Pkts To Fab timeout 0 580278 490214 281061 1336470 0 1 18854 66592 18390 945419 0 2 6 50824 0 896290 0 3 0 0 0 0 0 4 0 51909 0 895430 0 5 0 0 0 0 0 6 0 35113 0 880247 0 7 0 52690 0 52690 0 8 0 0 0 0 0 9 0 0 0 0 0 10 0 0 0 0 0 11 0 0 0 0 0 12 0 0 0 0 0 13 0 0 0 0 0 14 0 0 0 0 0 15 0 0 0 0 0 0 too big, 1 Buf0 free, 1 Buf1 free 0 Copy fail Fabric access Error Stats -------------------------- 0 parity errors, 0 bad access size, 0 invalid address 0 queue full parity, 0 flushed buffer router#show controllers fia Fabric configuration: Full bandwidth, nonredundant fabric Master Scheduler: Slot 16 From Fabric FIA Errors ----------------------- redund fifo parity 0 redund overflow 0 cell drops 0 crc32 lkup parity 0 cell parity 0 crc32 0 Switch cards present 0x001D Slots 16 18 19 20 Switch cards monitored 0x001D Slots 16 18 19 20 Slot: 16 17 18 19 20 Name: csc0 csc1 sfc0 sfc1 sfc2 -------- -------- -------- -------- -------- los 0 0 0 0 0 state Off Off Off Off Off crc16 0 254 0 0 0 ! --- Check the CRC error here. In this case CSC1 in slot 17. To Fabric FIA Errors ----------------------- sca not pres 0 req error 0 uni FIFO overflow 0 grant parity 0 multi req 0 uni FIFO undrflow 0 cntrl parity 0 uni req 0 crc32 lkup parity 0 multi FIFO 0 empty dst req 0 handshake error 0 cell parity 0
Você pode encontrar mais detalhes sobre o comando show controllers fia em How To Read the Output of the Show Controller fia Command.
router#show fabric Dest ToFab FrFab Bad Seq Unexpected Slot Pkts Pkts Pkts ---------------------------------------------------- Slot0 26327 26327 0 0 Slot1 26325 26325 0 0 Slot2 26321 26321 0 0 Slot4 26315 26315 0 0 Slot6 26311 26311 0 0 Slot7 26334 26334 0 0 multicast timeout 0 failed pak 0 Current fabric timeout is 6000 fabric send fails 58
Se você ainda precisar de assistência após seguir as etapas de solução de problemas acima e quiser criar uma solicitação de serviço com o Cisco TAC, anexe as seguintes informações ao seu caso para Troubleshooting de problemas de ping de estrutura no Cisco 12000 Series Internet Router: |
---|
Observação: não recarregue ou desligue o roteador manualmente antes de coletar as informações acima, se possível, pois isso pode causar a perda de informações importantes necessárias para determinar a causa raiz do problema. |
Revisão | Data de publicação | Comentários |
---|---|---|
1.0 |
15-Jan-2008 |
Versão inicial |