Introduction
Este documento descreve como solucionar problemas de placa de malha e cartão de armazenamento (FSC) quando a interceptação SNMP "ThreshFabricEGQDiscards".
Prerequisites
Requirements
A Cisco recomenda que você tenha conhecimento destes tópicos:
- StarOs
- Plataforma ASR5500
Componentes Utilizados
Este documento não se restringe a versões de software e hardware específicas.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. Se a rede estiver ativa, certifique-se de que você entenda o impacto potencial de qualquer comando.
Problema
O erro "ThreshFabricEGQDiscards" é observado quando o Single Event Upset (SEU) no chipset da borda da estrutura (FE) em uma placa FSC em um chassi ASR5500. Devido a essa mudança de bit nas tabelas FE, o chip FE começa a corromper pacotes (células) na estrutura, causando descartes da fila de saída, o que leva a falhas de pulsação entre as placas.
Você pode ver um exemplo desse problema usando o comando Command line interface (CLI) show snmp trap history verbose.
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 2 threshold 50 measured value 2430 interval 30
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 1 threshold 50 measured value 2096 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 4 threshold 50 measured value 481 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 2 threshold 50 measured value 3761 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 1 threshold 50 measured value 3660 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 2 threshold 50 measured value 173 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 1 threshold 50 measured value 133 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 2 threshold 50 measured value 2977 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 1 threshold 50 measured value 4310 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 1 threshold 50 measured value 4499 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 2 threshold 50 measured value 4091 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 1 threshold 50 measured value 2796 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 2 threshold 50 measured value 5418 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 2 threshold 50 measured value 4747 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 1 threshold 50 measured value 5243 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 2 threshold 50 measured value 4644 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 1 threshold 50 measured value 5017 interval 30
Esta linha é vista sob vários consoles de cpu de placas:
Note: comando debug console card é oculto/teste comando. Esse comando também é coletado sempre para todas as placas no ASR5500 quando o comando show support details é executado no nó StarOs.
******** debug console card 1 cpu 0 tail 10000 only *******
Saturday January 02 05:45:38 EST 2016
[...]
2016-Jan-02+03:59:47.479 card 1-cpu0: afio [1/0/2701] [2862193.674] afio/afio_petrab_egress.c:121: #1: petrab=1=1/1, PetraB EGQ Egress drop threshold exceeded, drop count=5243, interval=30 secs, threshold=50
Troubleshoot
Verifique se as quedas de saída estão aumentando.
Note: Se os erros de estrutura estiverem sendo incrementados e você estiver executando o nó StarOs na versão 19.0 ou superior, vá para a seção Solução neste artigo.
Note: Se os erros de estrutura estiverem aumentando e você estiver executando a versão do nó StarOs abaixo da versão.19.0, por favor, encaminhe a solicitação de serviço para o TAC.
Etapa 1. Entre no modo de teste, aqui está a documentação de como ativá-lo no nó StarOs.
cli test-commands [encrypted] password password
Etapa 2. Verifique a integridade da malha.
show fabric health | grep -i -E "^Petra-B|EGQ"
Exemplo de saída quando o problema não está presente:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ" Petra-B 1=1/1
Petra-B 2=1/2
Petra-B 3=2/1
Petra-B 4=2/2
Petra-B 5=3/1
Petra-B 6=3/2
[...]
Exemplo de saída em que você vê um aumento em pacotes de descarte EGQ:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1143278
EGQ.EhpDiscardPacketCounter 1143278
EGQ.PqpDiscardUnicastPacketCounter 1143278
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1068491
EGQ.EhpDiscardPacketCounter 1068491
EGQ.PqpDiscardUnicastPacketCounter 1068491
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1346022 <<<
EGQ.EhpDiscardPacketCounter 1346022 <<<
EGQ.PqpDiscardUnicastPacketCounter 1346022 <<<
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1271360 <<<
EGQ.EhpDiscardPacketCounter 1271360 <<<
EGQ.PqpDiscardUnicastPacketCounter 1271360 <<<
Solução
Mecanismo de recuperação automática
Tipo de alteração de comportamento:
Novo comando CLI para ativar o procedimento de recuperação/redefinição automática FSC ao detectar descartes excessivos de saída de estrutura
Versão introduzida:
19.0
Comportamento antigo:
Processo de recuperação manual para redefinir FSCs.
Novo comportamento:
Novos comandos de configuração CLI, verifique a documentação:
fabric fsc auto-recovery habilita max-attempts <X> para habilitar este recurso.
max-attempts é o número de vezes que ele redefine cada FSCs. Por padrão, o número máximo de tentativas é ilimitado.
fabric fsc auto-recovery disable para desativar este recurso.
show afctrl fsc-auto-recovery exibe detalhes sobre a recuperação automática do FSC, incluindo dispositivos que ainda não foram redefinidos, contagem de redefinição, tentativas máx, estado do limite de saída e histórico de recuperação automática do FSC.
Caution: Impacto no cliente: Os dispositivos FSC FE são redefinidos e todos os pacotes em voo são perdidos.
Note: Todos os valores, exceto o histórico, são replicados quando o MIO falha.