Introducción
Este documento describe cómo resolver problemas de la tarjeta de tarjeta de almacenamiento y fabric (FSC) cuando se produce la trampa SNMP "ThreshFabricEGQDiscards".
Prerequisites
Requirements
Cisco recomienda que tenga conocimiento sobre estos temas:
- StarOs
- Plataforma ASR5500
Componentes Utilizados
Este documento no tiene restricciones específicas en cuanto a versiones de software y de hardware.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. Si tiene una red en vivo, asegúrese de entender el posible impacto de cualquier comando.
Problema
Se ha detectado el error "ThreshFabricEGQDiscards" cuando se produce un evento único (SEU) en el chipset del perímetro de fabric (FE) en una tarjeta FSC en un chasis ASR5500. Debido a este giro de bits en las tablas FE, el chip FE comienza a corromper los paquetes (celdas) en el entramado causando descartes de cola de egreso, lo que lleva a fallas de latido entre las tarjetas.
Puede ver un ejemplo de este problema mediante el comando de interfaz de línea de comandos (CLI) show snmp trap history verbose.
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 2 threshold 50 measured value 2430 interval 30
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 1 threshold 50 measured value 2096 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 4 threshold 50 measured value 481 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 2 threshold 50 measured value 3761 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 1 threshold 50 measured value 3660 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 2 threshold 50 measured value 173 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 1 threshold 50 measured value 133 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 2 threshold 50 measured value 2977 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 1 threshold 50 measured value 4310 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 1 threshold 50 measured value 4499 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 2 threshold 50 measured value 4091 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 1 threshold 50 measured value 2796 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 2 threshold 50 measured value 5418 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 2 threshold 50 measured value 4747 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 1 threshold 50 measured value 5243 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 2 threshold 50 measured value 4644 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 1 threshold 50 measured value 5017 interval 30
Esta línea se ve en varias consolas cpu de tarjetas:
Nota: comando debug console card es hidden/test. Este comando también se recopila cada vez para todas las tarjetas en ASR5500 cuando se ejecuta el comando show support details en el nodo StarOs.
******** debug console card 1 cpu 0 tail 10000 only *******
Saturday January 02 05:45:38 EST 2016
[...]
2016-Jan-02+03:59:47.479 card 1-cpu0: afio [1/0/2701] [2862193.674] afio/afio_petrab_egress.c:121: #1: petrab=1=1/1, PetraB EGQ Egress drop threshold exceeded, drop count=5243, interval=30 secs, threshold=50
Troubleshoot
Compruebe si las caídas de salida aumentan.
Nota: Si los errores de fabric aumentan y está ejecutando el nodo StarOs en la versión 19.0 o posterior, vaya a la sección Solución de este artículo.
Nota: Si los errores de fabric están aumentando y está ejecutando la versión de nodo de StarOs a continuación de la versión 19.0, eleve la solicitud de servicio al TAC.
Paso 1. Ingrese al modo de prueba, aquí hay documentación sobre cómo habilitarlo en el nodo StarOs.
cli test-commands [encrypted] password password
Paso 2. Compruebe el estado del fabric.
show fabric health | grep -i -E "^Petra-B|EGQ"
Ejemplo de resultado cuando no hay problema:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ" Petra-B 1=1/1
Petra-B 2=1/2
Petra-B 3=2/1
Petra-B 4=2/2
Petra-B 5=3/1
Petra-B 6=3/2
[...]
Ejemplo de salida donde se observa un aumento en los paquetes de descarte de EGQ:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1143278
EGQ.EhpDiscardPacketCounter 1143278
EGQ.PqpDiscardUnicastPacketCounter 1143278
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1068491
EGQ.EhpDiscardPacketCounter 1068491
EGQ.PqpDiscardUnicastPacketCounter 1068491
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1346022 <<<
EGQ.EhpDiscardPacketCounter 1346022 <<<
EGQ.PqpDiscardUnicastPacketCounter 1346022 <<<
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1271360 <<<
EGQ.EhpDiscardPacketCounter 1271360 <<<
EGQ.PqpDiscardUnicastPacketCounter 1271360 <<<
Solución
Mecanismo de recuperación automática
Tipo de cambio de comportamiento:
Nuevo comando CLI para habilitar el procedimiento FSC de recuperación/reinicio automático tras detectar descartes excesivos de salida de entramado
Lanzamiento introducido:
19.0
Comportamiento antiguo:
Proceso de recuperación manual para restablecer los FSC.
Nuevo comportamiento:
Nuevos comandos de configuración CLI, consulte documentación:
fabric fsc auto-recovery habilita max-tries <X> para habilitar esta función.
max-tries es el número de veces que restablece cada FSC. De forma predeterminada, el número máximo de intentos es ilimitado.
fabric fsc auto-recovery disable para inhabilitar esta función.
show afctrl fsc-auto-recovery muestra detalles sobre la recuperación automática de FSC, incluidos los dispositivos que aún no se han restablecido, el recuento de restablecimiento, los intentos máximos, el estado de umbral de salida y el historial de recuperación automática de FSC.
Precaución: Impacto en el cliente: Los dispositivos FSC FE se restablecen y se pierden todos los paquetes en vuelo.
Nota: Todos los valores excepto el historial se replican cuando el MIO falla.