Introduction
Ce document décrit comment dépanner la carte FSC (Fabric and Storage Card) lorsque ThreshFabricEGQDiscards est dérouté SNMP.
Conditions préalables
Conditions requises
Cisco vous recommande de prendre connaissance des rubriques suivantes :
- StarOs
- Plate-forme ASR5500
Components Used
Ce document n'est pas limité à des versions de matériel et de logiciel spécifiques.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. Si votre réseau est en ligne, assurez-vous de bien comprendre l’incidence possible des commandes.
Problème
L'erreur « ThreshFabricEGQDiscards » est remarquée lorsque le jeu de composants Single Event Upset (SEU) sur la périphérie du fabric (FE) d'une carte FSC dans un châssis ASR5500. En raison de ce retournement de bits dans les tables FE, la puce FE commence à corrompre des paquets (cellules) dans le fabric, provoquant des rejets de file d'attente de sortie, ce qui entraîne des échecs de pulsation entre les cartes.
Vous pouvez voir un exemple de ce problème à l'aide de la commande CLI (Command line interface) show snmp trap history verbose.
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 2 threshold 50 measured value 2430 interval 30
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 1 threshold 50 measured value 2096 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 4 threshold 50 measured value 481 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 2 threshold 50 measured value 3761 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 1 threshold 50 measured value 3660 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 2 threshold 50 measured value 173 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 1 threshold 50 measured value 133 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 2 threshold 50 measured value 2977 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 1 threshold 50 measured value 4310 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 1 threshold 50 measured value 4499 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 2 threshold 50 measured value 4091 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 1 threshold 50 measured value 2796 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 2 threshold 50 measured value 5418 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 2 threshold 50 measured value 4747 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 1 threshold 50 measured value 5243 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 2 threshold 50 measured value 4644 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 1 threshold 50 measured value 5017 interval 30
Cette ligne est visible sous plusieurs consoles processeur de cartes :
Note: la commande debug console card est masquée/test. Cette commande est également collectée à chaque fois pour toutes les cartes sur ASR5500 lorsque la commande show support details est exécutée sur le noeud StarOs.
******** debug console card 1 cpu 0 tail 10000 only *******
Saturday January 02 05:45:38 EST 2016
[...]
2016-Jan-02+03:59:47.479 card 1-cpu0: afio [1/0/2701] [2862193.674] afio/afio_petrab_egress.c:121: #1: petrab=1=1/1, PetraB EGQ Egress drop threshold exceeded, drop count=5243, interval=30 secs, threshold=50
Dépannage
Vérifiez si les pertes de sortie sont incrémentées.
Note: Si les erreurs de fabric s'incrémentent et que vous exécutez le noeud StarOs sur la version 19.0 ou ultérieure, passez à la section Solution de cet article.
Note: Si les erreurs de fabric s'incrémentent et que vous exécutez la version de noeud StarOs en dessous de la version.19.0, veuillez augmenter la demande de service vers le TAC.
Étape 1. Passez en mode test, voici la documentation pour l'activer sur le noeud StarOs.
cli test-commands [encrypted] password password
Étape 2. Vérifiez l'intégrité du fabric.
show fabric health | grep -i -E "^Petra-B|EGQ"
Exemple de sortie lorsque le problème n'est pas présent :
[local]#show fabric health | grep -i -E "^Petra-B|EGQ" Petra-B 1=1/1
Petra-B 2=1/2
Petra-B 3=2/1
Petra-B 4=2/2
Petra-B 5=3/1
Petra-B 6=3/2
[...]
Exemple de sortie où vous voyez augmenter dans les paquets de suppression EGQ::
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1143278
EGQ.EhpDiscardPacketCounter 1143278
EGQ.PqpDiscardUnicastPacketCounter 1143278
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1068491
EGQ.EhpDiscardPacketCounter 1068491
EGQ.PqpDiscardUnicastPacketCounter 1068491
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1346022 <<<
EGQ.EhpDiscardPacketCounter 1346022 <<<
EGQ.PqpDiscardUnicastPacketCounter 1346022 <<<
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1271360 <<<
EGQ.EhpDiscardPacketCounter 1271360 <<<
EGQ.PqpDiscardUnicastPacketCounter 1271360 <<<
Solution
Mécanisme de récupération automatique
Type de changement de comportement :
Nouvelle commande CLI pour activer la procédure de récupération/réinitialisation automatique FSC lors de la détection d'abandons de fabric excessifs
Version introduite :
19.0
Ancien comportement :
Processus de récupération manuel pour réinitialiser les FSC.
Nouveau comportement :
Nouvelles commandes de configuration CLI, veuillez consulter la documentation :
fabric fsc auto-recovery enable max-tries <X> pour activer cette fonctionnalité.
max-tries est le nombre de fois où il réinitialise chaque FSC. Par défaut, max-tries est illimité.
fabric fsc auto-recovery disable pour désactiver cette fonctionnalité.
show afctrl fsc-auto-recovery affiche des détails sur la récupération automatique FSC, y compris les périphériques qui n'ont pas encore été réinitialisés, le nombre de réinitialisations, les tentatives max., l'état du seuil de suppression de sortie et l'historique de récupération automatique FSC.
Attention : Impact sur le client : Les périphériques FSC FE sont réinitialisés et tous les paquets en vol sont perdus.
Note: Toutes les valeurs, à l'exception de l'historique, sont répliquées lorsque la MIO bascule.