Einführung
In diesem Dokument wird beschrieben, wie die Fehlerbehebung für Fabric- und Speicherkarten-Karten (FSC) durchgeführt wird, wenn das SNMP-Trap "ThreshFabricEGQDiscards" (ThreshFabricEGQDiscards) ausgelöst wird.
Voraussetzungen
Anforderungen
Cisco empfiehlt, über Kenntnisse in folgenden Bereichen zu verfügen:
Verwendete Komponenten
Dieses Dokument ist nicht auf bestimmte Software- und Hardwareversionen beschränkt.
Die Informationen in diesem Dokument wurden von den Geräten in einer bestimmten Laborumgebung erstellt. Alle in diesem Dokument verwendeten Geräte haben mit einer leeren (Standard-)Konfiguration begonnen. Wenn Ihr Netzwerk in Betrieb ist, stellen Sie sicher, dass Sie die potenziellen Auswirkungen eines Befehls verstehen.
Problem
Der Fehler "ThreshFabricEGQDiscards" wird bemerkt, wenn Single Event Upset (SEU) auf dem Fabric Edge (FE)-Chipsatz auf einer FSC-Karte in einem ASR5500-Chassis auftritt. Aufgrund dieses Bitwechsels in FE-Tabellen beginnt der FE-Chip, Pakete (Zellen) in der Fabric zu beschädigen, was zu Ausgangs-Warteschlangen-Discards führt, die zu Heartbeat-Fehlern zwischen den Karten führen.
Sie können ein Beispiel für dieses Problem sehen, indem Sie den Befehl Command Line Interface (CLI) verwenden, um den Verlauf des SNMP-Traps ausführlich anzuzeigen.
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 2 threshold 50 measured value 2430 interval 30
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 1 threshold 50 measured value 2096 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 4 threshold 50 measured value 481 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 2 threshold 50 measured value 3761 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 1 threshold 50 measured value 3660 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 2 threshold 50 measured value 173 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 1 threshold 50 measured value 133 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 2 threshold 50 measured value 2977 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 1 threshold 50 measured value 4310 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 1 threshold 50 measured value 4499 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 2 threshold 50 measured value 4091 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 1 threshold 50 measured value 2796 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 2 threshold 50 measured value 5418 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 2 threshold 50 measured value 4747 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 1 threshold 50 measured value 5243 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 2 threshold 50 measured value 4644 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 1 threshold 50 measured value 5017 interval 30
Diese Linie wird unter mehreren CPU-Karten angezeigt:
Hinweis: -Befehl debug console card ist ausgeblendet/test-Befehl. Dieser Befehl wird auch bei allen Karten auf ASR5500 erfasst, wenn der Befehl show support details auf dem StarOs-Knoten ausgeführt wird.
******** debug console card 1 cpu 0 tail 10000 only *******
Saturday January 02 05:45:38 EST 2016
[...]
2016-Jan-02+03:59:47.479 card 1-cpu0: afio [1/0/2701] [2862193.674] afio/afio_petrab_egress.c:121: #1: petrab=1=1/1, PetraB EGQ Egress drop threshold exceeded, drop count=5243, interval=30 secs, threshold=50
Fehlerbehebung
Überprüfen Sie, ob die Ausgangs-Verwerfen zunimmt.
Hinweis: Wenn die Anzahl der Fabric-Fehler zunimmt und Sie den StarOs-Knoten in Version 19.0 oder höher ausführen, fahren Sie mit dem Abschnitt Solution (Lösung) in diesem Artikel fort.
Hinweis: Wenn Fabric-Fehler zunehmen und Sie StarOs Node-Version unter Version 19.0 ausführen, erhöhen Sie bitte die Serviceanfrage in Richtung TAC.
Schritt 1: Wechseln Sie in den Testmodus. Hier finden Sie eine Dokumentation zur Aktivierung auf dem StarOS-Knoten.
cli test-commands [encrypted] password password
Schritt 2: Überprüfen Sie den Fabric-Status.
show fabric health | grep -i -E "^Petra-B|EGQ"
Beispiel für Ausgabe, wenn das Problem nicht auftritt:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ" Petra-B 1=1/1
Petra-B 2=1/2
Petra-B 3=2/1
Petra-B 4=2/2
Petra-B 5=3/1
Petra-B 6=3/2
[...]
Beispiel für eine Ausgabe, in der die Anzahl der EGQ-Discard-Pakete erhöht wird:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1143278
EGQ.EhpDiscardPacketCounter 1143278
EGQ.PqpDiscardUnicastPacketCounter 1143278
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1068491
EGQ.EhpDiscardPacketCounter 1068491
EGQ.PqpDiscardUnicastPacketCounter 1068491
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1346022 <<<
EGQ.EhpDiscardPacketCounter 1346022 <<<
EGQ.PqpDiscardUnicastPacketCounter 1346022 <<<
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1271360 <<<
EGQ.EhpDiscardPacketCounter 1271360 <<<
EGQ.PqpDiscardUnicastPacketCounter 1271360 <<<
Lösung
Automatischer Wiederherstellungsmechanismus
Verhaltensänderung:
Neuer CLI-Befehl zur Aktivierung der automatischen FSC-Wiederherstellungs-/Reset-Prozedur bei Erkennung übermäßiger Fabric-Ausgangs-Rückwürfe
Einführung:
19,0
Altes Verhalten:
Manueller Wiederherstellungsprozess zum Zurücksetzen von FSCs.
Neues Verhalten:
Neue CLI-Konfigurationsbefehle finden Sie in der Dokumentation:
Die FabricSC Auto-Recovery aktiviert max-attempts <X>, um diese Funktion zu aktivieren.
"max-attempts" ist die Anzahl der Resets der FSCs. Standardmäßig sind max-attempts unbegrenzt.
Die automatische Fabric-Wiederherstellung wird deaktiviert, um diese Funktion zu deaktivieren.
show afctrl fsc-auto-restore zeigt Details zur automatischen FSC-Wiederherstellung an, einschließlich der Geräte, die noch zurückgesetzt werden müssen, Anzahl der Zurücksetzungen, Maximal-Versuche, der Status des Ausgangs-Drop-Schwellenwerts und der FSC-Verlaufsbericht für die automatische Wiederherstellung.
Vorsicht: Auswirkungen auf Kunden: FSC FE-Geräte werden zurückgesetzt und alle Pakete während des Fluges gehen verloren.
Hinweis: Alle Werte bis auf den Verlauf werden repliziert, wenn die MIO ausfällt.