In diesem Dokument wird erläutert, wie die Fehlerbehebung für Fabric-Ping-Timeouts und -Fehler auf dem Cisco Internet Router der Serie 12000 durchgeführt wird. Solche Fehler werden durch folgende Fehlermeldungen angezeigt:
%GRP-3-FABRIC_UNI: Unicast send timed out (3)
und
%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)
Weitere Informationen zu Dokumentkonventionen finden Sie in den Cisco Technical Tips Conventions.
Für dieses Dokument bestehen keine besonderen Voraussetzungen.
Die Informationen in diesem Dokument basieren auf der Hardware-Version unten.
Cisco Internet Router der Serie 1200
Die in diesem Dokument enthaltenen Informationen wurden aus Geräten in einer bestimmten Laborumgebung erstellt. Alle in diesem Dokument verwendeten Geräte haben mit einer leeren (Standard-)Konfiguration begonnen. Wenn Sie in einem Live-Netzwerk arbeiten, stellen Sie sicher, dass Sie die potenziellen Auswirkungen eines Befehls verstehen, bevor Sie es verwenden.
Die GRP- und Line Cards (LCs) des Cisco Internet Routers der Serie 1200 werden über eine Kreuzschienen-Switch-Fabric verbunden, die einen physischen Hochgeschwindigkeits-Pfad für die Kommunikation zwischen den Karten bereitstellt. Zu den Nachrichten, die zwischen der GRP und den Linecards über die Switch-Fabric weitergeleitet werden, gehören die tatsächlich weitergeleiteten und empfangenen Pakete, Weiterleitungsinformationen, Datenverkehrsstatistiken und die meisten Management- und Kontrollinformationen. Daher ist es wichtig, dass die GRP sicherstellt, dass dieser Pfad ordnungsgemäß funktioniert.
Fabric-Pings sind eine von vier Anwendungen, die zwischen der GRP und der Switch-Fabric ausgeführt werden. IPC (Inter-Processor Communication), Netzwerkpakete und Code-Downloads sind die anderen. Fabric-Pings werden implementiert, um einen Teil des Fehlererkennungsalgorithmus bereitzustellen und einen Keep-Alive-Mechanismus bereitzustellen, der mithilfe von Puffern im Maintenance Bus (MBUS) und Pings über die Fabric-Schnittstellen der Linecards implementiert wird.
Die Cisco Cell Segmentation and Reassembly (CSAR) Fabric Interface-Treiber auf der GRP behandeln Meldungen, die zwischen der Switch-Fabric und der GRP gesendet und empfangen werden. Dies umfasst Fabric-Pings. Fabric-Pings werden per Software generiert und alle sechs Sekunden vom primären GRP an jede Linecard gesendet. Jedes Mal, wenn eine Linecard eine Ping-Anfrage von der GRP empfängt, sendet der LC eine Antwort an die GRP. Wenn die GRP keine Antwort auf fünf aufeinander folgende Fabric-Pings (30 Sekunden Gesamtdauer) erhält, wird die Linecard deaktiviert und über den Maintenance BUS (MBUS) zurückgesetzt.
Meistens ist die Linecard einfach zu beschäftigt, um auf die Fabric-Ping-Anfragen vom GRP zu reagieren. Diese Fabric-Ping-Fehler können auch durch eine fehlerhafte Fabric oder einen Fehler in der Cisco IOS®-Software verursacht werden. Alle möglichen Ursachen von Fabric-Ping-Ausfällen sind im Abschnitt zur Fehlerbehebung weiter unten beschrieben.
Ein Fabric-Ping-Timeout tritt auf, wenn der Gigabit Route Processor (GRP) erkennt, dass eine Ping-Anforderung in der ToFab-Warteschlange (zur Switch Fabric) des Cisco Cell Segmentation and Reassembly (CSAR) Application-Specific Integrated Circuit (ASIC) feststeckt. Dieser ASIC ist dafür verantwortlich, die Pakete in Cisco Zellen zu teilen, bevor sie über die Switch-Fabric an die LC (Output Line Card) gesendet werden.
Fehler beim Fabric-Ping treten auf, wenn entweder eine Linecard oder die sekundäre GRP nicht auf eine Fabric-Ping-Anfrage vom primären GRP über die Switch-Fabric antwortet. Solche Fehler sind ein Symptom, das untersucht werden sollte.
Wie im Abschnitt Hintergrund erläutert, sendet die GRP alle sechs Sekunden ein Fabric-Ping an die Linecards, und die Linecards müssen reagieren. Wenn die GRP keine Antwort auf fünf aufeinander folgende Fabric-Pings erhält, setzt sie die Linecard zurück, indem sie eine Anforderungsmeldung über den Maintenance Bus (MBUS) sendet, und meldet einen softwaregesteuerten Absturz, wie in der Ausgabe des Befehls show context-slot {#} zu sehen ist.
Aus den Konsolenprotokollen oder dem Befehl show log (Protokoll anzeigen) erhalten Sie möglicherweise folgende Fehlermeldungen vor der Fehlermeldung des Fabric Ping:
%GRP-3-FABRIC_UNI: Unicast send timed out (3) %GRP-3-FABRIC_UNI: Unicast send timed out (3) %GRP-3-FABRIC_UNI: Unicast send timed out (3)
wobei die Zahl (3) den Linecard-Steckplatz darstellt, zu dem die primäre GRP versucht hat, ein Fabric-Ping zu senden.
Diese Meldung weist darauf hin, dass ein Paket in der ToFab-Warteschlange des CSAR ASIC auf der primären GRP feststeckt. Wenn bei einem der beiden CSAR-Puffer für mehr als 100 Millisekunden (msecs) irgendetwas feststeckt, wird der Puffer geleert und eine Timeout-Meldung generiert.
Wenn die GRP ihre Fabric Ping-Anforderungsnachricht sendet, die Linecard aber entweder nicht antwortet oder die Linecard antwortet, die Switch-Fabric jedoch defekt ist, sodass die Nachricht verloren geht, wird diese Meldung nicht vor der Fabric Ping-Fehlermeldung angezeigt. Wenn Sie also die Fehlermeldung "%GRP-3-FABRIC_UNI" erhalten, bedeutet dies, dass etwas 100 oder 200 ms nicht an einen Steckplatz über das Fabric übertragen werden konnte. Möglicherweise können Sie die Keepalives wegen %GRP-3-FABRIC_UNI nicht an den LC senden, und es tritt ein Fabric-Ping-Fehler auf, in diesem Fall nach 30 Sekunden. Sie können jedoch Fabric-Ping-Fehler ohne "%GRP-3-FABRIC_UNI" und umgekehrt erhalten.
Der primäre GRP kann bestimmen, dass eine Linecard oder sekundäre GRP so weit herabgesetzt wurde, dass eine Diagnosekernabtastung geeignet ist. Zu diesem Zeitpunkt sendet die GRP eine Nachricht über den MBUS an die Linecard und fordert die Linecard-CPU auf, abzustürzen, damit ein Core-Dump abgerufen werden kann.
%LCINFO-3-CRASH: Line card in slot 3 crashed %GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)
Die Linecard erstellt den Core Dump, wenn er mit dem Ausnahmefehler und den zugehörigen Befehlen konfiguriert ist (siehe Konfigurieren eines Core Dump auf einer GSR Line Card für GSR-spezifische Informationen zum Konfigurieren von Core Dumps). Die qualifizierende Zeichenfolge in der Ausgabe des Befehls show context slot {#} gibt den Grund für das erneute Laden an. Bei einem Fabric-Ping-Ausfall ist der Grund immer "Software-Forced Crash".
CRASH INFO: Slot 1, Index 1, Crash at 00:42:45 KST Mon Mar 12 2001 VERSION: GS Software (GLC1-LC-M), Version 12.0(18)ST, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) TAC Support: http://www.cisco.com/tac Compiled Thu 09-Aug-01 22:06 by nmasa Card Type: 2 Ports OC3 Channelized to DS1/E1 , S/N CAT00400500 System exception: sig=23, code=0x24, ! --- SIG=23 indicates a software-forced crash. context=0x41303B04 System restarted by a Software forced crash STACK TRACE: -Traceback= 400C3970 400C1F90 40815D5C 407D3144 400C7488
Nachdem die Linecard abstürzt, sendet sie eine erste Meldung, um die primäre GRP zu benachrichtigen. Der GRP wartet dann, bis die Linecard weitere Informationen zum Crash über den MBUS sendet. Die GRP sollte innerhalb weniger Millisekunden nach Erhalt der ersten Nachricht von der Linecard vollständige Informationen erhalten. Falls die anschließenden Crash-Information-Meldungen nicht innerhalb einer angemessenen Frist (10 Sekunden) bei der GRP eingehen, gibt die GRP eine Fehlermeldung aus und teilt dem Rest der GRP-Software mit, dass die Linecard abgestürzt ist.
Während des normalen Router-Betriebs pingt das primäre GRP die Linecards kontinuierlich an, und die Linecards reagieren darauf. Alle Ping-Fehler sind ein Symptom eines anderen Problems, das untersucht werden sollte. Zu diesen Problemen gehören:
Hinweis: Wenn der Fehler reproduziert werden kann, konfigurieren Sie kein automatisches Zurücksetzen des Dienstes auf der GRP. Dieser Befehl deaktiviert das erneute Laden der Linecard beim nächsten Fabric-Ping-Fehler und ermöglicht das Anschließen an die Linecard mithilfe des Befehls Attach <slot#>, um relevante Show-Befehle zu erfassen.
Der wahrscheinlichste Grund dafür ist ein Fehler in der Cisco IOS-Software, bei dem ein Prozess Unterbrechungen lange genug deaktiviert, um fünf aufeinander folgende Fabric-Pings zu verpassen. Versuchen Sie, ein Upgrade auf die neueste Cisco IOS-Softwareversion in Ihrem Zug durchzuführen, um Probleme zu vermeiden. Weitere Informationen zu Upgrades finden Sie im Bereich Cisco Download Software.
Die Linecard übt möglicherweise zu lange einen Druck auf die Rückseite aus, sodass der Scheduler nicht zulässt, dass Datenverkehr von der Switch-Fabric empfangen wird. Dieses Symptom weist auf ein Problem mit der Überlastung der Schnittstelle hin. Verwenden Sie die folgenden Befehle, um diese Symptome zu bestätigen:
show controller fab queue-Befehl auf der Linecard. Suchen Sie nach einer nicht-IPC-freien Warteschlange mit wenigen oder gar keinen verfügbaren Puffern.
show controller csar queue-Befehl auf der GRP. Suchen Sie nach Nicht-Null-Werten für "Max Length" (Max Length) und für "Max Length" (Max Length), um den Wert "Length" (Länge) zu entsprechen, wie in der folgenden Beispielausgabe gezeigt:
router#show controllers csar queue 1190 Free Q Slot Length Max Length 0 0 7 1 0 2 2 70 70 ! -- CSAR queue for slot 2 is building and reaching max length. 3 0 2 4 0 3 5 0 0 ...
Der CSAR stellt bis zu 50 Pakete für eine Ziel-Linecard in die Warteschlange. Nach 50 Paketen werden nur Fabric-Ping-Pakete in die Warteschlange gestellt. Wenn die Warteschlangengrenze dann auf 70 erhöht wird, beendet der CSAR die Warteschlangenverwaltung für alle Pakete - einschließlich Fabric-Pings - an die Linecard. Sowohl die GRP als auch alle Linecards verfügen über 64.000 CSAR-Segmentierungspuffer, in denen Nachrichten gespeichert werden. Wenn diese Puffer belegt sind, speichert der Router die Nachrichten mithilfe einer Warteschlange für das Halten von Software. Außerdem wird ein Timer festgelegt, um sicherzustellen, dass Fabric-Ping-Meldungen nicht zu lange in dieser Warteschlange verbleiben.
Hohe CPU-Auslastung auf der Linecard - Wird häufig bei der Neuberechnung einer großen CEF-Tabelle (Cisco Express Forwarding) nach massiven Änderungen der Routing-Tabelle oder nach dem Zurücksetzen einer Link-Flapping- und Border Gateway Protocol-Sitzung (BGP) beobachtet. Die CPU kann auch hoch sein, wenn der Datenverkehr in der Software umgeschaltet wird. Dies geschieht hauptsächlich auf Engine 0 Line Cards, bei denen die meisten Funktionen in der Software implementiert sind. In diesem Fall können Sie die Konfiguration der Linecard überprüfen und die Funktionen entfernen, die sich auf die CPU der Engine 0 LC auswirken könnten. Eine hohe CPU-Auslastung kann auch auf einen Fehler zurückzuführen sein. Ermitteln Sie die CPU-Auslastung mit dem Befehl für die Ausführung im Ausführungssteckplatz <slot#> show proc cpu oder dem Befehl für den Ausführungssteckplatz <slot#> show tech, wenn der vorherige Befehl in der auf dem Router ausgeführten Cisco IOS-Softwareversion nicht unterstützt wird. Ziehen Sie zur Lösung bekannter Probleme ein Upgrade auf die neueste Cisco IOS-Softwareversion in Ihrem Zug in Betracht.
Der Linecard gehen die IPC-Puffer (Inter-Process Communication) aus, die zum Austausch von Kontrollnachrichten zwischen den Linecards und der GRP verwendet werden. Weitere Informationen finden Sie in den Schritten zur Fehlerbehebung bei CEF-bezogenen Fehlermeldungen. Wenn bei der Fehlerbehebung auf ein Problem mit IPC hingewiesen wird, stellen Sie sicher, dass auf Ihrem Cisco Internet Router der Serie 12000 mindestens Cisco IOS Software Release 12.0(18)S ausgeführt wird. Mit dieser Version wurde eine größere Standardgröße von 5000 für den IPC-Cache eingeführt, um die Stabilität und Skalierbarkeit zu verbessern.
Hardwareproblem auf der Linecard. Es ist zu beachten, dass weniger als 10 % der Fabric-Ping-Fehler auf Hardwareprobleme zurückzuführen sind. Bevor Sie sich an das Cisco TAC wenden, um Hardware-Ersatz anzufordern, gehen Sie wie folgt vor:
Achten Sie vor dem Fabric-Ping-Fehler auf IPC-Timeout-Meldungen. Siehe auch IPC-Abschnitt unten.
Setzen Sie die Linecard wieder ein.
Schalten Sie den Router aus und wieder ein.
Wenn Sie keinen physischen Zugriff auf den Router haben, führen Sie den Befehl hw-module-Steckplatz <steckplatz #> reload aus, um die Linecard manuell neu zu laden.
Das Herzstück des Cisco Internet Routers der Serie 1200 ist der Switch Fabric-Schaltkreis, der synchronisierte Gigabit-Geschwindigkeit-Verbindungen für die Linecards und das GRP bereitstellt. Der Switch-Fabric-Schaltkreis enthält zwei Arten von Karten:
Clock and Scheduler Cards (CSCs)
Switch Fabric Cards (SFCs)
Wenn eine dieser Karten ausfällt, können die Ping-Nachrichten nicht mehr durch die Fabric geleitet werden. In diesem Fall sollten Sie auch weitere Meldungen sehen, die auf die fehlerhafte Fabric verweisen, z. B.:
%FABRIC-3-CRC: Switch card 18
Verwenden Sie den Befehl show controller fia, um festzustellen, ob Sie einen fehlerhaften CSC oder SFC haben. Verwenden Sie den Befehl show controller fia, um die Ausgabe aller Linecards zu erfassen. Vergleichen Sie die Ausgabe der GRP mit der Ausgabe der Linecards, um festzustellen, ob eine fehlerhafte Switching Fabric Card ausgetauscht werden muss.
Die folgende Beispielausgabe weist auf ein Problem mit sfc0 in Steckplatz 18 hin. Versuchen Sie zunächst, diese Karte wieder einzusetzen, und fordern Sie dann einen Austausch an, wenn der crc16-Fehlerzähler weiter inkrementiert wird.
Router#show controllers fia Fabric configuration: Full bandwidth redundant Master Scheduler: Slot 17 From Fabric FIA Errors ----------------------- redund FIFO parity 0 redund overflow 0 cell drops 1 crc32 lkup parity 0 cell parity 0 crc32 0 Switch cards present 0x001F Slots 16 17 18 19 20 Switch cards monitered 0x001F Slots 16 17 18 19 20 Slot: 16 17 18 19 20 Name: csc0 csc1 sfc0 sfc1 sfc2 -------- -------- -------- -------- -------- Los 0 0 0 0 0 state Off Off Off Off Off crc16 0 0 4334 0 0 ! --- Check the CRCs under SFC0 (slot 18) To Fabric FIA Errors ----------------------- sca not pres 0 req error 0 uni FIFO overflow 0 grant parity 0 multi req 0 uni FIFO undrflow 0 cntrl parity 0 uni req 0 crc32 lkup parity 0 multi FIFO 0 empty DST req 0 handshake error 0 cell parity 0
In einigen Berichten über Fabric-Ping-Fehler meldete der Router CRC-Fehlermeldungen (zyklische Redundanzprüfung) vor dem Ausfall. Überprüfen Sie mithilfe des Befehls show controller fia auf der GRP auf CRCs auf den Switching Fabric Cards, und führen Sie auf den Linecards alle show-Controller-Dateien aus. CRC-Fehler nur auf der GRP (und nicht auf einer Linecard) zeigen auf eine fehlerhafte GRP. Versuchen Sie zunächst, die GRP wieder einzusetzen, und fordern Sie dann einen Austausch an, wenn die CRC-Fehler weiter zunehmen.
Probleme mit der IPC-Software (Inter-Process Communication) zwischen der GRP und den Linecards wurden in verschiedenen Versionen der Cisco IOS Software, Version 12.0S, behoben. In diesem Fall sollten im Protokoll einige IPC-bezogene Fehlermeldungen sowie Fabric-Ping-Timeout-Meldungen angezeigt werden. Führen Sie die neueste Cisco IOS-Softwareversion aus, um bekannte Probleme mit IPC zu umgehen. Im Bereich Cisco Download Software erhalten Sie Unterstützung bei der Auswahl einer neuen Version.
Siehe Fehlerbehebung bei CEF-bezogenen Fehlermeldungen, wenn die Ausgabe des Befehls show log eine Meldung bezüglich der CEF Forwarding Information Base (FIB) anzeigt, die der folgenden ähnlich ist:
%FIB-3-FIBDISABLE: Fatal error, slot 2: IPC failure
Verwenden Sie die folgenden Debug- und Show-Befehle, um die Fehlerbehebung für Fabric Ping-Timeout-/Fehlermeldungen auf dem Cisco Internet Router der Serie 1200 zu beheben:
debug Fabric Events - Druckt alle vom GRP erkannten Fehler. Dieses Debuggen generiert nur sehr wenige Meldungen und nur in einem Fehlerzustand.
debug Fabric Ping - Druckt alle Fehler, die vom GRP im Fabric Ping-Prozess erkannt wurden. Dieses Debuggen generiert nur sehr wenige Meldungen und nur in einem Fehlerzustand.
Notieren Sie die folgenden Befehle für jede Linecard zum Zurücksetzen. Ersetzen Sie X durch die entsprechende Steckplatznummer.
Execute-on-Slot X Debug Fabric-Ereignisse - Druckt Fehler, die von der Linecard in ihren Ping-Antworten erkannt wurden. Dieser Befehl erzeugt nur sehr wenige Meldungen und nur in einem Fehlerzustand.
exec lot X debug Fabric Ping - Druckt eine Nachricht, wenn die Linecard einen Fabric-Ping empfängt. Dieses Debuggen generiert jede Sekunde eine Zeile Ausgabe für jede Linecard, auf der es aktiviert ist.
Erfassen Sie nach dem Absturz der Linecard die folgenden Befehle von der GRP-Konsole aus:
Anzeige des Kontextes im Detail
Show-Fabric
show controller fia
show controller csar queue
Alle show controller fia ausführen
Showtechnik
Anzeigeprotokoll
Notieren Sie außerdem die folgenden Befehle zum Status der Linecard:
Ausführungssteckplatz <Steckplatz#> Proc-CPU anzeigen
Ausführungssteckplatz <Steckplatz#> Show Controller-Tofab-Warteschlange
Ausführungssteckplatz <Steckplatz#> Show Controller-Tofab-Status
Ausführungssteckplatz <Steckplatz#> Show Controller-Fab-Warteschlange
Ausführungssteckplatz <Steckplatz#> Show-Controller-Fab-Stat
Ausführungssteckplatz <Steckplatz#> show ipc stat
Ausführungssteckplatz <Steckplatz#> show ipc queue
Ausführungssteckplatz <Steckplatz#> Stapel anzeigen
Ausführungssteckplatz <Steckplatz#> Technik anzeigen
Wenn nach der Durchführung aller Schritte zur Fehlerbehebung immer noch Probleme auftreten, sammeln Sie alle oben genannten Informationen und wenden Sie sich an Ihren Cisco TAC-Mitarbeiter, um weitere Schritte zur Fehlerbehebung durchzuführen.
Hier ist die Ausgabe einiger nützlicher show-Befehle:
router#show controllers csar From Fabric Error Stats ------------------------ 0 out of order, 0 unexpected first 0 unexpected last, 0 unknown rx type, 0 corrupted pak, 0 parity 0 first/last, 0 sequence, 0 cell avail, 0 reassembly, To Fabric Stats ------------------------ Slot Tx Pkts TX Th Pkts Rx Pkts Rx Th Pkts To Fab timeout 0 580278 490214 281061 1336470 0 1 18854 66592 18390 945419 0 2 6 50824 0 896290 0 3 0 0 0 0 0 4 0 51909 0 895430 0 5 0 0 0 0 0 6 0 35113 0 880247 0 7 0 52690 0 52690 0 8 0 0 0 0 0 9 0 0 0 0 0 10 0 0 0 0 0 11 0 0 0 0 0 12 0 0 0 0 0 13 0 0 0 0 0 14 0 0 0 0 0 15 0 0 0 0 0 0 too big, 1 Buf0 free, 1 Buf1 free 0 Copy fail Fabric access Error Stats -------------------------- 0 parity errors, 0 bad access size, 0 invalid address 0 queue full parity, 0 flushed buffer router#show controllers fia Fabric configuration: Full bandwidth, nonredundant fabric Master Scheduler: Slot 16 From Fabric FIA Errors ----------------------- redund fifo parity 0 redund overflow 0 cell drops 0 crc32 lkup parity 0 cell parity 0 crc32 0 Switch cards present 0x001D Slots 16 18 19 20 Switch cards monitored 0x001D Slots 16 18 19 20 Slot: 16 17 18 19 20 Name: csc0 csc1 sfc0 sfc1 sfc2 -------- -------- -------- -------- -------- los 0 0 0 0 0 state Off Off Off Off Off crc16 0 254 0 0 0 ! --- Check the CRC error here. In this case CSC1 in slot 17. To Fabric FIA Errors ----------------------- sca not pres 0 req error 0 uni FIFO overflow 0 grant parity 0 multi req 0 uni FIFO undrflow 0 cntrl parity 0 uni req 0 crc32 lkup parity 0 multi FIFO 0 empty dst req 0 handshake error 0 cell parity 0
Weitere Einzelheiten finden Sie im Befehl show controller fia unter How To Read the Output of the Show Controller fia Command.
router#show fabric Dest ToFab FrFab Bad Seq Unexpected Slot Pkts Pkts Pkts ---------------------------------------------------- Slot0 26327 26327 0 0 Slot1 26325 26325 0 0 Slot2 26321 26321 0 0 Slot4 26315 26315 0 0 Slot6 26311 26311 0 0 Slot7 26334 26334 0 0 multicast timeout 0 failed pak 0 Current fabric timeout is 6000 fabric send fails 58
Wenn Sie nach den oben beschriebenen Schritten zur Fehlerbehebung weiterhin Hilfe benötigen und eine Serviceanfrage beim Cisco TAC erstellen möchten, fügen Sie Ihrem Fall die folgenden Informationen bei, um Probleme mit dem Fabric Ping auf dem Cisco Internet Router der Serie 12000 zu beheben: |
---|
Hinweis: Laden Sie den Router nicht manuell neu, oder schalten Sie ihn ein, bevor Sie die oben genannten Informationen sammeln. Dies kann, wenn möglich, dazu führen, dass wichtige Informationen verloren gehen, die zur Bestimmung der Ursache des Problems erforderlich sind. |
Überarbeitung | Veröffentlichungsdatum | Kommentare |
---|---|---|
1.0 |
15-Jan-2008 |
Erstveröffentlichung |