Einleitung
Dieses Dokument beschreibt die Ursache von Watchdog-Zeitüberschreitungen auf Cisco Routern und erläutert, wie diese behoben werden.
Voraussetzungen
Anforderungen
Bevor Sie dieses Dokument lesen, sollten Sie mit den folgenden Themen vertraut sein:
Verwendete Komponenten
Die Informationen in diesem Dokument basierend auf folgenden Software- und Hardware-Versionen:
Hinweis: Dieses Dokument gilt nicht für Cisco Catalyst Switches oder MGX-Plattformen, sondern nur für Cisco Router.
Die Informationen in diesem Dokument beziehen sich auf Geräte in einer speziell eingerichteten Testumgebung. Alle Geräte, die in diesem Dokument benutzt wurden, begannen mit einer gelöschten (Nichterfüllungs) Konfiguration. Wenn Ihr Netz Live ist, überprüfen Sie, ob Sie die mögliche Auswirkung jedes möglichen Befehls verstehen.
Konventionen
Weitere Informationen zu Dokumentkonventionen finden Sie unter Cisco Technical Tips Conventions (Technische Tipps von Cisco zu Konventionen).
Watchdog-Zeitüberschreitungen identifizieren
Cisco Prozessoren verfügen über Timer, die bestimmte Systemabstürze verhindern. Die CPU setzt regelmäßig einen Überwachungs-Timer zurück. Der Watchdog-Zeitgeber steuert im Wesentlichen die Zeit jedes Prozesses. Wenn der Timer nicht zurückgesetzt wird, tritt ein Trap auf. Wenn ein Prozess länger ist, als er sein muss, wird der Überwachungs-Timer verwendet, um diesen Prozess zu verlassen.
Das passiert nur, wenn etwas schief geht. Je nach Situation kann der Router sich selbst zurücksetzen oder den Fehler beheben und eine Fehlermeldung in den Konsolenprotokollen generieren, die wie folgt aussieht:
*** Watch Dog Timeout ***
PC = 0x6022536C, SP = 0x00000000
Oder
%SYS-2-WATCHDOG: Process aborted on watchdog timeout, process = Exec
*** System received a Software forced crash ***
signal = 0x17, code = 0x24, context= 0x60ceca60
Wenn Sie den Router nicht aus- und wieder einschalten oder manuell neu laden, sieht die Ausgabe des Befehls show version folgendermaßen aus:
Router#show version
...
Router uptime is 1 hour, 47 minutes
System restarted by watchdog timer expired at 09:26:24 UTC Mon Mar 27 2000
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
...
Wenn Sie den Befehl show version auf Ihrem Cisco Gerät ausgegeben haben, können Sie Cisco CLI Analyzer verwenden, um potenzielle Probleme und Korrekturen anzuzeigen. Um den Cisco CLI Analyzer verwenden zu können, müssen Sie registrierter Kunde sein, sich anmelden und JavaScript aktiviert haben.
Fehlerbehebung
Die Ursache für den Watchdog-Zeitüberschreitungswert kann hardware- oder softwarebezogen sein. Hier sind die häufigsten Symptome, anhand derer Sie die Ursache des Problems identifizieren können:
-
Wenn ein Router, der seit Monaten ordnungsgemäß funktioniert, plötzlich alle 20 Minuten neu geladen wird, oder wenn er ständig neu startet und Sie nicht mehr darauf zugreifen können, ist das Problem höchstwahrscheinlich ein hardwarebezogenes Problem. Dies ist auch der Fall, wenn kürzlich ein neues Modul installiert wurde und der Router danach aufgrund eines Watchdog-Zeitlimits abstürzt.
-
Wenn der Router nach einer Konfigurationsänderung oder Änderung der Cisco IOS-Softwareversion abstürzt, handelt es sich wahrscheinlich um ein softwarebezogenes Problem.
Der erste Schritt zur Fehlerbehebung bei diesem Problem besteht darin, den Typ des Überwachungs-Timeouts zu identifizieren, dem Sie begegnen. Es gibt zwei Arten von Watchdog-Zeitüberschreitungen:
Softwareüberwachungs-Timeout
Dieses Timeout wird durch eine Endlosschleife auf Interrupt-Ebene oder durch ein Hardwareproblem verursacht. Hier sind einige Hinweise für diese Art von Timeout:
-
Konsolenprotokolle enthalten folgende Zeilen:
*** Watch Dog Timeout ***
PC = 0x6022536C, SP = 0x00000000
-
Die Ausgabe von show version meldet den Grund für das erneute Laden als "Watchdog-Zeitgeber abgelaufen":
Router#show version
...
Router uptime is 1 hour, 47 minutes
System restarted by watchdog timer expired at 06:30:24 UTC Mon Jan 28 2000
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
-
Es wird keine crashinfo-Datei generiert. Weitere Informationen finden Sie unter Abrufen von Informationen aus der Crashinfo-Datei.
Meistens weisen diese Meldungen auf ein Hardwareproblem hin, entweder mit der Hauptprozessorplatine oder mit einem der Module.
Nachdem Sie einen Software-Watchdog-Zeitüberschreitungswert identifiziert haben, besteht der nächste Schritt darin, die Produktfeldnotizübersicht für Ihre Plattform und alle in diesem System installierten Komponenten auf bekannte kritische Hardwareprobleme zu überprüfen. Es gibt beispielsweise einen Problemhinweis für den Cisco Router der Serie 3600: Cisco 3600 T1/E1 PRI Module Watchdog Timeouts. Überprüfen Sie die Problemhinweise, bevor Sie die Fehlerbehebung fortsetzen.
Wenn vor kurzem ein neues Modul installiert wurde, müssen Sie zunächst versuchen, es zu entfernen, um zu überprüfen, ob es der Grund für die Watchdog-Zeitüberschreitung ist. Wenn die Watchdog-Zeitüberschreitung weiterhin besteht, versuchen Sie, alle entfernbaren Komponenten wieder einzusetzen.
Wenn die Watchdog-Zeitüberschreitung an dieser Stelle fortgesetzt wird, gibt es keine Problemhinweise für Ihre Hardware. Wenn vor kurzem kein neues Modul installiert wurde, wechseln Sie die Hauptprozessorplatine aus. Auf High-End-Plattformen ist die Prozessorplatine eine separate Karte (z. B. NPE-400 oder RSP8). Auf einfachen Plattformen (Cisco 1700, 2500, 4000, 2600, 3600 usw.) kann das Motherboard nicht separat geliefert werden. In diesem Fall müssen Sie das Chassis selbst austauschen.
Prozess-Watchdog-Timeout
Dieses Timeout wird durch eine Endlosschleife auf Prozessebene verursacht. Hier sind einige Hinweise für diese Zeitüberschreitung:
-
Konsolenprotokolle enthalten folgende Zeilen:
%SYS-2-WATCHDOG: Process aborted on watchdog timeout,
process = Exec
*** System received a Software forced crash ***
signal = 0x17, code = 0x24, context= 0x60ceca60
-
Die Ausgabe der Version show meldet den Absturz als "software-erzwungenen Absturz":
Router#show version
...
Router uptime is 2 days, 21 hours, 30 minutes
System restarted by error - Software-forced crash,
PC 0x316EF90 at 20:22:37 edt
System image file is "flash:c2500-is-l.112-15a.bin",
booted via flash
-
Eine crashinfo-Datei wird für Plattformen generiert, die sie unterstützen.
Wahrscheinlich handelt es sich bei diesem Problem um einen Bug der Cisco IOS-Software.
Wenn die Ausgabe eines Befehls show stacks von Ihrem Cisco Gerät aus erfolgt, können Sie Cisco CLI Analyzer verwenden, um potenzielle Probleme und Korrekturen anzuzeigen. Um den Cisco CLI Analyzer verwenden zu können, müssen Sie registrierter Kunde sein, sich anmelden und JavaScript aktiviert haben.
Das System war jedoch vor dem Neuladen in einer Schleife stecken geblieben. Daher muss die Stapelüberwachung nicht unbedingt relevant sein. Sie können ein Upgrade auf die neueste Cisco IOS-Softwareversion in Ihrem Release Train durchführen, um alle bekannten Probleme mit der Prozessüberwachung zu vermeiden. Wenn nach dem Upgrade immer noch ein Absturz auftritt, sammeln Sie so viele Informationen wie möglich (siehe Problembehandlung bei Router-Abstürzen), und wenden Sie sich an den technischen Support.
Fehlermeldungen bezüglich Watchdog-Zeitüberschreitung
Es gibt weitere Konsolenfehlermeldungen für Watchdog-Zeitgeber. Verwechseln Sie diese Meldungen nicht mit einem Absturz des Watchdog-Zeitgebers. Überprüfen Sie die Bedeutung dieser Fehlermeldungen mithilfe des Fehlermeldungs-Decoders (nur registrierte Kunden). Dieses Tool bietet eine detaillierte Erklärung vieler Fehlermeldungen und empfiehlt Maßnahmen, um diese zu beheben.
Beachten Sie folgende Botschaft:
%SYS-2-WATCHDOG: Process aborted on watchdog timeout,
process = [chars]
Diese Meldung zeigt an, dass der angegebene Prozess zu lange ausgeführt wurde und der Prozessor nicht verlassen wurde. Das System hat den angegebenen Prozess beendet. Je nach Konfiguration kann dies zu einem Systemabsturz führen. Wenn die Meldung nur einmal auftritt, brauchen Sie keine Maßnahmen zu ergreifen. Wenn es jedoch erneut auftritt, müssen Sie es als Prozess-Watchdog-Zeitüberschreitung behandeln und die erforderlichen Maßnahmen ergreifen.
Zu erfassende Informationen, wenn Sie eine TAC-Serviceanfrage stellen
Wenn Sie nach dem Durchführen der oben genannten Schritte zur Fehlerbehebung weiterhin Unterstützung benötigen und eine Serviceanfrage (nur für registrierte Kunden) beim Cisco TAC eröffnen möchten, stellen Sie sicher, dass Sie die folgenden Informationen angeben: |
- Fehlerbehebung vor dem Öffnen der Serviceanfrage durchgeführt.
- Ausgabe des technischen Supports anzeigen (möglichst im Aktivierungsmodus).
- Zeigt die Protokollausgabe oder Konsolenerfassungen an, falls verfügbar.
- execute-on slot [slot #] show tech für den slot, bei dem die Line Card abstürzte.
- Die Datei crashinfo (falls verfügbar und noch nicht in der Ausgabe show technical-support enthalten).
Hängen Sie die erfassten Daten in nicht gezippter Textform (.txt) an Ihre Serviceanfrage an. Sie können Ihrer Serviceanfrage Informationen hinzufügen, indem Sie sie mit dem TAC Service Request Tool hochladen (nur für registrierte Kunden). Wenn Sie nicht auf das Service Request Tool zugreifen können, können Sie die Informationen in einem E-Mail-Anhang an attach@cisco.com senden, wobei Ihre Service Request-Nummer in der Betreffzeile Ihrer Nachricht angegeben ist. Hinweis: Bevor Sie die oben genannten Informationen erfassen, sollten Sie den Router nicht manuell neu laden oder aus- und wieder einschalten, es sei denn, dies ist erforderlich, um einen Absturz der Linecards auf dem Cisco Internet Router der Serie 12000 zu beheben, da dies dazu führen kann, dass wichtige Informationen verloren gehen, die zur Bestimmung der Ursache des Problems erforderlich sind. |
Zugehörige Informationen