Dieses Dokument enthält Informationen zur Fehlerbehebung bei einem VIP-Absturz (Versatile Interface Processor).
Cisco empfiehlt, dass Sie mit den Problemhinweisen zum Router der Serie 7500 vertraut sind.
Die Informationen in diesem Dokument basieren auf den folgenden Software- und Hardwareversionen:
VIP1
VIP2-10
VIP2-15
VIP2-20
VIP2-40
VIP2-50
FEIP2
GEIP
GEIP+
VIP 4-50
VIP 4-80
VIP6-80
Die Informationen in diesem Dokument wurden von den Geräten in einer bestimmten Laborumgebung erstellt. Alle in diesem Dokument verwendeten Geräte haben mit einer leeren (Standard-)Konfiguration begonnen. Wenn Ihr Netzwerk in Betrieb ist, stellen Sie sicher, dass Sie die potenziellen Auswirkungen eines Befehls verstehen.
Weitere Informationen zu Dokumentkonventionen finden Sie unter Cisco Technical Tips Conventions (Technische Tipps zu Konventionen von Cisco).
Um einen VIP-Absturz zu interpretieren, ist es wichtig, zunächst die grundlegende Architektur des VIP zu verstehen. Die Abbildung in diesem Abschnitt zeigt das funktionale Blockdiagramm des VIP2, das folgende Komponenten enthält:
Orion Reduced Instruction Set Computing (RISC)-CPU und zugehörige Schaltkreise, darunter Dynamic RAM (DRAM), L2-Cache, RENO Application-Specific Integrated Circuit (ASIC) und Boot ROM.
CyBus ASIC: Die Komponente, die Pakete zwischen dem statischen VIP2-RAM (SRAM) und dem Systempaket-Speicher (MEMD) steuert und überträgt. Diese Komponente wird über den CyBus oder CxBus übertragen.
ASIC für den Paketspeicher: Verantwortlich für das Verschieben von Paketen zwischen Port-Adaptern und SRAM.
PCI-Busse (Peripheral Component Interconnect): Datenpfade zwischen den Port-Adaptern und dem VIP2-SRAM.
Bridges (Bridges): Verantwortlich für die Isolierung der einzelnen PCI-Busse der Port-Adapter.
Der VIP2-Mikrocode (Firmware) ist ein Image, das kartenspezifische Softwareanweisungen enthält. Ein programmierbares Read-Only Memory (PROM)-Gerät auf dem VIP2 enthält ein Standard-Microcode-Boot-Image, das das System beim Suchen und Laden des Mikrocode-Images aus dem Cisco IOS®-Softwarepaket oder aus dem Flash-Speicher unterstützt. Das Mikrocode-Boot-Image im PROM initialisiert das VIP2 und hilft dann beim Herunterladen des VIP2-Mikrocode-Image. Alle Schnittstellen desselben Typs laden dasselbe Mikrocode-Image entweder aus dem Cisco IOS-Softwarepaket oder aus dem Flash-Speicher. Obwohl Flash-Speicher mehrere Mikrocodeversionen für einen bestimmten Schnittstellentyp speichern kann, kann beim Start nur ein Bild geladen werden.
Der Befehl show controller cbus zeigt die derzeit geladene und laufende Mikrocodeversion für jeden Schnittstellenprozessor und das VIP2 an. Der Befehl show startup-config zeigt die aktuellen Systemanweisungen zum Laden von Mikrocode beim Start an.
Bei der Fehlerbehebung können Sie die Abbildung in diesem Abschnitt als Anleitung verwenden, um Informationen aus einer VIP-Crashinfo-Datei oder dem Syslog zu lesen. Schauen Sie sich als Beispiel diese Syslog-Ausgabe an, die anzeigt, dass beim Lesen vom VIP-SRAM eine schlechte Parität gefunden wird:
Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 Nevada Error Interrupt Register = 0x2 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PMA error register = 0046000000001000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 Packet Memory Read Parity error !--- Bad parity is found when read from the VIP SRAM. Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PCI master address = 0460000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PA Bay 0 Upstream PCI-PCI Bridge, Handle=0 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 DEC21050 bridge chip, config=0x0 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x00): cfid = 0x00011011 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x04): cfcs = 0x02800147 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x08): cfccid = 0x06040002 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x0C): cfpmlt = 0x00010000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x18): cfsmlt = 0x00010100 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x1C): cfsis = 0x02807020 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x20): cfmla = 0x01F00000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x24): cfpmla = 0x0000FE00 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x3C): cfbc = 0x00030000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x40): cfseed = 0x00000000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x44): cfstwt = 0x00000000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x48): cfswac = 0x00FFFFFF Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x4C): cfpwac = 0x00FFFFFF Apr 29 23:19:26: %VIP2 R5K-1-MSG: slot6 System reloaded by a fatal hardware error
Wie aus den Empfehlungen im nächsten Abschnitt ersichtlich, sollte das VIP in dieser Ausgabe überwacht und der SRAM oder VIP ersetzt werden, wenn wieder ähnliche Abstürze auftreten.
Sie können den Inhalt der Adresse 0x21 in EEPROM in der Ausgabe des Befehls show diag überprüfen, um das Modell eines VIP zu überprüfen. Die Werte, die jedem VIP-Typ entsprechen, werden in der folgenden Tabelle angezeigt:
Wert | VIP | Controller-Typ |
---|---|---|
0 x 14 | VIP1 | VIP-Controller |
0 x 15 | VIP2 (VIP2-10, VIP2-15, VIP2-20, VIP2-40) | VIP2-Controller |
0 x 1 E | VIP2-50 | VIP2 R5K-Controller |
0 x 20 | FEIP2 | FEIP2-Controller |
0 x 21 | GEIP | GEIP-Controller |
0 x 40 | GEIP +* | GEIP+-Controller |
0 x 22 | VIP 4-80 | VIP4-80 RM7000-Controller |
0 x 31 | VIP 4-50 | VIP4-50 RM5271-Controller |
0x4E | VIP6-80 | VIP6-80 RM7000B Controller |
Hinweis: GEIP+ basiert auf VIP4-80. Alle weiteren Informationen in diesem Dokument zum VIP4-80 gelten auch für GEIP+.
Hier ein Beispiel:
Router#show diag 10 Slot 10: Physical slot 10, ~physical slot 0x5, logical slot 10, CBus 0 Microcode Status 0x4 Master Enable, LED, WCS Loaded Board is analyzed Pending I/O Status: None EEPROM format version 1 VIP2 R5K controller, HW rev 2.02, board revision D0 Serial number: 17090200 Part number: 73-2167-05 Test history: 0x00 RMA number: 00-00-00 Flags: cisco 7000 board; 7500 compatible EEPROM contents (hex): 0x20: 01 1E 02 02 01 04 C6 98 49 08 77 05 00 00 00 00 0x30: 68 00 00 01 00 00 00 00 00 00 00 00 00 00 00 00 Slot database information: Flags: 0x4 Insertion time: 0x18C0 (00:29:13 ago) Controller Memory Size: 32 MBytes DRAM, 4096 KBytes SRAM
In dieser Ausgabe sehen Sie, dass es sich bei diesem VIP um ein VIP2-50 handelt.
Der Unterschied zwischen einem VIP2-10, VIP2-15, VIP2-20 und einem VIP2-40 besteht aus der DRAM- und SRAM-Kapazität der einzelnen VIP2-10. Die verschiedenen VIP2s (sofern sie nicht aktualisiert wurden) können in der Ausgabe des Befehls show diag durch die in dieser Tabelle gezeigten Speicherkonfigurationen unterschieden werden:
Arbeitsspeicher | VIP |
---|---|
8 MB DRAM/512 KB SRAM | VIP2-10 |
8 MB DRAM/1 MB SRAM | VIP2-15 |
16 MB DRAM/1 MB SRAM | VIP2-20 |
32 MB DRAM/2 MB SRAM | VIP2-40 |
Die in der Crashinfo-Datei enthaltenen Informationen können sich als unschätzbar erweisen, wenn Sie versuchen, Softwareprobleme zu beheben oder die zugrunde liegende Ursache von Systemabstürzen zu diagnostizieren. Die Crashinfo-Datei enthält nicht nur Protokollierungsinformationen und eine Stapelüberwachung für das VIP, sondern auch umfangreiche Speicher- und Kontextinformationen. Jedes Mal, wenn ein VIP abstürzt, versucht das VIP, eine Crashinfo-Datei in den Bootflash des RSP zu schreiben. Crashinfo-Dateien werden in diesem Format gespeichert:
crashinfo_vip_<slot#>_<data>_<time>
Sie können den Befehl dir ausführen, um VIP-Crashinfo-Dateien zu finden, wie hier gezeigt:
7500a#dir bootflash: Directory of bootflash:/ 1 -rw- 3951876 Jan 01 2000 00:01:22 rsp-boot-mz.111-22.CA 2 -rw- 162641 Jun 21 2000 12:53:40 crashinfo_vip_0_20000621-125340 3 -rw- 162778 Jun 21 2000 13:00:10 crashinfo_vip_0_20000621-130010 7602176 bytes total (3324492 bytes free) 7500a#
Dieser Bootflash des Routers enthält zwei VIP-Crashinfo-Dateien. Geben Sie die show file oder mehrere Befehle aus, um den Inhalt dieser Dateien gemäß diesem Verfahren anzuzeigen und zu erfassen:
Beginnen Sie mit der Anmeldung bei Ihrem Terminalprogramm.
Geben Sie den Befehl term length 0 ein.
Geben Sie den Befehl more bootflash:<crashinfo filename> ein.
Speichern Sie die Ausgabe in einer Datei.
Unter Abrufen von Informationen aus der Crashinfo-Datei finden Sie weitere Informationen zum Arbeiten mit Crashinfo-Dateien.
Wenn Sie die Ausgabe eines Befehls zum Anzeigen des technischen Supports (im Aktivierungsmodus) von Ihrem Cisco Gerät erhalten haben, können Sie um potenzielle Probleme und Bugfixes anzuzeigen. Sie müssen ein registrierter Kunde sein, angemeldet sein und JavaScript aktivieren, damit Sie sie verwenden können. .
VIP-Abstürze werden je nach Ursache des Absturzes in mehrere Kategorien eingeteilt. Jedes Mal, wenn ein nicht behebbarer Fehler gefunden wird, stürzt das VIP ab. Diese Fehler können auf Paritätsfehler, Software oder Hardware zurückzuführen sein, die dazu führen, dass eine negative Bestätigungsmeldung (NACK) auf dem CyBus vorhanden ist, oder auf Softwareprobleme. Dieser Abschnitt enthält Informationen zu jedem dieser Fehlertypen.
Wenn Sie die Ausgabe eines Befehls zum Anzeigen des technischen Supports (im Aktivierungsmodus) von Ihrem Cisco Gerät erhalten haben, können Sie um potenzielle Probleme und Bugfixes anzuzeigen. Sie müssen ein registrierter Kunde sein, angemeldet sein und JavaScript aktivieren, damit Sie sie verwenden können. .
Paritätsfehler treten auf einem VIP auf, wenn die Hardware versucht, die Gültigkeit von Daten zu überprüfen, indem sie berechnete Paritätswerte mit vorherigen Paritätswerten für dieselben Daten vergleicht. Ein Einzel-Bit-Flip der Daten kann zu einem Paritätsfehler führen. Wenn Sie Paritätsfehler in einem VIP diagnostizieren, ist es wichtig, jeden Speicherort zu verstehen, an dem die Parität überprüft wird und an dem Paritätsfehler auftreten können. Dieses Diagramm zeigt diese Informationen. Weitere Informationen zu Paritätsfehlern finden Sie unter Cisco 7500 VIP Fault Tree Analysis (Cisco 7500 VIP-Fehlerstrukturanalyse).
Wie in diesem Diagramm gezeigt, gibt es sieben verschiedene Arten von Paritätsfehlern, die in einem VIP auftreten können. Beachten Sie, dass Fehler von einer anderen Quelle empfangen werden können und möglicherweise nicht vom VIP selbst stammen. Der Paritätsfehler kann vom Route/Switch Processor (RSP), einem anderen VIP oder von schlecht sitzenden oder fehlerhaften Port-Adaptern verursacht werden. Um einen VIP-Absturz richtig zu verstehen, ist es wichtig, die Ursache des Absturzes zu diagnostizieren.
Es ist auch wichtig zu verstehen, dass Daten mit schlechter Parität von mehreren Paritätsprüfgeräten auf dem VIP und dem Cisco Router der Serie 7500 für jeden einzelnen Lese- oder Schreibvorgang gemeldet werden können. Wenn das VIP beispielsweise ein Paket in einer Übertragungs-Warteschlange im RSP in seinen eigenen SRAM liest und ein Paritätsfehler im SRAM des RSP vorliegt, werden Fehlermeldungen vom MD ASIC im RSP, vom CYA ASIC im VIP und auch vom PCI-/Paket-ASIC im VIP angezeigt.
Dieses Diagramm zeigt die Fehlerbaumanalyse für VIP-Abstürze:
VIP4-50, VIP4-80 und VIP6-80 verwenden Single-Bit-Fehlerkorrektur und Double-Bit-Fehlererkennungsfehlercode-Korrektur (ECC) für CPU-Speicher und Paketspeicher. Beide sind Synchronous Dynamic RAM (SDRAM). Ein einzelner Bit-Fehler im SDRAM wird korrigiert, und das System funktioniert weiterhin normal.
Multibit-Paritätsfehler in den Zahlen 2 oder 3 in dieser Tabelle sind ein schwerwiegendes Ereignis, das zu ECC-Multibit-Fehlern führt. Der interne CPU-Cache und die Busse im System verwenden Single-Bit-Paritätserkennung. Wie hier gezeigt, unterscheiden sich die VIP4- und VIP6-Architektur von denen des VIP2. Aus diesem Grund werden einige Fehlermeldungen nicht angezeigt, und andere Fehlermeldungen werden anders als auf dem VIP2 gemeldet. In diesem Abschnitt zu Paritätsfehlern werden Unterschiede zwischen VIP2, VIP4 und VIP6 gekennzeichnet und erläutert.
Cache-Paritätsfehler-Ausnahmen treten auf, wenn eine fehlerhafte Parität in der CPU oder im primären Datencache festgestellt wird. Der Paritätsfehler kann im VIP-DRAM, im DRAM-Controller, im primären Cache oder in der CPU selbst aufgetreten sein. Paritätsfehler, die an diesem Ort festgestellt werden, werden auch als Paritätsfehler (PMPEs) im Prozessorspeicher bezeichnet. Diese Fehler führen zu einem sofortigen Absturz des VIP, und die Ausgabe sieht sowohl bei VIPs als auch bei RSPs ähnlich aus. Ein sig-Wert von zwanzig (sig=20) gibt an, dass eine Cache-Paritätsfehler-Ausnahme aufgetreten ist. Der sig-Wert wird in den Systemprotokollmeldungen für den Absturz angezeigt.
Der aktuelle Code stellt auch eine aussagekräftige ausführliche ausführliche Zeile bereit, wie hier gezeigt:
Oct 21 00:11:14.913: %VIP2-1-MSG: slot0 System reloaded by a Cache Parity Exception Oct 21 00:11:14.913: %VIP2-1-MSG: slot0 System Reload called from 0x60125C8C, context=0x60220930 Oct 21 00:11:14.913: %VIP2-1-MSG: slot0 System exception: sig=20, code=0x20025B69, context=0x60220930
Die in der VIP-Crashinfo-Datei enthaltenen Informationen weisen auch auf dieselbe Paritätsfehlerposition im primären Datencache hin:
Error: primary data cache, fields: data, virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000 virtual address corresponds to main:data, cache word 0 Low Data High Data Par Low Data High Data Par L1 Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89 2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8 Low Data High Data Par Low Data High Data Par Mem Data: 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89 2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
Ein primärer Cache oder PMPE kann ein vorübergehender Fehler sein. Wenn dies die erste Instanz eines PMPE ist, können Sie diese in der Regel sicher ignorieren. Wenn jedoch dasselbe VIP eine zweite oder folgende PMPEs aufweist, sollten Sie das VIP ersetzen. Manchmal kann auch der Austausch des DRAM selbst das Problem beheben.
VIP4 and VIP6 Note (VIP4- und VIP6-Hinweis): Paritätsfehler, die im internen CPU-Cache und in der CyAssist auftreten, werden als Cache-Paritätsfehler-Ausnahmen erkannt. Paritätsfehler einzelner Bit im CPU-Speicher werden korrigiert, und es müssen keine Maßnahmen ergriffen werden. Multi-Bit-Paritätsfehler im CPU-Speicher werden als Procmem ecc Multi-Bit-Paritätsfehler erkannt. Der CPU-Speicher im VIP sollte ausgetauscht werden, wenn ein Paritätsfehler für ein ecc-Multi-Bit-System gemeldet wird.
Oct 25 09:30:54.708: %VIP4-50 RM5271-1-MSG: slot4 PMA error register1 00000000 00002000 Oct 25 09:30:54.716: %VIP4-50 RM5271-1-MSG: slot4 Procmem ECC multi-bit error Oct 25 09:30:54.724: %VIP4-50 RM5271-1-MSG: slot4 PCI1 master address 00000000 Oct 25 09:30:54.732: %VIP4-50 RM5271-1-MSG: slot4 PCI1 slave address 00000000 Oct 25 09:30:54.740: %VIP4-50 RM5271-1-MSG: slot4 Latched Addresses Oct 25 09:30:54.748: %VIP4-50 RM5271-1-MSG: slot4 Procmem ECC multi-bit exception addr 22220000 025F0860 Oct 25 09:30:54.756: %VIP4-50 RM5271-1-MSG: slot4 Procmem ECC multi-bit exception data 00000000 00000000 Oct 25 09:30:54.764: %VIP4-50 RM5271-1-MSG: slot4 MPU addr exception/WPE address 00000000 00000000 Oct 25 09:30:54.772: %VIP4-50 RM5271-1-MSG: slot4 MPU WPE addr/WPE data 00000000 00000000 Oct 25 09:30:54.780: %VIP4-50 RM5271-1-MSG: slot4 ProcMem addr exception 0 0000000 Oct 25 09:30:54.788: %VIP4-50 RM5271-1-MSG: slot4 Pakmem addr exception 00000000 Oct 25 09:31:15.824: %VIP4-50 RM5271-1-MSG: slot4 System reloaded by a fatal hardware error Oct 25 09:31:15.836: %VIP4-50 RM5271-1-MSG: slot4 caller=0x600BCE18 Oct 25 09:31:15.844: %VIP4-50 RM5271-1-MSG: slot4 System exception: sig22, code 0x0, context=0x60615F28
Wenn ein VIP vom MEMD im RSP heruntergeladen wird und diese Fehler auftreten, weist dies in der Regel darauf hin, dass ein anderes VIP eine schlechte Parität zum MEMD geschrieben oder das MEMD beschädigt hat. Wenn die Quelle vom MEMD stammt und sie weiterläuft, müssen Sie den RSP ersetzen. Umgekehrt sollten Sie, wenn die Quelle für die schlechte Parität ein anderes VIP ist, das VIP, das die schlechte Parität schreibt, wieder einsetzen und ggf. ersetzen.
%VIP2-1-MSG: slot1 Nevada Error Interrupt Register 0x3 %VIP2-1-MSG: slot1 CYASIC Error Interrupt register 0x2020000C %VIP2-1-MSG: slot1 Parity Error internal to CYA %VIP2-1-MSG: slot1 Parity Error in data from CyBus !--- Bad parity is received by the VIP from the CyBus. %VIP2-1-MSG: slot1 CYASIC Other Interrupt register 0x200100 %VIP2-1-MSG: slot1 QE HIGH Priority Interrupt %VIP2-1-MSG: slot1 CYBUS Error register 0xD001A02, PKT Bus Error register 0x0 %VIP2-1-MSG: slot1 PMA error register = 0070000440000000 %VIP2-1-MSG: slot1 Packet Bus Write Parity error !--- The bad parity that was received from the CyBus is written to SRAM. %VIP2-1-MSG: slot1 PCI master address = 0700004 %VIP2-1-MSG: slot1 PA Bay 0 Upstream PCI-PCI Bridge, Handle=0 %VIP2-1-MSG: slot1 DEC21050 bridge chip, config=0x0 %VIP2-1-MSG: slot1 (0x00): cfid = 0x00011011 %VIP2-1-MSG: slot1 (0x04): cfcs= 0x02800147 %VIP2-1-MSG: slot1 (0x08):cfccid = 0x06040002 %VIP2-1-MSG: slot1 (0x0C):cfpmlt = 0x00010000 %VIP2-1-MSG: slot1 (0x18): cfsmlt = 0x00010100 %VIP2-1-MSG: slot1 (0x1C): cfsis = 0x22807020 %VIP2-1-MSG: slot1 Received Master Abort on secondary bus %VIP2-1-MSG: slot1 (0x20): cfmla = 0x01F00000
Hinweis: VIP4 und VIP6 zeigen die gleichen Fehlermeldungen über den Paritätsfehler von CyBus an, aber die Meldung Paritätsfehler beim Schreiben von Paketbus wird nicht angezeigt.
Sowohl Paritätsfehler des DRAM-Controllers als auch Fehler bei der Eingabe/Ausgabe (E/A)-Parität werden vom RENO ASIC erkannt. Ein Paritätsfehler, der vom DRAM oder vom DRAM-Controller ausgeht, wird als Paritätsausnahme im Cache gemeldet. Ein vom E/A-Controller erkannter Paritätsfehler wird gemeldet, wie in dieser Ausgabe gezeigt. Paritätsfehler, die vom I/O-Controller gemeldet wurden, sind häufig von einem anderen Standort verursacht worden und werden vom E/A-Controller zusätzlich zu Meldungen von anderen Standorten gemeldet.
Feb 17 23:03:04 cst: %VIP2 R5K-1-MSG: slot0 Reno read parity error - bytes 0 & 1 Feb 17 23:03:04 cst: %VIP2 R5K-1-MSG: slot0 PMA error register = 0080004000001000 Feb 17 23:03:04 cst: %VIP2 R5K-1-MSG: slot0 Packet Memory Read Parity error
Hinweis: Die VIP4 und VIP6 zeigen diese Fehlermeldung nicht an.
Der PMA ASIC meldet bei jedem Lesen eines Paritätsfehlers im Paketspeicher (SRAM) des VIP einen Paritätsfehler. Dieser Fehler wird wie hier gezeigt im Systemprotokoll gemeldet:
Oct 30 05:18:06.120: %VIP2-1-MSG: slot9 Nevada Error Interrupt Register = 0x22 Oct 30 05:18:06.120: %VIP2-1-MSG: slot9 PCI bus 0 parity error Oct 30 05:18:07.120: %VIP2-1-MSG: slot9 PMA error register = 4080103C00004000 Oct 30 05:18:07.120: %VIP2-1-MSG: slot9 PCI Transmit Parity error Oct 30 05:18:08.120: %VIP2-1-MSG: slot9 Packet Memory Read Parity error
In der VIP-Crashinfo-Datei sind auch Hinweise auf einen Paritätsfehler beim Lesen des Pakets im Speicher zu finden:
Nevada Error Interrupt Register = 0x2 PMA error register = 0046000000001000 Packet Memory Read Parity error PCI master address = 0460000
SRAM-Paritätsfehler können ebenfalls vorübergehend sein. Behandeln Sie das erste Ereignis daher genauso wie DRAM-Paritätsfehler. Wenn die Fehler weiterhin bestehen, ersetzen Sie den SRAM oder das VIP.
VIP4- und VIP6-Hinweis: Paritätsfehler im Paketspeicher mit einem Bit werden korrigiert. Multi-Bit-Paritätsfehler im Paketspeicher werden als Paritätsfehler für mehrere Bit erkannt. Der VIP-Paketspeicher sollte ausgetauscht werden, wenn ein Paritätsfehler in ecc-Multi-Bit-Paketen gemeldet wird.
%VIP4-80 RM7000-1-MSG: slot1 PMA error register0 = 0000000000002000 %VIP4-80 RM7000-1-MSG: slot1 Pakmem ECC multi-bit error %VIP4-80 RM7000-1-MSG: slot1 PCI0 master address = 00000000 %VIP4-80 RM7000-1-MSG: slot1 PCI0 slave address = 00000000 %VIP4-80 RM7000-1-MSG: slot1 PMA error register1 = 0000000000000000 %VIP4-80 RM7000-1-MSG: slot1 PCI1 master address = 00000000 %VIP4-80 RM7000-1-MSG: slot1 PCI1 slave address = 00000000 %VIP4-80 RM7000-1-MSG: slot1 Latched Addresses %VIP4-80 RM7000-1-MSG: slot1 Pakmem ECC multi-bit exception addr = 00012358 000000CA %VIP4-80 RM7000-1-MSG: slot1 Pakmem ECC multi-bit exception data = 00000000 00040800 %VIP4-80 RM7000-1-MSG: slot1 MPU addr exception/WPE address = 00000000 00000000 %VIP4-80 RM7000-1-MSG: slot1 MPU WPE addr/WPE data = 00000000 00000000 %VIP4-80 RM7000-1-MSG: slot1 ProcMem addr exception = 00000000 %VIP4-80 RM7000-1-MSG: slot1 Pakmem addr exception = 00000000
Der PMA ASIC meldet bei jedem Schreiben eines Paritätsfehlers in den Paketspeicher einen Paketbus-Schreibfehler. In diesem Beispiel ist das VIP nur der Messenger und das Problem besteht nicht mit dem Speicher dieses VIP.
May 10 09:22:14.520: %VIP2-1-MSG: slot11 PMA error register = 2080002800800200 May 10 09:22:15.520: %VIP2-1-MSG: slot11 Packet Bus Write Parity error
Hinweis: Die VIP4 und VIP6 zeigen diese Fehlermeldung nicht an.
Paritätsfehler können in PCI-Bussen 1 und 2 erkannt werden, die beide direkt mit den Port-Adaptern verbunden sind. Diese Busse werden von einem dritten PCI-Bus, Bus 0, überbrückt, auf dem auch Paritätsfehler erkannt werden können. Paritätsfehler, die von einem der PCI-Busse ausgehen, werden in der Regel durch schlecht sitzende oder fehlerhafte Port-Adapter verursacht. Jedes Mal, wenn diese Meldungen in der Syslog-Ausgabe eines VIP-Absturzes angezeigt werden, müssen Sie den Port-Adapter wieder einsetzen, um das Problem zu beheben.
PCI bus <num> parity error PCI bus <num> system error Detected Parity Error on secondary bus
Wenn das Problem durch das Wiedereinsetzen des Port-Adapters nicht gelöst werden kann, liegt das Problem entweder beim Port-Adapter oder beim VIP. Setzen Sie den Port-Adapter in einen anderen Schacht ein, und setzen Sie einen zweiten Port-Adapter in den ursprünglichen Schacht ein, um eine Fehlerbehebung vorzunehmen. Dies verweist in der Regel auf die fehlerhafte Hardware. Ein Beispiel ist hier dargestellt:
Mar 16 19:34:54: %GEIP-1-MSG: slot9 Nevada Error Interrupt Register = 0x6 Mar 16 19:34:54: %GEIP-1-MSG: slot9 PCI bus 0 system error Mar 16 19:34:54: %GEIP-1-MSG: slot9 PMA error register = 0080043800100000 Mar 16 19:34:54: %GEIP-1-MSG: slot9 PCI IRDY time-out Mar 16 19:34:54: %GEIP-1-MSG: slot9 PCI master address = 0800438 Mar 16 19:34:54: %GEIP-1-MSG: slot9 PA Bay 0 Upstream PCI-PCI Bridge, Handle=0
Hinweis: Bei VIP4 und VIP6 treten dieselben Fehler auf, die Fehlermeldung ist jedoch anders. Er wird als Paritätsfehler für PCI-Master und als Paritätsfehler für PCI-Slave erkannt. Führen Sie die gleichen Schritte wie bei VIP PCI Bus Parity Errors aus, um dieses Problem zu beheben.
00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PMA error register0 = 0000000001800000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI Master Parity error 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI Slave Parity error 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI0 master address = 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI0 slave address = 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PMA error register1 = 0000000000000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI1 master address = 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI1 slave address = 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 Latched Addresses 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 MPU addr exception/WPE address = 00000000 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 MPU WPE addr/WPE data = 00000000 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 ProcMem addr exception = 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 Pakmem addr exception = 00000000
Paritätsfehler können auch vom VIP in den Daten oder der Adresse eines Lese- oder Schreibvorgangs auf dem CyBus erkannt werden. In diesem Fall wird die Syslog-Ausgabe ähnlich wie folgt angezeigt:
CYASIC Error Interrupt register 0x2020000C Parity Error internal to CYA Parity Error in data from CyBus
Verwenden Sie diese Informationen in Verbindung mit den Informationen in den Systemprotokollen, um die tatsächliche Fehlerquelle zu ermitteln.
Hinweis: VIP4 und VIP6 zeigen die gleichen Fehlermeldungen für Paritätsfehler bei CyBus an.
Wenn der VIP versucht, in eine ungültige Adresse in MEMD zu schreiben, platziert der RSP eine NACK auf dem CyBus für diesen Steckplatz. Dies ist in der Regel ein Softwareproblem, kann aber auch ein Hardwareproblem sein. In dieser Ausgabe schreibt der VIP beispielsweise 4 Byte in eine ungültige Adresse, sodass der RSP eine NACK für diesen Steckplatz im CyBus platziert.
%RSP-3-ERROR: CyBus0 error 10 %RSP-3-ERROR: command/address mismatch %RSP-3-ERROR: bus command write 4bytes (0xE) %RSP-3-ERROR: address offset (bits 3:1) 0 %RSP-3-ERROR: virtual address (bits 23:17) 000000 %VIP2-1-MSG: slot5 Nevada Error Interrupt Register = 0x1 %VIP2-1-MSG: slot5 CYASIC Error Interrupt register 0x20000003 %VIP2-1-MSG: slot5 Missing ACK on CyBus access %VIP2-1-MSG: slot5 NACK present on CyBus access %VIP2-1-MSG: slot5 CYASIC Other Interrupt register 0x0 %VIP2-1-MSG: slot5 CYBUS Error register 0x8001C48, PKT Bus Error register 0x0 %VIP2-1-MSG: slot5 System reloaded by a fatal hardware error %VIP2-1-MSG: slot5 caller=0x60126C44 %VIP2-1-MSG: slot5 System exception: sig=22, code=0x0, context=0x60265C68
Wie in dieser Ausgabe gezeigt, platziert der RSP jedoch auch eine NACK auf einem VIP, um eine schlechte Parität in das MEMD zu schreiben.
CYASIC Error Interrupt register 0x1B Parity Error in data from Packet Bus Parity Error internal to CYA Missing ACK on CyBus access NACK present on CyBus access
Wenn auf allen Steckplätzen eine NACK angezeigt wird, wie in dieser Ausgabe gezeigt, handelt es sich um einen Hardwarefehler. Der Schiedsrichter ist defekt und der Kartenträger muss ersetzt werden.
Jan 1 23:55:21: %FEIP2-1-MSG: slot0 Nevada Error Interrupt Register =0x1 Jan 1 23:55:21: %FEIP2-1-MSG: slot0 CYASIC Error Interrupt register0x20000001 Jan 1 23:55:21: %FEIP2-1-MSG: slot0 NACK present on CyBus access Jan 1 23:55:21: %FEIP2-1-MSG: slot0 CYASIC Other Interrupt register 0x0 Jan 1 23:55:21: %FEIP2-1-MSG: slot0 CYBUS Error register 0x8001A00, PKTBus Error register 0x0 Jan 1 23:55:21: %VIP2-1-MSG: slot2 Nevada Error Interrupt Register = 0x1 Jan 1 23:55:21: %VIP2-1-MSG: slot2 CYASIC Error Interrupt register 0x20000001 Jan 1 23:55:21: %VIP2-1-MSG: slot2 NACK present on CyBus access Jan 1 23:55:21: %VIP2-1-MSG: slot2 CYASIC Other Interrupt register 0x0 Jan 1 23:55:21: %VIP2-1-MSG: slot2 CYBUS Error register 0x800006A, PKT Bus Error register 0x0 Jan 1 23:55:21: %VIP2-1-MSG: slot5 Nevada Error Interrupt Register = 0x1 Jan 1 23:55:21: %VIP2-1-MSG: slot5 CYASIC Error Interrupt register 0x20200001 Jan 1 23:55:21: %VIP2-1-MSG: slot5 NACK present on CyBus access Jan 1 23:55:21: %VIP2-1-MSG: slot5 CYASIC Other Interrupt register 0x200000 Jan 1 23:55:21: %VIP2-1-MSG: slot5 CYBUS Error register 0x800006C, PKT Bus Error register 0x0 Jan 1 23:55:21: %FEIP2-1-MSG: slot8 Nevada Error Interrupt Register = 0x1 Jan 1 23:55:21: %FEIP2-1-MSG: slot8 CYASIC Error Interrupt register 0x20000001 Jan 1 23:55:21: %FEIP2-1-MSG: slot8 NACK present on CyBus access Jan 1 23:55:21: %FEIP2-1-MSG: slot8 CYASIC Other Interrupt register 0x0 Jan 1 23:55:21: %FEIP2-1-MSG: slot8 CYBUS Error register 0x8001B80, PKT Bus Error register 0x0 Jan 1 23:55:21: %FEIP2-1-MSG: slot10 Nevada Error Interrupt Register = 0x1 Jan 1 23:55:21: %FEIP2-1-MSG: slot10 CYASIC Error Interrupt register 0x20000001 Jan 1 23:55:21: %FEIP2-1-MSG: slot10 NACK present on CyBus access Jan 1 23:55:21: %FEIP2-1-MSG: slot10 CYASIC Other Interrupt register 0x0 Jan 1 23:55:21: %FEIP2-1-MSG: slot10 CYBUS Error register 0x8001C08, PKT Bus Error register 0x0 Jan 1 23:55:21: %VIP2-1-MSG: slot2 System reloaded by a fatal hardware error Jan 1 23:55:21: %VIP2-1-MSG: slot2 caller=0x6012640C Jan 1 23:55:21: %VIP2-1-MSG: slot2 System exception: sig=22, code=0x0, context=0x60265028
VIP-Abstürze, die nicht durch einen der Gründe in diesem Dokument verursacht werden, sind in der Regel auf andere Softwareprobleme zurückzuführen. Diese Abstürze können auf verschiedene Weise auftreten. Dies sind allgemeine Vorschläge, um das Risiko von VIP-Abstürzen aufgrund von Softwareproblemen zu reduzieren und sie gegebenenfalls zu beheben:
Stellen Sie immer sicher, dass das Cisco IOS Software-Image das VIP unterstützt.
Bewahren Sie das RSP-BOOT-Image und das Cisco IOS-Software-Image immer auf derselben Version auf.
Stellen Sie sicher, dass die VIP-Konfiguration und der Port-Adapter von der aktuellen Version der Cisco IOS-Software unterstützt werden.
In den Versionshinweisen finden Sie Informationen zur korrekten Cisco IOS-Softwareebene und zu den Speicheranforderungen.
Dies ist ein Beispiel für eine Systemprotokollausgabe eines VIP-Absturzes aufgrund eines Softwareproblems:
Apr 18 17:13:33.884: %VIP2 R5K-1-MSG: slot0 System reloaded by a Bus Error exception Apr 18 17:13:33.892: %VIP2 R5K-1-MSG: slot0 caller=0x600BC974 Apr 18 17:13:33.900: %VIP2 R5K-1-MSG: slot0 System exception: sig=10, code=0x408, context=0x605B51E0 Apr 18 17:13:33.912: %VIP2 R5K-1-MSG: slot0 $0 : 00000000, AT : 605B0000, v0 : 00000001, v1 : FFFFFFFC, Apr 18 17:13:33.924: %VIP2 R5K-1-MSG: slot0 a0 : 00000002, a1 : 6042CEE0, a2 : 00000000, a3 : 6112FEC4, Apr 18 17:13:33.936: %VIP2 R5K-1-MSG: slot0 t0 : 00000053, t1 : 3400FF01, t2 : 00000000, t3 : FFFFFFFF, Apr 18 17:13:33.948: %VIP2 R5K-1-MSG: slot0 t4 : 600BC9B0, t5 : 000000F8, t6 : 00000000, t7 : 00000002, Apr 18 17:13:33.956: %VIP2 R5K-1-MSG: slot0 s0 : 0C58BA24, s1 : 00000064, s2 : 6112C7AC, s3 : 60560000, Apr 18 17:13:33.964: %VIP2 R5K-1-MSG: slot0 s4 : 60560000, s5 : 00000001, s6 : 6041433C, s7 : 60414310, Apr 18 17:13:33.972: %VIP2 R5K-1-MSG: slot0 t8 : 00008945, t9 : 00000000, k0 : 607F6CA0, k1 : 00000200, Apr 18 17:13:33.980: %VIP2 R5K-1-MSG: slot0 gp : 6056AFC0, sp : 6112FEC0, s8 : 60414460, ra : 6026EC4C, Apr 18 17:13:33.988: %VIP2 R5K-1-MSG: slot0 EPC : 6026EAA0, ErrorEPC : 800086B8, SREG : 3400FF03 Apr 18 17:13:33.996: %VIP2 R5K-1-MSG: slot0 Cause 00000408 (Code 0x2) Apr 18 17:13:34.004: %VIP2 R5K-1-MSG: slot0 Traceback= 6026EAA0 6026E2E8 6009BAF4 6009BAE0 Apr 18 17:13:35.012: %DBUS-3-DBUSINTERRSWSET: Slot 0, Internal Error due to VIP crash
Die möglicherweise wichtigste Information, die Sie im Falle eines Softwareproblems erhalten können, ist die Crashinfo-Datei für das VIP. Anweisungen zum Erfassen dieser Informationen finden Sie im Abschnitt VIP Crashinfo File abrufen.
Das VIP stürzt häufig ab, und wenn Sie die Crash-Info-Datei überprüfen, sehen Sie möglicherweise die folgende Meldung:
00:00:11: %LINK-3-UPDOWN: Interface POS1/0, changed state to up IOBUS Error Interrupt Status register 0x0 Unexpected exception, CPU signal 10, PC = 0x602A7660 -Traceback= 602A7660 602AB238
Die Fehlermeldung CPU-Signal 10 bedeutet einen Busausnahmefehler. Busfehler können entweder Software- oder Hardware-Probleme sein. Die Lösung für dieses Problem besteht darin, das Modul wieder einzusetzen und den Router zu überwachen. Wenn das Modul nach dem erneuten Einsetzen des Moduls immer wieder abstürzt, wenden Sie sich an das TAC Case Open Tool (nur registrierte Kunden) mit der Crash-Info-Datei.
Es empfiehlt sich, eine VIP-Absturzübersichtsdatei mit diesen Informationen zu erstellen, bevor Sie ein Ticket öffnen. Integrieren Sie diese Informationen im Feld Problembeschreibung des TAC Case Open Tools (nur registrierte Kunden) .
Beschreibung des Problems
Ausgabe des Befehls show version
Ausgabe des Befehls show diag slot [x]
Crashinfo-Dateiauszug
Syslog-Auszug
Sammeln Sie dann die zu erfassenden Informationen, wenn Sie einen TAC-Fall öffnen.
Dies ist ein Beispiel für eine Crash-Summary-Datei:
******problem description.. VIP crashed with parity errors. The parity errors are being read by the SRAM, suspect the PA! ******show version Cisco Internetwork Operating System Software IOS (tm) GS Software (RSP-PV-M), Version 11.1(29)CC1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) V111_29_CC_THROTTLE_BRANCH Synced to mainline version: 11.1(29)CA Copyright (c) 1986-1999 by cisco Systems, Inc. Compiled Wed 13-Oct-99 02:21 by sharpd Image text-base: 0x60010910, data-base: 0x60832000 ROM: System Bootstrap, Version 11.1(8)CA1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) ROM: GS Software (RSP-BOOT-M), Version 11.1(29)CC1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) attga711c7 uptime is 27 weeks, 11 minutes System restarted by reload at 00:49:05 UTC Sun Oct 24 1999 System image file is "slot0:rsp-pv-mz.111-29.CC1", booted via slot0 Host configuration file is "cbb/al/ar-2", booted via tftp from 199.37.184.170 cisco RSP4 (R5000) processor with 262144K/2072K bytes of memory. R5000 processor, Implementation 35, Revision 2.1 (512KB Level 2 Cache) Last reset from power-on G.703/E1 software, Version 1.0. G.703/JT2 software, Version 1.0. X.25 software, Version 2.0, NET2, BFE and GOSIP compliant. Chassis Interface. 3 VIP2 R5K controllers (3 ATM). 3 ATM network interfaces. 123K bytes of non-volatile configuration memory. 20480K bytes of Flash PCMCIA card at slot 0 (Sector size 128K). 8192K bytes of Flash internal SIMM (Sector size 256K). ******show diag slot 6 Slot 6: Physical slot 6, ~physical slot 0x9, logical slot 0, CBus 0 Microcode Status 0x4 WCS Loaded Board is disabled analyzed wedged Pending I/O Status: None EEPROM format version 1 VIP2 R5K controller, HW rev 2.02, board revision C0 Serial number: 12639078 Part number: 73-2167-05 Test history: 0x00 RMA number: 00-00-00 Flags: cisco 7000 board; 7500 compatible EEPROM contents (hex): 0x20: 01 1E 02 02 00 C0 DB 66 49 08 77 05 00 00 00 00 0x30: 60 00 00 01 00 00 00 00 00 00 00 00 00 00 00 00 Slot database information: Flags: 0x295 Insertion time: 0x3AA4 (27w0d ago) Controller Memory Size: 128 MBytes DRAM, 8192 KBytes SRAM PA Bay 0 Information: ENHANCED ATM OC3 PA (MM), 1 port EEPROM format version 1 HW rev 2.00, Board revision A0 Serial number: 12366362 Part number: 73-2430-04 1 crash since restart. Last crash context (Apr 29 2000 23:19:26): Nevada Error Interrupt Register = 0x2 PMA error interrupt PMA Error Register = 0046000000001000 Packet Memory Read Parity error PCI master address = 0460000 $0 : 00000000, AT : 60179244, v0 : 601D337C, v1 : 0000AAAA a0 : 604CF3E0, a1 : 604C8180, a2 : 00001182, a3 : 00000050 t0 : 00000800, t1 : 4E90424C, t2 : 00000001, t3 : 6014A620 t4 : 6016E220, t5 : 000000F8, t6 : 00000000, t7 : 00000000 s0 : 321735CC, s1 : 6052B508, s2 : 604C8180, s3 : 604CF3E0 s4 : 3226C120, s5 : 604D1440, s6 : 00000002, s7 : 00000CED t8 : 34000000, t9 : 603C9930, k0 : 00000000, k1 : 00000002 gp : 60337700, sp : 603C0350, s8 : 00000001, ra : 601476E8 EPC : 601D337C, ErrorEPC : 800086B8, SREG : 3400E103 Cause 00000000 (Code 0x0): Interrupt exception Traceback= 0x601D337C 0x601476E8 0x6014A674 ******excerpt from crashinfo Nevada Error Interrupt Register = 0x2 PMA error register = 0046000000001000 Packet Memory Read Parity error PCI master address = 0460000 ******excerpt from syslog Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 Nevada Error Interrupt Register = 0x2 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PMA error register = 0046000000001000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 Packet Memory Read Parity error Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PCI master address = 0460000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PA Bay 0 Upstream PCI-PCI Bridge, Handle=0 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 DEC21050 bridge chip, config=0x0 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x00): cfid = 0x00011011 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x04): cfcs = 0x02800147 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x08): cfccid = 0x06040002 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x0C): cfpmlt = 0x00010000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x18): cfsmlt = 0x00010100 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x1C): cfsis = 0x02807020 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x20): cfmla = 0x01F00000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x24): cfpmla = 0x0000FE00 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x3C): cfbc = 0x00030000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x40): cfseed = 0x00000000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x44): cfstwt = 0x00000000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x48): cfswac = 0x00FFFFFF Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x4C): cfpwac = 0x00FFFFFF Apr 29 23:19:26: %VIP2 R5K-1-MSG: slot6 System reloaded by a fatal hardware error
Wenn Sie nach der Durchführung der Fehlerbehebungsschritte in diesem Dokument weiterhin Hilfe benötigen und ein Ticket beim technischen Support von Cisco eröffnen möchten, geben Sie folgende Informationen an: |
---|
Hinweis: Wenn möglich, sollten Sie den Router nicht manuell neu laden oder ein- und ausschalten, bevor Sie diese Informationen erfassen, da dadurch wichtige Informationen verloren gehen können, die zur Ermittlung der Ursache des Problems erforderlich sind. |
Überarbeitung | Veröffentlichungsdatum | Kommentare |
---|---|---|
1.0 |
02-Oct-2006 |
Erstveröffentlichung |