In dem Dokumentationssatz für dieses Produkt wird die Verwendung inklusiver Sprache angestrebt. Für die Zwecke dieses Dokumentationssatzes wird Sprache als „inklusiv“ verstanden, wenn sie keine Diskriminierung aufgrund von Alter, körperlicher und/oder geistiger Behinderung, Geschlechtszugehörigkeit und -identität, ethnischer Identität, sexueller Orientierung, sozioökonomischem Status und Intersektionalität impliziert. Dennoch können in der Dokumentation stilistische Abweichungen von diesem Bemühen auftreten, wenn Text verwendet wird, der in Benutzeroberflächen der Produktsoftware fest codiert ist, auf RFP-Dokumentation basiert oder von einem genannten Drittanbieterprodukt verwendet wird. Hier erfahren Sie mehr darüber, wie Cisco inklusive Sprache verwendet.
Cisco hat dieses Dokument maschinell übersetzen und von einem menschlichen Übersetzer editieren und korrigieren lassen, um unseren Benutzern auf der ganzen Welt Support-Inhalte in ihrer eigenen Sprache zu bieten. Bitte beachten Sie, dass selbst die beste maschinelle Übersetzung nicht so genau ist wie eine von einem professionellen Übersetzer angefertigte. Cisco Systems, Inc. übernimmt keine Haftung für die Richtigkeit dieser Übersetzungen und empfiehlt, immer das englische Originaldokument (siehe bereitgestellter Link) heranzuziehen.
Dieses Dokument beschreibt weiche und harte Paritätsfehler, erläutert häufige Fehlermeldungen und empfiehlt Methoden, mit denen Paritätsfehler vermieden oder minimiert werden können. Die jüngsten Verbesserungen beim Hardware- und Software-Design reduzieren ebenfalls Paritätsprobleme.
Was ist ein Paritätsfehler bei Prozessor oder Speicher?
Paritätsprüfung ist das Speichern einer zusätzlichen Binärziffer (Bit), um die Parität (ungerade oder sogar) einer kleinen Menge an Computerdaten (in der Regel ein Byte) darzustellen, während diese Daten im Speicher gespeichert werden. Der aus den gespeicherten Daten berechnete Paritätswert wird dann mit dem endgültigen Paritätswert verglichen. Wenn sich diese beiden Werte unterscheiden, weist dies auf einen Datenfehler hin, und mindestens ein Bit muss aufgrund von Datenbeschädigung geändert worden sein.
Innerhalb eines Computersystems können elektrische oder magnetische Störungen durch interne oder externe Ursachen dazu führen, dass ein einzelnes Bit des Speichers spontan in den entgegengesetzten Zustand wechselt. Dieses Ereignis macht die ursprünglichen Datenbits ungültig und wird als Paritätsfehler bezeichnet.
Diese Speicherfehler können, wenn sie nicht erkannt werden, nicht nachweisbare und unwesentliche Ergebnisse haben oder eine dauerhafte Beschädigung gespeicherter Daten oder einen Systemabsturz verursachen.
Es gibt viele Ursachen für Speicherparitätsfehler, die entweder als Soft Parity-Fehler oder als Hard Parity-Fehler klassifiziert sind.
Die meisten Paritätsfehler werden durch elektrostatische oder magnetische Umgebungsbedingungen verursacht.
Die meisten Einzelereignisfehler in Speicherchips werden durch Hintergrundstrahlung (z. B. Neutronen von kosmischen Strahlen), elektromagnetische Interferenz (EMI) oder elektrostatische Entladung (ESD) verursacht. Diese Ereignisse können den elektrischen Zustand einer oder mehrerer Speicherzellen willkürlich verändern oder den Schaltkreis zum Lesen und Schreiben von Speicherzellen beeinträchtigen.
Diese als weiche Paritätsfehler bezeichneten Ereignisse sind in der Regel vorübergehend oder zufällig und treten in der Regel einmal auf. Weiche Fehler können geringfügig oder schwerwiegend sein:
Softwarefehler werden nicht durch Hardwarefehler verursacht. Sie sind vorübergehend und selten, sind meist ein SEU und werden durch eine Unterbrechung der Speicherdaten in der Umgebung verursacht.
Wenn bei Ihnen Uneinheitlichkeitsfehler auftreten, analysieren Sie die jüngsten Umgebungsänderungen, die am Standort des betroffenen Systems aufgetreten sind. Häufige Quellen von ESD und EMI, die zu weichen Paritätsfehlern führen können, sind:
Andere Paritätsfehler werden durch eine physische Fehlfunktion der Speicherhardware oder durch den Schaltkreis verursacht, der zum Lesen und Schreiben von Speicherzellen verwendet wird.
Hardwarehersteller treffen umfangreiche Maßnahmen, um Hardwarefehler zu verhindern und zu testen. Dennoch sind Mängel möglich; Wenn z. B. eine der Speicherzellen, die zum Speichern von Datenbits verwendet werden, falsch gebildet ist, können sie eine Ladung nicht aufnehmen oder möglicherweise anfälliger für Umgebungsbedingungen sein.
Auch wenn der Speicher selbst normal arbeitet, können physische oder elektrische Schäden am Schaltkreis, der zum Lesen und Schreiben von Speicherzellen verwendet wird, dazu führen, dass Datenbits während der Übertragung geändert werden, was zu einem Paritätsfehler führt.
Diese als schwere Paritätsfehler bezeichneten Ereignisse treten in der Regel sehr häufig und wiederholt auf und treten immer dann auf, wenn der betroffene Speicher oder Schaltkreis verwendet wird. Die genaue Häufigkeit hängt vom Ausmaß der Fehlfunktion und davon ab, wie häufig das beschädigte Gerät verwendet wird.
Denken Sie daran, dass harte Paritätsfehler das Ergebnis einer Hardware-Fehlfunktion sind und immer dann auftreten, wenn die betroffene Komponente verwendet wird.
Wenn bei Ihnen harte Paritätsfehler auftreten, analysieren Sie physische Änderungen am Standort des betroffenen Systems. Häufige Ursachen für Hardware-Fehlfunktionen, die zu schwerwiegenden Paritätsfehlern führen können, sind:
Die Cisco IOS® Software bietet eine Reihe von Paritätsfehlermeldungen, die je nach betroffener Komponente und ihren relativen Auswirkungen auf das System variieren.
Cache-Fehler erkannt! Tatsächlicher Cache-Fehler wurde erkannt. Das System wird angehalten. Fehler: Primärer Instanzcache, Felder: Daten, Fehler bei genauer Datenparität |
|
Erläuterung | Dies ist das Ergebnis eines Paritätsfehlers im Level-2-Cache (statischer Arbeitsspeicher mit wahlfreiem Zugriff oder SRAM), der von der RP- (Route Processor) oder Switch Processor (SP)-CPU der Multilayer Switch Feature Card 3 (MSFC3) verwendet wird. |
Empfehlung | Überwachen Sie das System regelmäßig auf Wiederauftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine Retourengenehmigung (Return Material Authorization, RMA) an, um die Supervisor Engine zu ersetzen, und markieren Sie das Modul für eine Geräteausfallanalyse (EFA). |
%SYSTEM_CONTROLLER-3-FEHLER: Fehlerbedingung erkannt: SYSAD_PARITY_FEHLER | |
Erläuterung | Dies ist das Ergebnis eines Paritätsfehlers in der vom In-Band Controller (IBC) der MSFC3 verwendeten Systemadresse (Datenbus). |
Empfehlung | Überwachen Sie das System regelmäßig auf Wiederauftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine RMA an, um die Supervisor Engine zu ersetzen, und markieren Sie das Modul als EFA. |
%SYSTEM_CONTROLLER-3-FEHLER: Fehlerbedingung erkannt: TM_DATA_PARITY_ERROR | |
Erläuterung | Dies ist das Ergebnis eines Paritätsfehlers in den vom IBC der MSFC3 verwendeten Tabellen-Manager-Daten. |
Empfehlung | Überwachen Sie das System regelmäßig auf Wiederauftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine RMA an, um die Supervisor Engine zu ersetzen, und markieren Sie das Modul als EFA. |
%SYSTEM_CONTROLLER-3-FEHLER: Fehlerbedingung erkannt: TM_NPP_PARITY_ERROR | |
Erläuterung | Dies ist das Ergebnis eines Paritätsfehlers im Tabellenmanager 'next page zeiger', der von der IBC der MSFC3 verwendet wird. |
Empfehlung | Überwachen Sie das System regelmäßig auf Wiederauftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine RMA an, um die Supervisor Engine zu ersetzen, und markieren Sie das Modul als EFA. In den Cisco IOS-Softwareversionen zwischen 12.1(8)E und 12.2(33)SXI3 war das Standardverhalten als Reaktion auf SYSTEM_CONTROLLER-3-FEHLER-Ereignisse das Zurücksetzen der IBC und das Protokollieren einer Fehlermeldung. Diese Korrekturmaßnahme führte jedoch dazu, dass einige dokumentierte Fälle von IBC (und damit CPU) nicht mehr in der Lage waren, Daten zu übertragen oder zu empfangen. Das Verhalten der Cisco IOS-Softwareversionen nach 12.2(33)SXI4 wurde daher geändert, um eine Fehlermeldung zu protokollieren und das System zurückzusetzen. Weitere Informationen finden Sie unter Cisco Bug ID CSCtf51541. |
Unterbrechungsausnahme, CPU-Signal 20, PC = 0x[dec] | |
Erläuterung | Dies ist das Ergebnis eines Single-Bit-Paritätsfehlers im CPU L2-Cache (SRAM) der Cisco Catalyst-Module der Serie 6700. |
Empfehlung | Überwachen Sie das System regelmäßig auf Wiederauftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine RMA an, um das 6700-Modul zu ersetzen, und markieren Sie das Modul für EFA. In Cisco IOS-Softwareversionen vor 12.2(33)SXI5 würde ein Softwarefehler (Cisco Bug ID CSCtj06411) sogar Paritätsfehler in einem Bit verursachen, um das 6700-Modul zurückzusetzen. Dies wurde in Version 12.2(33)SXI6 und 12.2(33)SXJ für die Supervisor Engine 720 und in Version 15.0SY für die Supervisor Engine 2T behoben. |
%SYSTEM_CONTROLLER-3-FEHLER: Fehlerbedingung erkannt: SYSDRAM_PARITY_FEHLER | |
Erläuterung | Dies ist das Ergebnis eines nicht korrigierbaren Paritätsfehlers in den von der MSFC3 verwendeten SDRAM-Speichermodulen (SDRAM). |
Empfehlung | Überwachen Sie das System regelmäßig auf Wiederauftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, reinigen und setzen Sie das DIMM-Modul wieder ein, und fahren Sie mit der Überwachung fort. Wenn der Fehler weiterhin auftritt, fordern Sie eine RMA an, um den DIMM zu ersetzen oder zu aktualisieren. |
%SYSTEM_CONTROLLER-3-COR_MEM_ERR: DRAM-Speicherfehler korrigierbar. Count [dec], log [hex] | |
Erläuterung | Dies ist das Ergebnis eines korrigierbaren Paritätsfehlers im SDRAM (DIMM), der von der MSFC3 verwendet wird. |
Empfehlung | Überwachen Sie das System regelmäßig auf Wiederauftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, reinigen und setzen Sie das DIMM-Modul wieder ein, und fahren Sie mit der Überwachung fort. Wenn der Fehler weiterhin auftritt, fordern Sie eine RMA an, um den DIMM zu ersetzen oder zu aktualisieren. |
%MWAM-DFC[dec]-0-CORRECTABLE_ECC_ERR: Es ist ein korrigierter ECC-Fehler aufgetreten, A_BUS_L2_ERRORS: 0x10000, A_BUS_MEMIO_FEHLER: 0x0, A_SCD_BUS_ERR_STATUS: 0x80983000 | |
Erläuterung | Dies ist das Ergebnis eines Single-Bit-Paritätsfehlers im DRAM, der von Modulen der Serie 6700 verwendet wird. |
Empfehlung | Überwachen Sie das System regelmäßig auf Wiederauftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, reinigen und setzen Sie das DIMM-Modul wieder ein, und fahren Sie mit der Überwachung fort. Wenn der Fehler weiterhin auftritt, fordern Sie eine RMA an, um den DIMM zu ersetzen oder zu aktualisieren. |
%PM_SCP-SP-2-LCP_FW_ERR_INFORM: Beim Modul [dec] tritt der folgende Fehler auf: LTL Parity error detected on Coil #[dec]. | |
Erläuterung | Dies ist das Ergebnis eines Paritätsfehlers im SRAM der Module Cisco Catalyst 6100 und Cisco Catalyst 6300. |
Empfehlung | Überwachen Sie das System regelmäßig auf Wiederauftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine RMA an, um das Modul 6100 oder 6300 zu ersetzen, und markieren Sie das Modul für EFA. |
%SYS-4-SYS_LCPERR4: Modul [dec]: LTL Parity error detected on Coil #[dec] | |
Erläuterung | Dies ist das Ergebnis eines Paritätsfehlers im SRAM der Module der Serien 6100 und 6300. |
Empfehlung | Überwachen Sie das System regelmäßig auf Wiederauftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine RMA an, um das Modul 6100 oder 6300 zu ersetzen, und markieren Sie das Modul für EFA. |
%PM_SCP-SP-2-LCP_FW_ERR_INFORM: Beim Modul [dec] tritt der folgende Fehler auf: Port-ASIC ([name])-Paketpuffer-Fehler an den Ports [dec] erkannt | |
Erläuterung | Dies ist das Ergebnis eines Paritätsfehlers im Port-ASIC-Paketpuffer (SRAM), der von den Cisco Catalyst Ethernet-Modulen der Serie 6148A verwendet wird. |
Empfehlung | Überwachen Sie das System regelmäßig auf Wiederauftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine RMA an, um das 6148A-Modul zu ersetzen, und markieren Sie das Modul für EFA. |
%LTL-SP-2-LTL_PARITY_CHECK: LTL-Paritätsprüfung für 0x[hex] | |
Erläuterung | Dies ist das Ergebnis eines Paritätsfehlers in der Port-ASIC-Port-Index-Tabelle (SRAM), die von den Modulen der Catalyst Serien 6100-6500 und 6700 verwendet wird. |
Empfehlung | Überwachen Sie das System regelmäßig auf Wiederauftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine RMA an, um das Modul zu ersetzen, und markieren Sie das Modul für EFA. |
Eine umfassende Liste von Fehlermeldungen finden Sie in den folgenden Cisco IOS-Softwaredokumenten:
Das Output Interpreter Tool (nur registrierte Kunden) unterstützt bestimmte show-Befehle. Verwenden Sie das Output Interpreter Tool, um eine Analyse der Ausgabe des Befehls show anzuzeigen.
Die Erforschung von Paritätsfehlern ist im Gange, und nicht jedes Szenario kann angegangen werden, aber die Hardware- und Softwareentwicklungsorganisationen der Cisco Catalyst Serie 6500 führen weiterhin neue Wege ein, wie z. B. den Schutz vor Fehlerkorrekturen (ECC), um Paritätsfehler zu minimieren und zu vermeiden.
Während dieses Dokument mit der Diskussion der dritten Generation (WS-XSUP720 und frühen 6700-Serie) von Catalyst 6500-Produkten begann, fasst dieser Abschnitt die Verbesserungen zusammen, die mit der vierten Generation (VS-S720-10G und spätere 6700-Serie) und der fünften Generation (VS-SUP2T-1) eingeführt wurden Serie 6900).
Das VS-S720-10G-Modul verfügt über eine neuere MSFC3-Tochterplatine mit einem neuen IBC und aktualisierten SR7010A RP (Reduced Instruction Set Computing) und SP-CPUs, die jeweils mit 600 Mhz arbeiten. Die Cache-Einheiten der Stufen 1 (L1), L2 und 3 (L3) sind zur Paritätserkennung geeignet. Die neuere IBC verfügt über alle Funktionen der früheren Generation und fügt den angeschlossenen SRAMs ECC-Schutz (Single-Bit-Korrektur, Multi-Bit-Erkennung) hinzu.
Die Module der Serie 6700 unterstützen eine CPU mit ECC-geschütztem L2-Cache (L1-Cache ist Paritätserkennungsfähig), die Single-Bit-Paritätsfehler korrigieren kann, ohne dass ein Zurücksetzen erforderlich ist. Aufgrund der Cisco Bug-ID CSCsz39222 setzt die Version 12.2SXI der Cisco IOS-Software (Supervisor Engine 720) das Modul jedoch trotzdem zurück, wenn ein Paritätsfehler im Single-Bit-CPU-Cache auftritt. Dies wird in den Versionen 12.2SXJ (Supervisor Engine 720) und 15.0SY (Supervisor Engine 2T) der Cisco IOS-Software behoben.
Das VS-SUP2T-10G verfügt über eine neue MSFC5-Tochterplatine mit integriertem IBC und einer neuen Dual-Core-MPC8572 PPC RP-CPU (mit ECC-geschütztem L2- und L3-Cache, L1-Cache ist Paritätserkennungsfähig) mit einer Leistung von 1,5 GHz pro Kern. Er verfügt außerdem über eine neue, separate Out-of-Band Connectivity Management Processor (CMP)-CPU und einen ECC-geschützten DRAM, der auch dann verfügbar ist, wenn die RP-CPU derzeit nicht verfügbar ist.
Die neue IBC verfügt über alle Funktionen früherer Generationen und unterstützt ECC-Schutz für die angeschlossenen SRAMs sowie Verbesserungen bei der Paritätsfehlerbehandlung. Das neue MSFC5 verfügt außerdem über ein Onboard Failure Logging (OBFL)-ROM, das alle Modulinitialisierungs- und Diagnoseereignisse speichert. Das neue Single-CPU-Design reduziert auch die statistische Wahrscheinlichkeit von Paritätsfehlerereignissen.
Die Module der Serie 6900 unterstützen eine neuere CPU mit ECC-geschütztem L1- und L2-Cache, der Single-Bit-Paritätsfehler korrigieren kann, ohne dass eine Rücksetzung erforderlich ist. Die neue Generation unterstützt dasselbe IBC, und die Software-Verarbeitung für Single-Bit-Paritätsfehler-Korrektur wurde integriert.
Das VS-S720-10G mit MSFC3 verfügt über DDR-SDRAM (Double Data Rate) mit ECC-Schutz und arbeitet mit 266 MHz.
Die Module der Serie 6700 unterstützen DDR-SDRAM mit ECC-Schutz und arbeiten mit 266 MHz.
Im Vergleich zum SDR-SDRAM (Single-Data-Rate) ermöglicht die DDR-SDRAM-Schnittstelle höhere Übertragungsraten durch eine strengere Steuerung des Timings der elektrischen Daten und Uhrsignale. Die DDR-Schnittstelle verwendet Doppelpumpen (Datenübertragung an steilen und fallenden Rändern des Uhrensignals), um die Taktfrequenz zu senken. Eine niedrigere Taktfrequenz reduziert die Anforderungen an die Signalintegrität auf der Platine, die den Speicher mit dem Controller verbindet.
Das VS-SUP2T-10G mit MSFC5 bietet DDR3 SDRAM mit ECC-Schutz und arbeitet mit 667 MHz.
Die Module der Serie 6900 unterstützen DDR3 SDRAM mit ECC-Schutz und arbeiten mit 667 MHz.
Der Hauptvorteil des DDR3-SDRAM gegenüber seinen Vorgängern (DDR2 und DDR) besteht in der Möglichkeit, Daten doppelt so schnell zu übertragen (achtmal so schnell wie die internen Speicher-Arrays), was eine höhere Bandbreite oder Spitzendatenraten ermöglicht. Der DDR3-Speicher reduziert den Stromverbrauch um 30 %, obwohl er denselben elektrischen Signalisierungsstandard wie DDR und DDR2 verwendet.
Der VS-S720-10G mit PFC3C verfügt über SRAM-Paketpuffer mit ECC-Schutz. Dies ermöglicht eine Single-Bit-Paritätsfehlerbehebung ohne Modulrücksetzung sowie Multi-Bit-Paritätsfehlererkennung.
Die Serie 6700 mit DFC3C bietet SRAM-Paket-Puffer mit ECC-Schutz. Dies ermöglicht eine Single-Bit-Paritätsfehlerbehebung ohne Modulrücksetzung sowie Multi-Bit-Paritätsfehlererkennung.
Das VS-SUP2T-10G mit PFC4 verfügt über SRAM-Paket-Puffer mit ECC-Schutz. Dies ermöglicht eine Single-Bit-Paritätsfehlerbehebung ohne Modulrücksetzung sowie Multi-Bit-Paritätsfehlererkennung.
Die Serie 6900 mit DFC4 verfügt über SRAM-Paket-Puffer mit ECC-Schutz. Dies ermöglicht eine Single-Bit-Paritätsfehlerbehebung ohne Modulrücksetzung sowie Multi-Bit-Paritätsfehlererkennung.
Die Cisco IOS-Software wurde entwickelt, um ECC-Schutz zu unterstützen. Wenn bei einer Hardwarekomponente, die den ECC-Schutz unterstützt, ein SEU auftritt, sollte der Code die beschädigten Daten korrigieren oder die betroffene Komponente zurücksetzen, ohne dass ein vollständiger Hardware-Reset des betroffenen Moduls erforderlich ist.
In früheren Versionen der Cisco IOS-Software gibt es jedoch einige Ausnahmen, bei denen das Verhalten absichtlich geändert oder aufgrund eines Softwarefehlers fehlerhaft ist. Hier sind zwei bemerkenswerte Ausnahmen.
In Cisco IOS-Softwareversionen zwischen 12.1(8)E und 12.2(33)SXI3 war das Standardverhalten als Reaktion auf SEU SYSTEM_CONTROLLER-3-FEHLER-Ereignisse das Zurücksetzen der IBC und das Protokollieren einer Fehlermeldung. Diese Korrekturmaßnahme führte jedoch dazu, dass einige dokumentierte Fälle von IBC (und damit CPU) nicht mehr in der Lage waren, Daten zu übertragen oder zu empfangen.
Daher wurde das Verhalten nach Version 12.2(33)SXI4 (Cisco Bug ID CSCtf51541) geändert, um eine Fehlermeldung zu protokollieren und das System zurückzusetzen. Obwohl diese Reaktion möglicherweise schwerwiegender erscheint, ist es besser, das System zurückzusetzen und die Speicherstruktur zu korrigieren, als ein nicht reagierendes System zu haben.
Eine derzeit in Entwicklung befindliche Funktion (Cisco Bug ID CSCtr89859) fügt einen neuen CLI-Befehl (Command Line Interface) hinzu, mit dem Sie das Standardverhalten ändern können. Diese Erweiterung gilt vor allem für Systeme, die nur einen Supervisor verwenden und daher keine Supervisor-Redundanz aufweisen.
In Cisco IOS-Softwareversionen vor 12.2(33)SXI5 würde ein Softwarefehler (Cisco Bug ID CSCtj06411) sogar Paritätsfehler in einem Bit verursachen, um das 6700-Modul zurückzusetzen. Dies wäre normalerweise ein korrigierbarer Paritätsfehler und erfordert kein Zurücksetzen des Moduls.
Dieser Fehler wurde in den Versionen 12.2(33)SXI6+ und 12.2SXJ für die Supervisor Engine 720 und in der Version 15.0SY für die Supervisor Engine 2T behoben. Nach einem Upgrade auf die entsprechende Version protokolliert das Modul 6700 einfach eine Fehlermeldung und fährt fort zu arbeiten.
An diesem Punkt haben Sie wahrscheinlich festgestellt, ob Sie einen weichen oder harten Paritätsfehler erhalten haben. Auch wenn ein einzelner Vorfall behoben werden kann, gibt es möglicherweise noch andere Paritätsfehler-Schwachstellen. Daher sollten Sie ein umfassenderes Konzept für Ihr gesamtes Netzwerk verfolgen.
Cisco und der Geschäftsbereich Catalyst 6500 empfehlen daher, diese Abhilfemaßnahmen zu überprüfen und geeignete Korrekturmaßnahmen zu ergreifen, um künftige Paritätsfehler zu vermeiden oder zu reduzieren.
Einzel- (weiche) Paritätsfehler werden durch Umgebungsbedingungen verursacht und können nur einmal (SEU) oder sehr selten (z. B. monatlich oder jährlich) auftreten. Obwohl Sie die Hardware nicht ersetzen müssen, sollten Sie auch zukünftige Vorfälle minimieren.
Diese Best Practices reduzieren die Wahrscheinlichkeit von weichen Paritätsfehlern erheblich.
Cisco empfiehlt, eine Umweltprüfung der betroffenen Netzwerkstandorte durchzuführen. Sie können diese Prüfung selbst oder in Abstimmung mit einem Cisco Vertreter, einem Cisco Team (z. B. Cisco Advanced Services) oder einem externen Berater durchführen.
Die genaue Abdeckung und die Komplexität einer Umweltbetriebsprüfung hängen von vielen verschiedenen Variablen ab, wie z. B. dem geografischen Standort, der Größe und dem Design des Gebäudes und Raums, dem elektrischen Design und der Planung sowie anderen damit zusammenhängenden Faktoren.
Stellen Sie sich vor, welche Umgebungsquellen von ESD und EMI in oder um Ihr Netzwerk vorhanden sind. Dies sind häufige Störungsquellen, die zu weichen Paritätsfehlern führen können:
SEUs können auftreten, wenn sich Stromverteilereinheiten, Stromgeneratoren oder Beleuchtungssysteme zu nahe am Gehäuse befinden oder wenn sich mehrere Netzkabel am Gehäuse oder neben dem Gehäuse befinden.
Es ist wichtig, einen angemessenen Abstand zwischen dem Gehäuse des Catalyst 6500 und diesen elektrischen und magnetischen Quellen zu gewährleisten. Die empfohlenen Entfernungen variieren je nach Komponente und sind in den Komponentendatenblättern verfügbar.
Im Allgemeinen empfiehlt Cisco, Systeme ausfindig zu machen, die mindestens drei bis sechs Zoll von häufig auftretenden elektrischen und magnetischen Interferenzen entfernt sind. Netzkabel sollten möglichst nach unten und weg vom Chassis geroutet werden und nicht in fest verpackten Bündeln oder in großer Anzahl über oder neben dem Chassis angebracht werden.
Stromschwankungen und Spannungsspitzen treten relativ häufig auf, und die Netzteile des Catalyst 6500 wurden für geringfügige Spannungsschwankungen entwickelt.
Für Chassis und Rack muss jedoch eine ordnungsgemäße elektrische Erdung gewährleistet sein, sodass übermäßige Stromspannung vom System weggezogen wird. Ohne geeignete Erdung können Spannungsspitzen in verschiedenen ASICs und Speicherkomponenten zu Schäden oder Fehlfunktionen führen. Weitere Informationen finden Sie im Installationsleitfaden für Catalyst Switches der Serie 6500, Installieren des Switches, Einrichten der Systembasis.
ESD kann kritische Komponenten ohne sichtbare Beeinträchtigung leicht beschädigen. Angemessene Präventivmaßnahmen sollten in die Lab-Betriebspolitiken einbezogen werden, doch werden solche Maßnahmen aufgrund von Zweckmäßigkeit und begrenzter Aufsicht häufig und leider ignoriert.
Cisco empfiehlt, dass Ihr Lab-Betriebsmanagement zusammen mit Cisco Systems eine Umweltprüfung aller Netzwerkbereiche oder zumindest aller Bereiche durchführt, in denen Hardware-Fehler aufgetreten sind oder als geschäftskritisch eingestuft wurden. Nach Abschluss des Audits empfiehlt Cisco die Implementierung einer standardisierten Umgebungs-Checkliste für alle neu installierten Systeme, um zukünftige Paritätsereignisse bei SEU zu vermeiden.
Catalyst-Hardwarekomponenten verwenden Firmware-Code (auch bekannt als Rommon-Code), um Diagnosen zu initialisieren, zu kommunizieren und auszuführen. Sobald diese Funktionen abgeschlossen sind, wird der Systembetrieb an die Cisco IOS-Software übertragen. Es ist nicht üblich, Probleme mit der Firmware zu beobachten, aber es kann Probleme geben, wenn Sie verschiedene Versionen von Firmware-Code für die Supervisor-Geräte und die Module verwenden.
Daher ist es empfehlenswert, sicherzustellen, dass alle Komponenten den neuesten Firmware-Code verwenden, um eine ordnungsgemäße Modulinitialisierung und -kommunikation sicherzustellen. Cisco empfiehlt, dass Ihr Betriebsmanagement eine Netzwerkprüfung durchführt und alle Hardwarekomponenten mit der neuesten Firmware-Version aktualisiert.
Bekannte Firmware-Probleme und Upgrade-Verfahren sind in folgenden Dokumenten dokumentiert:
Laden Sie die neuesten Firmware-Versionen von der Cisco Website herunter:
Alle modularen Netzwerksysteme sind so konzipiert, dass sie in eine Chassis-Backplane mit einer Reihe von Pins für physische Schnittstellen eingesetzt werden können. Die Chassis-Backplane selbst ist im Wesentlichen eine Reihe von miteinander verbundenen Kabeln. Die Pins in jedem Chassis-Steckplatz bilden die physische Datenverbindung zwischen dem Supervisor und den Ethernet-Modulen. Daher ist die korrekte Einfügung und Ausrichtung dieser Pins entscheidend.
Der Catalyst 6500 verfügt über Führungsschienen und Ausrichtstifte, die bei der Installation im Gehäuse hilfreich sind. Die Steckplatz-Pins (Sockel) und Modulsteckverbinder sind so konzipiert, dass sie leicht eingeschaltet werden können und eine elektrische Konnektivität mit hoher Bandbreite ermöglichen. Nach dem Einsetzen in das Gehäuse befinden sich zwei Griffschrauben auf beiden Seiten des Moduls, mit denen die Rückwandplatinen-Pins vollständig befestigt sind. Weitere Informationen finden Sie in der Installationsanleitung für Catalyst Switch der Serie 6500.
Wenn ein Modul ordnungsgemäß in den Steckplatz eingesetzt und die Griffschrauben richtig festgezogen wurden, sind keine Kommunikationsprobleme zu erwarten. Bei der täglichen Einfügung von Modulen können jedoch mehrere Bedingungen auftreten, die zu einer unsachgemäßen oder sogar unvollständigen Einfügung von Pins führen können:
Cisco empfiehlt die Implementierung eines Betriebsmanagementprozesses, bei dem die Verwendung von Griffschrauben auf allen Catalyst 6500-Modulen in Produktionsumgebungen erforderlich ist. Dadurch wird sichergestellt, dass die Rückwandplatinen-Pins ordnungsgemäß und vollständig eingesetzt und ausgerichtet werden können. Künftige Ausfälle aufgrund von Bitfehlern und damit zusammenhängenden Kommunikationsfehlern werden vermieden.
Häufige oder wiederholbare (harte) Paritätsfehler werden durch physische Fehlfunktionen des Speichers oder des zum Lesen und Schreiben verwendeten Schaltkreises verursacht. Ersetzen Sie in solchen Fällen die Hardware, und bitten Sie das Cisco Technical Assistance Center (TAC) oder Ihren Cisco Systems Engineer, eine EFA für die zurückgegebene Hardware durchzuführen.
Diese Best Practices reduzieren die Wahrscheinlichkeit schwerer Paritätsfehler erheblich.
Cisco empfiehlt, eine Netzwerküberprüfung der betroffenen Netzwerkstandorte durchzuführen. Sie können diese Prüfung selbst oder in Abstimmung mit einem Cisco Vertreter, einem Cisco Team (z. B. Cisco Advanced Services) oder einem externen Berater durchführen.
Alle Hardwarekomponenten (von allen Anbietern) unterliegen einer Beeinträchtigung der physischen Integrität. Es ist wichtig, den Lebenszyklus aller Hardwarekomponenten in Ihrem Netzwerk zu verfolgen, um die Wahrscheinlichkeit eines Komponentenausfalls im Laufe der Zeit vollständig zu ermitteln.
Die Hardwarezuverlässigkeit kann mit der mittleren Betriebsdauer zwischen Ausfällen (MTBF) gemessen werden. Da die MTBF nur ein statistischer Durchschnitt ist, bedeutet dies nicht, dass ein Ausfall definitiv am Ende des MTBF-Zeitraums auftreten wird. Die Wahrscheinlichkeit und Anfälligkeit von Komponentenausfällen nimmt jedoch zu, daher sollte diese Hardware zur Aktualisierung markiert werden. Die MTBF-Werte für jedes Catalyst 6500-Produkt finden Sie in den Datenblättern zu Cisco Catalyst Switches der Serie 6500.
Der aggregierte berechnete MTBF-Wert für Catalyst 6500 auf Systemebene beträgt > 7 Jahre.
Neben dem MTBF-Framework bietet Cisco auch ein End-of-Life (EOL)-Framework, das den erwarteten Lebenszyklus eines bestimmten Produkts definiert und entsprechende Ankündigungen bereitstellt, um Sie bei der Aktualisierung Ihrer alten Geräte zu unterstützen. Beachten Sie die End-of-Life- und End-of-Sale-Hinweise für verschiedene ältere Catalyst 6500-Produkte.
Als Ergebnis dieser Hardware-Prüfung empfiehlt Cisco, einen eigenen MTBF- und EOL-Prozess zu implementieren, der Hardware für eine potenzielle Aktualisierung identifiziert und nachverfolgt. Dadurch wird sichergestellt, dass die neueste Hardware ausgeführt wird, und die Wahrscheinlichkeit von Hardwarefehlern wird minimiert.
Die Catalyst 6500-Serie und die Cisco IOS-Software bieten eine GOLD- (Generic Online Diagnostics) und HM-Diagnose (Health Monitoring) für alle im System verwendeten Hardwarekomponenten. Die beiden grundlegenden Diagnosetypen, die aktiviert werden können, sind "On Demand" und "Boot-up". Weitere Informationen finden Sie unter Generic Online Diagnostics für den Cisco Catalyst Switch der Serie 6500.
Cisco empfiehlt, die "vollständige" Startdiagnose für alle Hardwarekomponenten zu aktivieren, um sicherzustellen, dass alle Diagnosetests ausgeführt werden, und um sicherzustellen, dass alle Hardwarekomponenten beim Hochfahren wie erwartet funktionieren.
Cisco empfiehlt außerdem, die regelmäßige bedarfsgesteuerte Diagnose kritischer Infrastrukturkomponenten auf täglicher oder wöchentlicher Basis zu planen. Neben der Diagnose für das Hochfahren, die nur während der Initialisierung durchgeführt wird, stellt die On-Demand-Diagnose sicher, dass die Hardware wie erwartet funktioniert. Weitere Informationen finden Sie im Catalyst 6500 Release 12.2SX Software Configuration Guide, Interface and Hardware Components, Online Diagnostics (Software-Konfigurationsleitfaden, Schnittstellen- und Hardwarekomponenten, Online-Diagnose).
Zusätzlich zu den standardmäßigen On-Demand-Diagnosetests empfiehlt Cisco, diese On-Demand-Diagnosetests zu aktivieren, um proaktiv Speicherkomponenten zu identifizieren, die möglicherweise fehlerhaft sind: