In diesem Dokument wird beschrieben, wie die auf der Cisco Nexus 7000-Plattform gemeldeten Fabric-Fehler behoben werden. Bei der Fehlerbehebung von CRCs (Cyclic Redundancy Checksums) in der Fabric müssen Daten gesammelt, analysiert und eliminiert werden, um die problematische Komponente zu isolieren. In diesem Dokument werden die häufigsten Arten von Fabric CRC-Fehlern behandelt.
Das folgende Diagramm zeigt ein Nexus 7018 Fabric-Modul mit M1-Linecards:
Das vorherige Bild bietet einen Überblick über die Komponenten, die bei der Übertragung eines Pakets durch ein Fabric-Modul involviert sind. Stufe 1 (S1), Stufe 2 (S2) und Stufe 3 (S3) sind die drei Stufen der Nexus 7000-Fabric, Octopus ist die Warteschlangen-Engine, Santa Cruz (SC) ist der Fabric-ASIC, und Instanz 1 und 2 sind die beiden SC-Instanzen auf der XBAR. In diesem Dokument wird nur eine XBAR berücksichtigt. Beachten Sie, dass bei den meisten Nexus Switches der Serie 7000 mindestens drei XBARs installiert sind.
Unter der Annahme, dass ein unidirektionaler Fluss von Modul 1 (M1) zu Modul 2 (M2) vorhanden ist, führt der Eingangs-Octopus-1 auf M1 Fehlerprüfungen bei Paketen durch, die er aus dem Süden und der Ausgangs-Octopus-1 auf M2 aus dem Norden empfängt. Wenn CRC in S3 erkannt wird, kann auch in S1 oder S2 ein Problem aufgetreten sein, da in diesen Stufen keine CRC-Prüfung durchgeführt wird. Die am Pfad beteiligten Geräte sind also der Eingangs-Octopus, das Gehäuse, die Kreuzschienen-Fabric und der Ausgangs-Octopus.
In der M1/Fab1-Architektur werden CRCs nur auf der Ausgangs-Linecard (S3) erkannt.
Beispiel für eine Fehlermeldung:
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
CRC error from MOD 15 through XBAR slot 1/inst 1
Dies wird von M1 gemeldet, was darauf hinweist, dass er Pakete mit der falschen CRC von Modul 15 (M15) über XBAR-Steckplatz 1/Instanz 1 empfangen hat.
In diesem Abschnitt werden vier der häufigsten Arten von Fabric-CRC-Fehlern beschrieben.
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets withDas bedeutet, dass das Modul in Steckplatz 1 einen CRC-Fehler von M15 bis XBAR-Steckplatz 1/Instanz 1 erkannt hat. Das Modul, von dem die CRC-Fehler ausgehen, wird als Eingangsmodul (in diesem Fall M15) bezeichnet, und das Modul, das das Problem gemeldet hat, ist das Ausgangsmodul (M1). XBAR 1 ist die Überkreuzungsleiste, in der das Paket empfangen wurde. Es gibt zwei Instanzen pro XBAR. In diesem Fall erkannte M1 CRC-Fehler von M15 bis XBAR-Steckplatz 1 Instanz 1.
CRC error from MOD 15 through XBAR slot 1/inst 1
%OC_USD-SLOT4-2-RF_CRC: OC2 received packets withIn dieser Meldung meldete Modul 4 (M4) den CRC-Fehler von M1. Beachten Sie, dass die XBAR-Informationen fehlen. Das System kann die XBAR nicht feststellen, durch die das Paket übertragen wurde. Es gibt viele Gründe, aber die häufigsten sind: Die Informationen im Fabric-Header des Pakets sind möglicherweise beschädigt, sodass das Quellmodul nicht bestimmt werden kann. Die durchlaufene XBAR wird aus dem System entfernt, da der Fehler inkrementiert wurde. Daher wurde sie nicht in der stündlichen Syslog-Meldung gemeldet.
CRC error from MOD 1
%OC_USD-2-RF_CRC: OC1 received packets withIn diesem Fall hat ein Gerät einen CRC von Modul 16 (M16) bis XBAR 1 erkannt. Es ist jedoch kein Empfängermodul vorhanden. Wenn der Supervisor (SUP) eine CRC vom Fabric-Modul erkennt, werden die Steckplatzinformationen nicht protokolliert. Wenn keine Steckplatzinformationen angezeigt werden, wurde das Problem von der SUP erkannt. Dies bedeutet nicht, dass die SUP schlecht ist. Genau wie beim Melden des Problems durch das Modul gibt es mehrere Komponenten, die das Problem verursacht haben könnten: M16, das Chassis (nicht so wahrscheinlich), XBAR 1 oder die SUP.
CRC error from MOD 16 through XBAR slot 1/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets withDas Quellmodul wird vom Eingangs-Octopus entnommen, der das fehlerhafte Paket bezogen hat. Der Treiber, der einen Interrupt auslöst, um diese Fehlermeldung zu protokollieren, kennt nicht immer den Eingangs-Octopus, von dem das fehlerhafte Paket stammt. Dies liegt daran, dass einige der Bits verwendet, um den Eingang Octopus darstellen werden nicht verwendet. Wenn das System feststellt, dass mehrere Module mit diesen unbenutzten Bits aktiviert sind, muss es davon ausgehen, dass eines dieser Module die Quelle sein kann, sodass die Fehlermeldung alle diese Module enthält. Das System stellte fest, dass Modul 13 (M13) diesen Konflikt nicht haben kann, da diese Bits nicht verwendet werden. Daher wird es nicht als potenzielle Quelle protokolliert.
CRC error from MOD 11 or 12 or 14 or 15 or 16 or 17 or 18
Neue Linecards (M2) und Fabric-Modul 2 (FAB2) erkennen CRCs in S1, S2 oder S3. Wenn Sie im Detail untersuchen und Muster in den Fehler- und Protokollmeldungen finden, hilft dies, die fehlerhafte Komponente zu isolieren.
Hier sind einige Fragen, die Sie stellen sollten:
Die Antworten auf diese Fragen ermöglichen es Ihnen, das Fehlerbehebungsverfahren aus einem Blickwinkel zu betrachten, der mit größerer Wahrscheinlichkeit zu einer schnelleren Problembehebung führt.
In diesem Abschnitt wird ein allgemeines Framework zur Behebung dieser Probleme beschrieben.
Dieser Abschnitt enthält Beispiele für die Behebung ähnlicher Probleme.
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
Für einige Stunden sind CRC-Fehler auf M1 und Modul 3 (M3) zu beobachten, die nur von Modul 7 (M7) stammen.
Es gibt eine fehlerhafte oder falsch sitzende XBAR, die Pakete beschädigt, die an M7 geleitet werden, oder M7 ist fehlerhaft oder falsch sitzend.
Wenn Sie drei XBARs installiert haben, erhalten Sie N+1-Redundanz. Daher können Sie sie einzeln herunterfahren (niemals mehrere gleichzeitig herunterfahren), und zwar mit nur minimalen Auswirkungen, um zu sehen, ob das Problem behoben ist. Geben Sie die folgenden Befehle ein, um diesen Vorgang abzuschließen:
N7K(config)# poweroff xbar 1
<monitor>
N7K(config)# no poweroff xbar 1
N7K(config)# poweroff xbar 2
<monitor>
N7K(config)# no poweroff xbar 2
N7K(config)# poweroff xbar 3
N7K(config)# no poweroff xbar 3
In dieser speziellen Fallstudie wurde das Problem nicht behoben, als die XBARs heruntergefahren wurden.
Da es zwei Module gibt, die CRC-Fehler melden, ist es unwahrscheinlich, dass diese beiden Module (M1 und M3) die Ursache sind. Der nächste Schritt ist, M7 (Eingangsmodul) wieder einzusetzen, da es sich höchstwahrscheinlich um die fehlerhafte Komponente handelt. Falsch installierte Linecards können dieses Problem verursachen, und es wird empfohlen, das Modul vor dem Austausch wieder einzusetzen.
In dieser Fallstudie nahmen die CRC-Fehler auf dem Fabric-Modul nach dem Wiedereinsetzen von M7 weiter zu. Wenden Sie sich zu diesem Zeitpunkt (oder früher) an das Cisco Technical Assistance Center (TAC), um M7 zu ersetzen, da das Problem durch einen erneuten Einsetzen nicht gelöst wird.
In diesem Anwenderbericht wurden durch den Austausch von M7 die Fabric CRC-Fehlermeldungen gestoppt und der Paketverlust behoben.
%OC_USD-SLOT11-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT12-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT13-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT15-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT2-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT4-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT5-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT7-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT8-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
Mehrere Module melden CRC-Fehler aus Modul 12 (M12), die XBAR 3 durchlaufen.
Die XBAR 3 ist schlecht oder falsch eingesetzt oder die M12 ist falsch eingesetzt oder fehlerhaft.
In diesem Fall wird XBAR 3 mit dem zuvor beschriebenen Verfahren (in der ersten Fallstudie) heruntergefahren und auf weitere Fehler überwacht. Es wurde festgestellt, dass Fehler aufhörten, als XBAR 3 heruntergefahren wurde. An dieser Stelle wird die XBAR 3 wieder eingesetzt, und es wird darauf geachtet, dass keine Pins auf der Midplane verbogen werden und das Modul richtig eingesetzt wird. Nach der erneuten Aktivierung von XBAR 3 tritt das Problem nie wieder auf. Dieses Problem wird auf ein falsch eingesetztes XBAR-Modul zurückgeführt.
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 7 or 13 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with CRC error from
MOD 1 or 2 or 3 or 7 or 15 or 17 through XBAR
slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 5 or 7 or 16 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
Modul 6 (M6) meldet Pakete mit CRC-Fehlern, die von mehreren Linecards und XBARs empfangen wurden.
M6 ist falsch eingesetzt oder schlecht.
M6 ist die wahrscheinlichste Ursache für dieses Problem, da es das einzige gemeinsame Modul in allen Fehlermeldungen ist. Von allen in den Fehlermeldungen aufgelisteten Modulen ist das Modul M6 das konsequenteste. Versuchen Sie daher, M6 erneut einzusetzen, um festzustellen, ob das Problem behoben ist, bevor Sie es ersetzen.
In diesem Fall wird M6 wieder eingesetzt, aber die Fehler bestehen weiter. Sie müssen also ein Cisco TAC-Ticket öffnen, um M6 ersetzen zu lassen. Nach dem Ersetzen von M6 werden die Fehler nicht mehr gemeldet.
Nachfolgend finden Sie eine Liste der zur Fehlerbehebung/Fehlerbehebung verwendeten Befehle:
Überarbeitung | Veröffentlichungsdatum | Kommentare |
---|---|---|
1.0 |
13-Aug-2013 |
Erstveröffentlichung |