Ce document décrit comment résoudre les erreurs de fabric signalées dans la plate-forme Cisco Nexus 7000. Le dépannage des sommes de contrôle de redondance cyclique (CRC) du fabric implique la collecte de données, l'analyse des données et un processus d'élimination afin d'isoler le composant problématique. Ce document couvre les types les plus courants d'erreurs CRC du fabric.
Voici le schéma général d'un module de fabric Nexus 7018 avec des cartes de ligne M1 :
L'image précédente donne une vue d'ensemble des composants impliqués lorsqu'un paquet traverse un module de fabric. Les étapes 1 (S1), 2 (S2) et 3 (S3) sont les trois étapes du fabric Nexus 7000, Octopus est le moteur de file d'attente, Santa Cruz (SC) est l'ASIC du fabric et les instances 1 et 2 sont les deux instances SC du XBAR. Ce document ne considère qu'un seul XBAR. N'oubliez pas que la plupart des commutateurs de la gamme Nexus 7000 sont équipés d'au moins trois XBAR.
En supposant qu'un flux unidirectionnel du module 1 (M1) vers le module 2 (M2) est présent, l'Octopus-1 d'entrée sur M1 effectue des contrôles d'erreur sur les paquets qu'il reçoit du sud et l'Octopus-1 de sortie sur M2 du nord. Si CRC est détecté dans S3, un problème peut également s’être produit dans S1 ou S2, car aucune vérification CRC n’est effectuée dans ces étapes. Ainsi, les périphériques impliqués dans le chemin sont l'Octopus d'entrée, le châssis, la structure à barres croisées et l'Octopus de sortie.
Dans l'architecture M1/Fab1, les CRC sont détectés uniquement sur la carte de ligne de sortie (S3).
Voici un exemple de message d'erreur :
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
CRC error from MOD 15 through XBAR slot 1/inst 1
Ceci est signalé par M1, qui indique qu'il a reçu des paquets avec le mauvais CRC du Module 15 (M15) via le logement XBAR 1/instance 1.
Cette section décrit quatre des types les plus courants d'erreurs CRC de fabric.
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets withCela signifie que le module dans le logement 1 a détecté une erreur CRC de M15 à logement XBAR 1/instance 1. Le module d'où proviennent les erreurs CRC est appelé module d'entrée (M15 dans ce cas), et le module qui a signalé le problème est le module de sortie (M1). XBAR 1 est la barre transversale dans laquelle le paquet a été reçu. Il y a deux instances par XBAR. Dans ce cas, M1 a détecté des erreurs CRC de M15 à l'instance 1 du logement XBAR 1.
CRC error from MOD 15 through XBAR slot 1/inst 1
%OC_USD-SLOT4-2-RF_CRC: OC2 received packets withDans ce message, le module 4 (M4) a signalé l'erreur CRC de M1. Notez que les informations XBAR sont manquantes. Le système n'est pas en mesure de déterminer le XBAR que le paquet a traversé. Il existe de nombreuses raisons, mais les plus courantes sont : Les informations dans l'en-tête de fabric du paquet peuvent être corrompues, de sorte que le module source ne peut pas être déterminé ; le XBAR qui a été traversé est supprimé du système depuis l'incrémentation de l'erreur. Par conséquent, il n'a pas été signalé dans le message syslog horaire.
CRC error from MOD 1
%OC_USD-2-RF_CRC: OC1 received packets withDans ce cas, un périphérique a détecté un CRC du module 16 (M16) via XBAR 1. Il n'y a cependant pas de module récepteur. Lorsque le superviseur (SUP) détecte un CRC provenant du module de fabric, les informations de logement ne sont pas consignées. Lorsque vous ne voyez pas d'informations sur le logement, le SUP a détecté le problème. Cela ne signifie pas que le SUP est mauvais. Tout comme lorsque le module signale le problème, plusieurs composants peuvent être à l'origine du problème : M16, le châssis (moins probable), XBAR 1 ou le SUP.
CRC error from MOD 16 through XBAR slot 1/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets withLe module source est glané à partir de l'Octopus d'entrée qui est à l'origine du mauvais paquet. Le pilote qui déclenche une interruption afin de consigner ce message d'erreur ne connaît pas toujours l'Octopus d'entrée d'où provient le mauvais paquet. En effet, certains des bits utilisés pour représenter la pieuvre d'entrée ne sont pas utilisés. Si le système détermine que ces bits inutilisés sont activés sur plusieurs modules, il doit supposer que l'un d'entre eux peut être la source, ce qui entraîne l'inclusion de tous ces modules dans le message d'erreur. Le système a constaté que le module 13 (M13) ne peut pas avoir ce conflit parce que ces bits ne sont pas utilisés ; par conséquent, il n'est pas consigné comme source potentielle.
CRC error from MOD 11 or 12 or 14 or 15 or 16 or 17 or 18
Les nouvelles cartes de ligne (M2) et le module de fabric 2 (FAB2) détectent les CRC dans S1, S2 ou S3. Lorsque vous examinez en détail et que vous trouvez des modèles dans les messages d'échec et de journal, cela permet d'isoler le composant défectueux.
Voici quelques questions à se poser :
Les réponses à ces questions vous permettent d'aborder la procédure de dépannage sous un angle qui est plus susceptible de conduire à une résolution plus rapide.
Cette section établit un cadre général utilisé afin de résoudre ces problèmes.
Cette section fournit des exemples de dépannage de problèmes similaires.
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
Pendant quelques heures, des erreurs CRC sont observées sur M1 et le module 3 (M3) qui proviennent du module 7 (M7) uniquement.
Il y a un XBAR défectueux ou mal positionné qui corrompt les paquets dirigés vers M7, ou M7 est défectueux ou mal positionné.
Si vous avez installé trois XBAR, cela vous donne une redondance N+1. Par conséquent, vous pouvez les arrêter un par un (n'arrêtez jamais plus d'un à un moment donné) avec seulement un impact minimal afin de voir si le problème est résolu. Entrez ces commandes afin de terminer ce processus :
N7K(config)# poweroff xbar 1
<monitor>
N7K(config)# no poweroff xbar 1
N7K(config)# poweroff xbar 2
<monitor>
N7K(config)# no poweroff xbar 2
N7K(config)# poweroff xbar 3
N7K(config)# no poweroff xbar 3
Dans cette étude de cas particulière, le problème n'a pas été résolu lorsque les XBAR ont été arrêtés.
Comme deux modules signalent des erreurs CRC, il est peu probable que ces deux modules (M1 et M3) en soient la cause. L'étape suivante consiste à réinstaller M7 (module d'entrée), car il s'agit très probablement du composant défectueux. Des cartes de ligne mal insérées peuvent causer ce problème et il est recommandé de réinstaller le module avant de le remplacer.
Dans cette étude de cas, les erreurs CRC ont continué à augmenter sur le module de fabric après une réinstallation de M7. Contactez le centre d'assistance technique Cisco (TAC) à ce stade (ou avant ce stade) afin de remplacer M7 car une réinstallation ne résout pas le problème.
Dans cette étude de cas, le remplacement de M7 a arrêté les messages d'erreur CRC du fabric et résolu la perte de paquets.
%OC_USD-SLOT11-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT12-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT13-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT15-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT2-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT4-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT5-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT7-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT8-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
Plusieurs modules signalent des erreurs CRC du module 12 (M12) qui passent par XBAR 3.
XBAR 3 est mal positionné ou mal positionné, ou M12 est mal positionné ou mal positionné.
Dans ce cas, XBAR 3 est arrêté selon la procédure décrite précédemment (dans la première étude de cas) et surveillé pour détecter d'autres erreurs. Il a été constaté que les erreurs ont cessé lorsque XBAR 3 a été arrêté. À ce stade, XBAR 3 est réinstallé et il faut veiller à ce qu'aucune broche ne soit pliée sur le fond de panier central et que le module soit correctement inséré. Une fois que XBAR 3 est réactivé, le problème ne se reproduit jamais. Ce problème est dû à un module XBAR mal positionné.
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 7 or 13 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with CRC error from
MOD 1 or 2 or 3 or 7 or 15 or 17 through XBAR
slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 5 or 7 or 16 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
Le module 6 (M6) signale les paquets avec des erreurs CRC reçues de plusieurs cartes de ligne et XBAR.
M6 est mal positionné ou mal positionné.
M6 est la cause la plus probable de ce problème, car il s'agit du seul module courant dans tous les messages d'erreur. De tous les modules répertoriés dans les messages d'erreur, celui qui apparaît le plus régulièrement est M6. Par conséquent, essayez de réinstaller M6 afin de voir si le problème est résolu avant de le remplacer.
Dans ce cas, M6 est réinstallé, mais les erreurs persistent. Vous devez donc ouvrir un dossier Cisco TAC pour que M6 soit remplacé. Une fois M6 remplacé, les erreurs ne sont pas signalées.
Voici une liste des commandes utilisées afin de dépanner/déboguer :
Révision | Date de publication | Commentaires |
---|---|---|
1.0 |
13-Aug-2013 |
Première publication |