Ce document explique comment dépanner les pannes et les dépassements de délai des requêtes ping de fabric sur le routeur Internet de la gamme Cisco 12000. Ces échecs sont signalés par les messages d'erreur suivants :
%GRP-3-FABRIC_UNI: Unicast send timed out (3)
et
%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)
Pour plus d'informations sur les conventions des documents, référez-vous aux Conventions utilisées pour les conseils techniques de Cisco.
Aucune condition préalable spécifique n'est requise pour ce document.
Les informations de ce document sont basées sur la version matérielle ci-dessous.
Routeurs Internet de la gamme Cisco 12000
Les informations présentées dans ce document ont été créées à partir de périphériques dans un environnement de laboratoire spécifique. All of the devices used in this document started with a cleared (default) configuration. Si vous travaillez dans un réseau opérationnel, assurez-vous de bien comprendre l'impact potentiel de toute commande avant de l'utiliser.
Le GRP et les cartes de ligne (LC) du routeur Internet de la gamme Cisco 12000 se connectent via une structure de commutation à barre transversale, qui fournit un chemin physique à haut débit pour la plupart des communications entre cartes. Parmi les messages transmis entre le protocole GRP et les cartes de ligne sur le fabric de commutation figurent les paquets réels acheminés et reçus, les informations de transfert, les statistiques de trafic et la plupart des informations de gestion et de contrôle. Par conséquent, il est important que le protocole GRP s’assure que ce chemin fonctionne correctement.
Les requêtes ping de fabric sont l'une des quatre applications qui s'exécutent entre le protocole GRP et le fabric de commutation. La communication entre processeurs (IPC), les paquets réseau et les téléchargements de code sont les autres. Les requêtes ping de fabric sont mises en oeuvre pour fournir une partie d'un algorithme de détection des pannes et d'un mécanisme de maintien en vie mis en oeuvre à l'aide de tampons sur le bus de maintenance (MBUS) et de requêtes ping via les interfaces de fabric de carte de ligne.
Les pilotes de l'interface de fabric CSAR (Cisco Cell Segmentation and Reassembly) du protocole GRP gèrent les messages qui doivent être envoyés et reçus entre le fabric de commutation et le protocole GRP. Cela inclut les requêtes ping de fabric. Les requêtes ping de fabric sont générées par le logiciel et sont envoyées du protocole GRP principal à chaque carte de ligne toutes les six secondes. Chaque fois qu'une carte de ligne reçoit une requête ping du protocole GRP, le LC renvoie une réponse au protocole GRP. Si le GRP ne reçoit aucune réponse à cinq requêtes ping de fabric consécutives (durée totale de 30 secondes), il déclare la carte de ligne morte et la réinitialise via le bus de maintenance (MBUS).
La plupart du temps, la carte de ligne est simplement trop occupée pour répondre aux requêtes ping de fabric du protocole GRP. Ces échecs de ping de fabric peuvent également être causés par un fabric défectueux ou un bogue dans le logiciel Cisco IOS®. Toutes les causes possibles des pannes de ping de fabric sont détaillées dans la section de dépannage ci-dessous.
Les délais d'expiration des requêtes ping de fabric se produisent lorsque le processeur de routage Gigabit (GRP) détecte qu'une requête ping est coincée dans la file d'attente ToFab (vers la matrice de commutation) du circuit intégré spécifique à l'application Cisco CSAR (Cell Segmentation and Reassembly). Cet ASIC est chargé de découper les paquets dans les cellules Cisco avant de les envoyer via la matrice de commutation à la carte de ligne de sortie (LC).
Les échecs de ping de fabric se produisent lorsqu'une carte de ligne ou le GRP secondaire ne répond pas à une requête ping de fabric provenant du GRP principal sur le fabric de commutation. De telles défaillances sont un symptôme problématique qui doit être étudié.
Comme expliqué dans la section Arrière-plan, le protocole GRP envoie une requête ping de fabric aux cartes de ligne toutes les six secondes, et les cartes de ligne doivent répondre. Lorsque le GRP ne reçoit pas de réponse à cinq requêtes ping de fabric consécutives, il réinitialise la carte de ligne en envoyant un message de requête via le bus de maintenance (MBUS) et signale un plantage logiciel, comme le montre la sortie de la commande show context slot {#}.
À partir des journaux de console ou de la commande show log, vous pouvez obtenir les messages d'erreur suivants avant le message d'échec de la requête ping de fabric :
%GRP-3-FABRIC_UNI: Unicast send timed out (3) %GRP-3-FABRIC_UNI: Unicast send timed out (3) %GRP-3-FABRIC_UNI: Unicast send timed out (3)
où le nombre (3) représente le logement de la carte de ligne vers lequel le GRP principal a tenté d'envoyer une requête ping de fabric.
Ce message indique qu'un paquet est coincé dans la file d'attente ToFab de l'ASIC CSAR sur le GRP principal. Si un élément est bloqué dans l'une des deux mémoires tampon CSAR pendant plus de 100 millisecondes (ms), la mémoire tampon est vidée et un message d'expiration est généré.
Si le protocole GRP envoie son message de requête ping de fabric, mais que la carte de ligne ne répond pas ou que la carte de ligne répond mais que la structure du commutateur est défectueuse, il perd le message, ce message ne s'affiche pas avant le message d'échec de la requête ping de fabric. Par conséquent, si vous recevez le message d'erreur "%GRP-3-FABRIC_UNI », cela signifie que quelque chose n'a pas pu être transmis à un emplacement sur le fabric pendant 100 ou 200 ms. Il se peut qu'en raison de %GRP-3-FABRIC_UNI, vous ne puissiez pas envoyer les keepalives au LC et que vous finissiez avec une défaillance de la requête ping de fabric après, dans ce cas, 30 secondes. Cependant, vous pouvez obtenir des échecs de requêtes ping de fabric sans "%GRP-3-FABRIC_UNI » et vice versa.
Le GRP principal peut déterminer qu'une carte de ligne ou un GRP secondaire s'est dégradé au point qu'un vidage de coeur de diagnostic est approprié. À ce stade, le protocole GRP envoie un message via le MBUS à la carte de ligne et demande au processeur de la carte de ligne de se bloquer, afin d'obtenir un vidage du coeur.
%LCINFO-3-CRASH: Line card in slot 3 crashed %GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)
La carte de ligne crée le vidage principal s'il est configuré avec les commandes crashinfo d'exception et associées (voir Configuration d'un vidage principal sur une carte de ligne GSR pour des informations spécifiques à GSR sur la configuration des virements principaux). La chaîne de qualification dans la sortie de la commande show context slot {#} indique la raison du rechargement. En cas de défaillance d'une requête ping de fabric, la raison est toujours « crash forcé par logiciel ».
CRASH INFO: Slot 1, Index 1, Crash at 00:42:45 KST Mon Mar 12 2001 VERSION: GS Software (GLC1-LC-M), Version 12.0(18)ST, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) TAC Support: http://www.cisco.com/tac Compiled Thu 09-Aug-01 22:06 by nmasa Card Type: 2 Ports OC3 Channelized to DS1/E1 , S/N CAT00400500 System exception: sig=23, code=0x24, ! --- SIG=23 indicates a software-forced crash. context=0x41303B04 System restarted by a Software forced crash STACK TRACE: -Traceback= 400C3970 400C1F90 40815D5C 407D3144 400C7488
Une fois la carte de ligne arrêtée, il envoie un message initial pour notifier le protocole GRP principal. Le GRP attend ensuite que la carte de ligne envoie d'autres informations sur le crash via le MBUS. Le protocole GRP doit recevoir toutes les informations dans les quelques millisecondes qui suivent la réception du premier message de la carte de ligne. Dans le cas peu probable où les messages d'informations de panne suivants ne sont pas reçus par le GRP dans un délai raisonnable (10 secondes), le GRP imprime un message d'erreur et indique au reste du logiciel GRP que la carte de ligne s'est écrasée.
Pendant le fonctionnement normal du routeur, le protocole GRP principal envoie continuellement des requêtes ping aux cartes de ligne et les cartes de ligne répondent. Toute défaillance de la commande ping est le symptôme d’un autre problème à étudier. Ces problèmes sont notamment les suivants :
Remarque : Si l'échec peut être reproduit, configurez aucun service de réinitialisation automatique sur le protocole GRP. Cette commande désactive un rechargement de la carte de ligne lors de la prochaine défaillance de la commande de fabric ping et vous permet de vous connecter à la carte de ligne à l'aide de la commande attachement <slot#> pour capturer les commandes show pertinentes.
La raison la plus probable pourrait être un bogue du logiciel Cisco IOS dans lequel un processus désactive les interruptions assez longtemps pour manquer cinq requêtes ping de fabric consécutives. Essayez de mettre à niveau la dernière version du logiciel Cisco IOS de votre train pour éviter les problèmes résolus. Pour obtenir de l'aide sur la mise à niveau, reportez-vous à la zone Cisco Download Software.
La carte de ligne peut exercer une contre-pression pendant trop longtemps, de sorte que le planificateur ne permet pas la réception d'aucun trafic à partir de la matrice de commutation. Ce symptôme suggère un problème de congestion d’interface. Utilisez les commandes suivantes pour confirmer ces symptômes :
show controller frfab queue sur la carte de ligne. Recherchez une file d'attente libre non IPC avec peu ou pas de tampons disponibles.
show controllers csar queue sur le protocole GRP. Recherchez des valeurs non nulles pour « Longueur max. » et « Longueur max. » pour égales à la valeur « Longueur », comme indiqué dans l'exemple suivant :
router#show controllers csar queue 1190 Free Q Slot Length Max Length 0 0 7 1 0 2 2 70 70 ! -- CSAR queue for slot 2 is building and reaching max length. 3 0 2 4 0 3 5 0 0 ...
Le CSAR met en file d’attente jusqu’à 50 paquets vers une carte de ligne de destination. Après 50 paquets, seuls les paquets ping de fabric sont mis en file d'attente. Si la limite de file d'attente passe ensuite à 70, le CSAR arrête de mettre tous les paquets en file d'attente, y compris les requêtes ping de fabric, sur la carte de ligne. Le protocole GRP et toutes les cartes de ligne ont des tampons de segmentation CSAR de 64 000 pour stocker les messages. Si ces tampons sont occupés, le routeur utilise une file d'attente logicielle pour stocker les messages. Il définit également un minuteur pour s'assurer que les messages ping de fabric ne restent pas trop longtemps dans cette file d'attente.
Utilisation élevée du CPU sur la carte de ligne - Généralement observée lors du recalcul d'une grande table CEF (Cisco Express Forwarding) après un changement massif de table de routage ou après un battement de liaison et une réinitialisation de session BGP (Border Gateway Protocol). Le processeur peut également être élevé lors de la commutation du trafic dans le logiciel. Cela se produit principalement sur les cartes de ligne Engine 0 où la plupart des fonctionnalités sont mises en oeuvre dans le logiciel. Si c'est le cas, vous pouvez vérifier la configuration de la carte de ligne et supprimer les fonctionnalités qui pourraient affecter le processeur sur le LC du moteur 0. Une utilisation élevée du CPU peut également être due à un bogue. Déterminez l'utilisation du processeur à l'aide de la commande execute-on slot <slot#> show proc cpu ou execute-on slot <slot#> show tech si la commande précédente n'est pas prise en charge dans la version du logiciel Cisco IOS exécutée sur le routeur. Envisagez la mise à niveau vers la dernière version du logiciel Cisco IOS de votre train pour contourner les problèmes connus.
La carte de ligne est à court de mémoires tampon IPC (Inter-Process Communication), qui sont utilisées pour échanger des messages de contrôle entre les cartes de ligne et le protocole GRP. Reportez-vous aux étapes de dépannage dans Dépannage des messages d'erreur CEF. Si votre dépannage signale un problème avec IPC, assurez-vous que votre routeur Internet de la gamme Cisco 12000 exécute au moins la version 12.0(18)S du logiciel Cisco IOS. Cette version a introduit une taille par défaut de 5000 pour le cache IPC afin d'améliorer sa stabilité et son évolutivité.
Problème matériel sur la carte de ligne. Il est important de noter que moins de 10 % des échecs de requêtes ping de fabric sont dus à un problème matériel. Avant de contacter le centre d'assistance technique de Cisco pour demander un matériel de remplacement, procédez comme suit :
Recherchez les messages d'expiration IPC imprimés avant l'échec de la requête ping de fabric. Voir aussi la section IPC ci-dessous.
Réinsérez la carte de ligne.
Mettez le routeur hors tension puis sous tension.
Si vous n'avez pas d'accès physique au routeur, exécutez la commande hw-module slot <slot #> reload pour effectuer un rechargement manuel de la carte de ligne.
Le coeur du routeur Internet de la gamme Cisco 12000 est le circuit de matrice de commutation, qui fournit des interconnexions de vitesse Gigabit synchronisées pour les cartes de ligne et le GRP. Le circuit de matrice de commutation contient deux types de cartes :
Cartes d'horloge et de planificateur (CSC)
Cartes de matrice de commutation (SFC)
Si l'une de ces cartes échoue, les messages ping ne peuvent plus traverser le fabric. Dans ce cas, vous devriez également voir d'autres messages pointant vers le fabric défectueux, tels que :
%FABRIC-3-CRC: Switch card 18
Utilisez la commande show controllers fia pour déterminer si vous avez un CSC ou une SFC défectueux. Utilisez la commande execute-on all show controllers fia pour capturer le résultat de toutes les cartes de ligne. Comparez le résultat du protocole GRP avec le résultat des cartes de ligne pour déterminer si une carte de matrice de commutation défectueuse doit être remplacée.
L'exemple de sortie suivant montre un problème avec sfc0 dans le logement 18. Essayez d'abord de réinstaller cette carte, puis demandez un remplacement si le compteur d'erreurs crc16 continue à s'incrémenter.
Router#show controllers fia Fabric configuration: Full bandwidth redundant Master Scheduler: Slot 17 From Fabric FIA Errors ----------------------- redund FIFO parity 0 redund overflow 0 cell drops 1 crc32 lkup parity 0 cell parity 0 crc32 0 Switch cards present 0x001F Slots 16 17 18 19 20 Switch cards monitered 0x001F Slots 16 17 18 19 20 Slot: 16 17 18 19 20 Name: csc0 csc1 sfc0 sfc1 sfc2 -------- -------- -------- -------- -------- Los 0 0 0 0 0 state Off Off Off Off Off crc16 0 0 4334 0 0 ! --- Check the CRCs under SFC0 (slot 18) To Fabric FIA Errors ----------------------- sca not pres 0 req error 0 uni FIFO overflow 0 grant parity 0 multi req 0 uni FIFO undrflow 0 cntrl parity 0 uni req 0 crc32 lkup parity 0 multi FIFO 0 empty DST req 0 handshake error 0 cell parity 0
Dans certains rapports d’échec de la requête ping de fabric, le routeur a signalé des messages d’erreur CRC (Cycles Redundancy Check) avant l’échec. Vérifiez les CRC sur les cartes de matrice de commutation en utilisant la commande show controllers fia sur le GRP et la commande execute-on all show controllers fia sur les cartes de ligne. Les erreurs CRC sur le protocole GRP uniquement (et non sur aucune carte de ligne) pointent vers un protocole GRP défectueux. Essayez d'abord de réinstaller le protocole GRP, puis demandez un remplacement si les erreurs CRC continuent à s'incrémenter.
Les problèmes liés au logiciel IPC (Inter-Process Communication) exécuté entre le GRP et les cartes de ligne ont été résolus dans diverses versions du logiciel Cisco IOS Version 12.0S. Dans ce cas, vous devriez voir certains messages d'erreur liés à IPC dans le journal, ainsi que des messages de délai d'expiration de la requête ping de fabric. Essayez d'exécuter la dernière version du logiciel Cisco IOS pour contourner les problèmes connus avec IPC. Consultez également la zone Cisco Download Software pour obtenir de l'aide sur la sélection d'une version.
Reportez-vous à Dépannage des messages d'erreur CEF si la sortie de la commande show log affiche un message lié à la base d'informations de transfert CEF (FIB) similaire à celui ci-dessous :
%FIB-3-FIBDISABLE: Fatal error, slot 2: IPC failure
Utilisez les commandes debug et show suivantes pour dépanner les messages de délai d'expiration/d'échec de la requête ping de fabric sur le routeur Internet de la gamme Cisco 12000 :
debug fabric events - Imprime toutes les erreurs détectées par le protocole GRP. Ce débogage génère très peu de messages et seulement dans une condition d'erreur.
debug fabric ping - Imprime toutes les erreurs détectées dans le processus de requête ping de fabric par le protocole GRP. Ce débogage génère très peu de messages et seulement dans une condition d'erreur.
Capturez les commandes suivantes pour chaque carte de ligne de réinitialisation. Remplacez X par le numéro de logement approprié.
execute-on slot X debug fabric events - Imprime les erreurs détectées par la carte de ligne dans ses réponses ping. Cette commande produit très peu de messages et seulement dans une condition d'erreur.
exec slot X debug fabric ping - Imprime un message lorsque la carte de ligne reçoit une requête ping de fabric. Ce débogage génère une ligne de sortie toutes les secondes pour chaque carte de ligne sur laquelle il est activé.
Après le plantage de la carte de ligne, capturez les commandes suivantes à partir de la console GRP :
show context all detail
show fabric
show controllers fia
show controllers csar queue
Exécuter tous les contrôleurs show fia
show tech
show log
Capturez également les commandes suivantes concernant l'état de la carte de ligne :
slot execute-on <slot#> show proc CPU
slot execute-on <slot#> show controller tofab queue
slot execute-on <slot#> show controller tofab stat
slot execute-on <slot#> show controller frfab queue
slot execute-on <slot#> show controller frfab stat
slot execute-on <slot#> show ipc stat
slot execute-on <slot#> show ipc queue
slot execute-on <slot#> show stack
slot execute-on <slot#> show tech
Si vous rencontrez toujours des problèmes après avoir suivi toutes les étapes de dépannage, rassemblez toutes les informations requises ci-dessus et appelez votre représentant du centre d'assistance technique Cisco pour effectuer un dépannage supplémentaire.
Voici le résultat de certaines commandes show utiles :
router#show controllers csar From Fabric Error Stats ------------------------ 0 out of order, 0 unexpected first 0 unexpected last, 0 unknown rx type, 0 corrupted pak, 0 parity 0 first/last, 0 sequence, 0 cell avail, 0 reassembly, To Fabric Stats ------------------------ Slot Tx Pkts TX Th Pkts Rx Pkts Rx Th Pkts To Fab timeout 0 580278 490214 281061 1336470 0 1 18854 66592 18390 945419 0 2 6 50824 0 896290 0 3 0 0 0 0 0 4 0 51909 0 895430 0 5 0 0 0 0 0 6 0 35113 0 880247 0 7 0 52690 0 52690 0 8 0 0 0 0 0 9 0 0 0 0 0 10 0 0 0 0 0 11 0 0 0 0 0 12 0 0 0 0 0 13 0 0 0 0 0 14 0 0 0 0 0 15 0 0 0 0 0 0 too big, 1 Buf0 free, 1 Buf1 free 0 Copy fail Fabric access Error Stats -------------------------- 0 parity errors, 0 bad access size, 0 invalid address 0 queue full parity, 0 flushed buffer router#show controllers fia Fabric configuration: Full bandwidth, nonredundant fabric Master Scheduler: Slot 16 From Fabric FIA Errors ----------------------- redund fifo parity 0 redund overflow 0 cell drops 0 crc32 lkup parity 0 cell parity 0 crc32 0 Switch cards present 0x001D Slots 16 18 19 20 Switch cards monitored 0x001D Slots 16 18 19 20 Slot: 16 17 18 19 20 Name: csc0 csc1 sfc0 sfc1 sfc2 -------- -------- -------- -------- -------- los 0 0 0 0 0 state Off Off Off Off Off crc16 0 254 0 0 0 ! --- Check the CRC error here. In this case CSC1 in slot 17. To Fabric FIA Errors ----------------------- sca not pres 0 req error 0 uni FIFO overflow 0 grant parity 0 multi req 0 uni FIFO undrflow 0 cntrl parity 0 uni req 0 crc32 lkup parity 0 multi FIFO 0 empty dst req 0 handshake error 0 cell parity 0
Vous trouverez plus de détails sur la commande show controllers fia à l'adresse How To Read the Output of the Show Controller fia Command.
router#show fabric Dest ToFab FrFab Bad Seq Unexpected Slot Pkts Pkts Pkts ---------------------------------------------------- Slot0 26327 26327 0 0 Slot1 26325 26325 0 0 Slot2 26321 26321 0 0 Slot4 26315 26315 0 0 Slot6 26311 26311 0 0 Slot7 26334 26334 0 0 multicast timeout 0 failed pak 0 Current fabric timeout is 6000 fabric send fails 58
Si vous avez toujours besoin d'assistance après avoir suivi les étapes de dépannage ci-dessus et que vous souhaitez créer une demande de service auprès du centre d'assistance technique Cisco, veuillez joindre les informations suivantes à votre dossier pour le dépannage des problèmes de ping de fabric sur le routeur Internet de la gamme Cisco 12000 : |
---|
Remarque : Ne redémarrez pas manuellement le routeur ou ne le mettez pas hors tension avant de collecter les informations ci-dessus, si possible, car cela peut entraîner la perte d'informations importantes nécessaires pour déterminer la cause première du problème. |
Révision | Date de publication | Commentaires |
---|---|---|
1.0 |
15-Jan-2008 |
Première publication |