Ce document fournit des informations pour dépanner un crash VIP (Versatile Interface Processor).
Cisco recommande que vous connaissiez les avis de champs des routeurs de la gamme 7500.
Les informations contenues dans ce document sont basées sur les versions de matériel et de logiciel suivantes :
VIP1
VIP2-10
VIP2-15
VIP2-20
VIP2-40
VIP2-50
FEIP2
GEIP
GEIP+
VIP4-50
VIP4-80
VIP6-80
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. If your network is live, make sure that you understand the potential impact of any command.
Pour plus d'informations sur les conventions utilisées dans ce document, reportez-vous à Conventions relatives aux conseils techniques Cisco.
Afin d'interpréter un crash VIP, il est important de comprendre d'abord l'architecture de base du VIP. La figure de cette section présente le schéma de bloc fonctionnel du VIP2, qui comprend les composants suivants :
Processeur RISC (Remote Instruction Set Computing) Orion et circuits associés, qui incluent la mémoire vive dynamique (DRAM), le cache L2, le circuit intégré spécifique à l'application RENO (ASIC) et la mémoire ROM de démarrage.
ASIC CyBus : composant qui contrôle et transfère les paquets entre la mémoire vive statique VIP2 (SRAM) et la mémoire de paquets système (MEMD) sur le CyBus ou le CxBus.
ASIC de mémoire de paquets : responsable du déplacement des paquets entre les cartes de ports et la mémoire SRAM.
Bus PCI (Peripheral Component Interconnect) : chemins de données entre les cartes de ports et la mémoire vive dynamique VIP2.
Ponts : responsable de l'isolation des bus PCI individuels des cartes de ports.
Le microcode VIP2 (micrologiciel) est une image qui fournit des instructions logicielles spécifiques aux cartes. Un périphérique de mémoire programmable en lecture seule (PROM) sur le VIP2 contient une image de démarrage par microcode par défaut qui aide le système à trouver et à charger l'image de microcode à partir du bundle logiciel Cisco IOS® ou de la mémoire Flash. L'image de démarrage du microcode dans le PROM initialise le VIP2, puis aide à télécharger l'image du microcode VIP2. Toutes les interfaces du même type chargent la même image de microcode, soit à partir du bundle logiciel Cisco IOS, soit à partir de la mémoire Flash. Bien que la mémoire Flash puisse stocker plusieurs versions de microcode pour un type d'interface spécifique, une seule image peut être chargée au démarrage.
La commande show controllers cbus affiche la version de microcode actuellement chargée et en cours d'exécution pour chaque processeur d'interface et le VIP2. La commande show startup-config affiche les instructions système actuelles pour le chargement du microcode au démarrage.
Lors du dépannage, vous pouvez utiliser la figure de cette section comme guide pour lire les informations d'un fichier VIP crashinfo ou du syslog. Par exemple, regardez cette sortie syslog qui indique que la parité est mauvaise lorsqu'elle est lue à partir de la mémoire VIP SRAM :
Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 Nevada Error Interrupt Register = 0x2 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PMA error register = 0046000000001000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 Packet Memory Read Parity error !--- Bad parity is found when read from the VIP SRAM. Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PCI master address = 0460000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PA Bay 0 Upstream PCI-PCI Bridge, Handle=0 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 DEC21050 bridge chip, config=0x0 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x00): cfid = 0x00011011 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x04): cfcs = 0x02800147 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x08): cfccid = 0x06040002 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x0C): cfpmlt = 0x00010000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x18): cfsmlt = 0x00010100 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x1C): cfsis = 0x02807020 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x20): cfmla = 0x01F00000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x24): cfpmla = 0x0000FE00 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x3C): cfbc = 0x00030000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x40): cfseed = 0x00000000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x44): cfstwt = 0x00000000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x48): cfswac = 0x00FFFFFF Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x4C): cfpwac = 0x00FFFFFF Apr 29 23:19:26: %VIP2 R5K-1-MSG: slot6 System reloaded by a fatal hardware error
Comme vous le voyez dans les recommandations de la section suivante, le VIP de ce résultat doit être surveillé et le SRAM ou le VIP doit être remplacé si des plantages similaires se reproduisent.
Vous pouvez vérifier le contenu de l'adresse 0x21 dans EEPROM dans la sortie de commande show diag afin de vérifier le modèle d'un VIP. Les valeurs correspondant à chaque type VIP sont indiquées dans ce tableau :
Valeur | VIP | Type de contrôleur |
---|---|---|
0x14 | VIP1 | Contrôleur VIP |
0x15 | VIP2 (VIP2-10, VIP2-15, VIP2-20, VIP2-40) | Contrôleur VIP2 |
0x1E | VIP2-50 | Contrôleur VIP2 R5K |
0x20 | FEIP2 | Contrôleur FEIP2 |
0x21 | GEIP | Contrôleur GEIP |
0x40 | GEIP +* | Contrôleur GEIP+ |
0x22 | VIP4-80 | Contrôleur VIP4-80 RM7000 |
0x31 | VIP4-50 | Contrôleur VIP4-50 RM5271 |
0x4E | VIP6-80 | Contrôleur VIP6-80 RM7000B |
Remarque : le GEIP+ est basé sur le VIP4-80. Toutes les informations supplémentaires de ce document sur le VIP4-80 s'appliquent également au GEIP+.
Voici un exemple :
Router#show diag 10 Slot 10: Physical slot 10, ~physical slot 0x5, logical slot 10, CBus 0 Microcode Status 0x4 Master Enable, LED, WCS Loaded Board is analyzed Pending I/O Status: None EEPROM format version 1 VIP2 R5K controller, HW rev 2.02, board revision D0 Serial number: 17090200 Part number: 73-2167-05 Test history: 0x00 RMA number: 00-00-00 Flags: cisco 7000 board; 7500 compatible EEPROM contents (hex): 0x20: 01 1E 02 02 01 04 C6 98 49 08 77 05 00 00 00 00 0x30: 68 00 00 01 00 00 00 00 00 00 00 00 00 00 00 00 Slot database information: Flags: 0x4 Insertion time: 0x18C0 (00:29:13 ago) Controller Memory Size: 32 MBytes DRAM, 4096 KBytes SRAM
À partir de ce résultat, vous pouvez voir que ce VIP est un VIP2-50.
La différence entre un VIP2-10, un VIP2-15, un VIP2-20 et un VIP2-40 correspond à la quantité de DRAM et de SRAM sur chacun d'eux. Les différents VIP2 (s'ils n'ont pas été mis à niveau) peuvent être distingués dans la sortie de la commande show diag par les configurations de mémoire indiquées dans ce tableau :
Mémoire | VIP |
---|---|
8 Mo de DRAM/512 Ko de SRAM | VIP2-10 |
8 Mo de DRAM/1 Mo de SRAM | VIP2-15 |
16 Mo de DRAM/1 Mo de SRAM | VIP2-20 |
DRAM : 32 Mo/SRAM : 2 Mo | VIP2-40 |
Les informations contenues dans le fichier crashinfo peuvent s'avérer inestimables lorsque vous tentez de résoudre des problèmes logiciels ou de diagnostiquer la cause sous-jacente des pannes du système. Non seulement le fichier crashinfo contient des informations de journalisation et une trace de pile pour le VIP, mais il contient également des informations de mémoire et de contexte étendues. Chaque fois qu'un VIP tombe en panne, le VIP tente d'écrire un fichier crashinfo dans le bootflash du RSP. Les fichiers Crashinfo sont stockés au format suivant :
crashinfo_vip_<slot#>_<data>_<time>
Vous pouvez émettre la commande dir afin de localiser les fichiers crashinfo VIP comme indiqué ici :
7500a#dir bootflash: Directory of bootflash:/ 1 -rw- 3951876 Jan 01 2000 00:01:22 rsp-boot-mz.111-22.CA 2 -rw- 162641 Jun 21 2000 12:53:40 crashinfo_vip_0_20000621-125340 3 -rw- 162778 Jun 21 2000 13:00:10 crashinfo_vip_0_20000621-130010 7602176 bytes total (3324492 bytes free) 7500a#
Ce bootflash du routeur contient deux fichiers crashinfo VIP. Émettez les commandes show file ou plusieurs afin d'afficher et de capturer le contenu de ces fichiers conformément à cette procédure :
Commencez la journalisation avec votre programme de terminal.
Émettez la commande term length 0.
Émettez la commande more bootflash:<crashinfo filename>.
Enregistrez le résultat dans un fichier.
Référez-vous à Récupération d'informations à partir du fichier Crashinfo pour plus d'informations sur la façon de travailler avec les fichiers crashinfo.
Si vous disposez de la sortie d'une commande show technical-support (à partir du mode enable) à partir de votre périphérique Cisco, vous pouvez utiliser afin d'afficher les problèmes potentiels et les correctifs. Vous devez être un client enregistré, être connecté et avoir JavaScript activé pour pouvoir utiliser .
Les collisions VIP sont classées en plusieurs catégories en fonction de la cause du crash. Chaque fois qu'une erreur non récupérable est détectée, le VIP plante. Ces erreurs peuvent être le résultat d'erreurs de parité, de logiciels ou de matériel qui provoquent la présence d'un message d'accusé de réception négatif (NACK) sur le CyBus, ou de problèmes logiciels. Cette section fournit des informations sur chacun de ces types d'erreur.
Si vous disposez de la sortie d'une commande show technical-support (à partir du mode enable) à partir de votre périphérique Cisco, vous pouvez utiliser pour afficher les problèmes potentiels et les correctifs. Vous devez être un client enregistré, être connecté et avoir JavaScript activé pour pouvoir utiliser .
Des erreurs de parité se produisent sur un VIP lorsque le matériel tente de vérifier la validité des données en comparant les valeurs de parité calculées aux valeurs de parité précédentes pour les mêmes données. Un seul bit inversé dans les données peut entraîner une erreur de parité. Lorsque vous diagnostiquez des erreurs de parité sur un VIP, il est important de comprendre chaque emplacement où la parité est vérifiée et où des erreurs de parité peuvent se produire. Ce schéma présente ces informations. En outre, référez-vous à Cisco 7500 VIP Fault Tree Analysis pour plus d'informations sur les erreurs de parité.
Comme le montre ce schéma, sept types différents d'erreurs de parité peuvent se produire sur un VIP. Notez que des erreurs peuvent être reçues d'une autre source et qu'elles ne sont peut-être pas issues du VIP lui-même. La source de l'erreur de parité peut provenir du processeur de routage/commutation (RSP), d'un autre VIP ou de cartes de ports mal installées ou défectueuses. Afin de bien comprendre un crash VIP, il est important de diagnostiquer la source du crash.
Il est également important de comprendre que les données présentant une mauvaise parité peuvent être signalées par plusieurs des périphériques de contrôle de parité sur les routeurs VIP et Cisco 7500 pour n'importe quelle opération de lecture ou d'écriture. Par exemple, si le VIP lit un paquet sur une file d'attente de transmission sur le RSP dans sa propre SRAM, et qu'il y a une erreur de parité dans la SRAM du RSP, alors vous voyez des messages d'erreur de l'ASIC MD sur le RSP, de l'ASIC CYA sur le VIP, ainsi que de l'ASIC PCI/paquet sur le VIP.
Ce diagramme montre l'analyse de l'arborescence des pannes pour les pannes VIP :
Les VIP4-50, VIP4-80 et VIP6-80 utilisent la correction d'erreur à un bit et la correction de code d'erreur de détection à deux bits (ECC) pour la mémoire du processeur et la mémoire des paquets. Les deux sont la mémoire SDRAM (Synchronous Dynamic RAM). Une erreur de bit unique dans la mémoire SDRAM est corrigée et le système continue à fonctionner normalement.
Les erreurs de parité multibits aux numéros 2 ou 3 de cette table sont un événement fatal qui provoque des erreurs de multibits ECC. Le cache interne du processeur et les bus du système utilisent la détection de parité de bit unique. Comme indiqué ici, les architectures des VIP4 et VIP6 sont différentes de celles du VIP2. Par conséquent, certains messages d'erreur ne sont pas affichés et d'autres messages d'erreur sont signalés différemment de ceux du VIP2. Dans cette section d'erreur de parité, les différences entre le VIP2, le VIP4 et le VIP6 sont signalées et expliquées.
Des exceptions d'erreur de parité de cache se produisent lorsque la parité est détectée dans le processeur ou dans le cache de données principal. L'erreur de parité s'est peut-être produite dans la DRAM VIP, le contrôleur DRAM, le cache principal ou dans le processeur lui-même. Les erreurs de parité détectées à cet emplacement sont également appelées erreurs de parité de mémoire processeur (PMPE). Ces erreurs provoquent un plantage immédiat du VIP et la sortie semble similaire sur les VIP et les RSP. Une valeur sig de vingt (sig=20) indique qu'une exception d'erreur de parité de cache s'est produite. La valeur sig est affichée dans les messages du journal système pour le crash.
Le code récent fournit également une ligne de texte significative comme illustré ici :
Oct 21 00:11:14.913: %VIP2-1-MSG: slot0 System reloaded by a Cache Parity Exception Oct 21 00:11:14.913: %VIP2-1-MSG: slot0 System Reload called from 0x60125C8C, context=0x60220930 Oct 21 00:11:14.913: %VIP2-1-MSG: slot0 System exception: sig=20, code=0x20025B69, context=0x60220930
Les informations contenues dans le fichier VIP crashinfo pointent également vers le même emplacement d'erreur de parité dans le cache de données principal :
Error: primary data cache, fields: data, virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000 virtual address corresponds to main:data, cache word 0 Low Data High Data Par Low Data High Data Par L1 Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89 2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8 Low Data High Data Par Low Data High Data Par Mem Data: 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89 2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
Un cache principal ou un PMPE peut être une erreur temporaire. S'il s'agit de la première instance d'un PMPE, vous pouvez généralement l'ignorer en toute sécurité. Toutefois, si le même VIP est confronté à une seconde PMPE ou à des PMPE ultérieurs, vous devez le remplacer. Parfois, le remplacement de la DRAM elle-même peut également résoudre le problème.
Note VIP4 et VIP6 : les erreurs de parité qui se produisent dans le cache interne du processeur et dans CyAsic sont détectées comme exceptions d'erreur de parité de cache. Les erreurs de parité de bit unique dans la mémoire du processeur sont corrigées et aucune action n'est nécessaire. Des erreurs de parité multibits dans la mémoire du processeur sont détectées en tant qu'erreur de parité multibits ecc procmem. La mémoire du processeur du VIP doit être remplacée si une erreur de parité multi-bit ecc procmem est signalée.
Oct 25 09:30:54.708: %VIP4-50 RM5271-1-MSG: slot4 PMA error register1 00000000 00002000 Oct 25 09:30:54.716: %VIP4-50 RM5271-1-MSG: slot4 Procmem ECC multi-bit error Oct 25 09:30:54.724: %VIP4-50 RM5271-1-MSG: slot4 PCI1 master address 00000000 Oct 25 09:30:54.732: %VIP4-50 RM5271-1-MSG: slot4 PCI1 slave address 00000000 Oct 25 09:30:54.740: %VIP4-50 RM5271-1-MSG: slot4 Latched Addresses Oct 25 09:30:54.748: %VIP4-50 RM5271-1-MSG: slot4 Procmem ECC multi-bit exception addr 22220000 025F0860 Oct 25 09:30:54.756: %VIP4-50 RM5271-1-MSG: slot4 Procmem ECC multi-bit exception data 00000000 00000000 Oct 25 09:30:54.764: %VIP4-50 RM5271-1-MSG: slot4 MPU addr exception/WPE address 00000000 00000000 Oct 25 09:30:54.772: %VIP4-50 RM5271-1-MSG: slot4 MPU WPE addr/WPE data 00000000 00000000 Oct 25 09:30:54.780: %VIP4-50 RM5271-1-MSG: slot4 ProcMem addr exception 0 0000000 Oct 25 09:30:54.788: %VIP4-50 RM5271-1-MSG: slot4 Pakmem addr exception 00000000 Oct 25 09:31:15.824: %VIP4-50 RM5271-1-MSG: slot4 System reloaded by a fatal hardware error Oct 25 09:31:15.836: %VIP4-50 RM5271-1-MSG: slot4 caller=0x600BCE18 Oct 25 09:31:15.844: %VIP4-50 RM5271-1-MSG: slot4 System exception: sig22, code 0x0, context=0x60615F28
Lorsqu'un VIP est téléchargé à partir du MEMD dans le RSP et que ces erreurs sont détectées, cela indique généralement qu'un autre VIP a écrit une mauvaise parité au MEMD, ou que le MEMD a été endommagé. Si la source provient du MEMD et qu'il continue, vous devez remplacer le RSP. Inversement, si la source de la mauvaise parité est un autre VIP, vous devez réinstaller et, si nécessaire, remplacer le VIP qui écrit la mauvaise parité.
%VIP2-1-MSG: slot1 Nevada Error Interrupt Register 0x3 %VIP2-1-MSG: slot1 CYASIC Error Interrupt register 0x2020000C %VIP2-1-MSG: slot1 Parity Error internal to CYA %VIP2-1-MSG: slot1 Parity Error in data from CyBus !--- Bad parity is received by the VIP from the CyBus. %VIP2-1-MSG: slot1 CYASIC Other Interrupt register 0x200100 %VIP2-1-MSG: slot1 QE HIGH Priority Interrupt %VIP2-1-MSG: slot1 CYBUS Error register 0xD001A02, PKT Bus Error register 0x0 %VIP2-1-MSG: slot1 PMA error register = 0070000440000000 %VIP2-1-MSG: slot1 Packet Bus Write Parity error !--- The bad parity that was received from the CyBus is written to SRAM. %VIP2-1-MSG: slot1 PCI master address = 0700004 %VIP2-1-MSG: slot1 PA Bay 0 Upstream PCI-PCI Bridge, Handle=0 %VIP2-1-MSG: slot1 DEC21050 bridge chip, config=0x0 %VIP2-1-MSG: slot1 (0x00): cfid = 0x00011011 %VIP2-1-MSG: slot1 (0x04): cfcs= 0x02800147 %VIP2-1-MSG: slot1 (0x08):cfccid = 0x06040002 %VIP2-1-MSG: slot1 (0x0C):cfpmlt = 0x00010000 %VIP2-1-MSG: slot1 (0x18): cfsmlt = 0x00010100 %VIP2-1-MSG: slot1 (0x1C): cfsis = 0x22807020 %VIP2-1-MSG: slot1 Received Master Abort on secondary bus %VIP2-1-MSG: slot1 (0x20): cfmla = 0x01F00000
Remarque : Les VIP4 et VIP6 affichent les mêmes messages d'erreur à propos de l'erreur de parité CyBus, mais le message d'erreur de parité d'écriture du bus de paquets n'est pas affiché.
Les erreurs de parité de contrôleur DRAM et les erreurs de parité de contrôleur d'entrée/sortie (E/S) sont détectées par l'ASIC RENO. Une erreur de parité qui provient de la DRAM ou du contrôleur DRAM est signalée comme une exception de parité de cache. Une erreur de parité détectée par le contrôleur d'E/S est signalée, comme indiqué dans cette sortie. Souvent, les erreurs de parité signalées par le contrôleur d'E/S ont été signalées ailleurs et sont signalées par le contrôleur d'E/S en plus des messages provenant d'autres emplacements.
Feb 17 23:03:04 cst: %VIP2 R5K-1-MSG: slot0 Reno read parity error - bytes 0 & 1 Feb 17 23:03:04 cst: %VIP2 R5K-1-MSG: slot0 PMA error register = 0080004000001000 Feb 17 23:03:04 cst: %VIP2 R5K-1-MSG: slot0 Packet Memory Read Parity error
Remarque : les VIP4 et VIP6 n'affichent pas ce message d'erreur.
L'ASIC PMA signale une erreur de parité de lecture de mémoire de paquet chaque fois qu'une erreur de parité est lue en dehors de la mémoire de paquet (SRAM) sur le VIP. Cette erreur est signalée dans le journal système comme indiqué ici :
Oct 30 05:18:06.120: %VIP2-1-MSG: slot9 Nevada Error Interrupt Register = 0x22 Oct 30 05:18:06.120: %VIP2-1-MSG: slot9 PCI bus 0 parity error Oct 30 05:18:07.120: %VIP2-1-MSG: slot9 PMA error register = 4080103C00004000 Oct 30 05:18:07.120: %VIP2-1-MSG: slot9 PCI Transmit Parity error Oct 30 05:18:08.120: %VIP2-1-MSG: slot9 Packet Memory Read Parity error
Vous pouvez également voir la preuve d'une erreur de parité de lecture de mémoire de paquet dans le fichier crashinfo VIP :
Nevada Error Interrupt Register = 0x2 PMA error register = 0046000000001000 Packet Memory Read Parity error PCI master address = 0460000
Les erreurs de parité SRAM peuvent également être transitoires. Traitez donc la première occurrence de la même manière que les erreurs de parité DRAM. Si les erreurs persistent, remplacez la SRAM ou le VIP.
Note VIP4 et VIP6 : les erreurs de parité de bit unique dans la mémoire de paquet sont corrigées. Des erreurs de parité multibits dans la mémoire de paquet sont détectées comme une erreur de parité multibits ecc de paquet. La mémoire de paquet VIP doit être remplacée si une erreur de parité de paquet ecc multi-bit est signalée.
%VIP4-80 RM7000-1-MSG: slot1 PMA error register0 = 0000000000002000 %VIP4-80 RM7000-1-MSG: slot1 Pakmem ECC multi-bit error %VIP4-80 RM7000-1-MSG: slot1 PCI0 master address = 00000000 %VIP4-80 RM7000-1-MSG: slot1 PCI0 slave address = 00000000 %VIP4-80 RM7000-1-MSG: slot1 PMA error register1 = 0000000000000000 %VIP4-80 RM7000-1-MSG: slot1 PCI1 master address = 00000000 %VIP4-80 RM7000-1-MSG: slot1 PCI1 slave address = 00000000 %VIP4-80 RM7000-1-MSG: slot1 Latched Addresses %VIP4-80 RM7000-1-MSG: slot1 Pakmem ECC multi-bit exception addr = 00012358 000000CA %VIP4-80 RM7000-1-MSG: slot1 Pakmem ECC multi-bit exception data = 00000000 00040800 %VIP4-80 RM7000-1-MSG: slot1 MPU addr exception/WPE address = 00000000 00000000 %VIP4-80 RM7000-1-MSG: slot1 MPU WPE addr/WPE data = 00000000 00000000 %VIP4-80 RM7000-1-MSG: slot1 ProcMem addr exception = 00000000 %VIP4-80 RM7000-1-MSG: slot1 Pakmem addr exception = 00000000
L'ASIC PMA signale une erreur de parité d'écriture de bus de paquets chaque fois qu'une erreur de parité est écrite dans la mémoire de paquets. Dans cet exemple, le VIP est uniquement le messager et le problème n'existe pas avec la mémoire de ce VIP.
May 10 09:22:14.520: %VIP2-1-MSG: slot11 PMA error register = 2080002800800200 May 10 09:22:15.520: %VIP2-1-MSG: slot11 Packet Bus Write Parity error
Remarque : les VIP4 et VIP6 n'affichent pas ce message d'erreur.
Des erreurs de parité peuvent être détectées dans les bus PCI 1 et 2, qui s'interfacent directement avec les cartes de ports. Ces bus sont reliés par un troisième bus PCI, le bus 0, sur lequel des erreurs de parité peuvent également être détectées. Les erreurs de parité provenant de l'un des bus PCI sont généralement causées par des cartes de ports mal installées ou défectueuses. Chaque fois que vous voyez ces messages dans la sortie syslog d'un crash VIP, vous devez réinstaller la carte de port afin de résoudre le problème.
PCI bus <num> parity error PCI bus <num> system error Detected Parity Error on secondary bus
Si la réinstallation de la carte de port ne résout pas le problème, le problème est lié à la carte de port ou au VIP. Déplacez la carte de port vers une autre baie et insérez une deuxième carte de port dans la baie d'origine afin de résoudre les problèmes. Cela indique généralement le matériel incriminé. Un exemple est montré ici :
Mar 16 19:34:54: %GEIP-1-MSG: slot9 Nevada Error Interrupt Register = 0x6 Mar 16 19:34:54: %GEIP-1-MSG: slot9 PCI bus 0 system error Mar 16 19:34:54: %GEIP-1-MSG: slot9 PMA error register = 0080043800100000 Mar 16 19:34:54: %GEIP-1-MSG: slot9 PCI IRDY time-out Mar 16 19:34:54: %GEIP-1-MSG: slot9 PCI master address = 0800438 Mar 16 19:34:54: %GEIP-1-MSG: slot9 PA Bay 0 Upstream PCI-PCI Bridge, Handle=0
Remarque : Les mêmes erreurs se produisent avec le VIP4 et le VIP6, mais le message d'erreur est différent. Il est détecté comme erreur de parité maître PCI et erreur de parité esclave PCI. Procédez comme indiqué pour les erreurs de parité de bus PCI VIP pour résoudre ce problème.
00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PMA error register0 = 0000000001800000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI Master Parity error 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI Slave Parity error 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI0 master address = 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI0 slave address = 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PMA error register1 = 0000000000000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI1 master address = 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI1 slave address = 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 Latched Addresses 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 MPU addr exception/WPE address = 00000000 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 MPU WPE addr/WPE data = 00000000 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 ProcMem addr exception = 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 Pakmem addr exception = 00000000
Des erreurs de parité peuvent également être détectées par le VIP dans les données ou l'adresse d'une opération de lecture ou d'écriture sur le CyBus. Si cela se produit, vous voyez une sortie syslog similaire à ceci :
CYASIC Error Interrupt register 0x2020000C Parity Error internal to CYA Parity Error in data from CyBus
Utilisez ces informations en même temps que les informations présentes dans les journaux système pour déterminer la véritable source de l'erreur.
Remarque : le VIP4 et le VIP6 affichent les mêmes messages d'erreur pour les erreurs de parité CyBus.
Lorsque le VIP tente d'écrire sur une adresse non valide dans MEMD, le RSP place un NACK sur le CyBus pour ce logement. Il s'agit généralement d'un problème logiciel, mais il peut également s'agir d'un problème matériel. Par exemple, dans cette sortie, le VIP écrit 4 octets sur une adresse non valide, de sorte que le RSP place un NACK sur le CyBus pour ce logement.
%RSP-3-ERROR: CyBus0 error 10 %RSP-3-ERROR: command/address mismatch %RSP-3-ERROR: bus command write 4bytes (0xE) %RSP-3-ERROR: address offset (bits 3:1) 0 %RSP-3-ERROR: virtual address (bits 23:17) 000000 %VIP2-1-MSG: slot5 Nevada Error Interrupt Register = 0x1 %VIP2-1-MSG: slot5 CYASIC Error Interrupt register 0x20000003 %VIP2-1-MSG: slot5 Missing ACK on CyBus access %VIP2-1-MSG: slot5 NACK present on CyBus access %VIP2-1-MSG: slot5 CYASIC Other Interrupt register 0x0 %VIP2-1-MSG: slot5 CYBUS Error register 0x8001C48, PKT Bus Error register 0x0 %VIP2-1-MSG: slot5 System reloaded by a fatal hardware error %VIP2-1-MSG: slot5 caller=0x60126C44 %VIP2-1-MSG: slot5 System exception: sig=22, code=0x0, context=0x60265C68
Cependant, comme le montre ce résultat, le RSP place également un NACK sur un VIP pour essayer d'écrire une mauvaise parité au MEMD.
CYASIC Error Interrupt register 0x1B Parity Error in data from Packet Bus Parity Error internal to CYA Missing ACK on CyBus access NACK present on CyBus access
Lorsqu'un NACK apparaît sur tous les logements, comme illustré dans cette sortie, il s'agit d'une erreur matérielle. L'arbitre est défectueux et la cage de la carte doit être remplacée.
Jan 1 23:55:21: %FEIP2-1-MSG: slot0 Nevada Error Interrupt Register =0x1 Jan 1 23:55:21: %FEIP2-1-MSG: slot0 CYASIC Error Interrupt register0x20000001 Jan 1 23:55:21: %FEIP2-1-MSG: slot0 NACK present on CyBus access Jan 1 23:55:21: %FEIP2-1-MSG: slot0 CYASIC Other Interrupt register 0x0 Jan 1 23:55:21: %FEIP2-1-MSG: slot0 CYBUS Error register 0x8001A00, PKTBus Error register 0x0 Jan 1 23:55:21: %VIP2-1-MSG: slot2 Nevada Error Interrupt Register = 0x1 Jan 1 23:55:21: %VIP2-1-MSG: slot2 CYASIC Error Interrupt register 0x20000001 Jan 1 23:55:21: %VIP2-1-MSG: slot2 NACK present on CyBus access Jan 1 23:55:21: %VIP2-1-MSG: slot2 CYASIC Other Interrupt register 0x0 Jan 1 23:55:21: %VIP2-1-MSG: slot2 CYBUS Error register 0x800006A, PKT Bus Error register 0x0 Jan 1 23:55:21: %VIP2-1-MSG: slot5 Nevada Error Interrupt Register = 0x1 Jan 1 23:55:21: %VIP2-1-MSG: slot5 CYASIC Error Interrupt register 0x20200001 Jan 1 23:55:21: %VIP2-1-MSG: slot5 NACK present on CyBus access Jan 1 23:55:21: %VIP2-1-MSG: slot5 CYASIC Other Interrupt register 0x200000 Jan 1 23:55:21: %VIP2-1-MSG: slot5 CYBUS Error register 0x800006C, PKT Bus Error register 0x0 Jan 1 23:55:21: %FEIP2-1-MSG: slot8 Nevada Error Interrupt Register = 0x1 Jan 1 23:55:21: %FEIP2-1-MSG: slot8 CYASIC Error Interrupt register 0x20000001 Jan 1 23:55:21: %FEIP2-1-MSG: slot8 NACK present on CyBus access Jan 1 23:55:21: %FEIP2-1-MSG: slot8 CYASIC Other Interrupt register 0x0 Jan 1 23:55:21: %FEIP2-1-MSG: slot8 CYBUS Error register 0x8001B80, PKT Bus Error register 0x0 Jan 1 23:55:21: %FEIP2-1-MSG: slot10 Nevada Error Interrupt Register = 0x1 Jan 1 23:55:21: %FEIP2-1-MSG: slot10 CYASIC Error Interrupt register 0x20000001 Jan 1 23:55:21: %FEIP2-1-MSG: slot10 NACK present on CyBus access Jan 1 23:55:21: %FEIP2-1-MSG: slot10 CYASIC Other Interrupt register 0x0 Jan 1 23:55:21: %FEIP2-1-MSG: slot10 CYBUS Error register 0x8001C08, PKT Bus Error register 0x0 Jan 1 23:55:21: %VIP2-1-MSG: slot2 System reloaded by a fatal hardware error Jan 1 23:55:21: %VIP2-1-MSG: slot2 caller=0x6012640C Jan 1 23:55:21: %VIP2-1-MSG: slot2 System exception: sig=22, code=0x0, context=0x60265028
Les pannes de VIP non causées par l'une des raisons de ce document sont généralement dues à d'autres problèmes logiciels. Ces accidents peuvent se manifester de différentes manières. Voici des suggestions générales pour réduire le risque de plantage de VIP en raison de problèmes logiciels et pour y faire face en cas de panne :
Assurez-vous toujours que l'image du logiciel Cisco IOS prend en charge le VIP.
Conservez toujours l'image RSP-BOOT et l'image principale du logiciel Cisco IOS dans la même version.
Assurez-vous que la configuration VIP et la carte de port sont prises en charge par la version actuelle du logiciel Cisco IOS.
Consultez les notes de version pour connaître le niveau de logiciel Cisco IOS et la mémoire requise.
Voici un exemple de sortie de journal système d'un crash VIP en raison d'un problème logiciel :
Apr 18 17:13:33.884: %VIP2 R5K-1-MSG: slot0 System reloaded by a Bus Error exception Apr 18 17:13:33.892: %VIP2 R5K-1-MSG: slot0 caller=0x600BC974 Apr 18 17:13:33.900: %VIP2 R5K-1-MSG: slot0 System exception: sig=10, code=0x408, context=0x605B51E0 Apr 18 17:13:33.912: %VIP2 R5K-1-MSG: slot0 $0 : 00000000, AT : 605B0000, v0 : 00000001, v1 : FFFFFFFC, Apr 18 17:13:33.924: %VIP2 R5K-1-MSG: slot0 a0 : 00000002, a1 : 6042CEE0, a2 : 00000000, a3 : 6112FEC4, Apr 18 17:13:33.936: %VIP2 R5K-1-MSG: slot0 t0 : 00000053, t1 : 3400FF01, t2 : 00000000, t3 : FFFFFFFF, Apr 18 17:13:33.948: %VIP2 R5K-1-MSG: slot0 t4 : 600BC9B0, t5 : 000000F8, t6 : 00000000, t7 : 00000002, Apr 18 17:13:33.956: %VIP2 R5K-1-MSG: slot0 s0 : 0C58BA24, s1 : 00000064, s2 : 6112C7AC, s3 : 60560000, Apr 18 17:13:33.964: %VIP2 R5K-1-MSG: slot0 s4 : 60560000, s5 : 00000001, s6 : 6041433C, s7 : 60414310, Apr 18 17:13:33.972: %VIP2 R5K-1-MSG: slot0 t8 : 00008945, t9 : 00000000, k0 : 607F6CA0, k1 : 00000200, Apr 18 17:13:33.980: %VIP2 R5K-1-MSG: slot0 gp : 6056AFC0, sp : 6112FEC0, s8 : 60414460, ra : 6026EC4C, Apr 18 17:13:33.988: %VIP2 R5K-1-MSG: slot0 EPC : 6026EAA0, ErrorEPC : 800086B8, SREG : 3400FF03 Apr 18 17:13:33.996: %VIP2 R5K-1-MSG: slot0 Cause 00000408 (Code 0x2) Apr 18 17:13:34.004: %VIP2 R5K-1-MSG: slot0 Traceback= 6026EAA0 6026E2E8 6009BAF4 6009BAE0 Apr 18 17:13:35.012: %DBUS-3-DBUSINTERRSWSET: Slot 0, Internal Error due to VIP crash
Le fichier crashinfo du VIP est probablement le plus important renseignement à obtenir en cas de problème logiciel. Reportez-vous à la section Obtenir un fichier VIP Crashinfo pour obtenir des instructions sur la capture de ces informations.
Le VIP tombe en panne plusieurs fois et lorsque vous examinez le fichier d'informations de panne, vous pouvez voir ce message :
00:00:11: %LINK-3-UPDOWN: Interface POS1/0, changed state to up IOBUS Error Interrupt Status register 0x0 Unexpected exception, CPU signal 10, PC = 0x602A7660 -Traceback= 602A7660 602AB238
Le message d'erreur CPU signal 10 signifie une erreur d'exception de bus. Les erreurs de bus peuvent être des problèmes logiciels ou matériels. La solution de contournement de ce problème consiste à réinstaller le module et à surveiller le routeur. Si le module continue de s'écraser après avoir réinstallé le module, contactez l'outil TAC Case Open (clients enregistrés uniquement) avec le fichier d'informations de panne.
Il est recommandé de créer un fichier récapitulatif de panne VIP contenant ces informations avant d'ouvrir un dossier. Inclure ces informations dans le champ Description du problème de l'outil TAC Case Open (clients enregistrés uniquement).
Description du problème
Sortie de la commande show version
Sortie de la commande show diag slot [x]
Extrait du fichier Crashinfo
Extrait Syslog
Ensuite, collectez les informations à collecter si vous ouvrez un dossier TAC.
Voici un exemple de fichier récapitulatif de panne :
******problem description.. VIP crashed with parity errors. The parity errors are being read by the SRAM, suspect the PA! ******show version Cisco Internetwork Operating System Software IOS (tm) GS Software (RSP-PV-M), Version 11.1(29)CC1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) V111_29_CC_THROTTLE_BRANCH Synced to mainline version: 11.1(29)CA Copyright (c) 1986-1999 by cisco Systems, Inc. Compiled Wed 13-Oct-99 02:21 by sharpd Image text-base: 0x60010910, data-base: 0x60832000 ROM: System Bootstrap, Version 11.1(8)CA1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) ROM: GS Software (RSP-BOOT-M), Version 11.1(29)CC1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) attga711c7 uptime is 27 weeks, 11 minutes System restarted by reload at 00:49:05 UTC Sun Oct 24 1999 System image file is "slot0:rsp-pv-mz.111-29.CC1", booted via slot0 Host configuration file is "cbb/al/ar-2", booted via tftp from 199.37.184.170 cisco RSP4 (R5000) processor with 262144K/2072K bytes of memory. R5000 processor, Implementation 35, Revision 2.1 (512KB Level 2 Cache) Last reset from power-on G.703/E1 software, Version 1.0. G.703/JT2 software, Version 1.0. X.25 software, Version 2.0, NET2, BFE and GOSIP compliant. Chassis Interface. 3 VIP2 R5K controllers (3 ATM). 3 ATM network interfaces. 123K bytes of non-volatile configuration memory. 20480K bytes of Flash PCMCIA card at slot 0 (Sector size 128K). 8192K bytes of Flash internal SIMM (Sector size 256K). ******show diag slot 6 Slot 6: Physical slot 6, ~physical slot 0x9, logical slot 0, CBus 0 Microcode Status 0x4 WCS Loaded Board is disabled analyzed wedged Pending I/O Status: None EEPROM format version 1 VIP2 R5K controller, HW rev 2.02, board revision C0 Serial number: 12639078 Part number: 73-2167-05 Test history: 0x00 RMA number: 00-00-00 Flags: cisco 7000 board; 7500 compatible EEPROM contents (hex): 0x20: 01 1E 02 02 00 C0 DB 66 49 08 77 05 00 00 00 00 0x30: 60 00 00 01 00 00 00 00 00 00 00 00 00 00 00 00 Slot database information: Flags: 0x295 Insertion time: 0x3AA4 (27w0d ago) Controller Memory Size: 128 MBytes DRAM, 8192 KBytes SRAM PA Bay 0 Information: ENHANCED ATM OC3 PA (MM), 1 port EEPROM format version 1 HW rev 2.00, Board revision A0 Serial number: 12366362 Part number: 73-2430-04 1 crash since restart. Last crash context (Apr 29 2000 23:19:26): Nevada Error Interrupt Register = 0x2 PMA error interrupt PMA Error Register = 0046000000001000 Packet Memory Read Parity error PCI master address = 0460000 $0 : 00000000, AT : 60179244, v0 : 601D337C, v1 : 0000AAAA a0 : 604CF3E0, a1 : 604C8180, a2 : 00001182, a3 : 00000050 t0 : 00000800, t1 : 4E90424C, t2 : 00000001, t3 : 6014A620 t4 : 6016E220, t5 : 000000F8, t6 : 00000000, t7 : 00000000 s0 : 321735CC, s1 : 6052B508, s2 : 604C8180, s3 : 604CF3E0 s4 : 3226C120, s5 : 604D1440, s6 : 00000002, s7 : 00000CED t8 : 34000000, t9 : 603C9930, k0 : 00000000, k1 : 00000002 gp : 60337700, sp : 603C0350, s8 : 00000001, ra : 601476E8 EPC : 601D337C, ErrorEPC : 800086B8, SREG : 3400E103 Cause 00000000 (Code 0x0): Interrupt exception Traceback= 0x601D337C 0x601476E8 0x6014A674 ******excerpt from crashinfo Nevada Error Interrupt Register = 0x2 PMA error register = 0046000000001000 Packet Memory Read Parity error PCI master address = 0460000 ******excerpt from syslog Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 Nevada Error Interrupt Register = 0x2 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PMA error register = 0046000000001000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 Packet Memory Read Parity error Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PCI master address = 0460000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PA Bay 0 Upstream PCI-PCI Bridge, Handle=0 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 DEC21050 bridge chip, config=0x0 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x00): cfid = 0x00011011 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x04): cfcs = 0x02800147 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x08): cfccid = 0x06040002 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x0C): cfpmlt = 0x00010000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x18): cfsmlt = 0x00010100 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x1C): cfsis = 0x02807020 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x20): cfmla = 0x01F00000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x24): cfpmla = 0x0000FE00 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x3C): cfbc = 0x00030000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x40): cfseed = 0x00000000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x44): cfstwt = 0x00000000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x48): cfswac = 0x00FFFFFF Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x4C): cfpwac = 0x00FFFFFF Apr 29 23:19:26: %VIP2 R5K-1-MSG: slot6 System reloaded by a fatal hardware error
Si vous avez toujours besoin d'assistance après avoir effectué les étapes de dépannage de ce document et que vous souhaitez ouvrir un dossier auprès de l'assistance technique Cisco, veillez à inclure ces informations : |
---|
Remarque : Si possible, ne rechargez pas manuellement le routeur ou ne le mettez pas hors tension avant de collecter ces informations, car cela peut entraîner la perte d'informations importantes nécessaires pour déterminer la cause première du problème. |
Révision | Date de publication | Commentaires |
---|---|---|
1.0 |
02-Oct-2006 |
Première publication |