In questo documento vengono fornite informazioni per la risoluzione di un arresto anomalo del Versatile Interface Processor (VIP).
Cisco raccomanda la conoscenza degli avvisi sui router serie 7500.
Le informazioni fornite in questo documento si basano sulle seguenti versioni software e hardware:
VIP1
VIP2-10
VIP2-15
VIP2-20
VIP2-40
VIP2-50
FEIP2
GEIP
GEIP+
VIP4-50
VIP4-80
VIP6-80
Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.
Per ulteriori informazioni sulle convenzioni usate, consultare il documento Cisco sulle convenzioni nei suggerimenti tecnici.
Per interpretare un incidente VIP, è importante capire prima l'architettura di base del VIP. La figura in questa sezione mostra il diagramma a blocchi funzionali di VIP2, che include i seguenti componenti:
CPU RISC (Instruction Set Computing) ridotta con Orion e circuiti associati, che includono RAM dinamica (DRAM), cache L2, circuito integrato specifico dell'applicazione RENO (ASIC) e Boot ROM.
CyBus ASIC - Componente che controlla e trasferisce i pacchetti tra la RAM statica VIP2 (SRAM) e la memoria del pacchetto di sistema (MEMD) attraverso il CyBus o il CxBus.
Packet memory ASIC: responsabile dello spostamento dei pacchetti tra gli adattatori porte e la SRAM.
Bus PCI (Peripheral Component Interconnect): percorsi di dati tra gli adattatori porte e la SRAM VIP2.
Bridge - Responsabile dell'isolamento dei singoli bus PCI delle schede di porta.
Il microcodice VIP2 (firmware) è un'immagine che fornisce istruzioni software specifiche per la scheda. Un dispositivo di memoria programmabile di sola lettura (PROM) sull'indirizzo VIP2 contiene un'immagine di avvio predefinita basata su microcodice che aiuta il sistema a trovare e caricare l'immagine del microcodice dal bundle del software Cisco IOS® o dalla memoria flash. L'immagine di avvio del microcodice nella PROM inizializza il VIP2 e assiste il download dell'immagine del microcodice VIP2. Tutte le interfacce dello stesso tipo caricano la stessa immagine del microcodice, dal bundle software Cisco IOS o dalla memoria flash. Sebbene la memoria flash possa memorizzare più versioni di microcodice per un tipo di interfaccia specifico, all'avvio può essere caricata una sola immagine.
Il comando show controller bus visualizza la versione di microcodice attualmente caricata ed in esecuzione per ciascun processore di interfaccia e l'indirizzo VIP2. Il comando show startup-config mostra le istruzioni di sistema correnti per il caricamento del microcodice all'avvio.
Durante la risoluzione dei problemi, è possibile utilizzare la figura riportata in questa sezione come guida per leggere informazioni da un file VIP crashinfo o dal syslog. Ad esempio, l'output del syslog che mostra una parità errata viene rilevato durante la lettura dalla SRAM VIP:
Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 Nevada Error Interrupt Register = 0x2 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PMA error register = 0046000000001000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 Packet Memory Read Parity error !--- Bad parity is found when read from the VIP SRAM. Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PCI master address = 0460000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PA Bay 0 Upstream PCI-PCI Bridge, Handle=0 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 DEC21050 bridge chip, config=0x0 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x00): cfid = 0x00011011 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x04): cfcs = 0x02800147 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x08): cfccid = 0x06040002 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x0C): cfpmlt = 0x00010000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x18): cfsmlt = 0x00010100 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x1C): cfsis = 0x02807020 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x20): cfmla = 0x01F00000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x24): cfpmla = 0x0000FE00 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x3C): cfbc = 0x00030000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x40): cfseed = 0x00000000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x44): cfstwt = 0x00000000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x48): cfswac = 0x00FFFFFF Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x4C): cfpwac = 0x00FFFFFF Apr 29 23:19:26: %VIP2 R5K-1-MSG: slot6 System reloaded by a fatal hardware error
Come si evince dai suggerimenti riportati nella sezione successiva, è necessario monitorare l'indirizzo VIP in questo output e sostituire la SRAM o l'indirizzo VIP in caso di nuovi arresti anomali simili.
È possibile controllare il contenuto dell'indirizzo 0x21 in EEPROM nell'output del comando show diag per verificare il modello di un VIP. Nella tabella seguente vengono illustrati i valori che corrispondono a ogni tipo di VIP:
Valore | VIP | Tipo di controller |
---|---|---|
0x14 | VIP1 | Controller VIP |
0x15 | VIP2 (VIP2-10, VIP2-15, VIP2-20, VIP2-40) | Controller VIP2 |
0x1E | VIP2-50 | Controller VIP2 R5K |
0x20 | FEIP2 | controller FEIP2 |
0x21 | GEIP | controller GEIP |
0x40 | GEIP +* | controller GEIP+ |
0x22 | VIP4-80 | Controller VIP4-80 RM7000 |
0x31 | VIP4-50 | Controller VIP4-50 RM5271 |
0x4E | VIP6-80 | Controller VIP6-80 RM7000B |
Nota: il protocollo GEIP+ si basa sul protocollo VIP4-80. Tutte le ulteriori informazioni sul protocollo VIP4-80 contenute in questo documento si applicano anche al protocollo GEIP+.
Di seguito è riportato un esempio:
Router#show diag 10 Slot 10: Physical slot 10, ~physical slot 0x5, logical slot 10, CBus 0 Microcode Status 0x4 Master Enable, LED, WCS Loaded Board is analyzed Pending I/O Status: None EEPROM format version 1 VIP2 R5K controller, HW rev 2.02, board revision D0 Serial number: 17090200 Part number: 73-2167-05 Test history: 0x00 RMA number: 00-00-00 Flags: cisco 7000 board; 7500 compatible EEPROM contents (hex): 0x20: 01 1E 02 02 01 04 C6 98 49 08 77 05 00 00 00 00 0x30: 68 00 00 01 00 00 00 00 00 00 00 00 00 00 00 00 Slot database information: Flags: 0x4 Insertion time: 0x18C0 (00:29:13 ago) Controller Memory Size: 32 MBytes DRAM, 4096 KBytes SRAM
Da questo output, è possibile vedere che questo VIP è un VIP2-50.
La differenza tra un VIP2-10, VIP2-15, VIP2-20 e un VIP2-40 è la quantità di DRAM e SRAM su ciascuno di essi. I vari VIP2s (se non sono stati aggiornati) possono essere distinti nell'output del comando show diag dalle configurazioni di memoria mostrate nella tabella seguente:
Memoria | VIP |
---|---|
8 MB DI DRAM/512 KB DI SRAM | VIP2-10 |
8 MB DI DRAM/1 MB DI SRAM | VIP2-15 |
16 MB DRAM/1 MB SRAM | VIP2-20 |
32 MB DRAM/2 MB SRAM | VIP2-40 |
Le informazioni contenute nel file crashinfo possono rivelarsi preziose quando si tenta di risolvere problemi software o di diagnosticare la causa sottostante degli arresti anomali del sistema. Il file crashinfo non solo contiene le informazioni di registrazione e una traccia dello stack per l'indirizzo VIP, ma contiene anche una grande quantità di memoria e informazioni sul contesto. Ogni volta che un VIP si blocca, tenta di scrivere un file crashinfo sul bootflash dell'RSP. I file Crashinfo sono memorizzati nel seguente formato:
crashinfo_vip_<slot#>_<data>_<time>
È possibile usare il comando dir per individuare i file VIP crashinfo come mostrato di seguito:
7500a#dir bootflash: Directory of bootflash:/ 1 -rw- 3951876 Jan 01 2000 00:01:22 rsp-boot-mz.111-22.CA 2 -rw- 162641 Jun 21 2000 12:53:40 crashinfo_vip_0_20000621-125340 3 -rw- 162778 Jun 21 2000 13:00:10 crashinfo_vip_0_20000621-130010 7602176 bytes total (3324492 bytes free) 7500a#
Questo bootflash del router contiene due file VIP crashinfo. Utilizzare il comando show file o altri per visualizzare e acquisire il contenuto di questi file in base alla seguente procedura:
Avviare la registrazione con il programma terminal.
Eseguire il comando term length 0.
Eseguire il comando more bootflash:<crashinfo filename>.
Salvare l'output in un file.
Fare riferimento a Recupero di informazioni dal file Crashinfo per ulteriori informazioni su come utilizzare i file crashinfo.
Se il dispositivo Cisco restituisce i risultati di un comando show technical-support (in modalità di abilitazione), è possibile usare per visualizzare i potenziali problemi e correggerli. Per utilizzare JavaScript, è necessario essere un cliente registrato, aver eseguito l'accesso e avere JavaScript abilitato .
Gli incidenti da VIP sono classificati in diverse categorie in base alla causa dell'incidente. Ogni volta che viene rilevato un errore irreversibile, il VIP si blocca. Questi errori possono essere il risultato di errori di parità, software o hardware che causano la presenza di un messaggio di riconoscimento negativo (NACK) sul CyBus, o problemi software. In questa sezione vengono fornite informazioni su ognuno di questi tipi di errore.
Se il dispositivo Cisco restituisce i risultati di un comando show technical-support (in modalità di abilitazione), è possibile usare per visualizzare potenziali problemi e correzioni. Per utilizzare JavaScript, è necessario essere un cliente registrato, aver eseguito l'accesso e avere JavaScript abilitato .
Gli errori di parità si verificano in un VIP quando l'hardware tenta di controllare la validità dei dati confrontando i valori di parità calcolati con i valori di parità precedenti per gli stessi dati. Un singolo bit flip nei dati può generare un errore di parità. Quando si diagnosticano errori di parità in un VIP, è importante comprendere ogni posizione in cui viene controllata la parità e in cui potrebbero verificarsi errori di parità. Il diagramma mostra queste informazioni. Inoltre, fare riferimento a Cisco 7500 VIP Fault Tree Analysis per ulteriori informazioni sugli errori di parità.
Come illustrato nel diagramma, in un VIP possono verificarsi sette tipi diversi di errori di parità. Si noti che gli errori possono essere ricevuti da un'altra origine e potrebbero non essere stati originati all'interno del VIP stesso. L'errore di parità può essere causato da un Route/Switch Processor (RSP), un altro VIP o da adattatori di porte posizionati male o difettosi. Per comprendere correttamente un incidente VIP, è importante diagnosticare la fonte dell'incidente.
È inoltre importante tenere presente che i dati con parità errata possono essere segnalati da diversi dispositivi di controllo della parità sui router VIP e Cisco serie 7500 per ogni singola operazione di lettura o scrittura. Ad esempio, se il VIP legge un pacchetto in una coda di trasmissione sull'RSP nella propria SRAM e nella SRAM dell'RSP è presente un errore di parità, vengono visualizzati messaggi di errore dall'ASIC MD sull'RSP, dall'ASIC CYA sull'VIP e dall'ASIC PCI/packet memory sull'VIP.
Il diagramma mostra l'analisi della struttura di errore per gli arresti anomali dei VIP:
I modelli VIP4-50, VIP4-80 e VIP6-80 utilizzano la correzione di errore a bit singolo e la correzione ECC (Double Bit Error Detection Code Correction) per la memoria della CPU e del pacchetto. Entrambe sono SDRAM (Synchronous Dynamic RAM). Un errore di bit singolo nella SDRAM viene corretto e il sistema continua a funzionare normalmente.
Gli errori di parità multibit ai numeri 2 o 3 in questa tabella sono un evento irreversibile che causa errori multibit ECC. La cache interna della CPU e i bus nel sistema utilizzano il rilevamento della parità a bit singolo. Come illustrato di seguito, l'architettura di VIP4 e VIP6 è diversa da quella di VIP2. Pertanto, alcuni messaggi di errore non vengono visualizzati e altri messaggi di errore vengono segnalati in modo diverso rispetto a VIP2. In questa sezione relativa agli errori di parità vengono indicate e spiegate le differenze tra VIP2, VIP4 e VIP6.
Le eccezioni di errore di parità nella cache si verificano quando viene rilevata una parità errata nella CPU o nella cache dei dati primari. È possibile che l'errore di parità si sia verificato nella DRAM VIP, nel controller DRAM, nella cache primaria o nella CPU stessa. Gli errori di parità rilevati in questa posizione vengono anche definiti errori di parità della memoria del processore (PMPE). Questi errori determinano un arresto immediato del VIP e l'output è simile sia nei VIP che nei RSP. Un valore sig di venti (sig=20) indica che si è verificata un'eccezione di errore di parità della cache. Il valore sig viene visualizzato nei messaggi del registro eventi di sistema relativi all'arresto anomalo.
Il codice recente fornisce inoltre una riga dettagliata significativa, come illustrato di seguito:
Oct 21 00:11:14.913: %VIP2-1-MSG: slot0 System reloaded by a Cache Parity Exception Oct 21 00:11:14.913: %VIP2-1-MSG: slot0 System Reload called from 0x60125C8C, context=0x60220930 Oct 21 00:11:14.913: %VIP2-1-MSG: slot0 System exception: sig=20, code=0x20025B69, context=0x60220930
Le informazioni contenute nel file VIP crashinfo fanno inoltre riferimento alla stessa posizione dell'errore di parità nella cache di dati primaria:
Error: primary data cache, fields: data, virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000 virtual address corresponds to main:data, cache word 0 Low Data High Data Par Low Data High Data Par L1 Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89 2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8 Low Data High Data Par Low Data High Data Par Mem Data: 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89 2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
Una cache primaria o PMPE può essere un errore temporaneo. Se si tratta della prima istanza di un file PMPE, è in genere possibile ignorarlo. Tuttavia, se lo stesso VIP incontra un secondo o successivi PMPE, è necessario sostituire il VIP. Talvolta la sostituzione della stessa DRAM può risolvere il problema.
Nota VIP4 e VIP6: gli errori di parità che si verificano nella cache interna della CPU e in CyAsic vengono rilevati come eccezioni di errore di parità della cache. Gli errori di parità di bit singolo nella memoria CPU vengono corretti e non è necessario eseguire alcuna azione. Gli errori di parità multi-bit nella memoria CPU vengono rilevati come errori di parità multi-bit ecc di procmem. Se viene segnalato un errore di parità multi-bit ecc di procmem, sostituire la memoria CPU nell'indirizzo VIP.
Oct 25 09:30:54.708: %VIP4-50 RM5271-1-MSG: slot4 PMA error register1 00000000 00002000 Oct 25 09:30:54.716: %VIP4-50 RM5271-1-MSG: slot4 Procmem ECC multi-bit error Oct 25 09:30:54.724: %VIP4-50 RM5271-1-MSG: slot4 PCI1 master address 00000000 Oct 25 09:30:54.732: %VIP4-50 RM5271-1-MSG: slot4 PCI1 slave address 00000000 Oct 25 09:30:54.740: %VIP4-50 RM5271-1-MSG: slot4 Latched Addresses Oct 25 09:30:54.748: %VIP4-50 RM5271-1-MSG: slot4 Procmem ECC multi-bit exception addr 22220000 025F0860 Oct 25 09:30:54.756: %VIP4-50 RM5271-1-MSG: slot4 Procmem ECC multi-bit exception data 00000000 00000000 Oct 25 09:30:54.764: %VIP4-50 RM5271-1-MSG: slot4 MPU addr exception/WPE address 00000000 00000000 Oct 25 09:30:54.772: %VIP4-50 RM5271-1-MSG: slot4 MPU WPE addr/WPE data 00000000 00000000 Oct 25 09:30:54.780: %VIP4-50 RM5271-1-MSG: slot4 ProcMem addr exception 0 0000000 Oct 25 09:30:54.788: %VIP4-50 RM5271-1-MSG: slot4 Pakmem addr exception 00000000 Oct 25 09:31:15.824: %VIP4-50 RM5271-1-MSG: slot4 System reloaded by a fatal hardware error Oct 25 09:31:15.836: %VIP4-50 RM5271-1-MSG: slot4 caller=0x600BCE18 Oct 25 09:31:15.844: %VIP4-50 RM5271-1-MSG: slot4 System exception: sig22, code 0x0, context=0x60615F28
Quando un VIP scarica dal MEMD nell'RSP e questi errori vengono rilevati, di solito questo indica che un altro VIP ha scritto una parità errata nel MEMD, o il MEMD è stato danneggiato. Se l'origine proviene da MEMD e continua, è necessario sostituire l'RSP. Al contrario, se l'origine della parità errata è un altro VIP, è necessario ricollocare e, se necessario, sostituire il VIP che scrive la parità errata.
%VIP2-1-MSG: slot1 Nevada Error Interrupt Register 0x3 %VIP2-1-MSG: slot1 CYASIC Error Interrupt register 0x2020000C %VIP2-1-MSG: slot1 Parity Error internal to CYA %VIP2-1-MSG: slot1 Parity Error in data from CyBus !--- Bad parity is received by the VIP from the CyBus. %VIP2-1-MSG: slot1 CYASIC Other Interrupt register 0x200100 %VIP2-1-MSG: slot1 QE HIGH Priority Interrupt %VIP2-1-MSG: slot1 CYBUS Error register 0xD001A02, PKT Bus Error register 0x0 %VIP2-1-MSG: slot1 PMA error register = 0070000440000000 %VIP2-1-MSG: slot1 Packet Bus Write Parity error !--- The bad parity that was received from the CyBus is written to SRAM. %VIP2-1-MSG: slot1 PCI master address = 0700004 %VIP2-1-MSG: slot1 PA Bay 0 Upstream PCI-PCI Bridge, Handle=0 %VIP2-1-MSG: slot1 DEC21050 bridge chip, config=0x0 %VIP2-1-MSG: slot1 (0x00): cfid = 0x00011011 %VIP2-1-MSG: slot1 (0x04): cfcs= 0x02800147 %VIP2-1-MSG: slot1 (0x08):cfccid = 0x06040002 %VIP2-1-MSG: slot1 (0x0C):cfpmlt = 0x00010000 %VIP2-1-MSG: slot1 (0x18): cfsmlt = 0x00010100 %VIP2-1-MSG: slot1 (0x1C): cfsis = 0x22807020 %VIP2-1-MSG: slot1 Received Master Abort on secondary bus %VIP2-1-MSG: slot1 (0x20): cfmla = 0x01F00000
Nota: VIP4 e VIP6 visualizzano gli stessi messaggi di errore relativi all'errore di parità CyBus, ma il messaggio di errore di parità di scrittura del bus di pacchetto non viene visualizzato.
Sia gli errori di parità del controller DRAM che gli errori di parità del controller di input/output (I/O) vengono rilevati dall'ASIC RENO. Un errore di parità che ha origine nella memoria DRAM o nel controller DRAM viene segnalato come eccezione di parità della cache. Viene segnalato un errore di parità rilevato dal controller I/O, come mostrato in questo output. Spesso, gli errori di parità segnalati dal controller I/O hanno origine altrove e vengono segnalati dal controller I/O oltre che da altri percorsi.
Feb 17 23:03:04 cst: %VIP2 R5K-1-MSG: slot0 Reno read parity error - bytes 0 & 1 Feb 17 23:03:04 cst: %VIP2 R5K-1-MSG: slot0 PMA error register = 0080004000001000 Feb 17 23:03:04 cst: %VIP2 R5K-1-MSG: slot0 Packet Memory Read Parity error
Nota: VIP4 e VIP6 non visualizzano questo messaggio di errore.
L'ASIC PMA segnala un errore di parità di lettura della memoria del pacchetto ogni volta che un errore di parità viene letto dalla memoria del pacchetto (SRAM) nel VIP. Questo errore viene segnalato nel registro eventi di sistema come mostrato di seguito:
Oct 30 05:18:06.120: %VIP2-1-MSG: slot9 Nevada Error Interrupt Register = 0x22 Oct 30 05:18:06.120: %VIP2-1-MSG: slot9 PCI bus 0 parity error Oct 30 05:18:07.120: %VIP2-1-MSG: slot9 PMA error register = 4080103C00004000 Oct 30 05:18:07.120: %VIP2-1-MSG: slot9 PCI Transmit Parity error Oct 30 05:18:08.120: %VIP2-1-MSG: slot9 Packet Memory Read Parity error
È anche possibile vedere la prova di un errore di parità di lettura della memoria del pacchetto nel file VIP crashinfo:
Nevada Error Interrupt Register = 0x2 PMA error register = 0046000000001000 Packet Memory Read Parity error PCI master address = 0460000
Gli errori di parità SRAM possono essere anche transitori, pertanto trattare la prima occorrenza come gli errori di parità DRAM. Se gli errori persistono, sostituire la SRAM o il VIP.
Nota VIP4 e VIP6: gli errori di parità a bit singolo nella memoria del pacchetto vengono corretti. Gli errori di parità multi-bit nella memoria del pacchetto vengono rilevati come errori di parità multi-bit ecc pakmem. Se viene segnalato un errore di parità multi-bit pakmem ecc, sostituire la memoria del pacchetto VIP.
%VIP4-80 RM7000-1-MSG: slot1 PMA error register0 = 0000000000002000 %VIP4-80 RM7000-1-MSG: slot1 Pakmem ECC multi-bit error %VIP4-80 RM7000-1-MSG: slot1 PCI0 master address = 00000000 %VIP4-80 RM7000-1-MSG: slot1 PCI0 slave address = 00000000 %VIP4-80 RM7000-1-MSG: slot1 PMA error register1 = 0000000000000000 %VIP4-80 RM7000-1-MSG: slot1 PCI1 master address = 00000000 %VIP4-80 RM7000-1-MSG: slot1 PCI1 slave address = 00000000 %VIP4-80 RM7000-1-MSG: slot1 Latched Addresses %VIP4-80 RM7000-1-MSG: slot1 Pakmem ECC multi-bit exception addr = 00012358 000000CA %VIP4-80 RM7000-1-MSG: slot1 Pakmem ECC multi-bit exception data = 00000000 00040800 %VIP4-80 RM7000-1-MSG: slot1 MPU addr exception/WPE address = 00000000 00000000 %VIP4-80 RM7000-1-MSG: slot1 MPU WPE addr/WPE data = 00000000 00000000 %VIP4-80 RM7000-1-MSG: slot1 ProcMem addr exception = 00000000 %VIP4-80 RM7000-1-MSG: slot1 Pakmem addr exception = 00000000
L'ASIC PMA segnala un errore di parità di scrittura del bus di pacchetto ogni volta che un errore di parità viene scritto nella memoria del pacchetto. In questo esempio, il VIP è solo il messenger e il problema non esiste con la memoria di questo VIP.
May 10 09:22:14.520: %VIP2-1-MSG: slot11 PMA error register = 2080002800800200 May 10 09:22:15.520: %VIP2-1-MSG: slot11 Packet Bus Write Parity error
Nota: VIP4 e VIP6 non visualizzano questo messaggio di errore.
Gli errori di parità possono essere rilevati nei bus PCI 1 e 2, che si interfacciano direttamente con le schede di porta. Questi bus sono collegati tramite un terzo bus PCI, il bus 0, sul quale è possibile rilevare anche errori di parità. Gli errori di parità che derivano da uno dei bus PCI sono in genere causati da adattatori di porte posizionati in modo non corretto o difettosi. Ogni volta che questi messaggi vengono visualizzati nell'output syslog di un arresto anomalo del sistema, è necessario ricollocare l'adattatore della porta per risolvere il problema.
PCI bus <num> parity error PCI bus <num> system error Detected Parity Error on secondary bus
Se il riposizionamento della scheda di porta non risolve il problema, il problema è causato dalla scheda di porta o dall'indirizzo VIP. Per risolvere il problema, spostare l'adattatore di porta in un altro alloggiamento e inserire un secondo adattatore di porta nell'alloggiamento originale. In genere ciò indica l'hardware che causa il danno. Di seguito è riportato un esempio:
Mar 16 19:34:54: %GEIP-1-MSG: slot9 Nevada Error Interrupt Register = 0x6 Mar 16 19:34:54: %GEIP-1-MSG: slot9 PCI bus 0 system error Mar 16 19:34:54: %GEIP-1-MSG: slot9 PMA error register = 0080043800100000 Mar 16 19:34:54: %GEIP-1-MSG: slot9 PCI IRDY time-out Mar 16 19:34:54: %GEIP-1-MSG: slot9 PCI master address = 0800438 Mar 16 19:34:54: %GEIP-1-MSG: slot9 PA Bay 0 Upstream PCI-PCI Bridge, Handle=0
Nota: gli stessi errori si verificano con VIP4 e VIP6, ma il messaggio di errore è diverso. Viene rilevato come un errore di parità master PCI e un errore di parità slave PCI. Per risolvere il problema, eseguire la stessa procedura descritta per gli errori di parità bus PCI VIP.
00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PMA error register0 = 0000000001800000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI Master Parity error 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI Slave Parity error 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI0 master address = 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI0 slave address = 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PMA error register1 = 0000000000000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI1 master address = 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 PCI1 slave address = 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 Latched Addresses 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 MPU addr exception/WPE address = 00000000 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 MPU WPE addr/WPE data = 00000000 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 ProcMem addr exception = 00000000 00:00:44: %VIP4-50 RM5271-1-MSG: slot1 Pakmem addr exception = 00000000
Gli errori di parità possono essere rilevati anche dal VIP nei dati o nell'indirizzo di un'operazione di lettura o scrittura sul CyBus. In questo caso, l'output del syslog sarà simile al seguente:
CYASIC Error Interrupt register 0x2020000C Parity Error internal to CYA Parity Error in data from CyBus
Utilizzare queste informazioni insieme a quelle presenti nei registri di sistema per determinare la vera origine dell'errore.
Nota: VIP4 e VIP6 mostrano gli stessi messaggi di errore per gli errori di parità CyBus.
Quando il VIP tenta di scrivere in un indirizzo non valido in MEMD, l'RSP inserisce un NACK sul CyBus per tale slot. Si tratta in genere di un problema software, ma può anche riguardare l'hardware. Ad esempio, in questo output, il VIP scrive 4 byte in un indirizzo non valido, quindi l'RSP posiziona un NACK sul CyBus per quello slot.
%RSP-3-ERROR: CyBus0 error 10 %RSP-3-ERROR: command/address mismatch %RSP-3-ERROR: bus command write 4bytes (0xE) %RSP-3-ERROR: address offset (bits 3:1) 0 %RSP-3-ERROR: virtual address (bits 23:17) 000000 %VIP2-1-MSG: slot5 Nevada Error Interrupt Register = 0x1 %VIP2-1-MSG: slot5 CYASIC Error Interrupt register 0x20000003 %VIP2-1-MSG: slot5 Missing ACK on CyBus access %VIP2-1-MSG: slot5 NACK present on CyBus access %VIP2-1-MSG: slot5 CYASIC Other Interrupt register 0x0 %VIP2-1-MSG: slot5 CYBUS Error register 0x8001C48, PKT Bus Error register 0x0 %VIP2-1-MSG: slot5 System reloaded by a fatal hardware error %VIP2-1-MSG: slot5 caller=0x60126C44 %VIP2-1-MSG: slot5 System exception: sig=22, code=0x0, context=0x60265C68
Tuttavia, come mostrato in questo output, l'RSP posiziona anche un NACK su un VIP per aver cercato di scrivere una parità errata nel MEMD.
CYASIC Error Interrupt register 0x1B Parity Error in data from Packet Bus Parity Error internal to CYA Missing ACK on CyBus access NACK present on CyBus access
Quando viene visualizzato un NACK su tutti gli slot, come mostrato in questo output, si tratta di un errore hardware. L'arbitro è difettoso e la gabbia della carta deve essere sostituita.
Jan 1 23:55:21: %FEIP2-1-MSG: slot0 Nevada Error Interrupt Register =0x1 Jan 1 23:55:21: %FEIP2-1-MSG: slot0 CYASIC Error Interrupt register0x20000001 Jan 1 23:55:21: %FEIP2-1-MSG: slot0 NACK present on CyBus access Jan 1 23:55:21: %FEIP2-1-MSG: slot0 CYASIC Other Interrupt register 0x0 Jan 1 23:55:21: %FEIP2-1-MSG: slot0 CYBUS Error register 0x8001A00, PKTBus Error register 0x0 Jan 1 23:55:21: %VIP2-1-MSG: slot2 Nevada Error Interrupt Register = 0x1 Jan 1 23:55:21: %VIP2-1-MSG: slot2 CYASIC Error Interrupt register 0x20000001 Jan 1 23:55:21: %VIP2-1-MSG: slot2 NACK present on CyBus access Jan 1 23:55:21: %VIP2-1-MSG: slot2 CYASIC Other Interrupt register 0x0 Jan 1 23:55:21: %VIP2-1-MSG: slot2 CYBUS Error register 0x800006A, PKT Bus Error register 0x0 Jan 1 23:55:21: %VIP2-1-MSG: slot5 Nevada Error Interrupt Register = 0x1 Jan 1 23:55:21: %VIP2-1-MSG: slot5 CYASIC Error Interrupt register 0x20200001 Jan 1 23:55:21: %VIP2-1-MSG: slot5 NACK present on CyBus access Jan 1 23:55:21: %VIP2-1-MSG: slot5 CYASIC Other Interrupt register 0x200000 Jan 1 23:55:21: %VIP2-1-MSG: slot5 CYBUS Error register 0x800006C, PKT Bus Error register 0x0 Jan 1 23:55:21: %FEIP2-1-MSG: slot8 Nevada Error Interrupt Register = 0x1 Jan 1 23:55:21: %FEIP2-1-MSG: slot8 CYASIC Error Interrupt register 0x20000001 Jan 1 23:55:21: %FEIP2-1-MSG: slot8 NACK present on CyBus access Jan 1 23:55:21: %FEIP2-1-MSG: slot8 CYASIC Other Interrupt register 0x0 Jan 1 23:55:21: %FEIP2-1-MSG: slot8 CYBUS Error register 0x8001B80, PKT Bus Error register 0x0 Jan 1 23:55:21: %FEIP2-1-MSG: slot10 Nevada Error Interrupt Register = 0x1 Jan 1 23:55:21: %FEIP2-1-MSG: slot10 CYASIC Error Interrupt register 0x20000001 Jan 1 23:55:21: %FEIP2-1-MSG: slot10 NACK present on CyBus access Jan 1 23:55:21: %FEIP2-1-MSG: slot10 CYASIC Other Interrupt register 0x0 Jan 1 23:55:21: %FEIP2-1-MSG: slot10 CYBUS Error register 0x8001C08, PKT Bus Error register 0x0 Jan 1 23:55:21: %VIP2-1-MSG: slot2 System reloaded by a fatal hardware error Jan 1 23:55:21: %VIP2-1-MSG: slot2 caller=0x6012640C Jan 1 23:55:21: %VIP2-1-MSG: slot2 System exception: sig=22, code=0x0, context=0x60265028
Gli arresti anomali (crash) dei VIP non causati da nessuna delle ragioni riportate in questo documento sono più comunemente dovuti ad altri problemi software. Questi arresti anomali possono manifestarsi in diversi modi. Di seguito sono riportati alcuni suggerimenti generali per ridurre il rischio di arresti anomali dei VIP dovuti a problemi software e per gestirli in caso si verifichino:
Verificare sempre che l'immagine software Cisco IOS supporti il VIP.
Mantenere sempre la stessa versione dell'immagine di avvio RSP e dell'immagine principale del software Cisco IOS.
Verificare che la configurazione VIP e la scheda di porta siano supportate dalla versione corrente del software Cisco IOS.
Controllare le note sulla versione per verificare i requisiti corretti in termini di livello software e memoria di Cisco IOS.
Questo è un esempio di output del log di sistema di un arresto anomalo del VIP per un problema software:
Apr 18 17:13:33.884: %VIP2 R5K-1-MSG: slot0 System reloaded by a Bus Error exception Apr 18 17:13:33.892: %VIP2 R5K-1-MSG: slot0 caller=0x600BC974 Apr 18 17:13:33.900: %VIP2 R5K-1-MSG: slot0 System exception: sig=10, code=0x408, context=0x605B51E0 Apr 18 17:13:33.912: %VIP2 R5K-1-MSG: slot0 $0 : 00000000, AT : 605B0000, v0 : 00000001, v1 : FFFFFFFC, Apr 18 17:13:33.924: %VIP2 R5K-1-MSG: slot0 a0 : 00000002, a1 : 6042CEE0, a2 : 00000000, a3 : 6112FEC4, Apr 18 17:13:33.936: %VIP2 R5K-1-MSG: slot0 t0 : 00000053, t1 : 3400FF01, t2 : 00000000, t3 : FFFFFFFF, Apr 18 17:13:33.948: %VIP2 R5K-1-MSG: slot0 t4 : 600BC9B0, t5 : 000000F8, t6 : 00000000, t7 : 00000002, Apr 18 17:13:33.956: %VIP2 R5K-1-MSG: slot0 s0 : 0C58BA24, s1 : 00000064, s2 : 6112C7AC, s3 : 60560000, Apr 18 17:13:33.964: %VIP2 R5K-1-MSG: slot0 s4 : 60560000, s5 : 00000001, s6 : 6041433C, s7 : 60414310, Apr 18 17:13:33.972: %VIP2 R5K-1-MSG: slot0 t8 : 00008945, t9 : 00000000, k0 : 607F6CA0, k1 : 00000200, Apr 18 17:13:33.980: %VIP2 R5K-1-MSG: slot0 gp : 6056AFC0, sp : 6112FEC0, s8 : 60414460, ra : 6026EC4C, Apr 18 17:13:33.988: %VIP2 R5K-1-MSG: slot0 EPC : 6026EAA0, ErrorEPC : 800086B8, SREG : 3400FF03 Apr 18 17:13:33.996: %VIP2 R5K-1-MSG: slot0 Cause 00000408 (Code 0x2) Apr 18 17:13:34.004: %VIP2 R5K-1-MSG: slot0 Traceback= 6026EAA0 6026E2E8 6009BAF4 6009BAE0 Apr 18 17:13:35.012: %DBUS-3-DBUSINTERRSWSET: Slot 0, Internal Error due to VIP crash
Probabilmente la parte più importante di informazioni da ottenere in caso di un problema software è il file crashinfo per il VIP. Per istruzioni su come acquisire queste informazioni, vedere la sezione Ottenere un file VIP Crashinfo.
Il VIP si blocca molte volte e quando si rivede il file di informazioni di arresto anomalo, si potrebbe vedere questo messaggio:
00:00:11: %LINK-3-UPDOWN: Interface POS1/0, changed state to up IOBUS Error Interrupt Status register 0x0 Unexpected exception, CPU signal 10, PC = 0x602A7660 -Traceback= 602A7660 602AB238
Il messaggio di errore segnale CPU 10 indica un errore di eccezione del bus. Gli errori del bus possono essere problemi software o hardware. Per risolvere questo problema, riposizionare il modulo e monitorare il router. Se il modulo continua a bloccarsi dopo il riposizionamento, contattare lo strumento TAC Case Open (solo utenti registrati) con il file contenente le informazioni sul blocco.
È consigliabile creare un file di riepilogo degli arresti anomali (VIP) con queste informazioni prima di aprire una richiesta. Includere queste informazioni nel campo Problem Description (Descrizione problema) dello strumento TAC Case Open (solo utenti registrati).
Descrizione del problema
Output del comando show version
Output del comando show diag slot [x]
Estratto del file Crashinfo
Estratto di Syslog
Quindi, raccogli le informazioni da raccogliere se apri una richiesta TAC.
Questo è un esempio di file di riepilogo dell'arresto anomalo del sistema:
******problem description.. VIP crashed with parity errors. The parity errors are being read by the SRAM, suspect the PA! ******show version Cisco Internetwork Operating System Software IOS (tm) GS Software (RSP-PV-M), Version 11.1(29)CC1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) V111_29_CC_THROTTLE_BRANCH Synced to mainline version: 11.1(29)CA Copyright (c) 1986-1999 by cisco Systems, Inc. Compiled Wed 13-Oct-99 02:21 by sharpd Image text-base: 0x60010910, data-base: 0x60832000 ROM: System Bootstrap, Version 11.1(8)CA1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) ROM: GS Software (RSP-BOOT-M), Version 11.1(29)CC1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) attga711c7 uptime is 27 weeks, 11 minutes System restarted by reload at 00:49:05 UTC Sun Oct 24 1999 System image file is "slot0:rsp-pv-mz.111-29.CC1", booted via slot0 Host configuration file is "cbb/al/ar-2", booted via tftp from 199.37.184.170 cisco RSP4 (R5000) processor with 262144K/2072K bytes of memory. R5000 processor, Implementation 35, Revision 2.1 (512KB Level 2 Cache) Last reset from power-on G.703/E1 software, Version 1.0. G.703/JT2 software, Version 1.0. X.25 software, Version 2.0, NET2, BFE and GOSIP compliant. Chassis Interface. 3 VIP2 R5K controllers (3 ATM). 3 ATM network interfaces. 123K bytes of non-volatile configuration memory. 20480K bytes of Flash PCMCIA card at slot 0 (Sector size 128K). 8192K bytes of Flash internal SIMM (Sector size 256K). ******show diag slot 6 Slot 6: Physical slot 6, ~physical slot 0x9, logical slot 0, CBus 0 Microcode Status 0x4 WCS Loaded Board is disabled analyzed wedged Pending I/O Status: None EEPROM format version 1 VIP2 R5K controller, HW rev 2.02, board revision C0 Serial number: 12639078 Part number: 73-2167-05 Test history: 0x00 RMA number: 00-00-00 Flags: cisco 7000 board; 7500 compatible EEPROM contents (hex): 0x20: 01 1E 02 02 00 C0 DB 66 49 08 77 05 00 00 00 00 0x30: 60 00 00 01 00 00 00 00 00 00 00 00 00 00 00 00 Slot database information: Flags: 0x295 Insertion time: 0x3AA4 (27w0d ago) Controller Memory Size: 128 MBytes DRAM, 8192 KBytes SRAM PA Bay 0 Information: ENHANCED ATM OC3 PA (MM), 1 port EEPROM format version 1 HW rev 2.00, Board revision A0 Serial number: 12366362 Part number: 73-2430-04 1 crash since restart. Last crash context (Apr 29 2000 23:19:26): Nevada Error Interrupt Register = 0x2 PMA error interrupt PMA Error Register = 0046000000001000 Packet Memory Read Parity error PCI master address = 0460000 $0 : 00000000, AT : 60179244, v0 : 601D337C, v1 : 0000AAAA a0 : 604CF3E0, a1 : 604C8180, a2 : 00001182, a3 : 00000050 t0 : 00000800, t1 : 4E90424C, t2 : 00000001, t3 : 6014A620 t4 : 6016E220, t5 : 000000F8, t6 : 00000000, t7 : 00000000 s0 : 321735CC, s1 : 6052B508, s2 : 604C8180, s3 : 604CF3E0 s4 : 3226C120, s5 : 604D1440, s6 : 00000002, s7 : 00000CED t8 : 34000000, t9 : 603C9930, k0 : 00000000, k1 : 00000002 gp : 60337700, sp : 603C0350, s8 : 00000001, ra : 601476E8 EPC : 601D337C, ErrorEPC : 800086B8, SREG : 3400E103 Cause 00000000 (Code 0x0): Interrupt exception Traceback= 0x601D337C 0x601476E8 0x6014A674 ******excerpt from crashinfo Nevada Error Interrupt Register = 0x2 PMA error register = 0046000000001000 Packet Memory Read Parity error PCI master address = 0460000 ******excerpt from syslog Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 Nevada Error Interrupt Register = 0x2 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PMA error register = 0046000000001000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 Packet Memory Read Parity error Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PCI master address = 0460000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 PA Bay 0 Upstream PCI-PCI Bridge, Handle=0 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 DEC21050 bridge chip, config=0x0 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x00): cfid = 0x00011011 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x04): cfcs = 0x02800147 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x08): cfccid = 0x06040002 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x0C): cfpmlt = 0x00010000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x18): cfsmlt = 0x00010100 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x1C): cfsis = 0x02807020 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x20): cfmla = 0x01F00000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x24): cfpmla = 0x0000FE00 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x3C): cfbc = 0x00030000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x40): cfseed = 0x00000000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x44): cfstwt = 0x00000000 Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x48): cfswac = 0x00FFFFFF Apr 29 23:19:13: %VIP2 R5K-1-MSG: slot6 (0x4C): cfpwac = 0x00FFFFFF Apr 29 23:19:26: %VIP2 R5K-1-MSG: slot6 System reloaded by a fatal hardware error
Se dopo aver eseguito le procedure di risoluzione dei problemi descritte in questo documento si desidera ancora ricevere assistenza e si desidera aprire una richiesta di assistenza in Cisco Technical Support, includere le seguenti informazioni: |
---|
Nota: se possibile, non ricaricare o spegnere e riaccendere manualmente il router prima di raccogliere queste informazioni, in quanto ciò potrebbe causare la perdita di informazioni importanti necessarie per determinare la causa principale del problema. |
Revisione | Data di pubblicazione | Commenti |
---|---|---|
1.0 |
02-Oct-2006 |
Versione iniziale |