Introduzione
Questo documento spiega cosa causa gli errori di parità sui router Cisco e come risolverli.
Prerequisiti
Requisiti
Cisco consiglia di essere a conoscenza di come risolvere i problemi di arresto anomalo del router.
per ulteriori informazioni, fare riferimento a Risoluzione dei problemi di arresto anomalo del router.
Componenti usati
Il documento può essere consultato per tutte le versioni software o hardware.
Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.
Convenzioni
Per ulteriori informazioni sulle convenzioni usate, consultare il documento Cisco sulle convenzioni nei suggerimenti tecnici.
Identificare un errore di parità
Gli errori di parità della memoria si verificano nei prodotti basati su processore MIPS (MultiChannel Interface Processor), ad esempio:
-
Cisco serie 4500/4700 Router
-
Cisco serie 7500 Router (RSP1, RSP2, RSP4, RSP8, VIP2-10, VIP2-15, VIP2-20, VIP2-40, VIP2-50)
-
Cisco serie 7000 Router (RSP 7000)
-
Cisco serie 7200 Router (NPE-100, NPE-150, NPE-175, NPE-200, NPE-225, NPE-300)
-
Cisco serie 12000 Internet Router
Di seguito sono riportati alcuni messaggi, tutti relativi al rilevamento di parità errata in qualche punto del sistema (l'elenco non è esaustivo, ma contiene i messaggi più comuni):
-
Nell'output del comando show version:
System restarted by processor memory parity error at PC 0x6014F7C0,
address 0x0
o
System restarted by shared memory parity error at PC 0x60130F40
se il dispositivo Cisco restituisce i risultati di un comando show version, è possibile usare Cisco CLI Analyzer per visualizzare i potenziali errori e correggerli. Per utilizzare Cisco CLI Analyzer, è necessario essere un cliente registrato, aver eseguito l'accesso e avere JavaScript abilitato.
-
Nei log della console o nei file crashinfo:
- *** Cache Error Exception ***
Cache Err Reg = 0xa401a65a
data reference, primary cache, data field error , error on SysAD Bus
PC = 0xbfc17950, Cause = 0x0, Status Reg = 0x3040d007
- Error: primary data cache, fields: data,
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
virtual address corresponds to main:data, cache word 0
Low Data High Data Par Low Data High Data Par
L1 Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
Low Data High Data Par Low Data High Data Par
Mem Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
- *** Shared Memory Parity Error ***
shared memory control register= 0xffe3
error(s) reported for: CPU on byte(s): 0/1
- %PAR-1-FATAL: Shared memory parity error
shared memory status register= 0xFFEF
error(s) reported for: CPU on byte(s): 0/1 2/3
- %RSP-3-ERROR: MD error 0000008000000200
%RSP-3-ERROR: QA parity error (bytes 0:3) 02
%RSP-3-ERROR: MEMD parity error condition
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA)
log 22010000, data 00000000 00000000
%RSP-3-RESTART: cbus complex
- %RSP-3-ERROR: CyBus error 01
%RSP-3-ERROR: read data parity
%RSP-3-ERROR: read parity error (bytes 0:7) 20
%RSP-3-ERROR: physical address (bits 20:15) 000000
- %RSP-3-ERROR: MD error 00800080C000C000
%RSP-3-ERROR: SRAM parity error (bytes 0:7) F0
%RSP-3-RESTART: cbus complex
Errori di parità soft e hard
Esistono due tipi di errori di parità:
-
Errori di parità soft
Questi errori si verificano quando un livello di energia all'interno del chip (ad esempio, uno o zero) cambia. Quando la CPU vi fa riferimento, tali errori provocano il crash del sistema (se l'errore si trova in un'area non recuperabile) o il ripristino di altri sistemi (ad esempio, un complesso CyBus viene riavviato se l'errore si trovava nella memoria del pacchetto (MEMD)). In caso di errore di parità soft, non è necessario sostituire la scheda o uno dei componenti. Per ulteriori informazioni sugli errori di parità soft, vedere la sezione Informazioni correlate.
-
Errori di parità hardware
Questi errori si verificano quando si verifica un errore del chip o della scheda che danneggia i dati. In questo caso, è necessario ricollocare o sostituire il componente interessato, che in genere comporta uno scambio di chip di memoria o di schede. Si verifica un errore di parità hardware quando si verificano più errori di parità allo stesso indirizzo. Ci sono casi più complicati che sono più difficili da identificare. In generale, se in una particolare area di memoria vengono visualizzati più errori di parità in un periodo di tempo relativamente breve, è possibile considerarli un errore di parità difficile.
Gli studi hanno dimostrato che gli errori di parità soft sono da 10 a 100 volte più frequenti degli errori di parità hard. Pertanto, Cisco consiglia vivamente di attendere un secondo errore di parità prima di procedere alla sostituzione. Ciò riduce notevolmente l'impatto sulla rete.
Isolamento del problema
La memoria di un router si trova in percorsi diversi. In teoria, qualsiasi posizione di memoria può essere influenzata dall'errore di parità, ma la maggior parte dei problemi di memoria si verifica nella RAM dinamica (DRAM) o nella RAM condivisa (SRAM). In base alla piattaforma, di seguito viene indicato come è possibile individuare la posizione della memoria interessata e, se si tratta di un errore di parità difficile, quale parte deve essere sostituita:
Piattaforme Cisco 4500 e 4700
Sulle piattaforme Cisco 4500 e 4700, il file crashinfo non è disponibile nelle versioni precedenti al software Cisco IOS® versione 12.2(10) e 12.2(10)T.
Per individuare la posizione in cui si è verificato l'errore, esaminare il "motivo del riavvio" nei log della console e nell'output del comando show version:
-
Errore di parità nella DRAM:
Se il router non è stato ricaricato manualmente dopo l'arresto anomalo, l'output show version è il seguente:
System restarted by processor memory parity error at PC 0x601799C4,
address 0x0
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
Se è disponibile un file crashinfo o se sono stati acquisiti log della console, è possibile visualizzare anche qualcosa di simile al seguente:
*** Cache Error Exception ***
Cache Err Reg = 0xa0255c61
data reference, primary cache, data field error , error on SysAD Bus
PC = 0xbfc0edc0, Cause = 0xb800, Status Reg = 0x34408007
La ripetuta presenza di errori di parità nella DRAM indica che la DRAM o lo chassis sono difettosi. Se lo chassis è stato rimosso di recente o se sono state apportate modifiche alla configurazione hardware, riposizionare i chip DRAM per risolvere il problema. In caso contrario, sostituire la DRAM come primo passo. Ciò deve impedire gli errori di parità. Se il router continua a bloccarsi, sostituire lo chassis.
-
Errore di parità nella SRAM:
Se il router non è stato ricaricato manualmente dopo l'arresto anomalo, l'output del comando show version è il seguente:
System restarted by shared memory parity error at PC 0x60130F40
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
Se è disponibile un file crashinfo o se sono stati acquisiti log della console, è possibile visualizzare anche qualcosa di simile al seguente:
*** Shared Memory Parity Error ***
shared memory control register= 0xffe3
error(s) reported for: CPU on byte(s): 0/1
o
%PAR-1-FATAL: Shared memory parity error
shared memory status register= 0xFFEF
error(s) reported for: CPU on byte(s): 0/1 2/3
o
*** Shared Memory Parity Error ***
shared memory control register= 0xffdf
error(s) reported for: NIM1 on byte(s): 0/1 2/3
Nota:
-
Se l'errore viene segnalato per la CPU, sostituire la SRAM.
-
Se l'errore viene segnalato per NIM(x), sostituire il modulo di rete nello slot (x). Può essere interessata anche la SRAM assegnata allo slot (x). In questo caso, sostituire la SRAM.
I ripetuti errori di parità nella SRAM indicano chip SRAM difettosi o un modulo di rete difettoso che ha scritto una parità errata nella SRAM. Se lo chassis è stato rimosso di recente o sono state apportate modifiche alla configurazione hardware, ricollocare i moduli di rete e i chip SRAM per risolvere il problema. In caso contrario, controllare se l'errore viene segnalato nei log della console (vedere l'esempio di output sopra riportato).
Piattaforme Route/Switch Processor (RSP), Network Processing Engine (NPE) e Route Processor (RP)
Come per la serie Cisco 4000, il problema può essere dovuto a un difetto della DRAM o della SRAM su queste piattaforme. Il problema può essere dovuto anche a una scheda processore difettosa (RP, RSP o NPE). Cisco 7000 e 7500 possono inoltre segnalare errori di parità generati da un processore di interfaccia difettoso o mal posizionato (xIP o VIP legacy).
Controllare se il file crashinfo e i log della console contengono uno di questi messaggi di errore:
Errore di parità nella DRAM o nella SRAM (MEMD)
Per l'RP, l'RSP e l'NPE, in genere viene visualizzato qualcosa di simile al seguente:
Error: primary data cache, fields: data, (SysAD)
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
virtual address corresponds to main:data, cache word 0
o semplicemente:
Error: primary data cache, fields: data, SysAD
phy21:3 0x201880, va14:12 0x1000, addr 63E01880
Ciò indica un problema dell'RSP stesso. Se il problema si verifica una sola volta, molto probabilmente si tratta di un problema transitorio.
Errore di parità estratto dalla SRAM
Per l'RSP, il messaggio può avere il seguente aspetto:
%RSP-3-ERROR: MD error 0000008000000200
%RSP-3-ERROR: QA parity error (bytes 0:3) 02
%RSP-3-ERROR: MEMD parity error condition
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA)
log 22010000, data 00000000 00000000
%RSP-3-RESTART: cbus complex
o
%RSP-3-ERROR: CyBus error 01
%RSP-3-ERROR: read data parity
%RSP-3-ERROR: read parity error (bytes 0:7) 20
%RSP-3-ERROR: physical address (bits 20:15) 000000
Se non vi è alcuna indicazione di un altro processore di interfaccia che scriva la parità errata nella SRAM (ad esempio, messaggi di errore VIP2-1-MSG), la causa più probabile dell'errore di parità è la stessa SRAM. In questo caso, sostituire l'RSP.
Se altri messaggi di errore indicano che un processore di interfaccia scrive una parità errata, potrebbe trattarsi di una scheda difettosa o posizionata in modo errato.
Processore di interfaccia versatile
Se si ricevono %VIP2-1-MSG: slot(x) messaggi nei log o nel file crashinfo, vedere Risoluzione dei problemi di arresto anomalo dei VIP.
Azioni consigliate
Alla prima occorrenza di un errore di parità, non è possibile distinguere tra un errore di parità soft o hard. In base all'esperienza, la maggior parte delle occorrenze di parità è costituita da errori di parità soft che è possibile ignorare. Se di recente è stata modificata una parte dell'hardware o se la scatola è stata spostata, provare a ricollocare la parte interessata (DRAM, SRAM, NPE, RP, RSP o VIP). Occorrenze frequenti di parità multiple indicano hardware difettoso. Sostituire la parte interessata (DRAM, RSP, VIP o scheda madre) con l'aiuto delle istruzioni riportate in questo documento.
Informazioni da raccogliere se si apre una richiesta di servizio TAC
Se dopo aver eseguito le procedure di risoluzione dei problemi sopra descritte si desidera aprire una richiesta di assistenza con Cisco TAC, includere le seguenti informazioni: |
- La risoluzione dei problemi è stata eseguita prima dell'apertura della richiesta di assistenza.
- show technical-support (in modalità abilitazione, se possibile).
- output del comando show log o acquisizioni della console, se disponibili.
- file crashinfo (se presente, e non già incluso nell'output del comando show technical-support. Se esistono più file crashinfo, includerli tutti).
- Numero di ricariche dovute a errori di parità della memoria del processore rilevati e al momento in cui si sono verificati.
Allegare i dati raccolti alla richiesta in formato testo normale non compresso (.txt). Per allegare informazioni alla richiesta di assistenza, caricarla tramite lo strumento TAC Service Request (solo utenti registrati). Se non è possibile accedere allo strumento per la richiesta di assistenza, allegare le informazioni pertinenti alla richiesta di assistenza e inviarle a attach@cisco.com con il numero della richiesta di assistenza in oggetto. Nota: non ricaricare o spegnere e riaccendere manualmente il router prima di aver raccolto le informazioni sopra indicate, a meno che non sia necessario per risolvere un errore di parità della memoria del processore, perché ciò potrebbe causare la perdita di informazioni importanti necessarie per determinare la causa principale del problema. |
Informazioni correlate