La documentazione per questo prodotto è stata redatta cercando di utilizzare un linguaggio senza pregiudizi. Ai fini di questa documentazione, per linguaggio senza di pregiudizi si intende un linguaggio che non implica discriminazioni basate su età, disabilità, genere, identità razziale, identità etnica, orientamento sessuale, status socioeconomico e intersezionalità. Le eventuali eccezioni possono dipendere dal linguaggio codificato nelle interfacce utente del software del prodotto, dal linguaggio utilizzato nella documentazione RFP o dal linguaggio utilizzato in prodotti di terze parti a cui si fa riferimento. Scopri di più sul modo in cui Cisco utilizza il linguaggio inclusivo.
Cisco ha tradotto questo documento utilizzando una combinazione di tecnologie automatiche e umane per offrire ai nostri utenti in tutto il mondo contenuti di supporto nella propria lingua. Si noti che anche la migliore traduzione automatica non sarà mai accurata come quella fornita da un traduttore professionista. Cisco Systems, Inc. non si assume alcuna responsabilità per l’accuratezza di queste traduzioni e consiglia di consultare sempre il documento originale in inglese (disponibile al link fornito).
In questo documento vengono descritti gli errori di parità soft e hard, vengono illustrati i messaggi di errore più comuni e vengono consigliati i metodi che consentono di evitare o ridurre al minimo gli errori di parità. I recenti miglioramenti nella progettazione hardware e software riducono anche i problemi di parità.
Che cos'è un errore di parità del processore o della memoria?
Il controllo di parità è la memorizzazione di una cifra binaria (bit) aggiuntiva per rappresentare la parità (pari o dispari) di una piccola quantità di dati del computer (in genere un byte) mentre tali dati sono memorizzati in memoria. Il valore di parità calcolato dai dati memorizzati viene quindi confrontato con il valore di parità finale. Se questi due valori differiscono, si tratta di un errore nei dati e almeno un bit deve essere stato modificato a causa di un danneggiamento dei dati.
In un sistema informatico, le interferenze elettriche o magnetiche causate da cause interne o esterne possono causare il capovolgimento spontaneo di un singolo bit di memoria allo stato opposto. Questo evento rende i bit di dati originali non validi ed è noto come errore di parità.
Tali errori di memoria, se non rilevati, possono avere risultati non rilevabili e senza conseguenze o possono causare il danneggiamento permanente dei dati archiviati o un arresto anomalo della macchina.
Le cause degli errori di parità della memoria sono numerose e sono classificate come errori di parità soft o errori di parità hard.
La maggior parte degli errori di parità sono causati da condizioni ambientali elettrostatiche o magnetiche.
La maggior parte degli errori di evento singolo nei chip di memoria sono causati da radiazioni di fondo (come neutroni da raggi cosmici), interferenze elettromagnetiche (EMI) o scariche elettrostatiche (ESD). Questi eventi possono cambiare in modo casuale lo stato elettrico di una o più celle di memoria o possono interferire con i circuiti utilizzati per leggere e scrivere celle di memoria.
Noti come errori di parità soft, questi eventi sono in genere transitori o casuali e in genere si verificano una sola volta. Gli errori soft possono essere lievi o gravi:
Gli errori software non sono causati da guasti hardware; sono transitorie e poco frequenti, sono quasi sempre una SEU e sono causate da un'interruzione ambientale dei dati della memoria.
Se si verificano errori di parità soft, analizzare le modifiche ambientali recenti che si sono verificate nella posizione del sistema interessato. Le fonti comuni di ESD ed EMI che possono causare errori di parità soft includono:
Altri errori di parità sono causati da un malfunzionamento fisico dell'hardware di memoria o dai circuiti utilizzati per leggere e scrivere le celle di memoria.
I produttori di hardware adottano misure estese per prevenire e testare i difetti dell'hardware. Tuttavia, i difetti sono ancora possibili; ad esempio, se una delle celle di memoria utilizzate per memorizzare i bit di dati ha un formato non corretto, potrebbe non essere in grado di sostenere una carica o essere più vulnerabile alle condizioni ambientali.
Analogamente, mentre la memoria stessa può funzionare normalmente, qualsiasi danno fisico o elettrico al circuito usato per leggere e scrivere le celle di memoria può anche causare la modifica dei bit di dati durante il trasferimento, il che produce un errore di parità.
Noti come errori di parità rigida, questi eventi sono in genere molto frequenti e si ripetono ogni volta che viene utilizzata la memoria o il circuito interessato. La frequenza esatta dipende dall'entità del malfunzionamento e dalla frequenza di utilizzo dell'apparecchiatura danneggiata.
Tenere presente che gli errori di parità hardware sono il risultato di un malfunzionamento hardware e si verificano nuovamente ogni volta che viene utilizzato il componente interessato.
Se si verificano errori di parità hardware, analizzare le modifiche fisiche che si sono verificate nella posizione del sistema interessato. Le origini comuni di malfunzionamento hardware che possono causare errori di parità hardware includono:
Il software Cisco IOS® fornisce una varietà di messaggi di errore di parità, che variano a seconda del componente interessato e del relativo impatto sul sistema.
Rilevato errore della cache. Rilevato errore della cache reale. Il sistema verrà arrestato. Errore: Cache istr primaria, campi: dati, Errore di parità dei dati imprecisa |
|
Spiegazione | Questo è il risultato di un errore di parità all'interno della cache di livello 2 (L2) (memoria statica ad accesso casuale o SRAM) utilizzata dal processore di routing (RP) o dalla CPU dello switch processor (SP) del modulo Multilayer Switch Feature Card 3 (MSFC3). |
Suggerimento | Monitorare regolarmente il sistema per verificarne la ripetizione. Se non vengono osservati ulteriori eventi, si tratta di un errore soft. Se l'errore si verifica di frequente, richiedere un'autorizzazione restituzione materiale (RMA) per sostituire il Supervisor Engine e contrassegnare il modulo per l'analisi dei guasti delle apparecchiature. |
%SYSTEM_CONTROLLER-3-ERRORE: Condizione di errore rilevata: ERRORE_PARITÀ_SYSAD | |
Spiegazione | Questo è il risultato di un errore di parità nell'indirizzo di sistema (bus di dati) utilizzato dal controller in-band (IBC) dell'MSFC3. |
Suggerimento | Monitorare regolarmente il sistema per verificarne la ripetizione. Se non vengono osservati ulteriori eventi, si tratta di un errore soft. Se l'errore si verifica di frequente, richiedere un'autorizzazione al reso (RMA) per sostituire il Supervisor Engine e contrassegnare il modulo per l'autenticazione EFA. |
%SYSTEM_CONTROLLER-3-ERRORE: Condizione di errore rilevata: ERRORE_PARITÀ_DATI | |
Spiegazione | Questo è il risultato di un errore di parità nei dati di gestione tabelle utilizzati dall'IBC dell'MSFC3. |
Suggerimento | Monitorare regolarmente il sistema per verificarne la ripetizione. Se non vengono osservati ulteriori eventi, si tratta di un errore soft. Se l'errore si verifica di frequente, richiedere un'autorizzazione al reso (RMA) per sostituire il Supervisor Engine e contrassegnare il modulo per l'autenticazione EFA. |
%SYSTEM_CONTROLLER-3-ERRORE: Condizione di errore rilevata: TM_NPP_PARITY_ERROR | |
Spiegazione | Questo è il risultato di un errore di parità nel 'puntatore pagina successiva' di Table Manager utilizzato dall'IBC dell'MSFC3. |
Suggerimento | Monitorare regolarmente il sistema per verificarne la ripetizione. Se non vengono osservati ulteriori eventi, si tratta di un errore soft. Se l'errore si verifica di frequente, richiedere un'autorizzazione al reso (RMA) per sostituire il Supervisor Engine e contrassegnare il modulo per l'autenticazione EFA. Nelle versioni del software Cisco IOS comprese tra la 12.1(8)E e la 12.2(33)SXI3, per impostazione predefinita, in risposta agli eventi SYSTEM_CONTROLLER-3-ERROR, l'IBC è stato reimpostato e viene registrato un messaggio di errore. Tuttavia, a seguito di questa azione correttiva, in alcuni casi documentati l'IBC (e quindi la CPU) non è più in grado di trasmettere o ricevere dati. Pertanto, il comportamento è stato modificato nelle versioni del software Cisco IOS successive alla versione 12.2(33)SXI4 per registrare un messaggio di errore e ripristinare il sistema; fare riferimento all'ID bug Cisco CSCtf51541. |
Eccezione interrupt, segnale CPU 20, PC = 0x[dec] | |
Spiegazione | Questo è il risultato di un errore di parità a bit singolo nella cache L2 della CPU (SRAM) utilizzata dai moduli Cisco Catalyst serie 6700. |
Suggerimento | Monitorare regolarmente il sistema per verificarne la ripetizione. Se non vengono osservati ulteriori eventi, si tratta di un errore soft. Se l'errore si verifica di frequente, richiedere un'autorizzazione al reso (RMA) per sostituire il modulo 6700 e contrassegnare il modulo per l'autenticazione EFA. Nelle versioni software Cisco IOS precedenti alla 12.2(33)SXI5, un bug del software (ID bug Cisco CSCtj06411) causerebbe anche errori di parità a bit singolo per ripristinare il modulo 6700. Questa condizione è stata risolta nelle versioni 12.2(33)SXI6 e 12.2(33)SXJ per Supervisor Engine 720 e nella versione 15.0SY per Supervisor Engine 2T. |
%SYSTEM_CONTROLLER-3-ERRORE: Condizione di errore rilevata: ERRORE_PARITÀ_SYSDRAM | |
Spiegazione | Questo è il risultato di un errore di parità non correggibile nei moduli di memoria SDRAM (Synchronous DRAM) (DIMM) utilizzati dall'MSFC3. |
Suggerimento | Monitorare regolarmente il sistema per verificarne la ripetizione. Se non vengono osservati ulteriori eventi, si tratta di un errore soft. Se l'errore si verifica frequentemente, pulire e ricollocare la DIMM e continuare il monitoraggio. Se l'errore persiste, richiedere un RMA per sostituire o aggiornare il DIMM. |
%SYSTEM_CONTROLLER-3-COR_MEM_ERR: Errore di memoria DRAM correggibile. Count [dec], log [hex] | |
Spiegazione | Questo è il risultato di un errore di parità correggibile nella memoria SDRAM (DIMM) utilizzata dall'MSFC3. |
Suggerimento | Monitorare regolarmente il sistema per verificarne la ripetizione. Se non vengono osservati ulteriori eventi, si tratta di un errore soft. Se l'errore si verifica frequentemente, pulire e ricollocare la DIMM e continuare il monitoraggio. Se l'errore persiste, richiedere un RMA per sostituire o aggiornare il DIMM. |
%MWAM-DFC[dec]-0-CORRECTABLE_ECC_ERR: Si è verificato un errore ECC correggibile, A_BUS_L2_ERRORS: 0x10000, A_BUS_MEMO_ERRORS: 0x0, A_SCD_BUS_ERR_STATUS: 0x80983000 | |
Spiegazione | Questo è il risultato di un errore di parità a bit singolo nella DRAM utilizzata dai moduli della serie 6700. |
Suggerimento | Monitorare regolarmente il sistema per verificarne la ripetizione. Se non vengono osservati ulteriori eventi, si tratta di un errore soft. Se l'errore si verifica frequentemente, pulire e ricollocare la DIMM e continuare il monitoraggio. Se l'errore persiste, richiedere un RMA per sostituire o aggiornare il DIMM. |
%PM_SCP-SP-2-LCP_FW_ERR_INFORM: Il modulo [dec] presenta il seguente errore: Errore di parità LTL rilevato sulla bobina n. [dec]. | |
Spiegazione | Questa condizione è causata da un errore di parità nella SRAM usata dai moduli Cisco Catalyst serie 6100 e Cisco Catalyst serie 6300. |
Suggerimento | Monitorare regolarmente il sistema per verificarne la ripetizione. Se non vengono osservati ulteriori eventi, si tratta di un errore soft. Se l'errore si verifica di frequente, richiedere un'autorizzazione al reso (RMA) per sostituire il modulo 6100 o 6300 e contrassegnare il modulo per l'autenticazione EFA. |
%SYS-4-SYS_LCPERR4: Modulo [dec]: Errore di parità LTL rilevato sulla bobina n. [dec] | |
Spiegazione | Questo è il risultato di un errore di parità nella SRAM usata dai moduli serie 6100 e 6300. |
Suggerimento | Monitorare regolarmente il sistema per verificarne la ripetizione. Se non vengono osservati ulteriori eventi, si tratta di un errore soft. Se l'errore si verifica di frequente, richiedere un'autorizzazione al reso (RMA) per sostituire il modulo 6100 o 6300 e contrassegnare il modulo per l'autenticazione EFA. |
%PM_SCP-SP-2-LCP_FW_ERR_INFORM: Il modulo [dec] presenta il seguente errore: Errore del buffer del pacchetto ASIC della porta ([name]) rilevato sulle porte [dec] | |
Spiegazione | Questo è il risultato di un errore di parità nel buffer di pacchetto ASIC (SRAM) della porta usato dai moduli Ethernet Cisco Catalyst serie 6148A. |
Suggerimento | Monitorare regolarmente il sistema per verificarne la ripetizione. Se non vengono osservati ulteriori eventi, si tratta di un errore soft. Se l'errore si verifica frequentemente, richiedere un'autorizzazione al reso (RMA) per sostituire il modulo 6148A e contrassegnare il modulo per l'autenticazione EFA. |
%LTL-SP-2-LTL_PARITY_CHECK: LTL richiesta di controllo di parità per 0x[hex]] | |
Spiegazione | Questo è il risultato di un errore di parità nella port ASIC index table (SRAM) usata dai moduli Catalyst serie 6100-6500 e 6700. |
Suggerimento | Monitorare regolarmente il sistema per verificarne la ripetizione. Se non vengono osservati ulteriori eventi, si tratta di un errore soft. Se l'errore si verifica di frequente, richiedere un'autorizzazione al reso (RMA) per sostituire il modulo e contrassegnarlo per l'autenticazione EFA. |
Per un elenco completo dei messaggi di errore, fare riferimento ai seguenti documenti del software Cisco IOS:
Lo strumento Output Interpreter (solo utenti registrati) supporta alcuni comandi show. Usare lo strumento Output Interpreter per visualizzare un'analisi dell'output del comando show.
La ricerca nel campo degli errori di parità è in corso e non è possibile risolvere tutti gli scenari, ma le organizzazioni di sviluppo hardware e software Cisco Catalyst 6500 continuano a introdurre nuovi metodi, ad esempio la protezione ECC (Error-Correcting Code), per ridurre al minimo e mitigare il verificarsi di errori di parità.
Benché questo documento abbia avuto inizio con la discussione sulla terza generazione (WS-XSUP720 e prime serie 6700) di prodotti Catalyst 6500, questa sezione riassume i miglioramenti introdotti con la quarta generazione (VS-S720-10G e successive serie 6700) e la quinta generazione (VS-SUP2T-10G e serie 6900).
Il modulo VS-S720-10G è dotato di una nuova scheda secondaria MSFC3, con una nuova IBC e una versione aggiornata della SR7010A con CPU RISC (Reduced Instruction Set Computing) RP e SP che funzionano a 600 Mhz ciascuna. Le cache di livello 1 (L1), L2 e di livello 3 (L3) sono in grado di rilevare la parità. La nuova versione dell'IBC offre tutte le funzionalità della generazione precedente e aggiunge la protezione ECC (correzione di un singolo bit, rilevamento di più bit) alle SRAM collegate.
I moduli serie 6700 supportano una CPU con cache L2 protetta da ECC (la cache L1 è in grado di rilevare la parità), che può correggere gli errori di parità a bit singolo senza la necessità di reimpostare. Tuttavia, a causa dell'ID bug Cisco CSCsz39222, la versione 12.2SXI del software Cisco IOS (Supervisor Engine 720) reimposta il modulo comunque se si verifica un errore di parità della cache della CPU a bit singolo. La causa è nelle versioni 12.2SXJ (Supervisor Engine 720) e 15.0SY (Supervisor Engine 2T) del software Cisco IOS.
VS-SUP2T-10G è dotato di una nuova scheda secondaria MSFC5 con IBC integrato e una nuova CPU RP MPC8572 dual-core (con cache L2 e L3 protetta da ECC, la cache L1 è in grado di rilevare la parità) che funziona a 1,5 Ghz per core. Dispone inoltre di una nuova CPU CMP (Connectivity Management Processor) fuori banda separata e di una DRAM protetta da ECC, che è disponibile anche se la CPU RP non è attualmente disponibile.
La nuova IBC offre tutte le funzionalità delle generazioni precedenti e supporta la protezione ECC per le SRAM collegate e miglioramenti nella gestione degli errori di parità. Il nuovo MSFC5 è inoltre dotato di una ROM OBFL (Onboard Failure Logging), che memorizza tutti gli eventi di inizializzazione e diagnostica dei moduli. Il nuovo progetto di CPU singola riduce inoltre la probabilità statistica di eventi di errore di parità.
I moduli serie 6900 supportano una nuova CPU con cache L1 e L2 protetta da ECC, che può correggere gli errori di parità a bit singolo senza la necessità di reimpostare. La nuova generazione supporta lo stesso IBC ed è stato incorporato il software per la gestione della correzione degli errori di parità a bit singolo.
VS-S720-10G con MSFC3 è dotato di SDRAM DDR (Double-Data-Rate) con protezione ECC e funziona a 266 Mhz.
I moduli serie 6700 supportano SDRAM DDR con protezione ECC, con funzionamento a 266 Mhz.
Rispetto alla SDRAM a velocità di dati singola (SDR), l'interfaccia SDRAM DDR consente velocità di trasferimento più elevate grazie a un controllo più rigoroso della temporizzazione dei dati elettrici e dei segnali dell'orologio. L'interfaccia DDR utilizza il doppio pompaggio (trasferimento di dati sui bordi ascendente e discendente del segnale di clock) per ridurre la frequenza di clock. La frequenza di clock inferiore riduce i requisiti di integrità del segnale sulla scheda di circuito che collega la memoria al controller.
VS-SUP2T-10G con MSFC5 è dotato di SDRAM DDR3 con protezione ECC e funziona a 667 Mhz.
I moduli della serie 6900 supportano la memoria SDRAM DDR3 con protezione ECC, con un funzionamento a 667 Mhz.
Il vantaggio principale della SDRAM DDR3 rispetto ai suoi predecessori immediati (DDR2 e DDR) è la possibilità di trasferire i dati a una velocità doppia (otto volte superiore rispetto agli array di memoria interni), che consente una larghezza di banda superiore o velocità di picco dei dati. La memoria DDR3 riduce inoltre il consumo energetico del 30%, anche se utilizza lo stesso standard di segnalazione elettrica di DDR e DDR2.
VS-S720-10G con PFC3C dispone di buffer di pacchetti SRAM con protezione ECC. In questo modo è possibile correggere gli errori di parità a bit singolo senza reimpostare il modulo e rilevare gli errori di parità a bit multiplo.
La serie 6700 con DFC3C include buffer di pacchetti SRAM con protezione ECC. In questo modo è possibile correggere gli errori di parità a bit singolo senza reimpostare il modulo e rilevare gli errori di parità a bit multiplo.
VS-SUP2T-10G con PFC4 dispone di buffer di pacchetti SRAM con protezione ECC. In questo modo è possibile correggere gli errori di parità a bit singolo senza reimpostare il modulo e rilevare gli errori di parità a bit multiplo.
La serie 6900 con DFC4 include buffer di pacchetti SRAM con protezione ECC. In questo modo è possibile correggere gli errori di parità a bit singolo senza reimpostare il modulo e rilevare gli errori di parità a bit multiplo.
Il software Cisco IOS è progettato per supportare la protezione ECC. Se un componente hardware che supporta la protezione ECC presenta una SEU, il codice dovrebbe correggere i dati danneggiati o reimpostare il componente interessato e non richiedere un ripristino completo dell'hardware del modulo interessato.
Tuttavia, nelle versioni precedenti del software Cisco IOS, sono presenti alcune eccezioni in cui il comportamento è stato modificato intenzionalmente o non funziona correttamente a causa di un bug del software. Ecco due notevoli eccezioni.
Nelle versioni del software Cisco IOS tra la 12.1(8)E e la 12.2(33)SXI3, per impostazione predefinita, in risposta agli eventi SEU SYSTEM_CONTROLLER-3-ERROR, è stato necessario reimpostare l'IBC e registrare un messaggio di errore. Tuttavia, a seguito di questa azione correttiva, in alcuni casi documentati l'IBC (e quindi la CPU) non è più in grado di trasmettere o ricevere dati.
Pertanto, il comportamento è stato modificato dopo la versione 12.2(33)SXI4 (ID bug Cisco CSCtf51541) in modo da registrare un messaggio di errore e ripristinare il sistema. Sebbene questa reazione possa sembrare più grave, è preferibile reimpostare il sistema e correggere la struttura della memoria piuttosto che avere un sistema che non risponde.
Una funzionalità ora in fase di sviluppo (ID bug Cisco CSCtr89859) aggiungerà un nuovo comando della riga di comando (CLI) che consente di modificare il comportamento predefinito. Questo miglioramento è applicabile soprattutto ai sistemi che utilizzano un singolo supervisore e che quindi non hanno ridondanza di supervisore.
Nelle versioni software Cisco IOS precedenti alla 12.2(33)SXI5, un bug del software (ID bug Cisco CSCtj06411) causerebbe anche errori di parità a bit singolo per ripristinare il modulo 6700. In genere si tratta di un errore di parità correggibile e non richiede la reimpostazione del modulo.
Il bug è stato risolto nelle versioni 12.2(33)SXI6+ e 12.2SXJ per Supervisor Engine 720 e nella versione 15.0SY per Supervisor Engine 2T. Dopo un aggiornamento alla versione appropriata, il modulo 6700 si limita a registrare un messaggio di errore e continua a funzionare.
A questo punto, è probabile che si sia verificato un errore di parità soft o hard. Anche se questa operazione può risolvere un singolo problema, è possibile che esistano ancora altre vulnerabilità dell'errore di parità, pertanto è consigliabile adottare un approccio più completo all'intera rete.
Pertanto, Cisco e la Business Unit Catalyst 6500 consigliano di esaminare queste procedure di mitigazione e di intraprendere le azioni correttive appropriate per eliminare o ridurre futuri errori di parità.
Gli errori di parità di evento singolo (soft) sono causati da condizioni ambientali e possono verificarsi una sola volta (SEU) o molto raramente, ad esempio mensilmente o annualmente. Sebbene non sia necessario sostituire l'hardware, è possibile ridurre il numero di ricorrenze future.
Queste procedure ottimali riducono notevolmente la probabilità di errori di parità soft.
Cisco consiglia di eseguire un controllo ambientale dei percorsi di rete interessati. È possibile eseguire questa verifica personalmente o in coordinamento con un rappresentante Cisco, con un team Cisco (ad esempio Cisco Advanced Services), o tramite un consulente di terze parti.
La copertura esatta e la complessità di un audit ambientale dipendono da molte variabili diverse, quali l'ubicazione geografica, le dimensioni e la progettazione degli edifici e delle stanze, la progettazione e il layout elettrico e altri fattori correlati.
Considerate quali fonti ambientali di ESD ed EMI possono esistere all'interno o intorno alla rete. Queste sono origini di interferenza comuni che possono determinare un errore di parità soft:
È possibile che si verifichino SEU se le unità di distribuzione dell'alimentazione, i generatori di alimentazione o i sistemi di illuminazione sono troppo vicini allo chassis o se sono presenti più cavi di alimentazione accesi o accanto allo chassis.
È importante fornire una distanza adeguata tra lo chassis Catalyst 6500 e queste sorgenti elettriche e magnetiche. Le distanze consigliate variano in base al componente e sono disponibili nei fogli dati dei componenti.
In generale, Cisco consiglia di individuare sistemi con un'altezza compresa tra i tre e i sei pollici dalle sorgenti comuni di interferenze elettriche e magnetiche. I cavi di alimentazione devono essere stesi verso il basso e allontanati dallo chassis, ove possibile, e non devono essere disposti in fasci di cavi strettamente compressi o in grandi quantità attraverso o accanto allo chassis.
Le fluttuazioni dell'alimentazione e i picchi di corrente sono relativamente comuni e gli alimentatori Catalyst 6500 sono progettati per adattarsi a variazioni di tensione minime.
Tuttavia, è fondamentale fornire una messa a terra elettrica adeguata per il telaio e il rack in modo che qualsiasi tensione elettrica in eccesso venga rimossa dal sistema. Senza una corretta messa a terra, i picchi di corrente possono causare danni o malfunzionamento in vari ASIC e componenti della memoria. Per ulteriori informazioni, consultare la guida all'installazione degli switch Catalyst serie 6500, Installazione dello switch, Configurazione della messa a terra del sistema.
Le ESD possono danneggiare facilmente i componenti critici senza compromettere la visibilità. Misure preventive adeguate dovrebbero essere integrate nelle politiche delle operazioni di laboratorio, ma tali misure sono spesso e purtroppo ignorate a causa dell'opportunità e della scarsa sorveglianza.
Cisco consiglia alla direzione delle operazioni di laboratorio e a Cisco Systems di eseguire un audit ambientale di tutte le aree della rete o, come minimo, di tutte le aree che hanno presentato errori hardware o che sono state designate come mission critical. Una volta completato il controllo, Cisco consiglia di implementare una lista di controllo ambientale standardizzata per tutti i nuovi sistemi installati, al fine di evitare futuri eventi di parità SEU.
I componenti hardware Catalyst utilizzano il codice firmware (noto anche come Rommon) per inizializzare, comunicare ed eseguire la diagnostica. Una volta completate queste funzioni, il funzionamento del sistema viene trasferito al software Cisco IOS. È raro riscontrare problemi relativi al firmware, ma possono verificarsi se si utilizzano versioni diverse del codice del firmware per i Supervisor e i moduli.
Pertanto, è buona norma garantire che tutti i componenti utilizzino il codice del firmware più recente per garantire l'inizializzazione e la comunicazione appropriate del modulo. Cisco consiglia alla direzione delle operazioni di eseguire un controllo della rete e aggiornare tutti i componenti hardware con la versione più recente del firmware.
I problemi noti del firmware e le procedure di aggiornamento sono documentati in:
Scaricare le versioni più recenti del firmware dal sito Web Cisco:
Tutti i sistemi di rete modulari sono progettati per essere inseriti in un backplane dello chassis con una serie di pin di interfaccia fisica. Il backplane dello chassis è essenzialmente costituito da una serie di fili interconnessi. I pin in ciascuno slot dello chassis formano la connessione dati fisica tra il Supervisor e i moduli Ethernet. Pertanto, è fondamentale inserire e allineare correttamente questi pin.
Catalyst 6500 fornisce guide e pin di allineamento per l'installazione nello chassis. I pin (socket) e i connettori dei moduli sono progettati per inserirsi facilmente e fornire una connettività elettrica ad ampia larghezza di banda. Una volta inserita nello chassis, ci sono viti a testa su entrambi i lati del modulo che agganciano completamente i pin del backplane. Fare riferimento alla nota sull'installazione del modulo dello switch Catalyst serie 6500.
Se un modulo è stato inserito correttamente nello slot e le viti del pollice sono state serrate correttamente, non si prevedono problemi di comunicazione. Tuttavia, nell'inserimento quotidiano dei moduli possono verificarsi diverse condizioni che possono causare un inserimento errato o anche incompleto del pin:
Cisco consiglia di implementare un processo di gestione delle operazioni che richieda l'uso di viti di fissaggio su tutti i moduli Catalyst 6500 negli ambienti di produzione. Ciò garantisce l'inserimento e l'allineamento corretti e completi dei pin del backplane e previene futuri errori dovuti a errori di bit e correlati errori di comunicazione.
Errori di parità frequenti o ripetibili (rigidi) sono causati da malfunzionamento fisico della memoria o dei circuiti utilizzati per leggere e scrivere. In questi casi, sostituire l'hardware e chiedere al Cisco Technical Assistance Center (TAC) o al tecnico di sistema Cisco di eseguire un'autenticazione EFA sull'hardware restituito.
Queste procedure ottimali riducono notevolmente la probabilità di errori di parità hardware.
Cisco consiglia di eseguire un controllo della rete dei percorsi di rete interessati. È possibile eseguire questa verifica personalmente o in coordinamento con un rappresentante Cisco, con un team Cisco (ad esempio Cisco Advanced Services), o tramite un consulente di terze parti.
Tutto l'hardware (di tutti i fornitori) è soggetto a un eventuale peggioramento dell'integrità fisica ed è importante tenere traccia del ciclo di vita di tutti i componenti hardware della rete per comprendere appieno la probabilità di guasto dei componenti nel tempo.
L'affidabilità dell'hardware può essere misurata con il framework MTBF (Mean Time Between Failure). Poiché l'MTBF è solo una media statistica, ciò non significa che il guasto si verificherà definitivamente alla fine del periodo di tempo MTBF. Tuttavia, la probabilità e la vulnerabilità di guasti ai componenti aumenta, pertanto tali componenti hardware dovrebbero essere contrassegnati per l'aggiornamento. Per i valori MTBF specifici di ciascun prodotto Catalyst 6500, consultare i data sheet degli switch Cisco Catalyst serie 6500.
Il valore MTBF calcolato aggregato di Catalyst 6500 a livello di sistema è > 7 anni.
Oltre al framework MTBF, Cisco fornisce anche un framework di fine ciclo di vita (EOL), che definisce il ciclo di vita previsto di un dato prodotto e fornisce annunci applicabili per aiutare l'utente ad aggiornare le apparecchiature legacy. Fare riferimento agli avvisi di fine del ciclo di vita e di vendita per diversi prodotti Catalyst 6500 legacy.
In seguito a questa verifica dell'hardware, Cisco consiglia di implementare un processo MTBF e di fine ciclo di vita personalizzato che identifichi e tenga traccia dell'hardware per un potenziale aggiornamento. In questo modo viene garantita l'esecuzione dell'hardware più recente e viene ridotta al minimo la probabilità di malfunzionamento dell'hardware.
Catalyst serie 6500 e il software Cisco IOS offrono la diagnostica Generic Online Diagnostics (GOLD) e Health Monitoring (HM) per tutti i componenti hardware utilizzati nel sistema. I due tipi di diagnostica di base che possono essere attivati sono on-demand e boot-up. per ulteriori informazioni, fare riferimento a Generic Online Diagnostics sullo switch Cisco Catalyst serie 6500.
Cisco consiglia di abilitare la diagnostica di avvio "completa" per tutti i componenti hardware in modo da garantire l'esecuzione di tutti i test diagnostici e verificare che tutti i componenti hardware funzionino come previsto all'avvio.
Cisco consiglia inoltre di pianificare la diagnostica regolare e su richiesta dei componenti critici dell'infrastruttura su base giornaliera o settimanale. Oltre alla diagnostica di avvio che si verifica solo durante l'inizializzazione, la diagnostica su richiesta garantisce che l'hardware continui a funzionare come previsto. Per ulteriori informazioni, consultare la guida alla configurazione del software Catalyst 6500 release 12.2SX, componenti hardware e interfaccia, diagnostica online.
Oltre ai test diagnostici predefiniti su richiesta, Cisco consiglia di abilitare questi test diagnostici su richiesta per identificare in modo proattivo i componenti della memoria che potrebbero malfunzionare: