Questo documento descrive come risolvere gli errori di fabric segnalati nella piattaforma Cisco Nexus 7000. La risoluzione dei problemi dei CRC (Cyclic Redundancy Checksum) dell'infrastruttura comporta la raccolta di dati, l'analisi dei dati e un processo di eliminazione per isolare il componente problematico. Questo documento descrive i tipi più comuni di errori CRC dell'infrastruttura.
Di seguito è riportato un diagramma di alto livello di un modulo fabric Nexus 7018 con schede di linea M1:
L'immagine precedente offre una panoramica dei componenti coinvolti quando un pacchetto attraversa un modulo fabric. La Fase 1 (S1), la Fase 2 (S2) e la Fase 3 (S3) sono le tre fasi del fabric Nexus 7000, Octopus è il motore della coda, Santa Cruz (SC) è l'ASIC del fabric e l'Istanza 1 e 2 sono le due istanze SC sulla XBAR. Questo documento considera solo una XBAR. Tenere presente che sulla maggior parte degli switch Nexus serie 7000 sono installati tre o più XBAR.
Ipotizzando la presenza di un flusso unidirezionale dal modulo 1 (M1) al modulo 2 (M2), l'Octopus-1 in entrata su M1 effettua controlli di errore sui pacchetti che riceve da sud e l'Octopus-1 in uscita su M2 da nord. Se viene rilevato CRC in S3, potrebbe essersi verificato un problema anche in S1 o S2, poiché in tali fasi non viene eseguito alcun controllo CRC. Quindi, i dispositivi coinvolti nel percorso sono l'entrata Octopus, il telaio, il tessuto crossbar, e l'uscita Octopus.
Nell'architettura M1/Fab1, i CRC vengono rilevati solo sulla scheda di linea in uscita (S3).
Di seguito è riportato un messaggio di errore di esempio:
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
CRC error from MOD 15 through XBAR slot 1/inst 1
Questo è segnalato da M1, che indica che ha ricevuto pacchetti con CRC errato dal modulo 15 (M15) tramite slot XBAR 1/istanza 1.
In questa sezione vengono descritti quattro dei tipi più comuni di errori CRC dell'infrastruttura.
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets withCiò significa che il modulo nello slot 1 ha rilevato un errore CRC da M15 allo slot XBAR 1/istanza 1. Il modulo in cui si sono verificati gli errori CRC è denominato modulo in ingresso (in questo caso M15), mentre il modulo che ha segnalato il problema è il modulo in uscita (M1). XBAR 1 è la barra trasversale in cui il pacchetto è stato ricevuto. Esistono due istanze per XBAR. In questo caso, M1 ha rilevato errori CRC da M15 a XBAR slot 1 istanza 1.
CRC error from MOD 15 through XBAR slot 1/inst 1
%OC_USD-SLOT4-2-RF_CRC: OC2 received packets withIn questo messaggio, il modulo 4 (M4) ha segnalato l'errore CRC da M1. Si noti che le informazioni XBAR non sono disponibili. Impossibile verificare la XBAR attraversata dal pacchetto. I motivi più comuni sono: Le informazioni nell'intestazione della struttura del pacchetto potrebbero essere danneggiate, quindi non è possibile determinare il modulo di origine. La barra XBAR attraversata viene rimossa dal sistema da quando l'errore è aumentato. Pertanto, non è stato segnalato nel messaggio di syslog orario.
CRC error from MOD 1
%OC_USD-2-RF_CRC: OC1 received packets withIn questo caso, un dispositivo ha rilevato un CRC dal modulo 16 (M16) a XBAR 1. Non esiste tuttavia alcun modulo di ricezione. Quando il Supervisor (SUP) rileva un CRC proveniente dal modulo fabric, le informazioni sullo slot non vengono registrate. Quando non vengono visualizzate le informazioni sullo slot, il SUP ha rilevato il problema. Questo non significa che la SUP sia dannosa. Come quando il modulo segnala il problema, il problema potrebbe essere stato causato da più componenti: M16, lo chassis (non così probabile), XBAR 1 o il SUP.
CRC error from MOD 16 through XBAR slot 1/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets withIl modulo di origine viene ricavato dal polpo in entrata che ha originato il pacchetto errato. Il driver che genera un interrupt per registrare questo messaggio di errore non sempre conosce il Octopus in entrata da cui ha avuto origine il pacchetto errato. Ciò è dovuto al fatto che alcuni dei bit usati per rappresentare il polpo in entrata non sono usati. Se il sistema determina che più moduli hanno questi bit inutilizzati attivati, il sistema deve presupporre che uno di essi possa essere l'origine, in modo che il messaggio di errore includa tutti i moduli. Il sistema ha rilevato che il modulo 13 (M13) non può avere questo conflitto a causa di quei bit non utilizzati; di conseguenza, non viene registrato come potenziale origine.
CRC error from MOD 11 or 12 or 14 or 15 or 16 or 17 or 18
Le nuove linecard (M2) e il modulo fabric 2 (FAB2) rilevano CRC in S1, S2 o S3. Quando analizzate in dettaglio e individuate le serie nei messaggi di errore e di log, il sistema consente di isolare il componente difettoso.
Ecco alcune domande da porre:
Le risposte a queste domande consentono di affrontare la procedura di risoluzione dei problemi da un punto di vista che è più probabile porti a una risoluzione più rapida.
In questa sezione viene descritto il framework generale utilizzato per risolvere i problemi.
In questa sezione vengono forniti esempi di come risolvere problemi simili.
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
Per alcune ore, gli errori CRC vengono rilevati solo su M1 e sul modulo 3 (M3) provenienti dal modulo 7 (M7).
È presente una XBAR errata o mal inserita che danneggia i pacchetti indirizzati a M7, oppure M7 è danneggiato o mal inserito.
Se sono installati tre XBAR, si ottiene la ridondanza N+1. Pertanto, è possibile arrestarli uno alla volta (mai più di uno alla volta) con un impatto minimo per vedere se il problema è risolto. Per completare il processo, immettere i seguenti comandi:
N7K(config)# poweroff xbar 1
<monitor>
N7K(config)# no poweroff xbar 1
N7K(config)# poweroff xbar 2
<monitor>
N7K(config)# no poweroff xbar 2
N7K(config)# poweroff xbar 3
N7K(config)# no poweroff xbar 3
In questo caso di studio specifico, il problema non è stato risolto al momento della chiusura degli XBAR.
Poiché sono presenti due moduli che segnalano errori CRC, è improbabile che la causa siano questi due moduli (M1 e M3). Il passo successivo è ricollocare M7 (modulo in entrata), perché è molto probabile che sia il componente difettoso. Le linecard posizionate in modo errato potrebbero causare questo problema e si consiglia di ricollocare il modulo prima della sostituzione.
In questo caso di studio, gli errori CRC hanno continuato ad aumentare sul modulo fabric dopo un riposizionamento di M7. A questo punto (o prima di questo punto), contattare il Cisco Technical Assistance Center (TAC) per sostituire M7, in quanto il riposizionamento non risolve il problema.
In questo caso di studio, la sostituzione di M7 ha arrestato i messaggi di errore CRC dell'infrastruttura e ha risolto la perdita del pacchetto.
%OC_USD-SLOT11-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT12-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT13-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT15-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT2-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT4-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT5-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT7-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT8-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
Più moduli segnalano errori CRC dal modulo 12 (M12) che passano attraverso XBAR 3.
XBAR 3 non valido o alloggiato in modo difettoso oppure M12 è alloggiato in modo difettoso.
In questo caso, XBAR 3 viene chiuso con la procedura descritta in precedenza (nel primo caso di studio) e monitorato per rilevare ulteriori errori. È stato rilevato che gli errori sono cessati al momento della chiusura di XBAR 3. A questo punto, XBAR 3 viene riposizionato e si fa attenzione a non piegare alcun perno sul piano intermedio e a non inserire correttamente il modulo. Dopo la riattivazione di XBAR 3, il problema non si ripresenta più. Questo problema è dovuto a un modulo XBAR non inserito correttamente.
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 7 or 13 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with CRC error from
MOD 1 or 2 or 3 or 7 or 15 or 17 through XBAR
slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 5 or 7 or 16 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
Il modulo 6 (M6) segnala i pacchetti con errori CRC ricevuti da più schede di linea e XBAR.
M6 non è posizionato correttamente o è danneggiato.
M6 è la causa più probabile di questo problema perché è l'unico modulo comune in tutti i messaggi di errore. Tra tutti i moduli elencati nei messaggi di errore, quello che viene visualizzato con maggiore coerenza è M6. Pertanto, tentare di ricollocare M6 per verificare se il problema è stato risolto prima di sostituirlo.
In questo caso, M6 viene riposizionato, ma gli errori persistono. Quindi, per sostituire M6, è necessario aprire una richiesta TAC di Cisco. Dopo la sostituzione di M6, gli errori non vengono segnalati.
Di seguito è riportato un elenco dei comandi usati per risolvere i problemi/eseguire il debug:
Revisione | Data di pubblicazione | Commenti |
---|---|---|
1.0 |
13-Aug-2013 |
Versione iniziale |