Introduzione
Questo documento descrive un problema riscontrato sulle porte Cisco Multilayer Data Switch (MDS) Fibre Channel serie 9000 (FC) e fornisce una soluzione al problema.
Problema
Nel registro eventi collegamento viene visualizzato quanto segue:
*************** Port Config Link Events Log ***************
---- ------ ----- ----- ------
Time PortNo Speed Event Reason
---- ------ ----- ----- ------
...
Jul 28 00:46:39 2012 00670297 fc11/25 --- DOWN LR Rcvd B2B
Il messaggio LR Rcvd B2B (o Link Failure Reset non riuscito) indica che il dispositivo collegato alla porta trasmette un messaggio LR (Link Reset) al dispositivo MDS, ma quest'ultimo non risponde con un messaggio LRR (Link Reset Response) a causa di una congestione interna sulla porta. La porta contiene pacchetti in coda che vengono ricevuti dal dispositivo collegato, ma MDS non è in grado di recapitarli alla porta di uscita appropriata. Poiché sono ancora in coda sulla porta di entrata, il MDS non può inviare un LRR e il collegamento non riesce.
I messaggi di errore seguenti accompagnano il precedente registro eventi:
%PORT-2-IF_DOWN_LINK_FAILURE: %$VSAN 93%$
Interface fc11/25 is down (Link failure)
%PORT-5-IF_DOWN_LINK_FAILURE: %$VSAN 100%$
Interface fc5/32 is down (Link failure Link Reset
failed nonempty recv queue)
Nota: questo scenario si basa sul presupposto che il numero di crediti del buffer concessi da MDS al dispositivo FC sia tre e che i pacchetti del dispositivo FC vengano trasferiti alla porta FC in uscita.
MDS
FC Port FC Port
(Egress) Arbiter (Ingress) FC device
-------- ------- --------- ---------
1) <------- FC packet 1
2) <--- Grant Request
3) Grant------------>
4) <---------------FC packet 1
5) R_Rdy--------> Tx B2B=3
6) <------- FC packet 2 Tx B2B=2
7) <---- Grant Request
8) <------- FC packet 3 Tx B2B=1
9) <---- Grant Request
10) <------- FC packet 4 Tx B2B=0
11) <---- Grant Request
12) Time lapses - Variable depending on attached HBA type
13) <--------Link Reset(LR)
14) Start 90ms "LR Rcvd B2B" timer
15) "LR Rcvd B2B" timer expires
16) <--------NOS-------->
Spiegazione
In questa sezione viene illustrato l'output precedente:
- Il dispositivo FC trasmette un pacchetto FC alla porta in entrata destinata alla porta in uscita.
- La porta MDS in entrata Line Card (LC) determina l'indice di destinazione (ID) e trasmette la richiesta di concessione all'arbitro (Bellagio2) sul Supervisor attivo.
- L'arbitro restituisce una concessione alla porta in entrata, che gli dà il permesso di trasmettere il pacchetto FC 1 alla porta in uscita tramite la XBAR.
- Il connettore LC in entrata trasmette il pacchetto FC 1 attraverso XBAR alla porta in uscita. In questo modo il buffer in entrata è disponibile.
- La porta in entrata trasmette un segnale R_RDY al dispositivo FC, che a sua volta rifornisce il credito.
Nota: i primi cinque passaggi sono in genere eseguiti in assenza di congestione. Si supponga a questo punto che le code della porta di uscita siano piene e che non sia possibile ricevere altri pacchetti.
- Il dispositivo FC trasmette il pacchetto FC 2 alla porta in entrata destinata alla porta in uscita.
- La porta LC in entrata MDS determina l'ID e trasmette la richiesta di concessione all'arbitro (Bellagio2) sul Supervisor attivo.
- Il dispositivo FC trasmette il pacchetto FC 3 alla porta in entrata destinata alla porta in uscita.
- La porta LC in entrata MDS determina l'ID e trasmette la richiesta di concessione all'arbitro (Bellagio2) sul Supervisor attivo.
- Il dispositivo FC trasmette il pacchetto FC 4 alla porta in entrata destinata alla porta in uscita.
- La porta LC in entrata MDS determina l'ID e trasmette la richiesta di concessione all'arbitro (Bellagio2) sul Supervisor attivo.
- Intervalli di tempo, che variano in base al tipo di HBA collegato.
- Dopo un certo periodo di tempo a Tx B2B=0, il dispositivo FC avvia il recupero della perdita di credito e trasmette un segnale di reimpostazione del collegamento (LR).
- Quando la porta in entrata riceve il pacchetto LR, controlla i relativi buffer in entrata e determina che esiste almeno un pacchetto in coda. Quindi avvia un timer B2B RCV 90 ms.
- Se si ricevono i privilegi e i tre pacchetti FC vengono trasmessi alla porta di uscita, il timer LR Rcvd B2B viene annullato e il dispositivo FC riceve una risposta LRR (Link Reset Response). In questo caso, tuttavia, la porta di uscita rimane congestionata e i tre pacchetti FC rimangono in coda sulla porta di entrata. Il timer LR Rcvd B2B scade e un LRR non viene trasmesso al dispositivo FC.
- Sia la porta di entrata che il dispositivo FC avviano un errore di collegamento tramite la trasmissione di una sequenza non operativa.
Soluzione
Se il collegamento ha avuto esito negativo con un messaggio di coda di ricezione non vuoto LR Rcvd B2B o un errore di collegamento Reset collegamento non riuscito, la porta che ha avuto esito negativo non è la causa del drenaggio lento ed è stata interessata solo dalla porta lenta/bloccata. Per identificare la porta lenta/bloccata che ha causato il problema del collegamento, attenersi alla seguente procedura:
- Determinare se sono presenti più collegamenti non riusciti a causa del problema indicato in precedenza. Se più collegamenti hanno esito negativo all'incirca contemporaneamente, il problema potrebbe essere causato da tutte le porte che tentano di trasmettere i pacchetti a una porta di uscita comune.
- Controllare il database di zoning VSAN per verificare con quali dispositivi è suddiviso in zone il dispositivo FC adiacente. Mappare questi alle porte E in uscita o F locale. Per eseguire il mapping all'uscita E, le porte utilizzano il comando show fspf internal route vsan <vsan> domain <dom>. Per eseguire il mapping alle porte F locali, usare il comando show floppy database vsan <vsan>. Se si verificano più errori di collegamento con il messaggio LR Rcvd B2B, unire le porte E o F locali in uscita trovate e verificare la presenza di sovrapposizioni. Le sovrapposizioni sono probabilmente la causa delle porte lente o bloccate.
- Verificare le porte individuate nel passaggio 2 per le indicazioni di slow-drain. Alcuni esempi:
- Perdita credito (AK_FCP_CNTR_CREDIT_LOSS / FCP_SW_CNTR_CREDIT_LOSS)
- 100 ms Tx B2B Zero (AK_FCP_CNTR_TX_WT_AVG_B2B_ZERO / FCP_SW_CNTR_TX_WT_AVG_B2B_ZERO)
- Timeout scartati (AK_FCP_CNTR_LAF_TOTAL_TIMEOUT_FRAMES / THB_TMM_TOLB_TIMEOUT_DROP_CNT / F16_TMM_TOLB_TIMEOUT_DROP_CNT)
- Se si determina che la porta lenta è una porta E in uscita, continuare la risoluzione dei problemi di svuotamento lento sullo switch adiacente indicato dall'interfaccia dell'hop successivo FSPF.
- Se si determina che la porta lenta/bloccata è un collegamento FCIP o un canale della porta, controllare i collegamenti FCIP per individuare eventuali segnali di ritrasmissioni IP o altri problemi, ad esempio errori di collegamento. Per individuare eventuali problemi, immettere il comando show ips stats all.
Opzioni di configurazione
Di seguito sono elencate due possibili opzioni di configurazione del sistema:
Informazioni correlate