Questo documento descrive come identificare una barra trasversale (Xbar) difettosa quando un modulo è inattivo a causa di un errore di sincronizzazione Xbar su uno switch Cisco Nexus serie 7000. La procedura di risoluzione di questo problema prevede la raccolta di dati, l'analisi dei dati e un processo di eliminazione per isolare il componente del problema.
Cisco raccomanda la conoscenza della CLI di Cisco Nexus Operating System (NX-OS).
Per la stesura del documento, è stato usato uno switch Cisco Nexus serie 7000 con NX-OS versione 6.1(2), ma può funzionare anche con qualsiasi versione di NX-OS.
Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.
Il modulo N7K-F248XP-25E non è attivo a causa di un errore di sincronizzazione Xbar all'avvio del modulo. Quando il modulo è stato inserito nello slot 1 sullo chassis, si è spento. Questa situazione può verificarsi per uno dei motivi seguenti:
In caso di un presunto guasto hardware al modulo N7K-F248XP-25E, è necessario visualizzare i registri per determinare se la causa dell'errore è un modulo difettoso o un errore di sincronizzazione Xbar.
Per isolare ulteriormente il problema in questo esempio, il modulo è stato inserito in uno slot diverso ed è diventato attivo come previsto. Ciò indica che il modulo non è difettoso, quindi il problema può riguardare il fabric Xbar o lo chassis.
Questo registro delle eccezioni viene visualizzato quando il modulo è stato spento nello slot 1:
show module internal exceptionlog module 1
********* Exception info for module 1 ********
exception information --- exception instance 1 ----
Module Slot Number: 1
Device Id : 88
Device Name : XbarComplex
Device Errorcode : 0x00000008
Device ID : 00 (0x00)
Device Instance : 00 (0x00)
Dev Type (HW/SW) : 00 (0x00)
ErrNum (devInfo) : 08 (0x08)
System Errorcode : 0x40240012 xbar sync failed during module bringup
(DevErr is LinkNum)
Error Type : Informational
PhyPortLayer : Unknown
Port(s) Affected : none
DSAP : 0 (0x0)
UUID : 0 (0x0)
Time : Thu Mar 20 15:55:19 2014
(Ticks: 532B0F67 jiffies)
exception information --- exception instance 2 ----
Module Slot Number: 1
Device Id : 88
Device Name : XbarComplex
Device Errorcode : 0x00000008
Device ID : 00 (0x00)
Device Instance : 00 (0x00)
Dev Type (HW/SW) : 00 (0x00)
ErrNum (devInfo) : 08 (0x08)
System Errorcode : 0x40240012 xbar sync failed during module bringup
(DevErr is LinkNum)
Error Type : Informational
PhyPortLayer : Unknown
Port(s) Affected : none
DSAP : 0 (0x0)
UUID : 0 (0x0)
Time : Thu Mar 20 15:53:12 2014
(Ticks: 532B0EE8 jiffies)
In base a questi registri di eccezione, il problema è chiaramente relativo alla Xbar o allo chassis nello slot 1.
Per isolare ulteriormente il problema, è necessario rimuovere ogni Xbar singolarmente durante il monitoraggio del modulo nello Slot 1 fino a quando non è in grado di accendersi senza problemi. Ciò conferma che si è verificato un problema con un particolare modulo fabric Xbar, nel qual caso si procederà con un'autorizzazione restituzione materiale (RMA) per l'hardware difettoso.
Tuttavia, si tratta di una procedura lunga che richiede una lunga finestra di manutenzione. Per trovare lo slot Xbar fabric esatto che causa il problema di sincronizzazione con il modulo, è possibile procedere come mostrato di seguito:
show system internal xbar event-history errors
-----------------------------------------------------
7) Event:E_DEBUG, length:67, at 384460 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_perform_error_action(1413): MTS_OPC_LC_INSERTED error 0x1
8) Event:E_DEBUG, length:104, at 384347 usecs after Thu Mar 20 15:55:19 2014
[102] send_exception_log_msg_to_lcm(1101): module 1 DevId 88 dev_err 0x8 sys
_err 0x40240012 err_type 0x4
9) Event:E_DEBUG, length:59, at 384343 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_mod_ac_error(221): Sync fail for module 1 link 8
10) Event:E_DEBUG, length:66, at 384341 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_mod_ac_error(210): Error for Slot 0 error_code 0x877660c
11) Event:E_DEBUG, length:62, at 384298 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_sync_seq_failed(1169): Sync fail for module 1 link 8
In questi log, è possibile visualizzare il messaggio Sync fail for module 1 link 8. È quindi necessario identificare lo slot dell'infrastruttura a cui è associato il collegamento 8. Per determinare questa condizione, controllare l'output del comando show system internal xbar sw:
show system internal xbar sw
Module in slot 1 (present = 0)
Dedicated X-link 255
rid 0x2000000 type 0 state 0 sub_type 0 node_id 0x0
sw_card_id 0x0 lc_node_addr 0x0 feature_bits 0x0
timer: hdl 0x86fcc20 rid 0x2000000 ev_id 0xffff timer_id 0x41a tim_type 0x2
Link_Info:: Num Links 10 max Edp 10
Link_num 0
is_synced 0 is_edp 0 num_sync_try 0
Link_num 1
is_synced 0 is_edp 0 num_sync_try 0
Link_num 2
is_synced 0 is_edp 0 num_sync_try 0
Link_num 3
is_synced 0 is_edp 0 num_sync_try 0
Link_num 4
is_synced 0 is_edp 0 num_sync_try 0
Link_num 5
is_synced 0 is_edp 0 num_sync_try 0
Link_num 6
is_synced 0 is_edp 0 num_sync_try 0
Link_num 7
is_synced 0 is_edp 0 num_sync_try 0
Link_num 8
is_synced 0 is_edp 0 num_sync_try 3
Link_num 9
is_synced 0 is_edp 0 num_sync_try 0
Link_Map:: Num Links 10 max Edp 10
Link_num 0
connected to fab [10.0] active_lnk 1
fi_to_mon 0 fi_to_use 0
Link_num 1
connected to fab [10.0] active_lnk 1
fi_to_mon 0 fi_to_use 0
Link_num 2
connected to fab [11.0] active_lnk 1
fi_to_mon 1 fi_to_use 1
Link_num 3
connected to fab [11.0] active_lnk 1
fi_to_mon 1 fi_to_use 1
Link_num 4
connected to fab [12.0] active_lnk 1
fi_to_mon 2 fi_to_use 2
Link_num 5
connected to fab [12.0] active_lnk 1
fi_to_mon 2 fi_to_use 2
Link_num 6
connected to fab [13.0] active_lnk 1
fi_to_mon 3 fi_to_use 3
Link_num 7
connected to fab [13.0] active_lnk 1
fi_to_mon 3 fi_to_use 3
Link_num 8
connected to fab [14.0] active_lnk 1
fi_to_mon 4 fi_to_use 4
Link_num 9
connected to fab [14.0] active_lnk 1
fi_to_mon 4 fi_to_use 4
Nell'output, è possibile vedere che Link_num 8 (Link 8) è collegato a fab [14.0] (Fabric Slot 14), ossia Xbar 5.
Per identificare la struttura fab [14.0] (la struttura nello slot 5), immettere il comando show module:
show module
Xbar Ports Module-Type Model Status
--- ----- -------------------------------- ----------------- ------
4 0 Fabric Module 2 N7K-C7010-FAB-2 ok
Xbar MAC-Address(es) Serial-Num
--- -------------------------------------- ----------
1 NA JAF1739AQTP
2 NA JAF1739AJAA
3 NA JAF1739AQDG
4 NA JAF1739ATHG
5 NA JAF1739AQEF
Nell'output del comando show module, è possibile visualizzare il modulo fabric Xbar nello slot 5.
A questo punto è necessario avere la corretta identificazione dell'infrastruttura che ha causato l'errore di sincronizzazione al modulo nello slot 1. In questo esempio, l'infrastruttura è stata rimossa dallo slot 5 e il modulo che si trovava nello slot 1 è stato avviato senza errori. La barra X difettosa può essere sostituita.
Revisione | Data di pubblicazione | Commenti |
---|---|---|
1.0 |
17-Jun-2015 |
Versione iniziale |