Risoluzione dei problemi N7K HW (fan/PS/Temp/Xbar/SUP)

Opzioni per il download

PDF (140.9 KB)
Visualizza con Adobe Reader su diversi dispositivi
ePub (91.8 KB)
Visualizza in diverse app su iPhone, iPad, Android, Sony Reader o Windows Phone
Mobi (Kindle) (89.2 KB)
Visualizza su dispositivo Kindle o tramite app Kindle su più dispositivi

Aggiornato:14 ottobre 2016

ID documento:200148

Linguaggio senza pregiudizi

La documentazione per questo prodotto è stata redatta cercando di utilizzare un linguaggio senza pregiudizi. Ai fini di questa documentazione, per linguaggio senza di pregiudizi si intende un linguaggio che non implica discriminazioni basate su età, disabilità, genere, identità razziale, identità etnica, orientamento sessuale, status socioeconomico e intersezionalità. Le eventuali eccezioni possono dipendere dal linguaggio codificato nelle interfacce utente del software del prodotto, dal linguaggio utilizzato nella documentazione RFP o dal linguaggio utilizzato in prodotti di terze parti a cui si fa riferimento. Scopri di più sul modo in cui Cisco utilizza il linguaggio inclusivo.

Informazioni su questa traduzione

Cisco ha tradotto questo documento utilizzando una combinazione di tecnologie automatiche e umane per offrire ai nostri utenti in tutto il mondo contenuti di supporto nella propria lingua. Si noti che anche la migliore traduzione automatica non sarà mai accurata come quella fornita da un traduttore professionista. Cisco Systems, Inc. non si assume alcuna responsabilità per l’accuratezza di queste traduzioni e consiglia di consultare sempre il documento originale in inglese (disponibile al link fornito).

Sommario

Introduzione

Debug dei problemi dello chassis

Problemi relativi alla ventola

Alimentatore

Temperatura o calore

Problemi del modulo Supervisor di debug

Ripristino/ricaricamento switch/supervisore

Attivazione del supervisore

Attivazione supervisore standby

Riavvio Supervisor attivo

Introduzione

Questo documento descrive le tecniche di risoluzione dei problemi per l'hardware Nexus 7000 (N7K).

Debug dei problemi dello chassis

Problemi relativi alla ventola

Con questo comando viene visualizzato lo stato del modulo ventola sullo switch.

SITE1-AGG1# show environment fan
Fan:
------------------------------------------------------
Fan             Model                Hw         Status
------------------------------------------------------
Fan1(sys_fan1)  N7K-C7010-FAN-S      1.1        Ok  
Fan2(sys_fan2)  N7K-C7010-FAN-S      1.1        Ok  
Fan3(fab_fan1)  N7K-C7010-FAN-F      1.1        Ok  
Fan4(fab_fan2)  N7K-C7010-FAN-F      1.1        Ok  
Fan_in_PS1      --                   --         Ok             
Fan_in_PS2      --                   --         Ok             
Fan_in_PS3      --                   --         Shutdown       
Fan Zone Speed: Zone 1: 0x78 Zone 2: 0x58
Fan Air Filter : Present

Lo stato della ventola può essere ok, guasto o assente.

OK - Tutte le ventole, incluso il controller, funzionano correttamente
Guasto - Una o più ventole o controller della ventola sono guasti. Il software non è in grado di determinare se una singola ventola, più ventole o tutte le ventole sono guaste. Se almeno una ventola è guasta, viene visualizzato questo stato. Viene stampato questo messaggio syslog con priorità 1: Modulo ventola non riuscito.
Assente: il modulo ventola è stato rimosso. Non appena il modulo ventola viene rimosso, il software inizia un conto alla rovescia di 5 minuti; se il modulo ventola non viene reinserito entro 5 minuti, l'intero switch viene spento. Il software legge un byte sulla memoria di sola lettura programmabile elettricamente cancellabile seriale (SEEPROM) per determinare se il modulo ventola è presente. Se il modulo ventola è inserito parzialmente o il software non è in grado di accedere a SEEPROM sul modulo ventola per qualsiasi altra ragione, il software non è in grado di distinguere questo caso da una rimozione reale del modulo ventola. Lo switch verrà arrestato tra 5 minuti. Se il software rileva una rimozione, questo messaggio syslog con priorità 0 viene stampato ogni 5 secondi.

“Fan module removed. Fan module has been absent for 120 seconds"

Non viene intrapresa alcuna azione esplicita da parte del software in caso di guasto della ventola dell'alimentatore, se non per indicare tale guasto utilizzando i messaggi syslog.

Alimentatore

Con questo comando vengono visualizzati gli alimentatori installati, il riepilogo del consumo di energia e lo stato degli alimentatori sullo switch.

Vengono forniti il comando e un output di esempio.

SITE1-AGG1# show environment power 
Power Supply:
Voltage: 50 Volts
Power                              Actual        Total
Supply    Model                    Output     Capacity    Status
                                 (Watts )     (Watts )
-------  -------------------  -----------  -----------  --------------
1        N7K-AC-6.0KW              1179 W       6000 W     Ok        
2        N7K-AC-6.0KW              1117 W       6000 W     Ok        
3        N7K-AC-6.0KW                 0 W          0 W     Shutdown  

                                  Actual        Power      
Module    Model                     Draw    Allocated    Status
                                 (Watts )     (Watts )     
-------  -------------------  -----------  -----------  --------------
1        N7K-M148GT-11              N/A          400 W    Powered-Up
3        N7K-M132XP-12              N/A          750 W    Powered-Up
4        N7K-F132XP-15              318 W        385 W    Powered-Up
5        N7K-SUP1                   N/A          210 W    Powered-Up
6        N7K-SUP1                   N/A          210 W    Powered-Up
10       N7K-M132XP-12L             535 W        750 W    Powered-Up
Xb1      N7K-C7010-FAB-1            N/A           80 W    Powered-Up
Xb2      N7K-C7010-FAB-1            N/A           80 W    Powered-Up
Xb3      N7K-C7010-FAB-1            N/A           80 W    Powered-Up
Xb4      xbar                       N/A           80 W    Absent
Xb5      xbar                       N/A           80 W    Absent
fan1     N7K-C7010-FAN-S            133 W        720 W    Powered-Up
fan2     N7K-C7010-FAN-S            133 W        720 W    Powered-Up
fan3     N7K-C7010-FAN-F             12 W        120 W    Powered-Up
fan4     N7K-C7010-FAN-F             12 W        120 W    Powered-Up

N/A - Per module power not available


Power Usage Summary:
--------------------
Power Supply redundancy mode (configured)                PS-Redundant
Power Supply redundancy mode (operational)               Non-Redundant

Total Power Capacity (based on configured mode)              12000 W
Total Power of all Inputs (cumulative)                       12000 W
Total Power Output (actual draw)                              2296 W
Total Power Allocated (budget)                                4785 W
Total Power Available for additional modules                  7215 W

Lo stato dell'alimentatore può essere uno dei seguenti:

Ok - L'alimentatore funziona correttamente
Fail/Shutdown (Guasto/Arresto) - L'alimentatore è guasto o è spento utilizzando lo switch sull'alimentatore. Ogni volta che un alimentatore si guasta, il software stampa questo messaggio syslog di priorità 2; Alimentatore 1 guasto o arresto (numero di serie xxxx).
Shutdown - Il software ha spento l'alimentatore. Il software arresta l'alimentatore con capacità inferiore solo se rileva una coppia di alimentatori non corrispondente e la modalità è ridondante o se si verifica una transizione dalla modalità combinata alla modalità ridondante. Se entrambi gli alimentatori hanno la stessa capacità o la modalità è combinata, il software non interrompe mai l'alimentazione. Questo messaggio syslog con priorità 2 viene stampato e accompagna l'interruzione dell'alimentazione del software; Rilevato alimentatore 1. Ciò riduce l'alimentazione ridondante disponibile per il sistema e può causare interruzioni del servizio (numero di serie xxxx).
Assente: l'alimentatore è assente ed è stato rimosso. Questo messaggio syslog di priorità 2 viene stampato durante la rimozione dell'alimentazione; Alimentatore 2 rimosso (numero di serie xxxx).

Guasti dell'alimentatore:

Ogni alimentatore è dotato di un LED che indica lo stato dell'uscita di alimentazione. Questo LED è controllato direttamente dall'alimentatore e un colore rosso indica un'interruzione dell'alimentazione. Quando si esegue la scansione del syslog, è possibile che vengano visualizzati messaggi alternati relativi a guasti dell'alimentatore e al recupero dell'alimentazione, che indicano inoltre problemi correlati all'alimentazione.

Temperatura o calore

Ogni scheda dello chassis è dotata di almeno due sensori di temperatura. Ogni sensore di temperatura è configurato con una soglia secondaria e una principale. Questo comando con output di esempio mostra come le informazioni sulla temperatura possono essere recuperate dallo switch:

SITE1-AGG1# show environment temperature 
Temperature:
--------------------------------------------------------------------
Module   Sensor        MajorThresh   MinorThres   CurTemp     Status
                       (Celsius)     (Celsius)    (Celsius)         
--------------------------------------------------------------------
1        Crossbar(s5)    105             95          46         Ok             
1        CTSdev4 (s9)    115             105         56         Ok             
1        CTSdev5 (s10)   115             105         57         Ok             
1        CTSdev7 (s12)   115             105         56         Ok             
1        CTSdev9 (s14)   115             105         53         Ok             
1        CTSdev10(s15)   115             105         53         Ok             
1        CTSdev11(s16)   115             105         52         Ok             
1        CTSdev12(s17)   115             105         51         Ok             
1        QEng1Sn1(s18)   115             105         51         Ok             
1        QEng1Sn2(s19)   115             105         50         Ok             
1        QEng1Sn3(s20)   115             105         48         Ok             
1        QEng1Sn4(s21)   115             105         48         Ok             
1        L2Lookup(s22)   120             110         47         Ok             
1        L3Lookup(s23)   120             110         54         Ok             
3        Crossbar(s5)    105             95          50         Ok             
3        QEng1Sn1(s12)   115             110         69         Ok             
3        QEng1Sn2(s13)   115             110         67         Ok             
3        QEng1Sn3(s14)   115             110         66         Ok             
3        QEng1Sn4(s15)   115             110         67         Ok             
3        QEng2Sn1(s16)   115             110         70         Ok             
3        QEng2Sn2(s17)   115             110         67         Ok             
3        QEng2Sn3(s18)   115             110         66         Ok             
3        QEng2Sn4(s19)   115             110         67         Ok             
3        L2Lookup(s27)   115             105         51         Ok             
3        L3Lookup(s28)   120             110         64         Ok             
4        Crossbar1(s1)   105             95          69         Ok             
4        Crossbar2(s2)   105             95          52         Ok             
4        L2dev1(s3)      105             95          37         Ok             
4        L2dev2(s4)      105             95          43         Ok             
4        L2dev3(s5)      105             95          45         Ok             
4        L2dev4(s6)      105             95          45         Ok             
4        L2dev5(s7)      105             95          40         Ok             
4        L2dev6(s8)      105             95          41         Ok             
4        L2dev7(s9)      105             95          42         Ok             
4        L2dev8(s10)     105             95          40         Ok             
4        L2dev9(s11)     105             95          38         Ok             
4        L2dev10(s12)    105             95          38         Ok             
4        L2dev11(s13)    105             95          38         Ok             
4        L2dev12(s14)    105             95          37         Ok             
4        L2dev13(s15)    105             95          34         Ok             
4        L2dev14(s16)    105             95          33         Ok             
4        L2dev15(s17)    105             95          33         Ok             
4        L2dev16(s18)    105             95          32         Ok             
5        Intake  (s3)    60              42          24         Ok             
5        EOBC_MAC(s4)    105             95          42         Ok             
5        CPU     (s5)    105             95          42         Ok             
5        Crossbar(s6)    105             95          47         Ok             
5        Arbiter (s7)    110             100         55         Ok             
5        CTSdev1 (s8)    115             105         44         Ok             
5        InbFPGA (s9)    105             95          43         Ok             
5        QEng1Sn1(s10)   115             105         48         Ok             
5        QEng1Sn2(s11)   115             105         46         Ok             
5        QEng1Sn3(s12)   115             105         44         Ok             
5        QEng1Sn4(s13)   115             105         44         Ok             
6        Intake  (s3)    60              42          24         Ok             
6        EOBC_MAC(s4)    105             95          40         Ok             
6        CPU     (s5)    105             95          36         Ok             
6        Crossbar(s6)    105             95          45         Ok             
6        Arbiter (s7)    110             100         52         Ok             
6        CTSdev1 (s8)    115             105         43         Ok             
6        InbFPGA (s9)    105             95          43         Ok             
6        QEng1Sn1(s10)   115             105         53         Ok             
6        QEng1Sn2(s11)   115             105         51         Ok             
6        QEng1Sn3(s12)   115             105         48         Ok             
6        QEng1Sn4(s13)   115             105         48         Ok             
10       Crossbar(s5)    105             95          46         Ok             
10       QEng1Sn1(s12)   115             110         65         Ok             
10       QEng1Sn2(s13)   115             110         62         Ok             
10       QEng1Sn3(s14)   115             110         64         Ok             
10       QEng1Sn4(s15)   115             110         65         Ok             
10       QEng2Sn1(s16)   115             110         65         Ok             
10       QEng2Sn2(s17)   115             110         63         Ok             
10       QEng2Sn3(s18)   115             110         64         Ok             
10       QEng2Sn4(s19)   115             110         65         Ok             
10       L2Lookup(s27)   115             105         51         Ok             
10       L3Lookup(s28)   120             110         71         Ok             
xbar-1   Intake  (s2)    60              42          27         Ok             
xbar-1   Crossbar(s3)    105             95          55         Ok             
xbar-2   Intake  (s2)    60              42          25         Ok             
xbar-2   Crossbar(s3)    105             95          49         Ok             
xbar-3   Intake  (s2)    60              42          26         Ok             
xbar-3   Crossbar(s3)    105             95          47         Ok

Il sensore di aspirazione viene posizionato all'ingresso del flusso d'aria ed è l'indicatore più critico della temperatura della scheda. Tutte le azioni software vengono eseguite in base a una grave violazione della temperatura del sensore di aspirazione.

Tutte le violazioni di soglia minori e le violazioni di soglia principali su sensori non di aspirazione

Il risultato sono un messaggio syslog, un evento callhome e una trap SNMP (Simple Network Management Protocol). Questi messaggi di priorità 1 o 2 vengono stampati nel syslog - il modulo 1 ha riportato l'allarme di temperatura principale (sensore-indice 1 temperatura 76).

Violazione della soglia di temperatura principale su una scheda di linea del sensore di aspirazione

La scheda di linea viene chiusa immediatamente con questo messaggio syslog con priorità 0 - Modulo 1 spento a causa di un allarme di temperatura rilevante.

Violazione della soglia di temperatura principale su un Supervisor on Intake Sensor ridondante

Il Supervisor ridondante viene chiuso immediatamente. Il risultato sarà uno switchover o la chiusura della modalità standby, a seconda del Supervisor specifico che ha violato la soglia. Questo messaggio syslog con priorità 0 viene visualizzato - Modulo 1 spento a causa di un allarme di temperatura rilevante.

Errore del sensore di temperatura

A volte i sensori di temperatura si guastano e diventano inaccessibili. Non viene eseguita alcuna azione esplicita sul software per questa condizione. Questo messaggio syslog con priorità 4 viene stampato - Errore sensore temperatura modulo 1.

Problemi del modulo Supervisor di debug

Ripristino/ricaricamento switch/supervisore

Il debug di un ripristino/ricaricamento del livello di switch/supervisore in genere comporta la ricerca nelle informazioni di debug/log archiviate nella NVRAM (Non-Volatile Random Access Memory) sui Supervisor. La NVRAM contiene 3 tipi di informazioni di debug/log che potrebbero contenere alcune informazioni importanti.

1.1 Motivo della reimpostazione

I motivi del reset sono memorizzati sulla NVRAM del Supervisor su ciascun Supervisor. Ogni Supervisor memorizza il proprio motivo di reimpostazione. Dopo il riavvio dello switch, i motivi del reset possono essere scaricati usando questo comando CLI. Viene fornito un output di esempio.

SITE1-AGG1# show system reset-reason 
----- reset reason for Supervisor-module 5 (from Supervisor in slot 5) ---
1) No time
    Reason: Unknown
    Service: 
    Version: 6.1(2)
2) No time
    Reason: Unknown
    Service: 
    Version: 6.1(1)
3) At 246445 usecs after Wed Nov  7 21:26:59 2012
    Reason: Reset triggered due to Switchover Request by User
    Service: SAP(93): Swover due to install
    Version: 6.1(2)
4) At 36164 usecs after Tue Nov  6 01:18:15 2012
    Reason: Reset Requested by CLI command reload
    Service: 
    Version: 5.2(1)
----- reset reason for Supervisor-module 5 (from Supervisor in slot 6) ---
1) At 939785 usecs after Wed Nov  7 22:28:36 2012
    Reason: Reset due to upgrade
    Service: 
    Version: 6.1(1)
2) At 687128 usecs after Thu Mar 29 18:06:34 2012
    Reason: Reset of standby by active sup due to sysmgr timeout
    Service: 
    Version: 6.0(2)
3) At 10012 usecs after Thu Mar 29 17:56:13 2012
    Reason: Reset of standby by active sup due to sysmgr timeout
    Service: 
    Version: 6.0(2)
4) At 210045 usecs after Thu Mar 29 17:45:51 2012
    Reason: Reset of standby by active sup due to sysmgr timeout
    Service: 
    Version: 6.0(2)
----- reset reason for Supervisor-module 6 (from Supervisor in slot 5) ---
1) At 50770 usecs after Wed Nov  7 21:12:19 2012
    Reason: Reset due to upgrade
    Service: 
    Version: 6.1(2)
2) At 434294 usecs after Mon Nov  5 22:10:16 2012
    Reason: Reset due to upgrade
    Service: 
    Version: 5.2(1)
3) At 518 usecs after Mon Nov  5 21:21:51 2012
    Reason: Reset Requested by CLI command reload
    Service: 
    Version: 5.2(7)
4) At 556934 usecs after Mon Nov  5 21:12:15 2012
    Reason: Reset due to upgrade
    Service: 
    Version: 5.2(1)
----- reset reason for Supervisor-module 6 (from Supervisor in slot 6) ---
1) No time
    Reason: Unknown
    Service: 
    Version: 6.1(2)
2) At 462775 usecs after Wed Nov  7 22:38:44 2012
    Reason: Reset triggered due to Switchover Request by User
    Service: SAP(93): Swover due to install
    Version: 6.1(1)
3) No time
    Reason: Unknown
    Service: 
    Version: 6.1(2)
4) No time
    Reason: Unknown
    Service: 
    Version: 5.2(1)

Vengono salvati e visualizzati fino agli ultimi 4 motivi di ripristino. Un motivo per la reimpostazione contiene:

Timestamp dell'operazione di ripristino/ricaricamento
Motivo della reimpostazione/ricarica della scheda
Servizio che ha causato il ripristino/ricaricamento, se presente
Versione del software in esecuzione in quel momento

A volte viene visualizzato il motivo di reimpostazione Sconosciuto. I motivi di reimpostazione sconosciuti al software o non controllati dal software sono classificati come Sconosciuto. In genere includono:

Qualsiasi ciclo di alimentazione di uno switch, compreso il ciclo di alimentazione controllato degli alimentatori o un reset degli alimentatori causato da un guasto elettrico o da un'interruzione dell'alimentazione
Pulsante di ripristino del pannello anteriore sul Supervisor
Qualsiasi altro guasto hardware che provoca il reset o il blocco della CPU/DRAM/IO

1.2 Syslog della NVRAM

Anche i messaggi syslog con priorità 0, 1 e 2 vengono collegati alla NVRAM del Supervisor. Dopo che lo switch è tornato online, i messaggi syslog nella NVRAM possono essere visualizzati con questo comando. Vengono visualizzati il comando e un output di esempio:

SITE1-AGG1# show log nvram
2012 Nov 17 05:59:51 SITE1-AGG1 %$ VDC-1 %$ %SYSMGR-STANDBY-2-LAST_CORE_BASIC_TRACE: : PID 15681 with message 'Core detected due to hwclock crash'. 
2012 Nov 17 12:07:11 SITE1-AGG1 %$ VDC-1 %$ %CMPPROXY-2-LOG_CMP_UP: Connectivity Management processor(on module 5) is now UP
2012 Nov 17 12:07:56 SITE1-AGG1 %$ VDC-1 %$ %VDC_MGR-2-VDC_ONLINE: vdc 1 has come online 
2012 Nov 17 12:07:58 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-PS_OK: Power supply 1 ok (Serial number DTM131000A4)
2012 Nov 17 12:07:58 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-PS_FANOK: Fan in Power supply 1 ok
2012 Nov 17 12:07:58 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-PS_OK: Power supply 2 ok (Serial number DTM140700HS)
2012 Nov 17 12:07:58 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-PS_FANOK: Fan in Power supply 2 ok
2012 Nov 17 12:07:58 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-PS_DETECT: Power supply 3 detected but shutdown (Serial number DTM1413004P)
2012 Nov 17 12:07:59 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-XBAR_DETECT: Xbar 1 detected (Serial number JAF1308ABCS)
2012 Nov 17 12:08:01 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-XBAR_DETECT: Xbar 2 detected (Serial number JAB120600NX)
2012 Nov 17 12:08:02 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-XBAR_DETECT: Xbar 3 detected (Serial number JAF1508AJHN)
2012 Nov 17 12:08:04 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_DETECT: Module 1 detected (Serial number JAB121602HP) Module-Type 10/100/1000 Mbps Ethernet Module Model N7K-M148GT-11
2012 Nov 17 12:08:04 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_PWRUP: Module 1 powered up (Serial number JAB121602HP)
2012 Nov 17 12:08:11 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_DETECT: Module 3 detected (Serial number JAF1441BSED) Module-Type 10 Gbps Ethernet Module Model N7K-M132XP-12
2012 Nov 17 12:08:11 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_DETECT: Module 4 detected (Serial number JAF1542ABML) Module-Type 1/10 Gbps Ethernet Module Model N7K-F132XP-15
2012 Nov 17 12:08:12 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_PWRUP: Module 3 powered up (Serial number JAF1441BSED)
2012 Nov 17 12:08:12 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_PWRUP: Module 4 powered up (Serial number JAF1542ABML)
2012 Nov 17 12:08:15 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_DETECT: Module 10 detected (Serial number JAF1521BNMK) Module-Type 10 Gbps Ethernet XL Module Model N7K-M132XP-12L
2012 Nov 17 12:08:15 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_PWRUP: Module 10 powered up (Serial number JAF1521BNMK)
2012 Nov 17 12:08:30 SITE1-AGG1 %$ VDC-1 %$ %CMPPROXY-STANDBY-2-LOG_CMP_UP: Connectivity Management processor(on module 6) is now UP
2012 Nov 17 12:08:33 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-FANMOD_FAN_OK: Fan module 1 (Fan1(sys_fan1) fan) ok
2012 Nov 17 12:08:33 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-FANMOD_FAN_OK: Fan module 2 (Fan2(sys_fan2) fan) ok
2012 Nov 17 12:08:33 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-FANMOD_FAN_OK: Fan module 3 (Fan3(fab_fan1) fan) ok
2012 Nov 17 12:08:33 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-FANMOD_FAN_OK: Fan module 4 (Fan4(fab_fan2) fan) ok
2012 Nov 17 12:11:40 SITE1-AGG1 %$ VDC-1 %$ %VDC_MGR-2-VDC_ONLINE: vdc 2 has come online 
2012 Nov 17 12:12:31 SITE1-AGG1 %$ VDC-1 %$ %VDC_MGR-2-VDC_ONLINE: vdc 3 has come online 
2012 Nov 17 12:13:21 SITE1-AGG1 %$ VDC-1 %$ %VDC_MGR-2-VDC_ONLINE: vdc 4 has come online 
2012 Nov 17 13:10:33 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_TEMPMINALRM: Xbar-1 reported minor temperature alarm. Sensor=2 Temperature=43 MinThreshold=42
2012 Nov 17 19:56:35 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_TEMPOK: Xbar-1 recovered from minor temperature alarm. Sensor=2 Temperature=41 MinThreshold=42

L'analisi del syslog della NVRAM potrebbe fornire alcune informazioni aggiuntive sullo specifico errore che ha causato il ricaricamento/reset dello switch/del supervisore.

1.3 Registro eccezioni modulo

Il log delle eccezioni del modulo è un log che racchiude tutti gli errori e le condizioni eccezionali su ciascun modulo. Alcune eccezioni sono catastrofiche, alcune influiscono in parte su determinate porte di un modulo, altre vengono utilizzate a scopo di avviso. Ogni voce del registro ha il dispositivo specifico che ha registrato l'eccezione, il livello di eccezione, il codice di errore, le porte interessate, il timestamp. Il log delle eccezioni viene archiviato nella NVRAM sul Supervisor e può essere visualizzato utilizzando questo comando CLI. Viene fornito un output di esempio.

SITE1-AGG1# show module internal exceptionlog 
********* Exception info for module 1 ********
exception information --- exception instance 1 ----
Module Slot Number: 1
Device Id         : 10
Device Name       : eobc
Device Errorcode  : 0xc0005043
Device ID         : 00 (0x00)
Device Instance   : 05 (0x05)
Dev Type (HW/SW)  : 00 (0x00)
ErrNum (devInfo)  : 67 (0x43)
System Errorcode  : 0x4042004d EOBC link failure
Error Type        : Warning
PhyPortLayer      : Ethernet
Port(s) Affected  : none
DSAP              : 0 (0x0)
UUID              : 0 (0x0)
Time              : Mon Nov  5 20:39:38 2012
                    (Ticks: 5098948A jiffies) 
 
exception information --- exception instance 2 ----
Module Slot Number: 1
Device Id         : 10
Device Name       : eobc
Device Errorcode  : 0xc0005047
Device ID         : 00 (0x00)
Device Instance   : 05 (0x05)
Dev Type (HW/SW)  : 00 (0x00)
ErrNum (devInfo)  : 71 (0x47)
System Errorcode  : 0x4042004e EOBC heartbeat failure
Error Type        : Warning
PhyPortLayer      : Ethernet
Port(s) Affected  : none
DSAP              : 0 (0x0)
UUID              : 0 (0x0)
Time              : Mon Nov  5 20:39:37 2012
                    (Ticks: 50989489 jiffies)

Il registro eccezioni fornisce informazioni critiche per la risoluzione degli errori e delle condizioni di eccezione. Di seguito sono elencati alcuni ID di dispositivo.

#define DEV_LINECARD_CTRL 1
#define DEV_SAHARA_FPGA 2
#define DEV_RIVIERA_ASIC 3
#define DEV_LUXOR_ASIC 4
#define DEV_FRONTIER_U_ASIC 5
#define DEV_FRONTIER_D_ASIC 6
#define DEV_ALADDIN_ASIC 7
#define DEV_SSA_ASIC 8
#define DEV_MIRAGE_ASIC 9
#define DEV_EOBC_MAC 10
#define DEV_SUPERVISOR_CTRL 11
#define DEV_BELLAGIO_ASIC 12
#define DEV_SIBYTE 13
#define DEV_FLAMINGO 14
#define DEV_FATW_CTRL 15
#define DEV_MGMT_MAC 16
#define DEV_MOD_RDN_CTRL 17
#define DEV_MOD_ENV 18
#define DEV_GG_FPGA 19
#define DEV_BALLY_MAIN_BOARD 20
#define DEV_BALLY_DAUGHTER_CARD 21
#define DEV_LOCAL_SSO_ASIC 22
#define DEV_REMOTE_SSO_ASIC 23
#define DEV_ID_UD_FIX_FPGA 24
#define DEV_ID_PM_FPGA 25 // PM - Power Mngmnt
#define DEV_ID_SUP_XBUS2 26
#define DEV_MARRIOTT_FPGA 27
#define DEV_REUSE_ME 28
#define DEV_GBIC 29
#define DEV_XGFC_FPGA 30
#define DEV_GNN_FPGA 31
#define DEV_SIBYTE_MEM_EPLD 32
#define DEV_BATTERY 33
#define DEV_IDE_DISK 45
#define DEV_XCVR 46
#define DEV_LINECARD 48
#define DEV_TEMP_SENSOR 49
#define DEV_HIFN_COMP 50
#define DEV_X2 51

Nello chassis Multilayer Data Switch (MDS), i moduli supervisor vengono presentati in modo leggermente diverso rispetto ai moduli line-card. Quando due supervisori sono presenti nel sistema e il sistema è acceso, uno dei supervisori diventa attivo e l'altro in standby. L'attivazione del Supervisor e la visualizzazione del Supervisor di standby sono diverse e vengono descritte qui.

Attivazione del supervisore

Se nel sistema non è presente alcun supervisore attivo, il supervisore che viene avviato per impostazione predefinita sarà quello attivo. Un processo chiamato System Manager è responsabile del caricamento ordinato di tutti i componenti software sul supervisore. Uno dei primi componenti software eseguiti sul supervisor è il gestore della piattaforma. Questo componente caricherà tutti i driver del kernel e gli handshake con il gestore di sistema. In caso di esito positivo, il system manager avvierà il resto dei processi in base alla dipendenza interna tra i processi.

Dal punto di vista del responsabile del modulo, Supervisor è come un altro modulo di scheda di linea con sottili differenze. Quando il gestore della piattaforma indica al gestore del modulo che il Supervisor è attivo, il gestore del modulo non attende la registrazione. Al contrario, informa tutti i componenti software che Supervisor è attivo (noto anche come Sup Insertion Sequence). Tutti i componenti configureranno il supervisore. Se un componente presenta un guasto, il supervisore viene riavviato.

Attivazione supervisore standby

Se nel sistema è presente un supervisore attivo, il supervisore all'avvio passerà automaticamente allo stato di supervisore di standby. Il supervisore in standby deve rispecchiare lo stato del supervisore attivo. Ciò si ottiene tramite "system manager" su active, avviando una gsync (sincronizzazione globale) dello stato attivo del supervisore sul supervisore in standby. Una volta che tutti i componenti in standby sono sincronizzati con quelli del supervisore attivo, il manager del modulo viene informato che il supervisore di standby è attivo.
Module-manager comunica ora a tutti i componenti software sul supervisore attivo di configurare il supervisore in standby (noto anche come sequenza di inserimento del software in standby). Eventuali errori di qualsiasi componente durante la sequenza di inserimento del software in standby determineranno il riavvio del Supervisor in standby.

Riavvio Supervisor attivo

MDS mantiene molte informazioni di debug durante il runtime. Tuttavia, quando un supervisore riavvia il sistema, gran parte delle informazioni di debug vengono perse. Tuttavia, tutte le informazioni critiche vengono archiviate nella memoria RAM non volatile, che può essere utilizzata per ricostruire l'errore. Quando si riavvia un Supervisor attivo, le informazioni memorizzate nella relativa nvram non possono essere ottenute finché non viene riavviato. Una volta riavviato il Supervisor, è possibile usare questi comandi per eseguire il dump del log persistente:

N. switch show logging nvram
N. switch show system reset-reason
Switch# show module internal exception-log

Esempio 1: Riavvio del sistema attivo (a causa di un arresto anomalo del processo del Supervisor)

Nell'esempio, si è verificato un arresto anomalo di un processo Supervisor (Service "xbar") che causa il riavvio del processo Active sup. Quando il supervisore si riattiva, le informazioni memorizzate nel motivo della reimpostazione forniscono una chiara indicazione del riavvio del supervisore.

switch# show system reset-reason
----- reset reason for module 6 -----
1) At 94009 usecs after Tue Sep 27 18:52:13 2005
Reason: Reset triggered due to HA policy of Reset
Service: Service "xbar"
Version: 2.1(2)

Se nel sistema è presente il supervisore di standby, il supervisore di standby diventa il supervisore attivo. Anche la visualizzazione delle informazioni sul syslog sul supervisore di standby fornisce le stesse informazioni (anche se non in modo esplicito come "show system reset-reason").

Switch# show logging
2005 Sep 27 18:58:05 172.20.150.204 %SYSMGR-3-SERVICE_CRASHED: Service "xbar" (PID 1225) hasn't caught signal 9 (no core).
2005 Sep 27 18:58:06 172.20.150.204 %SYSMGR-3-SERVICE_CRASHED: Service "xbar" (PID 2349) hasn't caught signal 9 (no core).
2005 Sep 27 18:58:06 172.20.150.204 %SYSMGR-3-SERVICE_CRASHED: Service "xbar" (PID 2352) hasn't caught signal 9 (no core).

Esempio 2: Riavvio dell'installazione attivo (a causa di un errore di diagnostica in fase di esecuzione)

Nell'esempio, il Supervisor nello slot-6 è attivo e l'arbitro sul Supervisor segnala un errore irreversibile. Quando un dispositivo hardware segnala un errore irreversibile, il modulo che lo contiene viene riavviato. In questo caso, il Supervisor attivo viene riavviato. Se è presente un supervisore di standby, questo subentra. I messaggi Syslog sul supervisore di standby e sul registro eccezioni conterranno informazioni per identificare la fonte dell'errore.

Switch# show logging
2005 Sep 28 14:17:47 172.20.150.204 %XBAR-5-XBAR_STATUS_REPORT: Module 6 reported status for component 12 code 0x60a02.
2005 Sep 28 14:17:59 172.20.150.204 %PORT-5-IF_UP: Interface mgmt0 on slot 5 is up
2005 Sep 28 14:18:00 172.20.150.204 %CALLHOME-2-EVENT: SUP_FAILURE

switch# show module internal exceptionlog module 6
********* Exception info for module 6 ********

exception information --- exception instance 1 ----
device id: 12
device errorcode: 0x80000020
system time: (1127917068 ticks) Wed Sep 28 14:17:48 2005

error type: FATAL error
Number Ports went bad:
1,2,3,4,5,6

exception information --- exception instance 2 ----
device id: 12
device errorcode: 0x00060a02
system time: (1127917067 ticks) Wed Sep 28 14:17:47 2005

error type: Warning
Number Ports went bad:
1,2,3,4,5,6

Inoltre, quando l'arresto riavviato torna online, il comando "show system reset-reason" conterrà anche informazioni rilevanti. In questo caso, il modulo 6 (che era il sup attivo) è stato riavviato da Sap 48 con codice di errore 0x80000020. Il processo proprietario di questo sap può essere richiamato con il comando "show system internal mts sup sap 48 description", che indica che il processo era xbar-manager.

switch(standby)# show system reset-reason
----- reset reason for module 6 -----
1) At 552751 usecs after Wed Sep 28 14:17:48 2005
Reason: Reset Requested due to Fatal Module Error
Service: lcfail:80000020 sap:48 node:060
Version: 2.1(2)

Esempio 3: Impossibile connettere il sistema di standby

In questo esempio, il sup attivo è attivo e funzionante e il sup in standby è collegato al sistema. Tuttavia, il comando show module non indica che il modulo sia mai stato visualizzato.

switch# show module
Mod Ports Module-Type Model Status
--- ----- -------------------------------- ------------------ ------------
5 0 Supervisor/Fabric-1 DS-X9530-SF1-K9 active *
8 8 IP Storage Services Module powered-dn

Mod Sw Hw World-Wide-Name(s) (WWN)
--- ----------- ------ --------------------------------------------------
5 2.1(2) 1.1 --

Mod MAC-Address(es) Serial-Num
--- -------------------------------------- ----------
5 00-0b-be-f7-4d-1c to 00-0b-be-f7-4d-20 JAB070307XG

Tuttavia, se si accede alla console della modalità di standby sup, viene indicato che si tratta della modalità standby.

runlog>telnet sw4-ts 2004
Trying 172.22.22.55...
Connected to sw4-ts.cisco.com (172.22.22.55).
Escape character is '^]'.

MDS Switch
login: admin
Password:
Cisco Storage Area Networking Operating System (SAN-OS) Software
TAC support: http://www.cisco.com/tac
Copyright (c) 2002-2005, Cisco Systems, Inc. All rights reserved.
The copyrights to certain works contained herein are owned by
other third parties and are used and distributed under license.
Some parts of this software are covered under the GNU Public
License. A copy of the license is available at
http://www.gnu.org/licenses/gpl.html.
switch(standby)#

Come accennato in precedenza, quando la sospensione di standby viene inserita nel sistema, la configurazione e lo stato di tutti i componenti del supervisore attivo vengono copiati sulla sospensione (gsync). Fino al completamento del processo, il supervisore attivo non considera presente il supervisore in standby. Per verificare se il processo è stato completato, è possibile usare il seguente comando sul supervisore attivo. L'output del comando indica che la sincronizzazione è in corso (e probabilmente non è mai stata completata).

switch# show system redundancy status
Redundancy mode
---------------
administrative: HA
operational: None

This supervisor (sup-1)
-----------------------
Redundancy state: Active
Supervisor state: Active
Internal state: Active with HA standby

Other supervisor (sup-2)
------------------------
Redundancy state: Standby
Supervisor state: HA standby
Internal state: HA synchronization in progress

Il motivo più probabile per cui ciò si è verificato è che uno dei componenti software in standby non è riuscito a sincronizzare il proprio stato con il supervisore attivo. Per verificare quali processi non sono stati sincronizzati, è possibile eseguire questo comando sul supervisore attivo e l'output indica che molti componenti software non hanno completato gsync.

switch# show system internal sysmgr gsyncstats
Name Gsync done Gsync time(sec)
---------------- ---------- -------------
aaa 1 0
ExceptionLog 1 0
platform 1 1
radius 1 0
securityd 1 0
SystemHealth 1 0
tacacs 0 N/A
acl 1 0
ascii-cfg 1 1
bios_daemon 0 N/A
bootvar 1 0
callhome 1 0
capability 1 0
cdp 1 0
cfs 1 0
cimserver 1 0
cimxmlserver 0 N/A
confcheck 1 0
core-dmon 1 0
core-client 0 N/A
device-alias 1 0
dpvm 0 N/A
dstats 1 0
epld_upgrade 0 N/A
epp 1 1

Inoltre, osservando il supervisore di standby, si nota che il componente software xbar è stato riavviato 23 volte. Questa sembra essere la causa più probabile per cui lo standby non è arrivato.

switch(standby)# show system internal sysmgr service all
Name UUID PID SAP state Start count
---------------- ---------- ------ ----- ----- -----------
aaa 0x000000B5 1458 111 s0009 1
ExceptionLog 0x00000050 [NA] [NA] s0002 None
platform 0x00000018 1064 39 s0009 1
radius 0x000000B7 1457 113 s0009 1
securityd 0x0000002A 1456 55 s0009 1
vsan 0x00000029 1436 15 s0009 1
vshd 0x00000028 1408 37 s0009 1
wwn 0x00000030 1435 114 s0009 1
xbar 0x00000017 [NA] [NA] s0017 23
xbar_client 0x00000049 1434 917 s0009 1

Esempio 3: Sup standby in stato di accensione

Nell'esempio, il protocollo sup in standby è inserito nello slot 6. Il comando show module è stato emesso sul dispositivo sup attivo e indica che il dispositivo sup in standby è nello stato acceso.

switch# show module
Mod Ports Module-Type Model Status
--- ----- -------------------------------- ------------------ ------------
5 0 Supervisor/Fabric-1 DS-X9530-SF1-K9 active *
6 0 Supervisor/Fabric-1 powered-up
8 8 IP Storage Services Module powered-dn

Mod Sw Hw World-Wide-Name(s) (WWN)
--- ----------- ------ --------------------------------------------------
5 2.1(2) 1.1 --

Mod MAC-Address(es) Serial-Num
--- -------------------------------------- ----------
5 00-0b-be-f7-4d-1c to 00-0b-be-f7-4d-20 JAB070307XG

Nell'esempio, il comando show logging non restituisce informazioni importanti e non visualizza il log delle eccezioni interno del modulo. Tuttavia, poiché tutte le transizioni di stato per un determinato modulo sono memorizzate in Gestione moduli, è possibile esaminare le transizioni di stato di Gestione moduli per individuare gli errori. Le transizioni di stato interne sono:

Switch# show module internal event-history module 5
64) FSM:<ID(1): Slot 6, node 0x0601> Transition at 563504 usecs after Wed Sep 28 14:44:53 2005
Previous state: [LCM_ST_LC_NOT_PRESENT]
Triggered event: [LCM_EV_PFM_MODULE_SUP_INSERTED]
Next state: [LCM_ST_SUPERVISOR_INSERTED]

65) FSM:<ID(1): Slot 6, node 0x0601> Transition at 563944 usecs after Wed Sep 28 14:44:53 2005
Previous state: [LCM_ST_SUPERVISOR_INSERTED]
Triggered event: [LCM_EV_START_SUP_INSERTED_SEQUENCE]
Next state: [LCM_ST_CHECK_INSERT_SEQUENCE]

66) Event:ESQ_START length:32, at 564045 usecs after Wed Sep 28 14:44:53 2005 
Instance:1, Seq Id:0x2710, Ret:success
Seq Type:SERIAL

67) Event:ESQ_REQ length:32, at 564422 usecs after Wed Sep 28 14:44:53 2005 
Instance:1, Seq Id:0x1, Ret:success
[E_MTS_TX] Dst:MTS_SAP_MIGUTILS_DAEMON(949), Opc:MTS_OPC_LC_INSERTED(1081)

68) Event:ESQ_RSP length:32, at 566174 usecs after Wed Sep 28 14:44:53 2005
Instance:1, Seq Id:0x1, Ret:success
[E_MTS_RX] Src:MTS_SAP_MIGUTILS_DAEMON(949), Opc:MTS_OPC_LC_INSERTED(1081)

69) Event:ESQ_REQ length:32, at 566346 usecs after Wed Sep 28 14:44:53 2005
Instance:1, Seq Id:0x2, Ret:success
[E_MTS_TX] Dst:MTS_SAP_NTP(72), Opc:MTS_OPC_LC_INSERTED(1081)

70) Event:ESQ_RSP length:32, at 566635 usecs after Wed Sep 28 14:44:53 2005
Instance:1, Seq Id:0x2, Ret:success
[E_MTS_RX] Src:MTS_SAP_NTP(72), Opc:MTS_OPC_LC_INSERTED(1081)

71) Event:ESQ_REQ length:32, at 566772 usecs after Wed Sep 28 14:44:53 2005
Instance:1, Seq Id:0x3, Ret:success
[E_MTS_TX] Dst:MTS_SAP_XBAR_MANAGER(48), Opc:MTS_OPC_LC_INSERTED(1081)

73) Event:ESQ_RSP length:32, at 586418 usecs after Wed Sep 28 14:44:53 2005
Instance:1, Seq Id:0x3, Ret:(null)
[E_MTS_RX] Src:MTS_SAP_XBAR_MANAGER(48), Opc:MTS_OPC_LC_INSERTED(1081)

74) FSM:<ID(1): Slot 6, node 0x0601> Transition at 586436 usecs after Wed Sep 28 14:44:53 2005
Previous state: [LCM_ST_CHECK_INSERT_SEQUENCE]
Triggered event: [LCM_EV_LC_INSERTED_SEQ_FAILED]
Next state: [LCM_ST_CHECK_REMOVAL_SEQUENCE]

75) Event:ESQ_START length:32, at 586611 usecs after Wed Sep 28 14:44:53 2005
Instance:1, Seq Id:0x2710, Ret:success
Seq Type:SERIAL

76) Event:ESQ_REQ length:32, at 593649 usecs after Wed Sep 28 14:44:53 2005
Instance:1, Seq Id:0x1, Ret:success
[E_MTS_TX] Dst:MTS_SAP_MIGUTILS_DAEMON(949), Opc:MTS_OPC_LC_REMOVED(1082)

77) Event:ESQ_RSP length:32, at 594854 usecs after Wed Sep 28 14:44:53 2005
Instance:1, Seq Id:0x1, Ret:success
[E_MTS_RX] Src:MTS_SAP_MIGUTILS_DAEMON(949), Opc:MTS_OPC_LC_REMOVED(1082)

90) FSM:<ID(1): Slot 6, node 0x0601> Transition at 604447 usecs after Wed Sep 28 14:44:53 2005
Previous state: [LCM_ST_CHECK_REMOVAL_SEQUENCE]
Triggered event: [LCM_EV_ALL_LC_REMOVED_RESP_RECEIVED]
Next state: [LCM_ST_LC_FAILURE]

91) FSM:<ID(1): Slot 6, node 0x0601> Transition at 604501 usecs after Wed Sep 28 14:44:53 2005
Previous state: [LCM_ST_LC_FAILURE]
Triggered event: [LCM_EV_LC_INSERTED_SEQ_FAILED]
Next state: [LCM_ST_LC_FAILURE]

92) FSM:<ID(1): Slot 6, node 0x0601> Transition at 604518 usecs after Wed Sep 28 14:44:53 2005
Previous state: [LCM_ST_LC_FAILURE]
Triggered event: [LCM_EV_SUPERVISOR_FAILURE]
Next state: [LCM_ST_LC_NOT_PRESENT]

Curr state: [LCM_ST_LC_NOT_PRESENT]
switch#

Esaminare i registri sopra l'indice 92 per verificare che il supervisore sia in stato di errore e che l'evento attivato sia LCM_EV_LC_INSERTED_SEQ_FAILED. (Sequenza di inserimento non riuscita). Esaminando i log per individuare la causa dell'errore della sequenza di inserimento, verificare che la sequenza di inserimento non sia riuscita subito dopo una risposta di MTS_SAP_XBAR_MANAGER (indice 73 e indice 74). Ciò indica che si è verificato un problema con la configurazione xbar quando è inserita la sup di standby. Per eseguire ulteriori operazioni di debug, esaminare i registri interni del componente in errore (in questo caso il componente xbar).

Contributo dei tecnici Cisco

Jane Gao
Cisco TAC Engineer

Risoluzione dei problemi N7K HW (fan/PS/Temp/Xbar/SUP)

Opzioni per il download

Linguaggio senza pregiudizi

Informazioni su questa traduzione

Sommario

Introduzione

Debug dei problemi dello chassis

Problemi relativi alla ventola

Alimentatore

Temperatura o calore

Problemi del modulo Supervisor di debug

Ripristino/ricaricamento switch/supervisore

Attivazione del supervisore

Attivazione supervisore standby

Riavvio Supervisor attivo

Contributo dei tecnici Cisco

Questo documento ti è stato utile?

Contattaci

Questo documento si applica a questi prodotti