La documentazione per questo prodotto è stata redatta cercando di utilizzare un linguaggio senza pregiudizi. Ai fini di questa documentazione, per linguaggio senza di pregiudizi si intende un linguaggio che non implica discriminazioni basate su età, disabilità, genere, identità razziale, identità etnica, orientamento sessuale, status socioeconomico e intersezionalità. Le eventuali eccezioni possono dipendere dal linguaggio codificato nelle interfacce utente del software del prodotto, dal linguaggio utilizzato nella documentazione RFP o dal linguaggio utilizzato in prodotti di terze parti a cui si fa riferimento. Scopri di più sul modo in cui Cisco utilizza il linguaggio inclusivo.
Cisco ha tradotto questo documento utilizzando una combinazione di tecnologie automatiche e umane per offrire ai nostri utenti in tutto il mondo contenuti di supporto nella propria lingua. Si noti che anche la migliore traduzione automatica non sarà mai accurata come quella fornita da un traduttore professionista. Cisco Systems, Inc. non si assume alcuna responsabilità per l’accuratezza di queste traduzioni e consiglia di consultare sempre il documento originale in inglese (disponibile al link fornito).
In questo documento viene fornita una panoramica degli switch Cisco Nexus serie 7000 con software NX-OS e vengono descritte le soluzioni ai problemi più comuni relativi all'hardware e all'architettura.
Nota: Il formato esatto del syslog e dei messaggi di errore descritti nel presente documento può variare leggermente. La variazione dipende dalla versione software in esecuzione sul Supervisor Engine.
Il test di controllo della spine non riesce per Nexus 7000 Supervisor:
Nexus7000# show module internal exceptionlog module 5
...
System Errorcode : 0x418b0022 Spine control test failed
Error Type : Warning
PhyPortLayer : 0x0
Port(s) Affected : none
Error Description : Module 10 Spine Control Bus test Failed
...
11) SpineControlBus E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 1597800
Last test execution time ----> Mon May 27 21:57:17 2013
First test failure time -----> Sun Nov 20 00:30:55 2011
Last test failure time ------> Mon May 27 21:57:17 2013
Last test pass time ---------> Mon May 27 21:56:47 2013
Total failure count ---------> 33
Consecutive failure count ---> 1
Last failure reason ---------> Spine control test failed
Questo problema è correlato all'ID bug Cisco CSCuc72466. Per ulteriori informazioni, fare riferimento alle domande frequenti su Nexus 7000: Quale azione consigliata eseguire quando il test SpineControlBus ha esito negativo?.
Gli errori NVRAM vengono visualizzati negli eventi diagnostici:
Nexus7000#show diagnostic events
1) Event:E_DEBUG, length:97, at 9664 usecs after Wed Dec 5 01:03:42 2012
[103] Event_ERROR: TestName->NVRAM TestingType->health monitoring module->5
Result->fail Reason->
#show diagnostic result module 5 test NVRAM detail
4) NVRAM-------------------------> E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 52596
Last test execution time ----> Wed Dec 5 01:03:41 2012
First test failure time -----> Tue Dec 4 23:28:45 2012
Last test failure time ------> Wed Dec 5 01:03:42 2012
Last test pass time ---------> Tue Dec 4 23:23:41 2012
Total failure count ---------> 20
Consecutive failure count ---> 20
Last failure reason ---------> Bad blocks found on nvram
Si tratta di un problema hardware, di un errore del Supervisor Engine o di un problema transitorio.
Immettere il comando show diagnostic result module 5 test NVRAM detail per visualizzare i risultati del comando test.
Uno o tutti questi elementi sono visualizzati sul Supervisor 2/Supervisor 2E:
DEVICE_TEST-2-COMPACT_FLASH_FAIL: Module 5 has failed test CompactFlash
20 times on device Compact Flash due to error The compact flash power test failed.
Test results: (. = Pass, F = Fail, I = Incomplete,
U = Untested, A = Abort, E = Error disabled)
7) CompactFlash E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 23302
Last test execution time ----> Sun Apr 13 10:07:30 2014
First test failure time -----> Sun Apr 13 00:37:41 2014
Last test failure time ------> Sun Apr 13 10:07:40 2014
Last test pass time ---------> Sun Apr 13 00:07:41 2014
Total failure count ---------> 20
Consecutive failure count ---> 20
Last failure reason ---------> The compact flash power test
failed
Next Execution time ---------> Sun Apr 13 10:37:30 2014
Causa principale
I supervisori Nexus 7000 di seconda generazione vengono forniti con due flash eUSB identici per la ridondanza. I flash forniscono un repository per bootflash, configurazioni e altre informazioni pertinenti. Questi due flash vengono riconfigurati come array RAID 1 che implementa il mirroring interno. Con la ridondanza, un Supervisor può funzionare con la perdita di uno dei flash ma non di entrambi.
Ci sono alcune istanze nel campo in cui uno o entrambi questi flash sono contrassegnati come guasti dal software RAID in un arco di tempo di diversi mesi o anni in servizio. Un reset/riavvio della scheda consente di riscoprire che i flash guasti sono integri al successivo avvio.
Completare questa procedura per verificare se si tratta di un problema hardware:
La scheda di linea riporta un errore di diagnostica dovuto a un errore del test PortLoopback 10 volte consecutivamente:
DIAG_PORT_LB-2-PORTLOOPBACK_TEST_FAIL Module:16 Test:PortLoopback
failed 10 consecutive times. Faulty module:Module 16 affected ports:5,7
Error:Loopback test failed. Packets lost on the LC at the Queueing engine ASIC
MODULE-4-MOD_WARNING Module 16 (serial: XXXX) reported warning on
ports 16/5-16/5 (Ethernet) due to Loopback test failed.
Packets lost on the LC at the Queueing engine ASIC in device 78
(device error 0x41830059)
Causa principale
Questo è un messaggio di avviso e nella maggior parte dei casi indica un problema hardware con la porta.
Verificare prima la presenza dell'ID bug Cisco CSCtn81109 e dell'ID bug Cisco CSCti95293, in quanto potrebbe trattarsi di un problema software.
Ricollocare il modulo per reinizializzare la scheda ed eseguire nuovamente i test di integrità dell'hardware di avvio. Se i test diagnostici mostrano ancora errori per la stessa scheda, sostituire la scheda.
Ricaricare la scheda al momento opportuno e raccogliere gli output di questi comandi:
In alternativa, è possibile eseguire nuovamente solo questo test specifico e non è necessario ricaricare la scheda. L'esempio mostra il modulo 16:
show diagnostic result module 16
diagnostic clear result module all
(config)# no diagnostic monitor module 16 test 5
(config)# diagnostic monitor module 16 test 5
diagnostic start module 16 test 5
show diagnostic result module 16 test 5
Vengono visualizzati questi errori ed è possibile che il modulo venga ricaricato:
2013 Mar 27 00:40:23 DC3-7000-PRODD2-A23 MODULE-4-MOD_WARNING
Module 9 (serial: XXX) reported warning on ports 9/1-9/3 (Unknown)
due to BE2 Arbiter experienced an error in device 65 (device error 0xc410f613)
Causa principale
Si tratta di un guasto hardware causato da errori di parità o problemi hardware sulla scheda secondaria.
Altri problemi software noti
ID bug Cisco CSCtb98876
Questi errori vengono visualizzati nel modulo:
%MODULE-4-MOD_WARNING: Module # (Serial number: XXXX) reported warning
Ethernet#/# due to chico serdes sync loss in device DEV_SKYTRAIN
(device error 0xc9003600)
Causa principale
Questi errori indicano un problema di perdita di sincronizzazione tra il modulo n. e Xbar/ASIC. Nella maggior parte dei casi la causa è un guasto hardware del modulo.
Se la versione di Cisco NS-OX in uso è precedente alla 6.1(4) e il messaggio non viene visualizzato in modo continuo, è possibile che l'ID bug Cisco CSCud91672 sia rilevante. La causa del problema è che le impostazioni dei server NX-OS sono diverse dalle impostazioni diagnostiche sui due canali tra SKT <—>SAC.
Raccogli l'output di questi comandi:
Per isolare la causa del difetto, aggiornare lo switch al sistema NS-OX versione 6.1(4) o successive.
Eseguire questo test per verificare se la scheda è difettosa anziché lo slot xbar o dello chassis:
Il modulo N7K-F248XP-25 ha esito negativo nei test PrimaryBootROM e SecondaryBootROM:
show module internal exceptionlog module 1 | i Error|xception
********* Exception info for module 1 ********
exception information --- exception instance 1 ----
Error Description : Secondary BootROM test failed
exception information --- exception instance 2 ----
Error Description : Primary BootROM test failed
Causa principale
Questo problema è in genere dovuto al danneggiamento del file del BIOS o a un errore hardware della scheda di linea.
L'ID bug Cisco CSCuf82089 aggiunge codice per visualizzare informazioni più descrittive su questi errori e migliorare la diagnostica. Ad esempio, mostra un componente con errori anziché un valore null corrente.
In alcuni casi il problema è causato dal danneggiamento del BIOS sul modulo. Immettere il comando install module X bios forced (installazione forzata del modulo X) per risolvere il problema. Si noti che questo comando può influire sul servizio. Si consiglia di eseguirlo solo durante un intervento di manutenzione.
Per risolvere il problema, completare i seguenti passaggi:
Nexus7000# install module 1 bios forced
Warning: Installing Bios forcefully...!
Warning: Please do not remove or power off the module at this time
Upgrading primary bios
Started bios programming .... please wait
[# 0% ]
BIOS install failed for module 1, Error=0x40710027(BIOS flash-type verify failed)
BIOS is OK ...
Please try the command again...
Questo errore viene visualizzato sulla piattaforma:
%PLATFORM-4-MOD_TEMPFAIL: Module-2 temperature sensor 7 failed
Causa principale
Si tratta di un problema intermittente con il blocco di temperatura/tensione nell'ASIC in determinate condizioni a causa della temporizzazione ASIC interna. L'ID bug Cisco CSCtw79052 descrive la causa nota del problema.
Si tratta di un problema di tempificazione tra l'ASIC che fissa la temperatura internamente e il software che campiona il bit valido. Il problema è che può colpire una qualsiasi delle 12 istanze di Clipper. Questo problema non ha un particolare innesco ed è intermittente. Questo problema non influisce sul servizio e si verifica perché la logica di lettura della temperatura presenta un problema che richiede ulteriori tentativi nel driver.
Raccogliere l'output di questi comandi e verificare la presenza di bug Cisco con ID CSCtw79052:
C7010-FAB-1 è in stato di spegnimento e vengono visualizzati i seguenti errori:
%PLATFORM-3-EJECTOR_STAT_CHANGED: Ejectors' status in slot 13 has changed,
Left Ejector is OPEN, Right Ejector is CLOSE
%PLATFORM-3-EJECTOR_STAT_CHANGED: Ejectors' status in slot 13 has changed,
Left Ejector is OPEN, Right Ejector is OPEN
%PLATFORM-2-XBAR_REMOVE: Xbar 3 removed (Serial number XXX)
Xbar Ports Module-Type Model Status
--- ----- ----------------------------------- ------------------ ----------
3 0 Fabric Module N/A powered-dn
?
Xbar Power-Status Reason
--- ------------ ---------------------------
3 powered-dn failure(powered-down) since maximum number of bringups were exceeded
In alternativa, vengono visualizzati gli errori ASIC xbar:
%MODULE-4-MOD_WARNING: Module 15 (serial: XXX) reported warning due to
X-bar Interface ASIC Error in device 70 (device error 0xc4600248)
%OC_USD-SLOT15-2-RF_CRC: OC2 received packets with CRC error from MOD 15
through XBAR slot 3/inst 2
Causa principale
Questo problema è dovuto a un modulo xbar difettoso o alloggiato in modo non corretto oppure a uno slot dello chassis guasto.
Si osservano uno o più dei seguenti sintomi di guasto della ventola:
%PLATFORM-5-FAN_STATUS: Fan module 3 (Serial number XXX)
Fan3(fab_fan1) current-status is FAN_FAIL
Nexus 7000#show environment fan
Fan3(fab_fan1) N7K-C7010-FAN-F 1.1 Failure (Failed Fanlets: 2 6 7 8 9 10 14 15 )
Fan4(fab_fan2) N7K-C7010-FAN-F 1.1 Ok
...
#show hardware
----------------------------------
Chassis has 4 Fan slots
----------------------------------
Fan3(fab_fan1) failed
Model number is N7K-C7010-FAN-F
...
Causa principale
Nella maggior parte dei casi si tratta di un guasto della ventola o dello slot dello chassis.
Gli allarmi vengono visualizzati per i cambiamenti di capacità, a volte molto frequentemente.
%PLATFORM-2-PS_CAPACITY_CHANGE: Power supply PS2 changed its capacity.
possibly due to On/Off or power cable removal/
2013 Oct 17 17:06:40 ... last message repeated 14 times
Causa principale
Il problema è dovuto a un cavo di alimentazione difettoso o scollegato oppure a un guasto dell'alimentatore.
Controllare l'output del comando show env power detail e verificare lo stato dell'alimentatore. In questo esempio di output, entrambe le corde sono collegate ma la seconda mostra solo una capacità di 1200W invece di 3000W e deve essere per il 220V AC sul N7K-AC-6.0KW. La fonte di alimentazione è stata testata correttamente. Sostituire l'alimentatore.
PS_2 total capacity: 4200 W Voltage:50Vchord 1 capacity: 3000 W chord 1
connected to 110v AC chord 2 capacity: 1200 W chord 2 connected to 220v AC
Questo avviso viene visualizzato sulla piattaforma:
%PLATFORM-5-PS_STATUS: PowerSupply 3 current-status is PS_FAIL
%PLATFORM-2-PS_FAIL: Power supply 3 failed or shut down (Serial number xxxxx)
Causa principale
Questo avviso è dovuto a un cavo di alimentazione difettoso o scollegato oppure a un guasto dell'alimentatore.
Riferimenti
Cisco Nexus serie 7000 Ridondanza alimentatori
Per l'alimentatore FEX vengono visualizzati i seguenti allarmi:
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 Module 1: Runtime diag detected major event:
Voltage failure on power supply: 1
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 System minor alarm on power
supply 1: failed
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 Recovered: System minor alarm
on power supply 1: failed
Verificare la presenza di problemi hardware e di alimentazione. Se si verifica un problema software, i messaggi di errore continuano anche dopo lo scambio dell'hardware.
I metodi per risolvere questi problemi includono:
Rivedere e rispondere a queste domande per definire le circostanze del fallimento:
Raccogli output da questi comandi per analizzare gli errori:
Errore software noto
ID bug Cisco CSCtr7620
Gli alimentatori di emergenza N7K-AC-6,0KW vengono indicati come guasti/arresto ma lo switch funziona correttamente e viene visualizzata un'uscita non 0 effettiva per l'alimentatore difettoso.
Causa principale
Su un alimentatore con entrambi gli ingressi attivi, quando un input viene scollegato, ricollegato e disconnesso entro 1,5 secondi l'alimentatore può bloccarsi in caso di guasto di sottotensione e NX-OS può segnalare il guasto dell'alimentatore. In un'altra variante, su una fornitura con due ingressi, rimuovere un ingresso e attendere 20-30 secondi. L'alimentatore potrebbe impostare a intermittenza l'allarme di guasto interno e NX-OS segnala il guasto dell'alimentatore.
Per risolvere il problema, Cisco ID bug CSCty78612 apporta modifiche al firmware sugli alimentatori.
L'ID bug Cisco CSCuc86262 aggiunge una funzione di miglioramento del software che consente di ripristinare il sistema da questi falsi errori. NX-OS ora controlla in modo autonomo lo stato dell'unità di alimentazione (PSU) e la modifica allo stato appropriato se lo stato riportato è diverso da quello reale.
Immettere il comando show env power detail e verificare l'output effettivo per verificare il false errore:
Nexus7000# show env power
Power Supply:
Voltage: 50 Volts
Power Actual Total
Supply Model Output Capacity Status
(Watts ) (Watts )
------- ------------------- ----------- ----------- --------------
1 N7K-AC-6.0KW 0 W 0 W Shutdown
2 N7K-AC-6.0KW 3888 W 6000 W Fail/Shut
Lo stato errato di errore/arresto viene cancellato quando si spegne/accende la PSU.
L'ID bug Cisco CSCty78612 apporta modifiche al firmware della PSU. Il software è stato migliorato tramite l'ID bug Cisco CSCuc86262, che consente di ripristinare le notifiche di errore/arresto del sistema correggendo i falsi bit se l'alimentatore funziona normalmente. NX-OS versioni 5.2(9), 6.1(3), 6.2(2) e successive presentano le migliorie che evitano una RMA.
Parte dei pacchetti di grandi dimensioni vengono scartati quando c'è un'alta velocità di pacchetti IP con una lunghezza superiore all'MTU configurata sull'interfaccia di uscita del pacchetto.
Causa principale
Si tratta di un comportamento normale. Quando il sistema riceve un pacchetto IP di lunghezza superiore all'MTU configurata sull'interfaccia di uscita del pacchetto, invia il pacchetto al control plane, che gestisce la frammentazione. In NX-OS 4.1.3 e versioni successive, a tali pacchetti persi viene applicato un limitatore di velocità. Per impostazione predefinita, questo limite è limitato a un massimo di 500 pagine al secondo.
Questo è un errore software noto nell'ID bug Cisco CSCsu01048.
Viene visualizzato l'errore "USER-2-SYSTEM_MSG FIPS self-test failure in DCOS_rand - netstack".
Causa principale
Ogni volta che viene generato un numero casuale, viene eseguito il test automatico del generatore di numeri casuali condizionale (CRNG). Se il test non riesce, viene registrato un messaggio syslog. Questa operazione viene eseguita in base alla raccomandazione FIPS (Federal Information Processing Standards). Tuttavia, l'impatto di questo è innocuo in quanto il numero casuale viene generato di nuovo.
In NX-OS sono disponibili due tipi di generatori di numeri casuali:
Come per FIPS, tutti gli RNG devono implementare il test CRNGT (Conditional Random Number Generator Test). Il test confronta il numero casuale generato corrente con quello precedente. Se i numeri coincidono, viene generato un messaggio syslog e un altro numero casuale.
Il test viene eseguito per garantire l'univocità del numero casuale. La rigenerazione del numero non comporta alcun impatto funzionale.
Questo messaggio non influisce sul funzionamento del sistema. Da Cisco NX-OS versione 5.2x e successive, la gravità del messaggio viene ridotta da 2 in modo da non essere più visibile con la configurazione di registrazione predefinita. Questa registrazione viene eseguita nell'ambito dei test automatici interni NX-OS per diverse funzioni dello switch.
Questo è un errore software noto nell'ID bug Cisco CSCtn70083.
Revisione | Data di pubblicazione | Commenti |
---|---|---|
1.0 |
15-May-2015 |
Versione iniziale |