Introduction
Ce document décrit un problème rencontré avec des Commutateurs du Nexus 5010/5020 provoqués par un problème de matériel dans les altos ASIC (message d'erreur %NOHMS-2-NOHMS_DIAG_ERROR : Module 1 : Grand événement détecté par diag d'exécution : La défaillance de port), et fournit également une solution au problème.
Conditions préalables
Exigences
Cisco recommande que vous ayez la connaissance du Nexus CLI.
Les informations dans ce document sont basées sur Cisco Nexus 5010/5020 Commutateurs seulement. Il n'affecte pas Cisco Nexus 5548/5596 Commutateurs.
Les informations contenues dans ce document ont été créées à partir des périphériques d'un environnement de laboratoire spécifique. Tous les périphériques utilisés dans ce document ont démarré avec une configuration effacée (par défaut). Si votre réseau est opérationnel, assurez-vous que vous comprenez l'effet potentiel de toute commande.
Problème
Les plusieurs interfaces sur la carte 2 sont en baisse, et vous voyez cette alerte :
N5020 %$ VDC-1 %$ %NOHMS-2-NOHMS_DIAG_ERROR: Module 1: Runtime diag detected major event
L'alerte suggère un échec de carte, mais quelques ports sont. Quoique le commutateur du Nexus 5020 soit en ligne, le module de la Fibre Channel (FC) dans l'emplacement 2 est hors ligne. Sélectionnez la commande de show module afin de visualiser le statut des modules :
Mod Ports Module-Type Model Status
--- ----- -------------------------------- ---------------------- ------------
1 40 40x10GE/Supervisor N5K-C5020P-BF-SUP active *
2 8 8x1/2/4G FC Module N5K-M1008 offline <<<<<<
Mod Sw Hw World-Wide-Name(s) (WWN)
--- -------------- ------ --------------------------------------------------
1 4.2(1)N2(1) 1.3 --
2 4.2(1)N2(1) 1.0 77:9f:b7:62:2f:6c:69:62 to 00:00:00:b8:27:0a:08:2c
Sélectionnez la commande de show environment afin de visualiser les données d'environnement de module.
Mod Model Power Power Power Power Status
Requested Requested Allocated Allocated
(Watts) (Amp) (Watts) (Amp)
--- ---------------------- ------- ---------- --------- ---------- ----------
1 N5K-C5020P-BF-SUP 625.20 52.10 625.20 52.10 powered-up
2 N5K-M1008 9.96 0.83 9.96 0.83 fail/shutdown
Sélectionnez la commande de show logging nvram afin de visualiser cette sortie :
N5020 %$ VDC-1 %$ %NOHMS-2-NOHMS_DIAG_ERROR: Module 1: Runtime diag detected major event:
Port failure: Ethernet1/1
N5020 %$ VDC-1 %$ last message repeated 2 times
N5020 %$ VDC-1 %$ %NOHMS-2-NOHMS_DIAG_ERROR: Module 1: Runtime diag detected major event:
Port failure: Ethernet1/2
N5020 %$ VDC-1 %$ last message repeated 7 times
N5020 %$ VDC-1 %$ %NOHMS-2-NOHMS_DIAG_ERROR: Module 1: Runtime diag detected major event:
Port failure: Ethernet1/5
N5020 %$ VDC-1 %$ last message repeated 3 times
N5020 %$ VDC-1 %$ %NOHMS-2-NOHMS_DIAG_ERROR: Module 1: Runtime diag detected major event:
Port failure: Ethernet1/13
Comme vous pouvez voir des logs, plusieurs ports ont manqué les diagnostics d'exécution. En outre, deux ports de chaque Gatos ASIC signalent une « défaillance matérielle » parce que la matrice est vers le bas. Sélectionnez la commande brief d'interface d'exposition afin de visualiser cette sortie :
--------------------------------------------------------------------------------
Ethernet VLAN Type Mode Status Reason Speed Port
Interface Ch #
--------------------------------------------------------------------------------
Eth1/1 1 eth fabric down Hardware failure 10G(D) 138
Eth1/2 1 eth fabric down Hardware failure 10G(D) 138
Eth1/3 1 eth fabric up none 10G(D) 138
Eth1/4 1 eth fabric up none 10G(D) 138
Eth1/5 1 eth fabric down Hardware failure 10G(D) 140
Eth1/6 1 eth fabric down Hardware failure 10G(D) 140
Eth1/7 1 eth fabric up none 10G(D) 140
Eth1/8 1 eth fabric up none 10G(D) 140
Le Gatos ASIC signale des pannes pour certains des ports et les désactive. Sélectionnez la commande interne d'erreur d'événement-historique de gatos de matériel d'exposition afin de visualiser cette sortie :
1) Event:E_DEBUG, length:81, at 775734 usecs after Fri May 24 15:28:10 2013
[101] xcvr_set_port_to_hw_failure(): Sending nohms failure notif for port xgb1/13
2) Event:E_DEBUG, length:44, at 775726 usecs after Fri May 24 15:28:10 2013[100] CODE-PATH:
xcvr_set_port_to_hw_failure
935) Event:E_DEBUG, length:34, at 434695 usecs after Fri May 24 15:28:06 2013[100] CODE-PATH:
xcvr_port_disable
936) Event:E_DEBUG, length:38, at 434653 usecs after Fri May 24 15:28:06 2013[100] CODE-PATH:
xcvr_set_port_disable
937) Event:E_DEBUG, length:81, at 408233 usecs after Fri May 24 15:28:06 2013
[101] xcvr_set_port_to_hw_failure(): Sending nohms failure notif for port xgb1/30
938) Event:E_DEBUG, length:44, at 408224 usecs after Fri May 24 15:28:06 2013 [100] CODE-PATH:
xcvr_set_port_to_hw_failure
Des altos ASIC, il y a de nombreux messages de « interruption d'erreur » dus aux questions de synchronisation qui entraînent la matrice interconnectent les remises (fi). Entrez dans les altos internes de matériel d'exposition que les erreurs d'événement-historique commandent afin de visualiser cette sortie :
1) Event:E_DEBUG, length:131, at 959201 usecs after Fri May 24 14:19:20 2013
[100] Threshold reached for error interrupt - ALT_FIC3_INT_3_XGXS_rx2_loss_of_sync, flags:
0xa8, fabric port: 15, Action: fi-reset
2) Event:E_DEBUG, length:122, at 372727 usecs after Fri May 24 14:15:05 2013
[100] Threshold reached for interrupt - ALT_FIC6_INT_0_XGXS_EXT_serdes_rx2_sync, masking it
(threshold=3 period=10 msecs)
453) Event:E_DEBUG, length:122, at 658189 usecs after Fri May 24 03:38:48 2013
[100] Threshold reached for interrupt - ALT_FIC6_INT_1_XGXS_EXT_serdes_rx0_sync, masking it
(threshold=3 period=10 msecs)
454) Event:E_DEBUG, length:129, at 658137 usecs after Fri May 24 03:38:48 2013
[100] Threshold reached for error interrupt - ALT_FIC6_INT_1_XGXS_rx2_code_eerror, flags:
0xa8, fabric port: 25, Action: fi-reset
Solution
Le problème est dû à un problème de matériel dans les altos ASIC. Entrez en contact avec le centre d'assistance technique Cisco (TAC) afin de remplacer la gamme de Nexus 5000 commutent.