소개
이 문서에서는 Altos ASIC의 하드웨어 문제로 인해 Nexus 5010/5020 스위치에 발생한 문제에 대해 설명합니다(오류 메시지 %NOHMS-2-NOHMS_DIAG_ERROR:모듈 1:런타임 다이어그램에서 주요 이벤트를 검색했습니다.포트 장애) 및 문제 해결 기능도 제공합니다.
사전 요구 사항
요구 사항
Nexus CLI에 대해 알고 있는 것이 좋습니다.
사용되는 구성 요소
이 문서의 정보는 Cisco Nexus 5010/5020 스위치만 기반으로 합니다.Cisco Nexus 5548/5596 스위치에는 영향을 미치지 않습니다.
이 문서의 정보는 특정 랩 환경의 디바이스를 토대로 작성되었습니다.이 문서에 사용된 모든 디바이스는 초기화된(기본) 컨피그레이션으로 시작되었습니다.현재 네트워크가 작동 중인 경우, 모든 명령어의 잠재적인 영향을 미리 숙지하시기 바랍니다.
문제
카드 2의 여러 인터페이스가 다운되었으며 다음 경고가 표시됩니다.
N5020 %$ VDC-1 %$ %NOHMS-2-NOHMS_DIAG_ERROR: Module 1: Runtime diag detected major event
경고에 카드 장애가 표시되지만 일부 포트가 작동 중입니다.Nexus 5020 스위치가 온라인 상태이지만 슬롯 2의 FC(Fibre Channel) 모듈이 오프라인 상태입니다.모듈 상태를 보려면 show module 명령을 입력합니다.
Mod Ports Module-Type Model Status
--- ----- -------------------------------- ---------------------- ------------
1 40 40x10GE/Supervisor N5K-C5020P-BF-SUP active *
2 8 8x1/2/4G FC Module N5K-M1008 offline <<<<<<
Mod Sw Hw World-Wide-Name(s) (WWN)
--- -------------- ------ --------------------------------------------------
1 4.2(1)N2(1) 1.3 --
2 4.2(1)N2(1) 1.0 77:9f:b7:62:2f:6c:69:62 to 00:00:00:b8:27:0a:08:2c
모듈 환경 데이터를 보려면 show environment 명령을 입력합니다.
Mod Model Power Power Power Power Status
Requested Requested Allocated Allocated
(Watts) (Amp) (Watts) (Amp)
--- ---------------------- ------- ---------- --------- ---------- ----------
1 N5K-C5020P-BF-SUP 625.20 52.10 625.20 52.10 powered-up
2 N5K-M1008 9.96 0.83 9.96 0.83 fail/shutdown
이 출력을 보려면 show logging nvram 명령을 입력합니다.
N5020 %$ VDC-1 %$ %NOHMS-2-NOHMS_DIAG_ERROR: Module 1: Runtime diag detected major event:
Port failure: Ethernet1/1
N5020 %$ VDC-1 %$ last message repeated 2 times
N5020 %$ VDC-1 %$ %NOHMS-2-NOHMS_DIAG_ERROR: Module 1: Runtime diag detected major event:
Port failure: Ethernet1/2
N5020 %$ VDC-1 %$ last message repeated 7 times
N5020 %$ VDC-1 %$ %NOHMS-2-NOHMS_DIAG_ERROR: Module 1: Runtime diag detected major event:
Port failure: Ethernet1/5
N5020 %$ VDC-1 %$ last message repeated 3 times
N5020 %$ VDC-1 %$ %NOHMS-2-NOHMS_DIAG_ERROR: Module 1: Runtime diag detected major event:
Port failure: Ethernet1/13
로그에서 볼 수 있듯이 여러 포트에서 런타임 진단에 실패했습니다.또한 각 Gatos ASIC의 포트 2개가 패브릭이 다운되었기 때문에 "하드웨어 장애"라고 보고합니다.이 출력을 보려면 show interface brief 명령을 입력합니다.
--------------------------------------------------------------------------------
Ethernet VLAN Type Mode Status Reason Speed Port
Interface Ch #
--------------------------------------------------------------------------------
Eth1/1 1 eth fabric down Hardware failure 10G(D) 138
Eth1/2 1 eth fabric down Hardware failure 10G(D) 138
Eth1/3 1 eth fabric up none 10G(D) 138
Eth1/4 1 eth fabric up none 10G(D) 138
Eth1/5 1 eth fabric down Hardware failure 10G(D) 140
Eth1/6 1 eth fabric down Hardware failure 10G(D) 140
Eth1/7 1 eth fabric up none 10G(D) 140
Eth1/8 1 eth fabric up none 10G(D) 140
Gatos ASIC는 일부 포트에 대한 오류를 보고하고 이를 비활성화합니다.이 출력을 보려면 show hardware internal gatos event-history error 명령을 입력합니다.
1) Event:E_DEBUG, length:81, at 775734 usecs after Fri May 24 15:28:10 2013
[101] xcvr_set_port_to_hw_failure(): Sending nohms failure notif for port xgb1/13
2) Event:E_DEBUG, length:44, at 775726 usecs after Fri May 24 15:28:10 2013[100] CODE-PATH:
xcvr_set_port_to_hw_failure
935) Event:E_DEBUG, length:34, at 434695 usecs after Fri May 24 15:28:06 2013[100] CODE-PATH:
xcvr_port_disable
936) Event:E_DEBUG, length:38, at 434653 usecs after Fri May 24 15:28:06 2013[100] CODE-PATH:
xcvr_set_port_disable
937) Event:E_DEBUG, length:81, at 408233 usecs after Fri May 24 15:28:06 2013
[101] xcvr_set_port_to_hw_failure(): Sending nohms failure notif for port xgb1/30
938) Event:E_DEBUG, length:44, at 408224 usecs after Fri May 24 15:28:06 2013 [100] CODE-PATH:
xcvr_set_port_to_hw_failure
Altos ASIC에서는 FI(Fabric Interconnect)를 재설정하는 동기화 문제로 인해 수많은 "오류 인터럽트" 메시지가 있습니다.이 출력을 보려면 show hardware internal altos event-history errors 명령을 입력합니다.
1) Event:E_DEBUG, length:131, at 959201 usecs after Fri May 24 14:19:20 2013
[100] Threshold reached for error interrupt - ALT_FIC3_INT_3_XGXS_rx2_loss_of_sync, flags:
0xa8, fabric port: 15, Action: fi-reset
2) Event:E_DEBUG, length:122, at 372727 usecs after Fri May 24 14:15:05 2013
[100] Threshold reached for interrupt - ALT_FIC6_INT_0_XGXS_EXT_serdes_rx2_sync, masking it
(threshold=3 period=10 msecs)
453) Event:E_DEBUG, length:122, at 658189 usecs after Fri May 24 03:38:48 2013
[100] Threshold reached for interrupt - ALT_FIC6_INT_1_XGXS_EXT_serdes_rx0_sync, masking it
(threshold=3 period=10 msecs)
454) Event:E_DEBUG, length:129, at 658137 usecs after Fri May 24 03:38:48 2013
[100] Threshold reached for error interrupt - ALT_FIC6_INT_1_XGXS_rx2_code_eerror, flags:
0xa8, fabric port: 25, Action: fi-reset
솔루션
문제는 Altos ASIC의 하드웨어 문제로 인해 발생합니다.Nexus 5000 Series 스위치를 교체하려면 Cisco TAC(Technical Assistance Center)에 문의하십시오.