본 제품에 대한 문서 세트는 편견 없는 언어를 사용하기 위해 노력합니다. 본 설명서 세트의 목적상, 편견 없는 언어는 나이, 장애, 성별, 인종 정체성, 민족 정체성, 성적 지향성, 사회 경제적 지위 및 교차성에 기초한 차별을 의미하지 않는 언어로 정의됩니다. 제품 소프트웨어의 사용자 인터페이스에서 하드코딩된 언어, RFP 설명서에 기초한 언어 또는 참조된 서드파티 제품에서 사용하는 언어로 인해 설명서에 예외가 있을 수 있습니다. 시스코에서 어떤 방식으로 포용적인 언어를 사용하고 있는지 자세히 알아보세요.
Cisco는 전 세계 사용자에게 다양한 언어로 지원 콘텐츠를 제공하기 위해 기계 번역 기술과 수작업 번역을 병행하여 이 문서를 번역했습니다. 아무리 품질이 높은 기계 번역이라도 전문 번역가의 번역 결과물만큼 정확하지는 않습니다. Cisco Systems, Inc.는 이 같은 번역에 대해 어떠한 책임도 지지 않으며 항상 원본 영문 문서(링크 제공됨)를 참조할 것을 권장합니다.
이 문서에서는 Nexus 7000(N7K) 하드웨어의 트러블슈팅 기술에 대해 설명합니다.
이 명령은 스위치의 팬 모듈 상태를 표시합니다.
SITE1-AGG1# show environment fan Fan: ------------------------------------------------------ Fan Model Hw Status ------------------------------------------------------ Fan1(sys_fan1) N7K-C7010-FAN-S 1.1 Ok Fan2(sys_fan2) N7K-C7010-FAN-S 1.1 Ok Fan3(fab_fan1) N7K-C7010-FAN-F 1.1 Ok Fan4(fab_fan2) N7K-C7010-FAN-F 1.1 Ok Fan_in_PS1 -- -- Ok Fan_in_PS2 -- -- Ok Fan_in_PS3 -- -- Shutdown Fan Zone Speed: Zone 1: 0x78 Zone 2: 0x58 Fan Air Filter : Present
팬 상태는 정상, 장애 또는 결석일 수 있습니다.
“Fan module removed. Fan module has been absent for 120 seconds"
이 명령은 설치된 전원 공급 장치, 전원 사용량 요약 및 스위치의 전원 공급 장치 상태를 표시합니다.
명령 및 샘플 출력이 제공됩니다.
SITE1-AGG1# show environment power Power Supply: Voltage: 50 Volts Power Actual Total Supply Model Output Capacity Status (Watts ) (Watts ) ------- ------------------- ----------- ----------- -------------- 1 N7K-AC-6.0KW 1179 W 6000 W Ok 2 N7K-AC-6.0KW 1117 W 6000 W Ok 3 N7K-AC-6.0KW 0 W 0 W Shutdown Actual Power Module Model Draw Allocated Status (Watts ) (Watts ) ------- ------------------- ----------- ----------- -------------- 1 N7K-M148GT-11 N/A 400 W Powered-Up 3 N7K-M132XP-12 N/A 750 W Powered-Up 4 N7K-F132XP-15 318 W 385 W Powered-Up 5 N7K-SUP1 N/A 210 W Powered-Up 6 N7K-SUP1 N/A 210 W Powered-Up 10 N7K-M132XP-12L 535 W 750 W Powered-Up Xb1 N7K-C7010-FAB-1 N/A 80 W Powered-Up Xb2 N7K-C7010-FAB-1 N/A 80 W Powered-Up Xb3 N7K-C7010-FAB-1 N/A 80 W Powered-Up Xb4 xbar N/A 80 W Absent Xb5 xbar N/A 80 W Absent fan1 N7K-C7010-FAN-S 133 W 720 W Powered-Up fan2 N7K-C7010-FAN-S 133 W 720 W Powered-Up fan3 N7K-C7010-FAN-F 12 W 120 W Powered-Up fan4 N7K-C7010-FAN-F 12 W 120 W Powered-Up N/A - Per module power not available Power Usage Summary: -------------------- Power Supply redundancy mode (configured) PS-Redundant Power Supply redundancy mode (operational) Non-Redundant Total Power Capacity (based on configured mode) 12000 W Total Power of all Inputs (cumulative) 12000 W Total Power Output (actual draw) 2296 W Total Power Allocated (budget) 4785 W Total Power Available for additional modules 7215 W
전원 공급 장치 상태는 다음 중 하나일 수 있습니다.
전원 공급 장치 장애:
각 전원 공급 장치에는 전원 출력 상태를 나타내는 LED가 있습니다.이 LED는 전원 공급 장치에 의해 직접 제어되며 빨간색 색은 전원 공급 장치 장애를 나타냅니다.syslog를 스캔할 때 전원 공급 장치 장애 및 복구에 대한 대체 메시지를 표시하여 전원 공급 장치 관련 문제를 추가로 나타낼 수 있습니다.
섀시의 각 카드에는 최소 2개의 온도 센서가 있습니다.각 온도 센서는 하위 및 주요 임계값으로 구성됩니다.샘플 출력의 이 명령은 스위치에서 온도 정보를 검색하는 방법을 보여줍니다.
SITE1-AGG1# show environment temperature Temperature: -------------------------------------------------------------------- Module Sensor MajorThresh MinorThres CurTemp Status (Celsius) (Celsius) (Celsius) -------------------------------------------------------------------- 1 Crossbar(s5) 105 95 46 Ok 1 CTSdev4 (s9) 115 105 56 Ok 1 CTSdev5 (s10) 115 105 57 Ok 1 CTSdev7 (s12) 115 105 56 Ok 1 CTSdev9 (s14) 115 105 53 Ok 1 CTSdev10(s15) 115 105 53 Ok 1 CTSdev11(s16) 115 105 52 Ok 1 CTSdev12(s17) 115 105 51 Ok 1 QEng1Sn1(s18) 115 105 51 Ok 1 QEng1Sn2(s19) 115 105 50 Ok 1 QEng1Sn3(s20) 115 105 48 Ok 1 QEng1Sn4(s21) 115 105 48 Ok 1 L2Lookup(s22) 120 110 47 Ok 1 L3Lookup(s23) 120 110 54 Ok 3 Crossbar(s5) 105 95 50 Ok 3 QEng1Sn1(s12) 115 110 69 Ok 3 QEng1Sn2(s13) 115 110 67 Ok 3 QEng1Sn3(s14) 115 110 66 Ok 3 QEng1Sn4(s15) 115 110 67 Ok 3 QEng2Sn1(s16) 115 110 70 Ok 3 QEng2Sn2(s17) 115 110 67 Ok 3 QEng2Sn3(s18) 115 110 66 Ok 3 QEng2Sn4(s19) 115 110 67 Ok 3 L2Lookup(s27) 115 105 51 Ok 3 L3Lookup(s28) 120 110 64 Ok 4 Crossbar1(s1) 105 95 69 Ok 4 Crossbar2(s2) 105 95 52 Ok 4 L2dev1(s3) 105 95 37 Ok 4 L2dev2(s4) 105 95 43 Ok 4 L2dev3(s5) 105 95 45 Ok 4 L2dev4(s6) 105 95 45 Ok 4 L2dev5(s7) 105 95 40 Ok 4 L2dev6(s8) 105 95 41 Ok 4 L2dev7(s9) 105 95 42 Ok 4 L2dev8(s10) 105 95 40 Ok 4 L2dev9(s11) 105 95 38 Ok 4 L2dev10(s12) 105 95 38 Ok 4 L2dev11(s13) 105 95 38 Ok 4 L2dev12(s14) 105 95 37 Ok 4 L2dev13(s15) 105 95 34 Ok 4 L2dev14(s16) 105 95 33 Ok 4 L2dev15(s17) 105 95 33 Ok 4 L2dev16(s18) 105 95 32 Ok 5 Intake (s3) 60 42 24 Ok 5 EOBC_MAC(s4) 105 95 42 Ok 5 CPU (s5) 105 95 42 Ok 5 Crossbar(s6) 105 95 47 Ok 5 Arbiter (s7) 110 100 55 Ok 5 CTSdev1 (s8) 115 105 44 Ok 5 InbFPGA (s9) 105 95 43 Ok 5 QEng1Sn1(s10) 115 105 48 Ok 5 QEng1Sn2(s11) 115 105 46 Ok 5 QEng1Sn3(s12) 115 105 44 Ok 5 QEng1Sn4(s13) 115 105 44 Ok 6 Intake (s3) 60 42 24 Ok 6 EOBC_MAC(s4) 105 95 40 Ok 6 CPU (s5) 105 95 36 Ok 6 Crossbar(s6) 105 95 45 Ok 6 Arbiter (s7) 110 100 52 Ok 6 CTSdev1 (s8) 115 105 43 Ok 6 InbFPGA (s9) 105 95 43 Ok 6 QEng1Sn1(s10) 115 105 53 Ok 6 QEng1Sn2(s11) 115 105 51 Ok 6 QEng1Sn3(s12) 115 105 48 Ok 6 QEng1Sn4(s13) 115 105 48 Ok 10 Crossbar(s5) 105 95 46 Ok 10 QEng1Sn1(s12) 115 110 65 Ok 10 QEng1Sn2(s13) 115 110 62 Ok 10 QEng1Sn3(s14) 115 110 64 Ok 10 QEng1Sn4(s15) 115 110 65 Ok 10 QEng2Sn1(s16) 115 110 65 Ok 10 QEng2Sn2(s17) 115 110 63 Ok 10 QEng2Sn3(s18) 115 110 64 Ok 10 QEng2Sn4(s19) 115 110 65 Ok 10 L2Lookup(s27) 115 105 51 Ok 10 L3Lookup(s28) 120 110 71 Ok xbar-1 Intake (s2) 60 42 27 Ok xbar-1 Crossbar(s3) 105 95 55 Ok xbar-2 Intake (s2) 60 42 25 Ok xbar-2 Crossbar(s3) 105 95 49 Ok xbar-3 Intake (s2) 60 42 26 Ok xbar-3 Crossbar(s3) 105 95 47 Ok
흡입 센서는 공기 흐름 흡입구에 배치되며 카드 온도의 가장 중요한 지표입니다.모든 소프트웨어 동작은 흡입 센서의 주요 온도 위반에 따라 수행됩니다.
따라서 syslog 메시지, callhome 이벤트 및 SNMP(Simple Network Management Protocol) 트랩이 생성됩니다.이 우선순위 1 또는 2 메시지는 syslog - 모듈 1에서 보고한 주요 온도 경보(센서 인덱스 1 온도 76)에 인쇄됩니다.
라인 카드는 이 우선순위 0 syslog 메시지로 즉시 종료됩니다. - 주요 온도 경보로 인해 모듈 1이 꺼졌습니다.
중복 Supervisor가 즉시 종료됩니다.그러면 임계값을 위반한 특정 수퍼바이저에 따라 스위치오버 또는 스탠바이 종료가 발생합니다.이 우선순위 0 syslog 메시지가 표시됩니다. 주요 온도 경보로 인해 모듈 1이 꺼졌습니다.
때때로 온도 센서가 고장나서 액세스할 수 없게 됩니다.이 조건에 대해 명시적 소프트웨어 작업이 수행되지 않습니다.이 우선순위 4 syslog 메시지가 인쇄되었습니다. - 모듈 1 온도 센서가 실패했습니다.
스위치/수퍼바이저 수준 재설정/다시 로드 디버깅에는 일반적으로 수퍼바이저의 NVRAM(Non-Volatile Random Access Memory)에 저장된 디버그/로그 정보를 살펴봅니다.NVRAM에는 몇 가지 중요한 정보를 저장할 수 있는 3가지 종류의 디버그/로그 정보가 있습니다.
1.1 재설정 사유
재설정 사유는 각 수퍼바이저의 Supervisor NVRAM에 저장됩니다.각 수퍼바이저는 고유한 재설정 사유를 저장합니다.스위치가 다시 작동되면 이 CLI 명령을 사용하여 재설정 이유를 덤프할 수 있습니다.샘플 출력이 제공됩니다.
SITE1-AGG1# show system reset-reason ----- reset reason for Supervisor-module 5 (from Supervisor in slot 5) --- 1) No time Reason: Unknown Service: Version: 6.1(2) 2) No time Reason: Unknown Service: Version: 6.1(1) 3) At 246445 usecs after Wed Nov 7 21:26:59 2012 Reason: Reset triggered due to Switchover Request by User Service: SAP(93): Swover due to install Version: 6.1(2) 4) At 36164 usecs after Tue Nov 6 01:18:15 2012 Reason: Reset Requested by CLI command reload Service: Version: 5.2(1) ----- reset reason for Supervisor-module 5 (from Supervisor in slot 6) --- 1) At 939785 usecs after Wed Nov 7 22:28:36 2012 Reason: Reset due to upgrade Service: Version: 6.1(1) 2) At 687128 usecs after Thu Mar 29 18:06:34 2012 Reason: Reset of standby by active sup due to sysmgr timeout Service: Version: 6.0(2) 3) At 10012 usecs after Thu Mar 29 17:56:13 2012 Reason: Reset of standby by active sup due to sysmgr timeout Service: Version: 6.0(2) 4) At 210045 usecs after Thu Mar 29 17:45:51 2012 Reason: Reset of standby by active sup due to sysmgr timeout Service: Version: 6.0(2) ----- reset reason for Supervisor-module 6 (from Supervisor in slot 5) --- 1) At 50770 usecs after Wed Nov 7 21:12:19 2012 Reason: Reset due to upgrade Service: Version: 6.1(2) 2) At 434294 usecs after Mon Nov 5 22:10:16 2012 Reason: Reset due to upgrade Service: Version: 5.2(1) 3) At 518 usecs after Mon Nov 5 21:21:51 2012 Reason: Reset Requested by CLI command reload Service: Version: 5.2(7) 4) At 556934 usecs after Mon Nov 5 21:12:15 2012 Reason: Reset due to upgrade Service: Version: 5.2(1) ----- reset reason for Supervisor-module 6 (from Supervisor in slot 6) --- 1) No time Reason: Unknown Service: Version: 6.1(2) 2) At 462775 usecs after Wed Nov 7 22:38:44 2012 Reason: Reset triggered due to Switchover Request by User Service: SAP(93): Swover due to install Version: 6.1(1) 3) No time Reason: Unknown Service: Version: 6.1(2) 4) No time Reason: Unknown Service: Version: 5.2(1)
마지막 4개의 재설정 사유가 저장되고 표시됩니다.재설정 사유에는 다음이 포함됩니다.
경우에 따라 Unknown의 재설정 이유가 표시됩니다.소프트웨어 또는 소프트웨어 제어를 벗어나는 알 수 없는 재설정 사유는 알 수 없음으로 분류됩니다.일반적으로 다음과 같습니다.
1.2 NVRAM syslog
우선 순위 0, 1 및 2인 Syslog 메시지는 Supervisor의 NVRAM에도 기록됩니다.스위치가 온라인 상태가 되면 이 명령을 사용하여 NVRAM의 syslog 메시지를 표시할 수 있습니다.명령 및 샘플 출력이 표시됩니다.
SITE1-AGG1# show log nvram 2012 Nov 17 05:59:51 SITE1-AGG1 %$ VDC-1 %$ %SYSMGR-STANDBY-2-LAST_CORE_BASIC_TRACE: : PID 15681 with message 'Core detected due to hwclock crash'. 2012 Nov 17 12:07:11 SITE1-AGG1 %$ VDC-1 %$ %CMPPROXY-2-LOG_CMP_UP: Connectivity Management processor(on module 5) is now UP 2012 Nov 17 12:07:56 SITE1-AGG1 %$ VDC-1 %$ %VDC_MGR-2-VDC_ONLINE: vdc 1 has come online 2012 Nov 17 12:07:58 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-PS_OK: Power supply 1 ok (Serial number DTM131000A4) 2012 Nov 17 12:07:58 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-PS_FANOK: Fan in Power supply 1 ok 2012 Nov 17 12:07:58 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-PS_OK: Power supply 2 ok (Serial number DTM140700HS) 2012 Nov 17 12:07:58 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-PS_FANOK: Fan in Power supply 2 ok 2012 Nov 17 12:07:58 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-PS_DETECT: Power supply 3 detected but shutdown (Serial number DTM1413004P) 2012 Nov 17 12:07:59 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-XBAR_DETECT: Xbar 1 detected (Serial number JAF1308ABCS) 2012 Nov 17 12:08:01 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-XBAR_DETECT: Xbar 2 detected (Serial number JAB120600NX) 2012 Nov 17 12:08:02 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-XBAR_DETECT: Xbar 3 detected (Serial number JAF1508AJHN) 2012 Nov 17 12:08:04 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_DETECT: Module 1 detected (Serial number JAB121602HP) Module-Type 10/100/1000 Mbps Ethernet Module Model N7K-M148GT-11 2012 Nov 17 12:08:04 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_PWRUP: Module 1 powered up (Serial number JAB121602HP) 2012 Nov 17 12:08:11 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_DETECT: Module 3 detected (Serial number JAF1441BSED) Module-Type 10 Gbps Ethernet Module Model N7K-M132XP-12 2012 Nov 17 12:08:11 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_DETECT: Module 4 detected (Serial number JAF1542ABML) Module-Type 1/10 Gbps Ethernet Module Model N7K-F132XP-15 2012 Nov 17 12:08:12 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_PWRUP: Module 3 powered up (Serial number JAF1441BSED) 2012 Nov 17 12:08:12 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_PWRUP: Module 4 powered up (Serial number JAF1542ABML) 2012 Nov 17 12:08:15 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_DETECT: Module 10 detected (Serial number JAF1521BNMK) Module-Type 10 Gbps Ethernet XL Module Model N7K-M132XP-12L 2012 Nov 17 12:08:15 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_PWRUP: Module 10 powered up (Serial number JAF1521BNMK) 2012 Nov 17 12:08:30 SITE1-AGG1 %$ VDC-1 %$ %CMPPROXY-STANDBY-2-LOG_CMP_UP: Connectivity Management processor(on module 6) is now UP 2012 Nov 17 12:08:33 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-FANMOD_FAN_OK: Fan module 1 (Fan1(sys_fan1) fan) ok 2012 Nov 17 12:08:33 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-FANMOD_FAN_OK: Fan module 2 (Fan2(sys_fan2) fan) ok 2012 Nov 17 12:08:33 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-FANMOD_FAN_OK: Fan module 3 (Fan3(fab_fan1) fan) ok 2012 Nov 17 12:08:33 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-FANMOD_FAN_OK: Fan module 4 (Fan4(fab_fan2) fan) ok 2012 Nov 17 12:11:40 SITE1-AGG1 %$ VDC-1 %$ %VDC_MGR-2-VDC_ONLINE: vdc 2 has come online 2012 Nov 17 12:12:31 SITE1-AGG1 %$ VDC-1 %$ %VDC_MGR-2-VDC_ONLINE: vdc 3 has come online 2012 Nov 17 12:13:21 SITE1-AGG1 %$ VDC-1 %$ %VDC_MGR-2-VDC_ONLINE: vdc 4 has come online 2012 Nov 17 13:10:33 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_TEMPMINALRM: Xbar-1 reported minor temperature alarm. Sensor=2 Temperature=43 MinThreshold=42 2012 Nov 17 19:56:35 SITE1-AGG1 %$ VDC-1 %$ %PLATFORM-2-MOD_TEMPOK: Xbar-1 recovered from minor temperature alarm. Sensor=2 Temperature=41 MinThreshold=42
NVRAM syslog를 검사하면 스위치/Supervisor 다시 로드/재설정을 일으킨 특정 오류에 대한 자세한 정보가 제공될 수 있습니다.
1.3 모듈 예외 로그
모듈 예외 로그는 각 모듈의 모든 오류 및 예외적인 조건에 대한 요약 로그입니다.일부 예외는 비극적이며, 일부는 모듈의 특정 포트에 부분적으로 영향을 미치며, 일부는 경고를 목적으로 사용됩니다.각 로그 항목에는 예외, 예외 레벨, 오류 코드, 영향을 받는 포트, 타임스탬프를 로깅한 특정 디바이스가 있습니다.예외 로그는 수퍼바이저의 NVRAM에 저장되며 이 CLI 명령을 사용하여 표시할 수 있습니다.샘플 출력이 제공됩니다.
SITE1-AGG1# show module internal exceptionlog ********* Exception info for module 1 ******** exception information --- exception instance 1 ---- Module Slot Number: 1 Device Id : 10 Device Name : eobc Device Errorcode : 0xc0005043 Device ID : 00 (0x00) Device Instance : 05 (0x05) Dev Type (HW/SW) : 00 (0x00) ErrNum (devInfo) : 67 (0x43) System Errorcode : 0x4042004d EOBC link failure Error Type : Warning PhyPortLayer : Ethernet Port(s) Affected : none DSAP : 0 (0x0) UUID : 0 (0x0) Time : Mon Nov 5 20:39:38 2012 (Ticks: 5098948A jiffies) exception information --- exception instance 2 ---- Module Slot Number: 1 Device Id : 10 Device Name : eobc Device Errorcode : 0xc0005047 Device ID : 00 (0x00) Device Instance : 05 (0x05) Dev Type (HW/SW) : 00 (0x00) ErrNum (devInfo) : 71 (0x47) System Errorcode : 0x4042004e EOBC heartbeat failure Error Type : Warning PhyPortLayer : Ethernet Port(s) Affected : none DSAP : 0 (0x0) UUID : 0 (0x0) Time : Mon Nov 5 20:39:37 2012 (Ticks: 50989489 jiffies)
예외 로그는 오류 및 예외 조건을 해결하기 위한 중요 정보를 제공합니다.일부 디바이스 ID가 여기에 나열됩니다.
#define DEV_LINECARD_CTRL 1 #define DEV_SAHARA_FPGA 2 #define DEV_RIVIERA_ASIC 3 #define DEV_LUXOR_ASIC 4 #define DEV_FRONTIER_U_ASIC 5 #define DEV_FRONTIER_D_ASIC 6 #define DEV_ALADDIN_ASIC 7 #define DEV_SSA_ASIC 8 #define DEV_MIRAGE_ASIC 9 #define DEV_EOBC_MAC 10 #define DEV_SUPERVISOR_CTRL 11 #define DEV_BELLAGIO_ASIC 12 #define DEV_SIBYTE 13 #define DEV_FLAMINGO 14 #define DEV_FATW_CTRL 15 #define DEV_MGMT_MAC 16 #define DEV_MOD_RDN_CTRL 17 #define DEV_MOD_ENV 18 #define DEV_GG_FPGA 19 #define DEV_BALLY_MAIN_BOARD 20 #define DEV_BALLY_DAUGHTER_CARD 21 #define DEV_LOCAL_SSO_ASIC 22 #define DEV_REMOTE_SSO_ASIC 23 #define DEV_ID_UD_FIX_FPGA 24 #define DEV_ID_PM_FPGA 25 // PM - Power Mngmnt #define DEV_ID_SUP_XBUS2 26 #define DEV_MARRIOTT_FPGA 27 #define DEV_REUSE_ME 28 #define DEV_GBIC 29 #define DEV_XGFC_FPGA 30 #define DEV_GNN_FPGA 31 #define DEV_SIBYTE_MEM_EPLD 32 #define DEV_BATTERY 33 #define DEV_IDE_DISK 45 #define DEV_XCVR 46 #define DEV_LINECARD 48 #define DEV_TEMP_SENSOR 49 #define DEV_HIFN_COMP 50 #define DEV_X2 51
MDS(Multilayer Data Switch) 섀시에서 수퍼바이저 모듈은 라인 카드 모듈과 약간 다르게 나타납니다.시스템에 2명의 수퍼바이저가 있고 시스템 전원이 켜지면 수퍼바이저 중 하나가 활성 상태가 되고 다른 수퍼바이저가 대기 상태가 됩니다.액티브 수퍼바이저 시동 및 스탠바이 수퍼바이저 가져오기는 서로 다르며 여기에서 설명합니다.
시스템에 활성 수퍼바이저가 없는 경우 부팅하는 수퍼바이저는 기본적으로 활성 수퍼바이저로 설정됩니다.시스템 관리자라는 프로세스는 모든 소프트웨어 구성 요소를 수퍼바이저에서 순서대로 로드해야 합니다.수퍼바이저에서 실행되는 첫 번째 소프트웨어 구성 요소 중 하나는 플랫폼 관리자입니다.이 구성 요소는 모든 커널 드라이버 및 핸드셰이크를 시스템 관리자와 로드합니다.성공 시 시스템 관리자는 프로세스 간의 내부 의존성에 따라 나머지 프로세스를 시작합니다.
모듈 관리자의 관점에서 Supervisor는 다른 라인 카드 모듈과 비슷하며 미묘한 차이점이 있습니다.플랫폼 관리자가 모듈 관리자에게 수퍼바이저가 UP임을 나타내는 경우 모듈 관리자는 등록을 기다리지 않습니다.대신 Supervisor가 작동 중임을 모든 소프트웨어 구성 요소(Sup Insertion Sequence라고도 함)에 알립니다. 모든 구성 요소가 수퍼바이저를 구성합니다.오류가 발생한 구성 요소가 있으면 수퍼바이저가 재부팅됩니다.
시스템에 활성 수퍼바이저가 있는 경우 부팅 중인 수퍼바이저는 기본적으로 대기 수퍼바이저 상태로 설정됩니다.대기 수퍼바이저는 활성 수퍼바이저의 상태를 미러링해야 합니다.이는 액티브 수퍼바이저 상태의 gsync(글로벌 동기화)를 스탠바이 수퍼바이저로 시작하여 액티브 수퍼바이저에서 'system manager'로 수행됩니다.대기 상태의 모든 구성 요소가 활성 수퍼바이저의 구성 요소와 동기화되면 모듈 관리자에게 대기 수퍼바이저가 가동 중임을 알립니다.
이제 Module-Manager가 계속 진행하여 활성 수퍼바이저의 모든 소프트웨어 구성 요소를 알려 대기 수퍼바이저(대기 수퍼바이저 삽입 시퀀스라고도 함)를 구성합니다. 스탠바이 슈퍼바이저 삽입 시퀀스 중에 구성 요소에서 발생한 오류가 발생하면 스탠바이 수퍼바이저가 재부팅됩니다.
MDS는 런타임 중에 많은 디버그 정보를 유지 관리합니다.그러나 수퍼바이저가 재부팅할 때마다 디버그 정보의 상당 부분이 손실됩니다.그러나 모든 중요한 정보는 비휘발성 RAM에 저장되며, 이는 오류를 재구성하는 데 사용할 수 있습니다.Active Supervisor가 재부팅되면 nvram에 저장된 정보를 다시 백업할 때까지 얻을 수 없습니다.수퍼바이저가 다시 돌아오면 다음 명령을 사용하여 영구 로그를 덤프할 수 있습니다.
Switch# show logging nvram
Switch# show system reset-reason
Switch# show module internal exception-log
예 1:활성 Sup 재부팅(수퍼바이저 프로세스 충돌)
이 예에서는 Supervisor Process crash(Service "xbar")가 발생하여 Active Sup가 재부팅됩니다.수퍼바이저가 다시 작동하면 재설정 사유에 저장된 정보가 수퍼바이저를 재부팅한다는 명확한 표시를 합니다.
switch# show system reset-reason ----- reset reason for module 6 ----- 1) At 94009 usecs after Tue Sep 27 18:52:13 2005 Reason: Reset triggered due to HA policy of Reset Service: Service "xbar" Version: 2.1(2)
시스템에 대기 수퍼바이저가 있는 경우 대기 수퍼바이저가 액티브 수퍼바이저가 됩니다.스탠바이 수퍼바이저에 syslog 정보를 표시하면 동일한 정보가 제공됩니다(단, 'show system reset-reason'과 명시적으로 동일하지는 않음).
Switch# show logging 2005 Sep 27 18:58:05 172.20.150.204 %SYSMGR-3-SERVICE_CRASHED: Service "xbar" (PID 1225) hasn't caught signal 9 (no core). 2005 Sep 27 18:58:06 172.20.150.204 %SYSMGR-3-SERVICE_CRASHED: Service "xbar" (PID 2349) hasn't caught signal 9 (no core). 2005 Sep 27 18:58:06 172.20.150.204 %SYSMGR-3-SERVICE_CRASHED: Service "xbar" (PID 2352) hasn't caught signal 9 (no core).
예 2:활성 Sup 재부팅(런타임 진단 오류로 인해)
이 예에서는 슬롯 6의 수퍼바이저가 활성 상태이고 수퍼바이저의 중재자가 치명적 오류를 보고합니다.하드웨어 디바이스에서 치명적 오류를 보고하면 디바이스가 포함된 모듈이 재부팅됩니다.이 경우 활성 수퍼바이저가 재부팅됩니다.대기 수퍼바이저가 있는 경우 대기 수퍼바이저가 인계됩니다.대기 수퍼바이저 및 예외 로그의 Syslog 메시지에는 오류 소스를 식별하는 정보가 있습니다.
Switch# show logging 2005 Sep 28 14:17:47 172.20.150.204 %XBAR-5-XBAR_STATUS_REPORT: Module 6 reported status for component 12 code 0x60a02. 2005 Sep 28 14:17:59 172.20.150.204 %PORT-5-IF_UP: Interface mgmt0 on slot 5 is up 2005 Sep 28 14:18:00 172.20.150.204 %CALLHOME-2-EVENT: SUP_FAILURE switch# show module internal exceptionlog module 6 ********* Exception info for module 6 ******** exception information --- exception instance 1 ---- device id: 12 device errorcode: 0x80000020 system time: (1127917068 ticks) Wed Sep 28 14:17:48 2005 error type: FATAL error Number Ports went bad: 1,2,3,4,5,6 exception information --- exception instance 2 ---- device id: 12 device errorcode: 0x00060a02 system time: (1127917067 ticks) Wed Sep 28 14:17:47 2005 error type: Warning Number Ports went bad: 1,2,3,4,5,6
또한 리부팅된 sup가 다시 온라인 상태가 되면 'show system reset-reason'에도 관련 정보가 포함됩니다.이 경우 모듈 6(활성 sup)이 오류 코드 0x80000020으로 SAP 48에 의해 리부팅되었습니다. 이 sap를 소유하는 프로세스는 'show system internal mts sap 48 description' 명령을 통해 얻을 수 있으며, 이 명령은 프로세스가 xbar-manager임을 나타냅니다.
switch(standby)# show system reset-reason ----- reset reason for module 6 ----- 1) At 552751 usecs after Wed Sep 28 14:17:48 2005 Reason: Reset Requested due to Fatal Module Error Service: lcfail:80000020 sap:48 node:060 Version: 2.1(2)
예 3:대기 수퍼바이저가 온라인 상태로 전환하지 못했습니다.
이 예에서는 활성 sup가 작동 및 실행되며 대기 sup가 시스템에 연결됩니다.그러나 show module은 모듈이 실행된 적이 없음을 나타내지 않습니다.
switch# show module Mod Ports Module-Type Model Status --- ----- -------------------------------- ------------------ ------------ 5 0 Supervisor/Fabric-1 DS-X9530-SF1-K9 active * 8 8 IP Storage Services Module powered-dn Mod Sw Hw World-Wide-Name(s) (WWN) --- ----------- ------ -------------------------------------------------- 5 2.1(2) 1.1 -- Mod MAC-Address(es) Serial-Num --- -------------------------------------- ---------- 5 00-0b-be-f7-4d-1c to 00-0b-be-f7-4d-20 JAB070307XG
그러나 대기 수퍼바이저의 콘솔에 로그인하면 스탠바이 상태가 됩니다.
runlog>telnet sw4-ts 2004 Trying 172.22.22.55... Connected to sw4-ts.cisco.com (172.22.22.55). Escape character is '^]'. MDS Switch login: admin Password: Cisco Storage Area Networking Operating System (SAN-OS) Software TAC support: http://www.cisco.com/tac Copyright (c) 2002-2005, Cisco Systems, Inc. All rights reserved. The copyrights to certain works contained herein are owned by other third parties and are used and distributed under license. Some parts of this software are covered under the GNU Public License. A copy of the license is available at http://www.gnu.org/licenses/gpl.html. switch(standby)#
앞에서 설명한 대로 대기 수퍼바이저가 시스템에 삽입되면 활성 수퍼바이저의 모든 구성 요소의 구성 및 상태가 대기(gsync)로 복사됩니다. 이 프로세스가 완료될 때까지 활성 수퍼바이저는 대기 수퍼바이저가 있는 것으로 간주하지 않습니다.이 프로세스가 완료되었는지 확인하려면 활성 수퍼바이저에서 다음 명령을 실행할 수 있습니다.명령의 출력은 동기화가 진행 중이며 완료되지 않았을 수 있음을 나타냅니다.
switch# show system redundancy status Redundancy mode --------------- administrative: HA operational: None This supervisor (sup-1) ----------------------- Redundancy state: Active Supervisor state: Active Internal state: Active with HA standby Other supervisor (sup-2) ------------------------ Redundancy state: Standby Supervisor state: HA standby Internal state: HA synchronization in progress
대기 상태의 소프트웨어 구성 요소 중 하나가 활성 수퍼바이저와 상태를 동기화하지 못한 경우 이러한 문제가 발생할 수 있는 가장 일반적인 원인은 입니다.동기화되지 않은 프로세스를 확인하려면 활성 수퍼바이저에서 이 명령을 실행할 수 있으며, 많은 소프트웨어 구성 요소가 gsync를 완료하지 않았음을 출력합니다.
switch# show system internal sysmgr gsyncstats Name Gsync done Gsync time(sec) ---------------- ---------- ------------- aaa 1 0 ExceptionLog 1 0 platform 1 1 radius 1 0 securityd 1 0 SystemHealth 1 0 tacacs 0 N/A acl 1 0 ascii-cfg 1 1 bios_daemon 0 N/A bootvar 1 0 callhome 1 0 capability 1 0 cdp 1 0 cfs 1 0 cimserver 1 0 cimxmlserver 0 N/A confcheck 1 0 core-dmon 1 0 core-client 0 N/A device-alias 1 0 dpvm 0 N/A dstats 1 0 epld_upgrade 0 N/A epp 1 1
또한 대기 수퍼바이저를 보면 xbar 소프트웨어 구성 요소가 23번 재시작된 것을 알 수 있습니다.이는 대기가 나타나지 않은 가장 가능성 있는 원인 같습니다.
switch(standby)# show system internal sysmgr service all Name UUID PID SAP state Start count ---------------- ---------- ------ ----- ----- ----------- aaa 0x000000B5 1458 111 s0009 1 ExceptionLog 0x00000050 [NA] [NA] s0002 None platform 0x00000018 1064 39 s0009 1 radius 0x000000B7 1457 113 s0009 1 securityd 0x0000002A 1456 55 s0009 1 vsan 0x00000029 1436 15 s0009 1 vshd 0x00000028 1408 37 s0009 1 wwn 0x00000030 1435 114 s0009 1 xbar 0x00000017 [NA] [NA] s0017 23 xbar_client 0x00000049 1434 917 s0009 1
예 3:대기 수퍼바이저가 전원이 켜진 상태입니다.
이 예에서 스탠바이 sup는 슬롯 6에 삽입됩니다. active-sup에서 실행된 show module 명령은 스탠바이 Sup가 전원이 켜진 상태임을 보여줍니다.
switch# show module Mod Ports Module-Type Model Status --- ----- -------------------------------- ------------------ ------------ 5 0 Supervisor/Fabric-1 DS-X9530-SF1-K9 active * 6 0 Supervisor/Fabric-1 powered-up 8 8 IP Storage Services Module powered-dn Mod Sw Hw World-Wide-Name(s) (WWN) --- ----------- ------ -------------------------------------------------- 5 2.1(2) 1.1 -- Mod MAC-Address(es) Serial-Num --- -------------------------------------- ---------- 5 00-0b-be-f7-4d-1c to 00-0b-be-f7-4d-20 JAB070307XG
이 예에서 show logging은 중요한 정보를 제공하지 않으며 모듈 내부 예외 로그를 표시하지 않습니다.그러나 지정된 모듈에 대한 모든 상태 전환이 모듈 관리자에 저장되므로 모듈 관리자의 상태 변환을 확인하여 무엇이 잘못되었는지 파악할 수 있습니다.내부 상태 전환은 다음과 같습니다.
Switch# show module internal event-history module 5 64) FSM:<ID(1): Slot 6, node 0x0601> Transition at 563504 usecs after Wed Sep 28 14:44:53 2005 Previous state: [LCM_ST_LC_NOT_PRESENT] Triggered event: [LCM_EV_PFM_MODULE_SUP_INSERTED] Next state: [LCM_ST_SUPERVISOR_INSERTED] 65) FSM:<ID(1): Slot 6, node 0x0601> Transition at 563944 usecs after Wed Sep 28 14:44:53 2005 Previous state: [LCM_ST_SUPERVISOR_INSERTED] Triggered event: [LCM_EV_START_SUP_INSERTED_SEQUENCE] Next state: [LCM_ST_CHECK_INSERT_SEQUENCE] 66) Event:ESQ_START length:32, at 564045 usecs after Wed Sep 28 14:44:53 2005 Instance:1, Seq Id:0x2710, Ret:success Seq Type:SERIAL 67) Event:ESQ_REQ length:32, at 564422 usecs after Wed Sep 28 14:44:53 2005 Instance:1, Seq Id:0x1, Ret:success [E_MTS_TX] Dst:MTS_SAP_MIGUTILS_DAEMON(949), Opc:MTS_OPC_LC_INSERTED(1081) 68) Event:ESQ_RSP length:32, at 566174 usecs after Wed Sep 28 14:44:53 2005 Instance:1, Seq Id:0x1, Ret:success [E_MTS_RX] Src:MTS_SAP_MIGUTILS_DAEMON(949), Opc:MTS_OPC_LC_INSERTED(1081) 69) Event:ESQ_REQ length:32, at 566346 usecs after Wed Sep 28 14:44:53 2005 Instance:1, Seq Id:0x2, Ret:success [E_MTS_TX] Dst:MTS_SAP_NTP(72), Opc:MTS_OPC_LC_INSERTED(1081) 70) Event:ESQ_RSP length:32, at 566635 usecs after Wed Sep 28 14:44:53 2005 Instance:1, Seq Id:0x2, Ret:success [E_MTS_RX] Src:MTS_SAP_NTP(72), Opc:MTS_OPC_LC_INSERTED(1081) 71) Event:ESQ_REQ length:32, at 566772 usecs after Wed Sep 28 14:44:53 2005 Instance:1, Seq Id:0x3, Ret:success [E_MTS_TX] Dst:MTS_SAP_XBAR_MANAGER(48), Opc:MTS_OPC_LC_INSERTED(1081) 73) Event:ESQ_RSP length:32, at 586418 usecs after Wed Sep 28 14:44:53 2005 Instance:1, Seq Id:0x3, Ret:(null) [E_MTS_RX] Src:MTS_SAP_XBAR_MANAGER(48), Opc:MTS_OPC_LC_INSERTED(1081) 74) FSM:<ID(1): Slot 6, node 0x0601> Transition at 586436 usecs after Wed Sep 28 14:44:53 2005 Previous state: [LCM_ST_CHECK_INSERT_SEQUENCE] Triggered event: [LCM_EV_LC_INSERTED_SEQ_FAILED] Next state: [LCM_ST_CHECK_REMOVAL_SEQUENCE] 75) Event:ESQ_START length:32, at 586611 usecs after Wed Sep 28 14:44:53 2005 Instance:1, Seq Id:0x2710, Ret:success Seq Type:SERIAL 76) Event:ESQ_REQ length:32, at 593649 usecs after Wed Sep 28 14:44:53 2005 Instance:1, Seq Id:0x1, Ret:success [E_MTS_TX] Dst:MTS_SAP_MIGUTILS_DAEMON(949), Opc:MTS_OPC_LC_REMOVED(1082) 77) Event:ESQ_RSP length:32, at 594854 usecs after Wed Sep 28 14:44:53 2005 Instance:1, Seq Id:0x1, Ret:success [E_MTS_RX] Src:MTS_SAP_MIGUTILS_DAEMON(949), Opc:MTS_OPC_LC_REMOVED(1082) 90) FSM:<ID(1): Slot 6, node 0x0601> Transition at 604447 usecs after Wed Sep 28 14:44:53 2005 Previous state: [LCM_ST_CHECK_REMOVAL_SEQUENCE] Triggered event: [LCM_EV_ALL_LC_REMOVED_RESP_RECEIVED] Next state: [LCM_ST_LC_FAILURE] 91) FSM:<ID(1): Slot 6, node 0x0601> Transition at 604501 usecs after Wed Sep 28 14:44:53 2005 Previous state: [LCM_ST_LC_FAILURE] Triggered event: [LCM_EV_LC_INSERTED_SEQ_FAILED] Next state: [LCM_ST_LC_FAILURE] 92) FSM:<ID(1): Slot 6, node 0x0601> Transition at 604518 usecs after Wed Sep 28 14:44:53 2005 Previous state: [LCM_ST_LC_FAILURE] Triggered event: [LCM_EV_SUPERVISOR_FAILURE] Next state: [LCM_ST_LC_NOT_PRESENT] Curr state: [LCM_ST_LC_NOT_PRESENT] switch#
Index 92 위의 로그를 보면 수퍼바이저가 실패 상태이고 트리거된 이벤트가 LCM_EV_LC_INSERTED_SEQ_FAILED임을 알 수 있습니다(삽입 시퀀스 실패). 로그로 이동하여 삽입 시퀀스가 실패한 이유를 알아보려면 MTS_SAP_XBAR_MANAGER(Index 73 및 Index 74)의 응답 직후 삽입 시퀀스가 실패했음을 확인하십시오. 이는 대기 수퍼바이저가 삽입될 때 xbar 컨피그레이션에 문제가 있음을 나타냅니다.실패한 구성 요소의 내부 로그(이 경우 xbar 구성 요소)를 확인하여 추가 디버깅을 수행할 수 있습니다.