본 제품에 대한 문서 세트는 편견 없는 언어를 사용하기 위해 노력합니다. 본 설명서 세트의 목적상, 편견 없는 언어는 나이, 장애, 성별, 인종 정체성, 민족 정체성, 성적 지향성, 사회 경제적 지위 및 교차성에 기초한 차별을 의미하지 않는 언어로 정의됩니다. 제품 소프트웨어의 사용자 인터페이스에서 하드코딩된 언어, RFP 설명서에 기초한 언어 또는 참조된 서드파티 제품에서 사용하는 언어로 인해 설명서에 예외가 있을 수 있습니다. 시스코에서 어떤 방식으로 포용적인 언어를 사용하고 있는지 자세히 알아보세요.
Cisco는 전 세계 사용자에게 다양한 언어로 지원 콘텐츠를 제공하기 위해 기계 번역 기술과 수작업 번역을 병행하여 이 문서를 번역했습니다. 아무리 품질이 높은 기계 번역이라도 전문 번역가의 번역 결과물만큼 정확하지는 않습니다. Cisco Systems, Inc.는 이 같은 번역에 대해 어떠한 책임도 지지 않으며 항상 원본 영문 문서(링크 제공됨)를 참조할 것을 권장합니다.
이 문서에서는 Cisco NX-OS 시스템 소프트웨어를 실행하는 Cisco Nexus 7000 Series 스위치의 일반적인 하드웨어 및 아키텍처 문제에 대한 간략한 설명과 솔루션을 제공합니다.
참고:이 문서에서 설명하는 syslog 및 오류 메시지의 정확한 형식은 약간 다를 수 있습니다.변형은 Supervisor Engine에서 실행되는 소프트웨어 릴리스에 따라 달라집니다.
Nexus 7000 Supervisor에 대한 스파인 제어 테스트가 실패합니다.
Nexus7000# show module internal exceptionlog module 5
...
System Errorcode : 0x418b0022 Spine control test failed
Error Type : Warning
PhyPortLayer : 0x0
Port(s) Affected : none
Error Description : Module 10 Spine Control Bus test Failed
...
11) SpineControlBus E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 1597800
Last test execution time ----> Mon May 27 21:57:17 2013
First test failure time -----> Sun Nov 20 00:30:55 2011
Last test failure time ------> Mon May 27 21:57:17 2013
Last test pass time ---------> Mon May 27 21:56:47 2013
Total failure count ---------> 33
Consecutive failure count ---> 1
Last failure reason ---------> Spine control test failed
이 문제는 Cisco 버그 ID CSCuc72466과 관련이 있습니다. Nexus 7000 FAQ를 참조하십시오.SpineControlBus 테스트가 실패할 경우 수행할 권장 작업은 무엇입니까?
NVRAM 오류는 진단 이벤트에 나타납니다.
Nexus7000#show diagnostic events
1) Event:E_DEBUG, length:97, at 9664 usecs after Wed Dec 5 01:03:42 2012
[103] Event_ERROR: TestName->NVRAM TestingType->health monitoring module->5
Result->fail Reason->
#show diagnostic result module 5 test NVRAM detail
4) NVRAM-------------------------> E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 52596
Last test execution time ----> Wed Dec 5 01:03:41 2012
First test failure time -----> Tue Dec 4 23:28:45 2012
Last test failure time ------> Wed Dec 5 01:03:42 2012
Last test pass time ---------> Tue Dec 4 23:23:41 2012
Total failure count ---------> 20
Consecutive failure count ---> 20
Last failure reason ---------> Bad blocks found on nvram
하드웨어 문제, Supervisor Engine 장애 또는 일시적인 문제입니다.
test 명령의 결과를 보려면 show diagnostic result module 5 test NVRAM detail 명령을 입력합니다.
Supervisor 2/Supervisor 2E에서는 다음 중 하나 또는 모두가 표시됩니다.
DEVICE_TEST-2-COMPACT_FLASH_FAIL: Module 5 has failed test CompactFlash
20 times on device Compact Flash due to error The compact flash power test failed.
Test results: (. = Pass, F = Fail, I = Incomplete,
U = Untested, A = Abort, E = Error disabled)
7) CompactFlash E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 23302
Last test execution time ----> Sun Apr 13 10:07:30 2014
First test failure time -----> Sun Apr 13 00:37:41 2014
Last test failure time ------> Sun Apr 13 10:07:40 2014
Last test pass time ---------> Sun Apr 13 00:07:41 2014
Total failure count ---------> 20
Consecutive failure count ---> 20
Last failure reason ---------> The compact flash power test
failed
Next Execution time ---------> Sun Apr 13 10:37:30 2014
근본 원인
2세대 Nexus 7000 수퍼바이저는 이중화를 위해 동일한 eUSB 플래시 2개와 함께 제공됩니다.플래시는 부트플래시, 컨피그레이션 및 기타 관련 정보에 대한 저장소를 제공합니다.이 두 플래시는 내부 미러링을 구현하는 RAID(Redundant Array of Independent Disks) 1 어레이로 재구성됩니다.이중화를 통해 수퍼바이저는 깜박임 중 하나가 손실된 상태에서 작동할 수 있지만 둘 다 사용할 수는 없습니다.
이 필드에는 몇 가지 인스턴스가 있는데, 이 두 섬광 중 하나 또는 둘 다 몇 개월 또는 몇 년에 걸쳐 RAID 소프트웨어에서 손상된 것으로 표시됩니다.보드의 재설정/리부팅은 다음 부팅 시 이러한 실패한 깜박임이 정상임을 재검색합니다.
하드웨어 문제인지 여부를 확인하려면 다음 단계를 수행하십시오.
라인 카드는 포트 PortLoopback 테스트 실패로 인해 진단 실패를 연속적으로 10회 보고합니다.
DIAG_PORT_LB-2-PORTLOOPBACK_TEST_FAIL Module:16 Test:PortLoopback
failed 10 consecutive times. Faulty module:Module 16 affected ports:5,7
Error:Loopback test failed. Packets lost on the LC at the Queueing engine ASIC
MODULE-4-MOD_WARNING Module 16 (serial: XXXX) reported warning on
ports 16/5-16/5 (Ethernet) due to Loopback test failed.
Packets lost on the LC at the Queueing engine ASIC in device 78
(device error 0x41830059)
근본 원인
이는 경고 메시지이며 대부분의 경우 포트에 하드웨어 문제가 있음을 나타냅니다.
소프트웨어 문제가 될 수 있으므로 Cisco 버그 ID CSCtn81109 및 Cisco 버그 ID CSCti95293을 먼저 확인합니다.
카드를 다시 초기화하고 부트업 하드웨어 온전성 테스트를 다시 실행하려면 먼저 모듈을 재장착합니다.진단 유틸리티에서 동일한 카드에 장애가 계속 표시되면 카드를 교체합니다.
편리한 시간에 카드를 다시 로드하고 다음 명령의 출력을 수집합니다.
또는 이 특정 테스트만 다시 실행할 수 있으며 카드를 다시 로드할 필요가 없습니다.다음 예에서는 모듈 16을 보여 줍니다.
show diagnostic result module 16
diagnostic clear result module all
(config)# no diagnostic monitor module 16 test 5
(config)# diagnostic monitor module 16 test 5
diagnostic start module 16 test 5
show diagnostic result module 16 test 5
이러한 오류가 나타나고 모듈이 다시 로드될 수 있습니다.
2013 Mar 27 00:40:23 DC3-7000-PRODD2-A23 MODULE-4-MOD_WARNING
Module 9 (serial: XXX) reported warning on ports 9/1-9/3 (Unknown)
due to BE2 Arbiter experienced an error in device 65 (device error 0xc410f613)
근본 원인
이 오류는 부속 카드의 패리티 오류 또는 하드웨어 문제로 인해 발생한 하드웨어 장애입니다.
알려진 추가 소프트웨어 결함
Cisco 버그 ID CSCtb98876
이 오류는 모듈에 나타납니다.
%MODULE-4-MOD_WARNING: Module # (Serial number: XXXX) reported warning
Ethernet#/# due to chico serdes sync loss in device DEV_SKYTRAIN
(device error 0xc9003600)
근본 원인
이러한 오류는 모듈 번호와 Xbar/ASIC 간에 동기화 손실 문제가 있음을 나타냅니다.대부분의 경우 모듈의 하드웨어 장애가 원인입니다.
Cisco NS-OX 버전이 6.1(4)보다 이전 버전이고 메시지가 계속 나타나지 않으면 Cisco 버그 ID CSCud91672의 영향을 받을 수 있습니다. 결함의 원인은 NX-OS 서비스 설정이 SKT <—>SAC 간의 두 채널에 대한 진단 설정과 다르다는 것입니다.
다음 명령의 출력을 수집합니다.
NS-OX 버전 6.1(4) 이상으로 스위치를 업그레이드하여 결함의 원인을 파악합니다.
이 테스트를 수행하여 xbar 또는 섀시 슬롯 대신 카드에 결함이 있는지 확인합니다.
N7K-F248XP-25 모듈은 PrimaryBootROM 및 SecondaryBootROM 테스트 모두에서 실패합니다.
show module internal exceptionlog module 1 | i Error|xception
********* Exception info for module 1 ********
exception information --- exception instance 1 ----
Error Description : Secondary BootROM test failed
exception information --- exception instance 2 ----
Error Description : Primary BootROM test failed
근본 원인
이는 일반적으로 BIOS 파일 손상 또는 라인 카드 하드웨어 오류로 인해 나타납니다.
Cisco 버그 ID CSCuf82089는 더 나은 진단을 위해 이러한 오류에 대한 자세한 내용을 표시하는 코드를 추가합니다.예를 들어, 현재 null 값 대신 실패한 구성 요소가 표시됩니다.
모듈의 BIOS 손상으로 인해 문제가 발생하는 경우도 있습니다.이 문제를 해결하려면 install module X bios forced 명령을 입력합니다.이 명령은 서비스에 영향을 미칠 수 있습니다.권장 사항은 유지 보수 기간 동안에만 실행하는 것입니다.
문제를 해결하려면 다음 단계를 완료하십시오.
Nexus7000# install module 1 bios forced
Warning: Installing Bios forcefully...!
Warning: Please do not remove or power off the module at this time
Upgrading primary bios
Started bios programming .... please wait
[# 0% ]
BIOS install failed for module 1, Error=0x40710027(BIOS flash-type verify failed)
BIOS is OK ...
Please try the command again...
이 오류는 플랫폼에 표시됩니다.
%PLATFORM-4-MOD_TEMPFAIL: Module-2 temperature sensor 7 failed
근본 원인
이는 내부 ASIC 타이밍으로 인해 특정 조건에서 ASIC의 온도/전압 블록에서 간헐적인 문제입니다.Cisco 버그 ID CSCtw79052는 이 문제의 알려진 원인을 설명합니다.
내부 온도를 래치하는 ASIC와 유효한 비트를 샘플링하는 소프트웨어 간의 타이밍 문제입니다.문제는 그것이 12개의 클리퍼 인스턴스 중 하나에 타격을 줄 수 있다는 것입니다.이 문제에 대한 특정 트리거가 없으며 간헐적입니다.이 문제는 서비스에 영향을 주지 않으며 온도 읽기 논리가 드라이버에서 다시 시도해야 하는 문제를 가지고 있기 때문에 발생합니다.
다음 명령에서 출력을 수집하고 Cisco 버그 ID CSCtw79052를 확인합니다.
C7010-FAB-1은 전원 끄기 상태이며 다음과 같은 오류가 나타납니다.
%PLATFORM-3-EJECTOR_STAT_CHANGED: Ejectors' status in slot 13 has changed,
Left Ejector is OPEN, Right Ejector is CLOSE
%PLATFORM-3-EJECTOR_STAT_CHANGED: Ejectors' status in slot 13 has changed,
Left Ejector is OPEN, Right Ejector is OPEN
%PLATFORM-2-XBAR_REMOVE: Xbar 3 removed (Serial number XXX)
Xbar Ports Module-Type Model Status
--- ----- ----------------------------------- ------------------ ----------
3 0 Fabric Module N/A powered-dn
?
Xbar Power-Status Reason
--- ------------ ---------------------------
3 powered-dn failure(powered-down) since maximum number of bringups were exceeded
또는 xbar ASIC 오류가 나타납니다.
%MODULE-4-MOD_WARNING: Module 15 (serial: XXX) reported warning due to
X-bar Interface ASIC Error in device 70 (device error 0xc4600248)
%OC_USD-SLOT15-2-RF_CRC: OC2 received packets with CRC error from MOD 15
through XBAR slot 3/inst 2
근본 원인
이 문제는 결함이 있거나 잘못 장착된 xbar 모듈 또는 잘못된 섀시 슬롯 때문입니다.
이러한 팬 장애 증상이 하나 이상 관찰되었습니다.
%PLATFORM-5-FAN_STATUS: Fan module 3 (Serial number XXX)
Fan3(fab_fan1) current-status is FAN_FAIL
Nexus 7000#show environment fan
Fan3(fab_fan1) N7K-C7010-FAN-F 1.1 Failure (Failed Fanlets: 2 6 7 8 9 10 14 15 )
Fan4(fab_fan2) N7K-C7010-FAN-F 1.1 Ok
...
#show hardware
----------------------------------
Chassis has 4 Fan slots
----------------------------------
Fan3(fab_fan1) failed
Model number is N7K-C7010-FAN-F
...
근본 원인
대부분의 경우 팬 또는 섀시 슬롯에 장애가 발생합니다.
용량 변경에 대한 경보가 종종 나타납니다.
%PLATFORM-2-PS_CAPACITY_CHANGE: Power supply PS2 changed its capacity.
possibly due to On/Off or power cable removal/
2013 Oct 17 17:06:40 ... last message repeated 14 times
근본 원인
이 문제는 전원 케이블이 고장났거나 연결이 끊겼거나 전원 공급 장치 장애로 인해 발생합니다.
show env power detail 명령의 출력을 확인하고 전원 공급 장치 상태를 조사합니다.이 예제 출력에서 두 코드가 모두 연결되어 있지만 두 번째 화면에는 3000W가 아닌 1200W 용량만 표시되며 N7K-AC-6.0KW의 220V AC에 필요합니다.전원 공급 장치가 정상입니다.전원 공급 장치를 교체합니다.
PS_2 total capacity: 4200 W Voltage:50Vchord 1 capacity: 3000 W chord 1
connected to 110v AC chord 2 capacity: 1200 W chord 2 connected to 220v AC
이 경고는 플랫폼에 나타납니다.
%PLATFORM-5-PS_STATUS: PowerSupply 3 current-status is PS_FAIL
%PLATFORM-2-PS_FAIL: Power supply 3 failed or shut down (Serial number xxxxx)
근본 원인
이 경고는 전원 케이블 오류 또는 연결 끊김 또는 전원 공급 장치 장애 때문입니다.
참조
Cisco Nexus 7000 Series 전원 공급 장치 이중화
다음 경보는 FEX 전원 공급 장치에 대해 나타납니다.
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 Module 1: Runtime diag detected major event:
Voltage failure on power supply: 1
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 System minor alarm on power
supply 1: failed
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 Recovered: System minor alarm
on power supply 1: failed
하드웨어 및 전원 문제를 확인합니다.소프트웨어 문제가 있는 경우 하드웨어를 바꾼 후에도 오류 메시지가 계속 표시됩니다.
이러한 문제를 해결하는 방법은 다음과 같습니다.
장애 상황을 정의하는 데 도움이 되도록 다음 질문을 검토하고 대답합니다.
실패를 조사하기 위해 다음 명령에서 출력을 수집합니다.
알려진 소프트웨어 결함
Cisco 버그 ID CSCtr77620
Emerson 전원 공급 장치 N7K-AC-6.0KW는 Fail/Shut으로 보고되지만 스위치가 잘 실행되고 문제가 있는 전원 공급 장치에 대해 실제 출력이 0이 아닌 것으로 표시됩니다.
근본 원인
두 입력이 모두 활성화된 공급 장치에서 입력이 1.5초 내에 연결 해제되고 다시 연결되고 연결이 끊기면 공급 장치가 저전압 결함을 래치할 수 있으며 NX-OS는 전원 공급 장치에 장애가 발생한 것으로 플래그를 지정할 수 있습니다.또 다른 변수에서 입력 2개가 있는 공급에서 입력 하나를 제거하고 20~30초 동안 기다립니다.공급 장치가 간헐적으로 내부 결함 경보를 설정하고 NX-OS에서 전원 공급 장치를 장애 상태로 보고합니다.
Cisco 버그 ID CSCty78612는 문제를 해결하기 위해 전원 공급 장치의 펌웨어를 변경합니다.
Cisco 버그 ID CSCuc86262는 이러한 잘못된 오류로부터 복구하기 위해 향상된 소프트웨어를 추가합니다.이제 NX-OS는 PSU(전원 공급 장치) 상태를 자동으로 모니터링하고 보고된 상태가 실제 상태와 다를 경우 해당 상태로 수정합니다.
show env power detail 명령을 입력하고 실제 출력을 확인하여 잘못된 오류를 확인합니다.
Nexus7000# show env power
Power Supply:
Voltage: 50 Volts
Power Actual Total
Supply Model Output Capacity Status
(Watts ) (Watts )
------- ------------------- ----------- ----------- --------------
1 N7K-AC-6.0KW 0 W 0 W Shutdown
2 N7K-AC-6.0KW 3888 W 6000 W Fail/Shut
PSU의 전원을 끄거나 켜면 잘못된 Fail/Shut 상태가 지워집니다.
Cisco 버그 ID CSCty78612는 PSU의 펌웨어를 변경합니다.런타임의 전원 공급 장치가 정상적으로 작동하는 경우 false 비트를 수정하여 false fail/shut 알림에서 복구하는 Cisco 버그 ID CSCuc86262를 통해 소프트웨어가 향상되었습니다.NX-OS 버전 5.2(9), 6.1(3), 6.2(2) 이상에는 RMA를 방지하는 향상된 기능이 있습니다.
패킷의 이그레스 인터페이스에서 구성된 MTU보다 길이가 긴 IP 패킷의 비율이 높으면 대규모 패킷의 일부가 삭제됩니다.
근본 원인
이는 예상 동작입니다.시스템이 패킷의 이그레스 인터페이스에서 구성된 MTU보다 긴 길이의 IP 패킷을 수신하면 시스템은 이 패킷을 제어 평면으로 전송하며, 이는 프래그먼트화를 처리합니다.NX-OS 4.1.3 이상에서는 속도 제한이 이러한 펀딩 패킷에 적용됩니다.기본적으로 최대 500pps로 제한됩니다.
이는 Cisco 버그 ID CSCsu01048의 알려진 소프트웨어 결함입니다.
"DCOS_rand - netstack"에서 "USER-2-SYSTEM_MSG FIPS 자체 테스트 실패"가 표시됩니다.
근본 원인
임의의 숫자가 생성될 때마다 CRNG(Conditional Random Number Generator) 자체 테스트가 실행됩니다.테스트가 실패하면 syslog 메시지가 기록됩니다.이는 FIPS(Federal Information Processing Standard) 권장 사항에 따라 수행됩니다.그러나 랜덤 번호가 다시 생성되므로 이 경우 아무런 문제가 없습니다.
NX-OS에는 두 가지 유형의 RNG(Random Number Generator)가 있습니다.
FIPS에 따라 모든 RNG는 CRNGT(Conditional Random Number Generator Test)를 구현해야 합니다. 테스트는 현재 생성된 난수를 이전 난수와 비교합니다.숫자가 동일하면 syslog 메시지가 생성되고 하나 이상의 난수가 생성됩니다.
무작위 번호의 고유성을 확인하기 위해 테스트가 실행됩니다.번호가 재생성되므로 기능적 영향이 없습니다.
이 메시지는 시스템 작동에는 무해합니다.Cisco NX-OS 버전 5.2x 이상에서는 메시지의 심각도가 2에서 낮아지므로 기본 로깅 컨피그레이션에서 더 이상 표시되지 않습니다.이 로깅은 스위치의 다양한 기능에 대한 내부 NX-OS 자체 테스트의 일부로 발생합니다.
이는 Cisco 버그 ID CSCtn70083의 알려진 소프트웨어 결함입니다.