NCS4016의 일부 LC(Line Card) 문제 해결
소개
이 문서에서는 라인 카드 문제, 라인 카드가 정지되는 결함 상태, 가능한 원인 및 Cisco 4000 Series Network Convergence System(NCS4016)에서 복구 작업을 해결하는 방법에 대해 설명합니다.
배경 정보
NCS4016은 16개의 LC(0-15슬롯) 섀시와 각 LC 용량은 200G입니다.NCS4016 섀시에서 LC를 부팅하는 동안 기본적인 이벤트 시퀀스는 다음과 같습니다.
- LC는 9개의 파워존(예: 0~8)으로 나누어졌습니다. 이러한 모든 파워존은 CCC(Card Controller Chip)에 의해 제어됩니다.
- 첫 번째 Zone 은 CPU Complex 를 불러오고 LC에 대한 기본 논리를 부팅하는 Zone 0 입니다.
- 영역 0의 전원이 켜지면CCC는 CPU가 RESET 상태가 되기 전에 Power-On Interpreter를 실행하고 기본 디바이스를 구성합니다.CPU의 전원이 꺼진 경우 RESET 상태로 유지됩니다.
- 위의 기능은 LC 부팅 중에 수행되는 기본 기능입니다.Zone 1-8 에만 해당하는 Zone 1-8 Only Slice에 전원이 켜지지 않는 문제가 발생한 경우그러나 영역 0에 문제가 있으면 전체 LC의 전원이 꺼집니다.
시작하기 전에:
트러블슈팅을 시작하기 전에 아래 명령을 기록해 두는 것이 좋습니다.
- 부팅에 실패한 카드는 XR VM에 표시되지 않으므로 sysadmin(Calvados) VM에 연결(또는 로그인)합니다. 실패 상태와 이유는 sysadmin VM에서만 볼 수 있습니다.
- CPU가 있는 카드만 소프트웨어 상태가 작동될 것으로 예상됩니다.Else 상태는 N/A(해당 없음)이지만 해당 하드웨어는 "작동"이어야 합니다.
모든 LC 및 RP가 작동하므로 아래와 같이 출력을 볼 수 있습니다.
sysadmin-vm:0_RP0# show platform
8월 18일 화 19:57:02.631 UTC
위치 카드 유형 HW 상태 SW 상태 구성 상태
—
0/0 NCS4K-2H-O-K 운영 해당 사항 없음 NSHUT
0/5 NCS4K-24LR-O-S OPERATIONAL N/A NSHUT
0/6 NCS4K-20T-O-S 운영 해당 사항 없음 NSHUT
0/8 NCS4K-2H-O-K OPERATIONAL N/A NSHUT
0/RP0 NCS4K-RP 운영 NSHUT
0/FC1 NCS4016-FC-M 운영 해당 사항 없음 NSHUT
0/CI0 NCS4K-CRAFT 작동 해당 사항 없음 NSHUT
0/FT0 NCS4K-FTA 운영 해당 사항 없음 NSHUT
0/FT1 NCS4K-FTA 운영 해당 사항 없음 NSHUT
0/PT0 NCS4K-AC-PEM 운영 해당 사항 없음 NSHUT
0/PT1 NCS4K-AC-PEM 운영 해당 사항 없음 NSHUT
0/EC0 NCS4K-ECU 운영 해당 사항 없음 NSHUT
sysadmin-vm:0_RP0#
다음은 LC가 중단될 수 있는 일반적인 결함 HW 및 SW 상태 및 그 이유입니다.
주-1:HW_FAILED
이 상태에서는 일부 전원 문제로 인해 카드가 부팅되지 않았거나 CCC Power-On Interpreter가 전원 켜기 시퀀스를 완료하지 못했다고 가정합니다.
권장 작업:
아래 명령의 출력을 확인합니다.
# sysadmin-vm:0_RP1# show platform detail location <카드 위치>
위의 명령에서 "Last Event(마지막 이벤트)" 및 "Last Event Reason:(마지막 이벤트 사유:)"을 검색하면 실패 이유가 표시됩니다.
sysadmin-vm:0_RP1# 플랫폼 세부 위치 0/fc1 표시
7월 4일 오후 13:52:14.782 UTC
0/FC1의 플랫폼 정보
PID: NCS4016-FC-M
설명: "NCS 4016 Agnostic Cross Connect - 멀티섀시"
VID/SN: V01
하드웨어 작동 상태: 운영
SW 작업 상태: 해당 없음
구성: "NSHUT RST"
HW 버전: 1.0
마지막 이벤트: HW_EVENT_FAILURE
마지막 이벤트 사유:"초기 검색 FAIL EXIT0, 전원 요청이 켜지지만 ccc-pon 시작 power_control 0x0000000001을 마치지 않음"
위 실패 상태의 경우 특정 위치에 대한 CCC 컨트롤러의 상태를 확인할 수도 있습니다."SET"인 전원 영역의 상태를 확인해야 합니다.서로 다른 LC는 서로 다른 전원 영역을 사용하여 부팅합니다.
sysadmin-vm:0_RP0# show controller ccc power detail location 0/RP0
8월 18일 화 18:33:30.245 UTC
전원 세부 정보:0/RP0의 영역 정보:
—
| 전원 영역 | 전원 상태 | 전원 제어 | 전원 결함 |
—
| 0 | 확인 | 세트 | — |
| 1 | 확인 | — | — |
| 2 | 확인 | 설정 | — |
| 3 | 확인 | — | —
| 4 | 확인 | SET | — |
| 5 | — | — | — |
| 6 | 확인 | — | — |
| 7 | — | — | — |
| 8 | 확인 | 설정 | — |
sysadmin-vm:0_RP0#
복구 작업:
- 아래 명령을 실행하여 LC를 소프트 리셋하십시오.
# sysadmin-vm:0_RP1# hw-module location <카드 위치> reload
- 소프트 리셋이 문제 해결에 도움이 되지 않는 경우 카드의 물리적 OIR(Online Insertion and Removal)을 수행해야 합니다.
주-2:POWERED_ON
이 상태는 CPU가 적은 LC에서 확인되며 NCS4k의 모든 LC 카드는 CPU가 적습니다.
권장 작업:
sysadmin-vm:0_RP1# show platform
0/FC0 NC4K-FC 운영 해당 사항 없음 NSHUT
0/FC1 NC4K-FC POWERED_ON 해당 사항 없음 NSHUT
0/FC2 NC4K-FC 운영 해당 사항 없음 NSHUT
이 경우 패브릭 드라이버가 카드를 자체적으로 복구하려고 하지만 3분 내에 ASIC를 탐지할 수 없으면 카드가 POWERED_ON 상태로 켜집니다.
섀시에 있는 모든 현재 카드의 전원이 정상적으로 켜져 있음을 보여주는 아래의 출력을 확인하십시오.
sysadmin-vm:0_RP0# show controller ccc 전력 요약
8월 18일 화 19:09:37.575 UTC
CCC 전원 요약:
위치 카드 유형 전원 상태
—
0/0 NCS4K-2H-O-K ON
0/FC1 NCS4016-FC-M 켜짐
0/5 NCS4K-24LR-O-S 켜짐
0/6 NCS4K-20T-O-S 켜짐
0/RP0 NCS4K-RP ON
0/8 NCS4K-2H-O-K ON
sysadmin-vm:0_RP0#
복구 작업:
- LC/FC에 대해 state-2(POWERED_ON)가 계속 존재하는 경우 아래 명령을 실행하여 LC를 소프트 리셋하십시오.
# sysadmin-vm:0_RP1# hw-module location <카드 위치> reload
- 소프트 리셋이 문제를 해결하는 데 도움이 되지 않는 경우 카드의 물리적 OIR을 수행해야 합니다.
주-3:현재
이는 카드가 감지되어 전원이 꺼진 상태임을 의미합니다.컨피그레이션에서 카드의 전원을 끄도록 구성된 경우 이 상태가 유효한 상태일 수 있습니다.환경 경보, I2C 장애로 인해 CCC 드라이버에서 카드를 감지하지 못해 카드를 강제로 종료했을 수 있습니다.
권장 작업:
sysadmin-vm:0_RP1# 플랫폼 세부 위치 표시 <카드 위치>
위의 출력에서 "Last Event :" 및 "Last Event Reason :"을 확인하십시오.
경보를 확인하려면 경보 조건 때문에 카드가 종료된 경우에도 아래 명령을 실행할 수 있습니다.각 카드 위치에 대한 경보 상태를 표시하는 아래의 출력입니다.
sysadmin-vm:0_RP0# show alarms
8월 18일 화 18:03:35.421 UTC
—
활성 경보
—
위치 심각도 그룹 설정 시간 설명
—
0/PT0-PM0 주 환경 05/22/70 04:56:45 전원 모듈 오류(PM_NO_INPUT_DETECTED).
0/PT0-PM0 주 환경 05/22/70 04:56:45 전원 모듈 출력 비활성화됨(PM_OUTPUT_EN_PIN_HI).
0/PT0-PM2 주요 환경 05/22/70 04:56:45 전원 모듈 오류(PM_NO_INPUT_DETECTED).
0/PT0-PM2 주요 환경 05/22/70 04:56:45 전원 모듈 출력 비활성화됨(PM_OUTPUT_EN_PIN_HI).
0/PT0-PM3 주요 환경 05/22/70 04:56:45 전원 모듈 오류(PM_NO_INPUT_DETECTED).
0/PT0-PM3 주요 환경 05/22/70 04:56:45 전원 모듈 출력 비활성화됨(PM_OUTPUT_EN_PIN_HI).
0/PT1-PM1 주요 환경 05/22/70 04:56:45 전원 모듈 오류(PM_NO_INPUT_DETECTED).
같은 명령을 실행하여 카드의 각 위치에 대한 출력을 확인할 수도 있습니다.
sysadmin-vm:0_RP1# show alarms brief card location < location of card>
복구 작업:
- 아래 명령을 실행하여 LC를 소프트 리셋하십시오.
# sysadmin-vm:0_RP1# hw-module location <카드 위치> reload
- 소프트 리셋이 문제를 해결하는 데 도움이 되지 않는 경우 카드의 물리적 OIR을 수행해야 합니다.
주-4:알 수 없음
이 상태에 대한 가장 일반적인 이유는 CCC 드라이버가 카드에서 IDPROM을 읽지 못하거나 CCC 드라이버가 IDPROM 손상을 감지하여 카드를 탐지하지 못한 것입니다.
sysadmin-vm:0_RP1# show platform
7월 4일 오후 15:27:50.478 UTC
위치 카드 유형 HW 상태 SW 상태 구성 상태
—
0/1 알 수 없는 POWERED_ON 작동 NSHUT
복구 작업:
- 아래 명령을 실행하여 LC를 소프트 리셋하십시오.
# sysadmin-vm:0_RP1# hw-module location <카드 위치> reload
- 소프트 리셋이 문제를 해결하는 데 도움이 되지 않는 경우 카드의 물리적 OIR을 수행해야 합니다.
- 물리적 OIR이 도움이 되지 않으면 카드의 RMA가 제안됩니다.
주-5:SW_비활성
카드가 SW_INACTIVE 상태로 전환되려면 HW 상태에서 작동해야 합니다.카드가 이 상태로 들어온 일반적인 이유는 호스트 OS에서 SSD에 액세스할 수 없기 때문입니다.
권장 작업:
카드에 제어 이더넷 연결이 있는지 확인합니다.
sysadmin-vm:0_RP1# 컨트롤러 연결 가능 스위치 표시
7월 4일 (토) 16:31:33.690 UTC
랙 카드 스위치
—
0 RP0 RP-SW
0 RP1 RP-SW
0 LC0 LC-SW
0 LC1 LC-SW
0 LC2 LC-SW
0 LC4 LC-SW
카드에 제어 이더넷 연결이 없는 경우 아래 명령을 실행하여 카드에 대한 이더넷 프로토콜 상태를 확인합니다.프로토콜의 상태는 "Active(활성)" 또는 "Standby(대기)"여야 하며, 표시된 다른 상태는 연결 문제를 나타냅니다.
sysadmin-vm:0_RP0# show controller switch mlap location 0/RP0/RP-SW
8월 18일 화 18:08:22.343 UTC
랙 카드 스위치 랙 일련 번호
—
0 RP0 RP-SW SAL19058RDF
Phys 관리 프로토콜 전달 프로토콜
포트 상태 상태 상태 유형 연결 대상
—
0 작동 중지 - 내부 LC15
1 작동 중지 - 내부 LC7
2 다운 다운 - 내부 LC13
3 다운 다운 - 내부 LC12
4 다운 다운 - 내부 LC14
5 다운 다운 - 내부 LC11
6 작동 중 활성 포워딩 내부 LC6
7 작동 중 활성 포워딩 내부 LC5
8 작동 중지 - 내부 LC1
9 다운 - 내부 LC4
10 작동 중지 - 내부 LC3
11 작동 중지 - 내부 LC10
16 작동 중 활성 포워딩 내부 LC0
17 작동 중 활성 포워딩 내부 LC8
26 작동 중지 - 내부 LC2
27 다운 다운 - 내부 LC9
32 Down Up Down - Internal MATESC(RP0 Ctrl)
33 Down Up Down - Internal MATESC(RP1 Ctrl)
36 작동 중 활성 포워딩 내부 CCC(RP0 Ctrl)
37 Up Rem Managed Forwarding 내부 CCC(RP1 Ctrl)
52 작동 중지 - 외부 SFP+ 1
54 작동 중지 - 외부 SFP+ 0
복구 작업:
포트가 다운되었음을 확인한 경우 카드 CPU 콘솔에 액세스하고 카드가 응답하는지 확인할 수도 있습니다.액세스 카드는 SW_INACTIVE 상태로 전환된 이유를 제시하는 메시지를 표시합니다.
sysadmin-vm:0_RP1# 연결 위치 <카드 위치>
최후의 보프는 카드를 다시 이미징해야 합니다.
#reimage_chassis -s <slot id> 그러나 이 단계 전에 기술 전문가와 상의하십시오.
관련 링크:
http://www.cisco.com/c/en/us/products/collateral/optical-networking/network-convergence-system-4000-series/data_sheet_c78-729222.html#
http://www.cisco.com/c/en/us/td/docs/routers/ncs4000/software/install/guide/b_sysadmin-ig-ncs4k/b_sysadmin-ig-ncs4k_chapter_010.html