소개
이 문서에서는 ACI의 디바이스 교체 시나리오를 이해하고 트러블슈팅하는 단계에 대해 설명합니다.
배경 정보
이 문서의 자료는 Cisco Application Centric Infrastructure, Second Edition 트러블슈팅 특히 Fabric Discovery에 대해 장치 교체 장.
개요
ACI 패브릭이 진화하는 동안 다음을 비롯한 다양한 구성 요소를 교체해야 합니다. APIC, 리프 스위치, 스파인 스위치, IPN 디바이스 교체해야 하는 가장 일반적인 이유는 RMA 및 하드웨어 업그레이드입니다. 이러한 절차는 Cisco Install/Upgrade Guide(Cisco 설치/업그레이드 가이드)에 잘 설명되어 있으며 교체하기 전에 최신 가이드를 읽어야 합니다. 이 섹션에는 절차가 후드에서 어떻게 작동하는지에 대한 심층적인 고찰이 포함될 것이다; 가장 일반적인 트러블슈팅 시나리오를 살펴볼 수 있습니다.
절차 및 확인
참고: ACI 스위치 버전 5.2(3)부터 검색된 ACI 패브릭 스위치에 연결된 NXOS 스위치는 POAP를 사용하여 ACI 스위치로 변환할 수 있습니다.
하드웨어 교체
리프
RMA Depot에서 NXOS 소프트웨어를 실행하는 leaf가 도착합니다. 아래의 '문제: Leaf를 ACI 모드로 올바르게 변환하기 위해 'NXOS 모드로 도착합니다. 다른 패브릭의 leaf를 사용하거나 이전 컨피그레이션을 사용하는 경우 'acidiag touch clean' 및 'reload' 명령을 사용해야 합니다.
위 단계가 완료되고 새 leaf 스위치가 등록 준비가 되면 'Remove from Controller' 옵션을 통해 패브릭에서 교체할 leaf를 제거합니다.
'컨트롤러에서 제거' 옵션은 APIC에서 노드를 완전히 제거하여 APIC에서 할당한 노드 ID, SN 연결 및 TEP 주소를 해제합니다. 이러한 프로세스는 스위치 노드를 교체할 때 필요합니다. '서비스 해제' 옵션은 동일한 노드가 동일한 노드 ID 및 SN으로 패브릭에 다시 참가할 것으로 예상되는 경우에만 사용됩니다.
교체할 리프 스위치가 패브릭 멤버십 페이지에 더 이상 표시되지 않으면 새 리프가 스파인 인터페이스를 통해 패브릭에 연결될 수 있습니다. APIC에서 리프가 검색되면 Fabric Inventory(패브릭 인벤토리)에 표시되고 등록할 준비가 됩니다. 교체할 디바이스가 아직 노드 ID를 해제하지 않은 상태에서 새 스위치가 동일한 노드 ID로 등록된 경우, ID가 다른 리프 노드에 이미 연결되어 있다는 사실을 참조하여 결함이 발생합니다. 잠시 후에 결함이 해결될 것입니다. 패브릭 멤버십 하위 메뉴에 새 노드가 표시되지 않으면 케이블 문제가 발생할 수 있습니다. 이는 새로 연결된 leaf 스위치에 연결된 spine 스위치에서 'show lldp neighbors detail' 명령을 통해 LLDP neighbors를 확인하여 확인할 수 있습니다. 패브릭 검색 프로세스에 대한 자세한 내용은 "초기 패브릭 설정" 장을 참조하십시오.
인프라 VLAN이 수정된 경우 모든 리프 노드를 동시에 정상 재부팅해야 합니다. 모든 리프 스위치가 동시에 정리되지 않을 경우, 정상 리로드된 스위치가 온라인 상태가 되어 아직 정리되지 않은 리프에서 LLDP를 통해 이전 인프라 VLAN을 수신하게 되며, 정상 리로드된 리프는 APIC에 등록되지 않습니다. 자세한 내용은 "초기 패브릭 설정" 장을 참조하십시오.
플랫폼 제한으로 인해 VPC 쌍은 Gen1 및 Gen2 이상의 리프 스위치를 혼합하여 사용할 수 없습니다. 그러나 작성 시 모든 Gen2 leaf 이상은 다른 Gen2 leaf 이상과 혼용될 수 있습니다.
스파인
리프(leaf)와 마찬가지로, 스파인(모듈형 스파인 등)의 HW에 따라 NXOS 모드로 전환될 수 있습니다. "문제: 변환을 수행하기 위한 시나리오 아래의 "NXOS 모드로 도착합니다.
스파인 스위치를 교체할 때는 BGP Route Reflector 기능을 고려해야 합니다. 모범 사례로서, 레이어 3 Cisco ACI 패브릭에 대해 BGP 경로 리플렉터로 구성된 스파인 스위치가 최소 2개 있어야 합니다. 이 컨피그레이션은 Route Reflector Nodes 아래의 'System(시스템) > System Settings(시스템 설정) > BGP Route Reflectors(BGP 경로 리플렉터)'에 있습니다. 스파인 스위치를 교체하거나 제거할 때 활성 Route Reflector 1개를 유지하기 위해 적절한 컨피그레이션이 변경되었는지 확인하고, 변경이 완료된 후 활성 Route Reflector 2개 이상을 확인합니다.
BGP 경로 리플렉터에 대한 자세한 내용은 "관리 및 코어 서비스" 장의 "포드 정책 — BGP RR/날짜 및 시간/SNMP" 섹션을 참조하십시오.
APIC
APIC 교체를 수행할 때 가장 중요한 고려 사항은 기존 APIC 클러스터의 상태입니다. 교체하기 전에 클러스터의 모든 APIC가 Fully Fit으로 보고되어야 합니다. 4.2에서는 CLI를 통해 APIC 클러스터의 상태를 확인하는 추가 툴이 도입되었습니다.
apic1# acidiag cluster
Admin password:
Product-name = APIC-SERVER-L2
Serial-number = FCH2206W0RK
Running...
Checking Core Generation: OK
Checking Wiring and UUID: OK
Checking AD Processes: Running
Checking All Apics in Commission State: OK
Checking All Apics in Active State: OK
Checking Fabric Nodes: OK
Checking Apic Fully-Fit: OK
Checking Shard Convergence: OK
Checking Leadership Degration: Optimal leader for all shards
Ping OOB IPs:
APIC-1: 192.168.4.20 - OK
Ping Infra IPs:
APIC-1: 10.0.0.1 - OK
Checking APIC Versions: Same (4.2(1i))
Checking SSL: OK
Done!
APIC를 교체할 때는 APIC 해제를 수행하기 전에 교체할 APIC의 초기 설정 변수를 메모해야 합니다.
apic1# cat /data/data_admin/sam_exported.config
Setup for Active and Standby APIC
fabricDomain = POD37
fabricID = 1
systemName =apic1
controllerID = 1
tepPool = 10.0.0.0/16
infraVlan = 3937
GIPo = 225.0.0.0/15
clusterSize = 3
standbyApic = NO
enableIPv4 = Y
enableIPv6 = N
firmwareVersion = 4.2(1i)
ifcIpAddr = 10.0.0.1
apicX = NO
podId = 1
oobIpAddr = 10.48.176.57/24
올바른 소프트웨어 버전으로 새 APIC를 준비하고 이전에 참조된 초기 설정 값을 다시 입력합니다. 초기 설정이 완료되고 APIC가 완전히 부팅되면 클러스터에 있는 다른 APIC 중 하나의 UI에서 패브릭에 다시 연결합니다.
IPN 장치 교체
다중 포드 환경에서는 IPN(Inter-Pod Network)에 사용되는 디바이스 중 하나를 교체해야 할 수 있습니다. 교체하기 전에 IPN 네트워크에 팬텀 RP 형태로 구성된 PIM 양방향 랑데부 포인트 이중화가 있어야 합니다. Phantom RP가 없을 경우 교체된 노드가 RP인 경우 IPN을 통해 전송된 모든 BUM 트래픽에 대해 PIM 통합이 발생하고 패킷 손실이 표시됩니다.
Phantom RP 구성 방법에 대한 자세한 내용은 "Multi-Pod Discovery" 장의 "RP 구성"을 참조하십시오.
APIC/leaf/spine 클린 다시 로드
특정 시나리오에서 패브릭에 조인하지 않는 리프/스파인을 복구하기 위한 최상의 옵션은 디바이스를 완전히 다시 로드하는 것입니다.
업그레이드 순서를 대기 중인 디바이스에서 정상 다시 로드를 수행하지 않는 것이 좋습니다. 디바이스를 완전히 다시 로드하려면 시간이 더 걸릴 수 있습니다.
'acidiag touch' 명령에는 clean 및 setup의 두 가지 옵션이 있습니다. clean 옵션은 APIC 네트워크 컨피그레이션(패브릭 이름, IP 주소, 로그인 등)을 유지하면서 모든 정책 데이터를 제거합니다. setup 옵션은 정책 데이터와 APIC 네트워크 컨피그레이션을 모두 제거합니다. 설정 옵션은 포드 ID를 변경해야 하므로 포드 간에 디바이스를 이동할 때 가장 일반적으로 사용되며 일반적으로 관리 네트워크도 업데이트해야 합니다.
APIC
fab1-apic1# acidiag touch clean
This command will wipe out this device, Proceed? [y/N] y
fab1-apic1# acidiag reboot
This command will restart this device, Proceed? [y/N] y
리프/스파인
fab1-leaf101# acidiag touch clean
This command will wipe out this device, Proceed? [y/N] y
fab1-leaf101# reload
This command will reload the chassis, Proceed (y/n)? [n]: y
'acidiag touch clean' 명령은 .clean이라는 /mnt/pss의 leaf에 숨겨진 파일을 넣어 작동합니다. Leaf가 부팅되면 .clean 파일이 있는지 확인하는 셸 스크립트가 실행됩니다. /mnt/pss 아래에 .clean 파일이 있으면 정책 컨피그레이션이 지워지고 APIC에서 컨피그레이션이 다시 다운로드됩니다. 이 명령을 입력하고 노드가 다시 로드되지 않은 경우, touch clean을 입력한 후 시간이 얼마나 경과했더라도 파일이 계속 존재하고 다음 다시 로드할 때 정책이 계속 지워집니다.
문제 해결 시나리오
문제/장애: NXOS 모드로 도착
확인
스위치가 RMA를 통해 배송되는 경우 POAP(Power On Auto Provisioning) 프로세스를 통해 아직 구성되지 않은 NXOS 소프트웨어가 배송될 수 있습니다. 사용자가 이 장치로 콘솔에 로그인하면 다음 메시지의 일부 형식이 표시됩니다.
자동 프로비저닝을 중단하고 정상 설정을 계속 진행합니다. ?(yes/no)
디바이스가 POAP를 이미 거쳤다면 leaf가 독립형 NXOS 코드를 실행 중인지 확인하는 가장 간단한 방법은 'show version' 출력에서 'NXOS image file' 줄을 찾는 것입니다. 이러한 출력이 있는 경우 leaf는 독립 실행형 코드를 실행 중이며 ACI 모드로 변환해야 합니다. Kickstart 및 시스템 이미지가 있는지 확인할 수 있으며 이미지 자체를 확인하여 ACI 이미지를 실행하는 leaf에만 표시됩니다. 이미지 자체는 독립형에서는 n9000이고 ACI에서는 aci-n9000입니다.
독립형 NXOS
nxos-n9k# show version
Cisco Nexus Operating System (NX-OS) Software
.
.
.
Software
BIOS: version 07.17
NXOS: version 6.1(2)I3(4)
BIOS compile time: 09/10/2014
NXOS image file is: bootflash:///n9000-dk9.6.1.2.I3.4.bin
NXOS compile time: 3/18/2015 0:00:00 [03/18/2015 07:49:10]
ACI
aci-leaf101# show version
Cisco Nexus Operating System (NX-OS) Software
.
.
.
Software
BIOS: version 07.66
kickstart: version 14.2(1i) [build 14.2(1i)]
system: version 14.2(1i) [build 14.2(1i)]
PE: version 4.2(1i)
BIOS compile time: 06/11/2019
kickstart image file is: /bootflash/aci-n9000-dk9.14.2.1i.bin
kickstart compile time: 09/07/2019 10:25:16 [09/07/2019 10:25:16]
system image file is: /bootflash/auto-s
system compile time: 09/07/2019 10:25:16 [09/07/2019 10:25:16]
솔루션
NXOS 코드를 실행하는 스위치가 제공된 경우 ACI 모드로 전환해야 합니다. 항상 그런 것은 아니지만 스위치는 부트플래시에 NXOS 및 ACI 이미지와 함께 제공되어야 합니다. ACI 이미지는 'aci-n9000'으로 시작합니다. ACI 이미지가 없으면 수동으로 부트플래시에 로드해야 합니다. 이는 USB 연결(로컬 액세스 필요) 또는 APIC의 SCP를 통해 직접 수행할 수 있습니다(두 디바이스가 모두 관리 네트워크를 통해 연결되어 있다고 가정). SCP를 통해 이미지를 복사하는 방법은 다음과 같습니다.
1. nexus-9000(config)# feature scp-server
2. apic1# scp -r /firmware/fwrepos/fwrepo/switch-image-name admin@standalone_switch:switch-image-name
그런 다음 NXOS 이미지를 부팅하지 않고 컨피그레이션을 저장하고 boot 문을 ACI로 변경하도록 leaf를 구성해야 합니다.
1. (config)# no boot nxos
2. (config)# copy run start
3. (config)# boot aci bootflash:
4. (config)# reload
문제/장애: 리프/스파인 EPLD/FPGA가 올바르지 않음, F1582
확인
Nexus 9000 ACI 스위치의 Fault에서 다음 fault가 표시됩니다.
F1582 FPGA 버전 불일치가 검색되었습니다. 실행 중인 버전:0x(z) 예상 버전:0x(y)
APIC CLI에서 Fault F1582의 모든 인스턴스를 검색합니다.
apic1# moquery -c faultInst -f 'fault.Inst.code=="F1582"'
EPLD 노트
Cisco Nexus 9000 Series ACI 모드 스위치에는 모든 모듈에서 하드웨어 기능을 제공하는 몇 가지 프로그래밍 가능한 PLD(Logical Device)가 포함되어 있습니다. Cisco는 하드웨어 기능을 향상시키거나 알려진 문제를 해결하기 위해 EPLD(Electronic Programmable Logic Device) 이미지 업그레이드를 제공합니다. PLD는 전자 프로그래밍 가능 논리 장치(EPLD), 필드 프로그래밍 가능 게이트 어레이(FPGA) 및 복합 프로그래밍 가능 논리 장치(CPLD)를 포함하지만 ASIC를 포함하지 않는다.
EPLD라는 용어는 FPGA와 CPLD를 모두 포괄하는 데 사용된다.
일부 모듈 기능에 대한 EPLD가 있는 장점은 해당 기능을 업그레이드해야 할 때 하드웨어를 교체하는 대신 소프트웨어 이미지를 업그레이드하면 된다는 것입니다.
I/O 모듈에 대한 EPLD 이미지 업그레이드는 업그레이드 중에 모듈의 전원을 잠시 꺼야 하므로 모듈을 통과하는 트래픽이 중단됩니다. 모듈형 섀시에서 시스템은 한 번에 하나의 모듈에 대해 EPLD 업그레이드를 수행하므로, 한 번에 업그레이드로 인해 하나의 모듈을 통과하는 트래픽만 중단됩니다.
Cisco는 각 릴리스에 최신 EPLD 이미지를 제공합니다. 일반적으로 이러한 이미지는 이전 릴리스에서 제공한 것과 동일하지만 이러한 이미지 중 일부가 업데이트되는 경우도 있습니다. 이러한 EPLD 이미지 업데이트는 달리 명시되지 않는 한 필수 사항이 아닙니다. Cisco에서 EPLD 이미지 업그레이드를 사용할 수 있게 하면 이 릴리스 노트는 해당 가용성을 알리고 Cisco 웹 사이트에서 다운로드할 수 있습니다.
새로운 EPLD 이미지를 사용할 수 있는 경우, 네트워크 환경에서 일정 수준의 트래픽 중단을 허용할 수 있는 유지 보수 기간을 허용할 경우 항상 업그레이드를 권장합니다. 일반적으로 소프트웨어 업그레이드의 결과로 새 하드웨어 기능이 추가될 때 EPLD 업그레이드가 필요합니다.
이미 ACI 모드에 있는 동안 EPLD 펌웨어를 업그레이드해야 하는 다양한 이유가 있을 수 있습니다.
- EPLD 버전에서는 Cisco NX-OS에서 ACI 부팅 모드로 전환하기 전에 업그레이드가 필요했으며 FPGA/EPLD가 업그레이드되지 않았습니다.
- EPLD 업그레이드를 포함하지 않는 리프/스파인을 APIC에서 정책 업그레이드 대신 수동으로 업그레이드했습니다.
리프 또는 스파인이 패브릭에 추가되면 EPLD는 새로운 버전의 EPLD가 제공되는 정책 업그레이드(APIC 펌웨어 탭에서 시작되는 일반 업그레이드)를 통해 자동으로 업그레이드됩니다.
솔루션
이전 버전의 ACI에서는 문제의 리프/스파인을 다운그레이드한 다음 업그레이드해야 했지만, 11.2(1m)부터 관리 사용자가 사용할 수 있는 두 개의 셸 스크립트가 있으므로 프로세스가 크게 간소화됩니다.
fab1-leaf101# /bin/check-fpga.sh FpGaDoWnGrAdE
fab1-leaf101# /usr/sbin/chassis-power-cycle.sh
'/usr/sbin/chassis-power-cycle.sh' 스크립트는 단순히 소프트웨어를 다시 시작하는 'reload'와 비교하여 전원을 하드 리셋합니다. EPLD를 업그레이드할 때 라인 카드에 펌웨어를 재프로그래밍하려면 전원을 완전히 제거해야 합니다. '/usr/sbin/chassis-power-cycle.sh'을 사용할 수 없거나 작동하지 않을 경우 전원 케이블을 30초 이상 제거한 다음 다시 연결하여 전원을 복원해야 합니다.