소개
이 문서에서는 configmgr에 호스트 항목이 없기 때문에 RCM 기반 UPF 업그레이드 실패에 대해 설명합니다
문제
RCM(Redundancy Configuration Manager) 컨트롤러가 UPF 1(Active)에서 UPF 2(Standby)로 계획된 UPF(User Plane Function) 스위치오버를 시작하면 configmgr의 호스트 목록에 UPF 1과 UPF 2가 모두 있어야 합니다. 그러나 몇 가지 이유로 configmgr의 활성 호스트 목록에 호스트 목록과 모순되는 활성 UPF 1이 없습니다.on 컨트롤러
그리고 그런 상태에서 RCM이 UPF 1에서 UPF 2로 스위치오버를 트리거하면 스위치오버 프로세스가 시작된다. 전환 프로세스 중에 configmgr은 호스트 목록에서 활성 UPF 1 호스트 세부 정보를 찾으려고 하지만 찾지 못합니다.
UPF 전환 프로세스가 실패하고 "수신 대기 상태(계획된 전환)의 시간 초과로 인해 이전 액티브가 PendingStandby에서 Active로 이동됨"이라는 이유로 인해 UPF1이 PendingStandby에서 Active로, UPF2가 PendingActive에서 Standby로 이동됩니다.
//configmgr의 호스트 목록에 호스트 세부 정보가 없기 때문에 전환 실패를 탐지하는 방법
그러한 전환 실패 시간을 다루는 RCM tac dbg에서 configmgr 포드 로그에서 로그 이벤트를 찾습니다.
2024/01/12 09:08:26.878 rcm-configmgr [DEBUG] [sshclient.go:980] [rcm_grpc_ep.msg-process.Int] [RcmGenTrap]: SNMP 트랩 발생: (SwitchoverFailure) - 그룹에서 10.248.187.151:22에서 10.248.187.153:2로 전환실패! 이유: 활성 없음
Rcm tac dbg가 없는 경우 RCM 컨트롤러 ops-center에서 snmp 트랩을 찾아 이 문제로 인해 UPF 전환이 실패했음을 확인할 수도 있습니다.
a) Active RCM ops-center에 로그인
b) 명령 rcm show-snmp-trap history 실행
c) snmp 트랩이 있는지 확인합니다.
SwitchoverFailure 2024-01-18T05:19:45.Z 2024-01-18T05:19:45.Z rcm-configmgr Switchover from 10.244.127.23:22 to 10.244.127.29:22 in Group:1 Failed! 이유: 활성 없음
솔루션
영구 수정이 Cisco 버그 ID CSCwi를 통해 제공될 때까지70133 해결 방법은 kubctl delete <configmgr-pod-name> -n <k8-name-space>을 사용하여 해당 AIO(All In One) K8 마스터 노드에서 configmgr 포드를 삭제하는 것입니다.
예:
1. UPF 업그레이드 자동화 워크플로의 사전 점검의 일환으로, 컨트롤러 및 configmgr 호스트 목록을 비교하기 위한 점검을 수행할 수 있습니다. configmgr 호스트 목록에 호스트가 없는 경우 configmgr 포드를 삭제하여 configmgr이 컨트롤러에서 전체 호스트 목록을 새로 가져올 수 있습니다.
2. 수동으로 UPF 전환을 제공하는 경우 활성 RCM에서 2개의 CLI 명령 출력을 수집하고 비교하여 configmgr 호스트 출력에 누락된 호스트(활성/대기)가 있는지 확인합니다. 호스트가 누락된 경우 RCM AIO K8s 마스터 노드에서 configmgr 포드 삭제를 실행하고 컨트롤러 및 configmgr 호스트 목록을 다시 확인하십시오. 호스트가 컨트롤러 및 configmgr에서 일치하는 경우 컨트롤러에서 UPF를 수동으로 전환합니다.
a) rcm show-statistics controller
b) rcm show-statistics configmgr