简介
本文档介绍由于configmgr缺少主机条目而导致基于RCM的UPF升级失败
问题
当RCM(冗余配置管理器)控制器启动计划的UPF(用户平面功能)从UPF 1(主用)切换到UPF 2(备用)时,configmgr预期在其主机列表中同时包含UPF 1和UPF 2。但由于某种原因,configmgr在其活动主机列表中没有活动UPF 1,与控制器上的主机列表冲突。
并且,当RCM触发UPF 1切换到UPF 2时,将启动切换过程。在切换过程中,configmgr尝试在其主机列表中查找活动UPF 1主机详细信息,但未能找到。
UPF切换过程失败,原因是“由于接收待机状态超时(计划切换),旧主用从PendingStandby移动到Active”,并且UPF1从PendingStandby移动到Active,而UPF 2从PendingActive移动到Standby。
//如何检测切换故障是由于configmgr在其主机列表中缺少主机详细信息
在涵盖此类切换故障时间的RCM tac dbg中,在configmgr pod日志中查找日志事件。
2024/01/12 09:08:26.878 rcm-configmgr [DEBUG] [sshclient.go:980] [rcm_grpc_ep.msg-process.Int] [RcmGenTrap]:引发SNMP陷阱:(SwitchoverFailure)-从10.248.187.151:22到10.248 .153:22 in Group:1 Failed!原因:找不到活动
如果rcm tac dbg不存在,您还可以通过从RCM控制器ops-center查找snmp陷阱来确认由于此问题导致的UPF切换失败。
a)登录到Active RCM ops-center
b)运行命令rcm show-snmp-trap history
c)查看存在的snmp陷阱陷阱
SwitchoverFailure 2024-01-18T05:19:45.Z 2024-01-18T05:19:45.Z rcm-configmgr Switchover from 10.244.127.23:22 to 10.247.129:22 in Group:1Failed!原因:找不到活动
解决方案
直到永久修复通过Cisco Bug ID CSCwi70133 解决方法是使用kubectl delete <configmgr-pod-name> -n <k8-name-space>,从相应的AIO(一体化)K8s主节点删除configmgr pod
示例:
1.作为UPF升级自动化工作流程预检查的一部分,可以进行检查以比较控制器和configmgr主机列表。如果configmgr主机列表中缺少主机,可以执行configmgr pod删除,以便configmgr从控制器获取完整主机列表。
2.如果手动提供UPF切换,请从活动RCM收集2个CLI命令输出并比较它们,以查找configmgr主机输出中是否缺少任何主机(活动/备用)。如果缺少任何主机,请发出configmgr pod delete from RCM AIO K8s master node并重新检查控制器和configmgr主机列表。如果主机在控制器和configmgr上匹配,请继续从控制器手动切换UPF。
a)rcm show-statistics controller
b)rcm show-statistics configmgr