Introduction
Ce document décrit l'échec de la mise à niveau UPF basée sur RCM en raison de l'absence de l'entrée hôte configmgr
Problème
Lorsque le contrôleur RCM (Redundancy Configuration Manager) lance un basculement UPF (User Plane Function) planifié d'UPF 1(Active) vers UPF 2(Standby), configmgr doit avoir UPF 1 et UPF 2 dans sa liste d'hôtes. Mais pour une raison quelconque, configmgr n'a pas le protocole UPF actif 1 dans sa liste d'hôtes actifs, ce qui est en contradiction avec le contrôleur host list.on
Et lorsque RCM déclenche le basculement UPF 1 vers UPF 2 dans un tel état, le processus de basculement est lancé. Pendant le processus de basculement, configmgr tente de trouver les détails de l'hôte UPF 1 actif dans sa liste d'hôtes, mais ne parvient pas à les trouver.
Le processus de basculement UPF échoue pour la raison suivante : « Old Active a été déplacé de PendingStandby à Active en raison du délai d'attente dans l'état de réception Standby (basculement planifié) » et UPF1 est déplacé de PendingStandby à Active et UPF 2 de PendingActive à Standby.
//Comment détecter une panne de basculement en raison de l'absence de détails d'hôte dans la liste des hôtes de configmgr
Dans le dbg tac du RCM couvrant ces temps d'échec de commutation, recherchez l'événement de journal dans le journal pod configmgr.
2024/01/12 09:08:26.878 rcm-configmgr [DEBUG] [sshclient.go:980] [rcm_grpc_ep.msg-process.Int] [RcmGenTrap] : Interruption SNMP déclenchée : (Échec de commutation) - Basculement de 10.248.187.151:22 vers 10.2 48.187.153:22 dans le groupe :1 Échec ! Motif : actif introuvable
Si rcm tac dbg n'est PAS présent, vous pouvez également confirmer l'échec de la commutation UPF en raison de ce problème en recherchant snmp trap from RCM controller ops-center.
a) Connexion au centre opérationnel actif du RCM
b) Exécutez la commande rcm show-snmp-trap history
c) Vérifiez la présence du piège snmp traps
SwitchoverFailure 2024-01-18T05:19:45.Z 2024-01-18T05:19:45.Z rcm-configmgr Switchover de 10.244.127.23:22 à 10.244.127.29:22 dans le groupe :1Failed ! Motif : actif introuvable
Solution
Jusqu'à ce que la correction permanente soit apportée via l'ID de bogue Cisco CSCwi70133 Pour contourner ce problème, supprimez le pod configmgr du noeud maître K8 AIO (All In One) correspondant, à l'aide de kubectl delete <configmgr-pod-name> -n <k8-name-space>
Exemple :
1. Dans le cadre des vérifications préalables du flux de travail d'automatisation de la mise à niveau UPF, des vérifications pour comparer le contrôleur et la liste d'hôtes configmgr peuvent être effectuées. Si un hôte est manquant dans la liste d'hôtes configmgr, la suppression de pod configmgr peut être effectuée afin que configmgr obtienne la liste complète des hôtes fraîchement du contrôleur.
2. Si la commutation UPF est effectuée manuellement, collectez 2 sorties de commandes CLI à partir du RCM actif et comparez-les pour déterminer si un hôte (actif/veille) est manquant dans la sortie de l'hôte configmgr. Si un hôte est manquant, émettez configmgr pod delete à partir du noeud maître du RCM AIO K8 et revérifiez le contrôleur et la liste d'hôtes configmgr. Si les hôtes correspondent sur le contrôleur et configmgr, passez à la commutation manuelle des UPF à partir du contrôleur.
a) contrôleur show-statistics rcm
b) rcm show-statistics configmgr