Introduzione
In questo documento viene descritta la procedura per ripristinare Cluster Manager dal server di avvio nell'installazione di Cloud Native Deployment Platform (CNDP).
Prerequisiti
Requisiti
Cisco raccomanda la conoscenza dei seguenti argomenti:
- Cisco Subscriber Microservices Infrastructure (SMI)
- Architettura 5G CNDP o SMI-Bare-Metal (BM)
- Dispositivo a blocchi replicato distribuito (DRBD)
Componenti usati
Le informazioni fornite in questo documento si basano sulle seguenti versioni software e hardware:
- SMI 2020.02.2.35
- Kubernetes v1.21.0
Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.
Premesse
Cos'è SMI Cluster Manager?
Un gestore di cluster è un cluster a 2 nodi mantenuto, utilizzato come punto iniziale per la distribuzione di cluster sia di control plane che di user plane. Esegue un cluster Kubernetes a nodo singolo e un set di POD che sono responsabili della configurazione dell'intero cluster. Solo il cluster manager principale è attivo e il cluster secondario subentra solo in caso di errore o viene disattivato manualmente per motivi di manutenzione.
Che cos'è Inception Server?
Questo nodo esegue la gestione del ciclo di vita di Cluster Manager (CM) sottostante e da qui è possibile eseguire il push di Day0 Config.
Questo server viene in genere implementato in base alla regione o nello stesso centro dati della funzione di orchestrazione di livello superiore (ad esempio NSO) e viene in genere eseguito come macchina virtuale.
Problema
Cluster Manager è ospitato in un cluster a 2 nodi con DRBD (Distributed Replicated Block Device) ed è conservato come principale di Cluster Manager e secondario di Cluster Manager. In questo caso, lo stato secondario di Cluster Manager viene automaticamente disattivato durante l'inizializzazione/installazione del sistema operativo in UCS, il che indica che il sistema operativo è danneggiato.
cloud-user@POD-NAME-cm-primary:~$ drbd-overview status
0:data/0 WFConnection Primary/Unknown UpToDate/DUnknown /mnt/stateful_partition ext4 568G 369G 170G 69%
Procedura per la manutenzione
Questo processo consente di reinstallare il sistema operativo sul server CM.
Identificazione host
Accedere a Cluster-Manager e identificare gli host:
cloud-user@POD-NAME-cm-primary:~$ cat /etc/hosts | grep 'deployer-cm'
127.X.X.X POD-NAME-cm-primary POD-NAME-cm-primary
X.X.X.X POD-NAME-cm-primary
X.X.X.Y POD-NAME-cm-secondary
Identificare i dettagli del cluster dal server di avvio
Accedere al server Inception e accedere a Deployer e verificare il nome del cluster con hosts-IP da Cluster-Manager.
Dopo aver eseguito correttamente l'accesso al server di avvio, accedere al centro operativo come mostrato di seguito.
user@inception-server: ~$ ssh -p 2022 admin@localhost
Verificare il nome del cluster da SSH-IP di Cluster Manager (ssh-ip = indirizzo IP del nodo SSH = indirizzo IP del server UCS).
[inception-server] SMI Cluster Deployer# show running-config clusters * nodes * k8s ssh-ip | select nodes * ssh-ip | select nodes * ucs-server cimc ip-address | tab
SSH
NAME NAME IP SSH IP IP ADDRESS
------------------------------------------------------------------------------
POD-NAME-deployer cm-primary - X.X.X.X 10.X.X.X ---> Verify Name and SSH IP if Cluster is part of inception server SMI.
cm-secondary - X.X.X.Y 10.X.X.Y
Controllare la configurazione per il cluster di destinazione.
[inception-server] SMI Cluster Deployer# show running-config clusters POD-NAME-deployer
Rimuovere l'unità virtuale per cancellare il sistema operativo dal server
Connettersi alla console CIMC dell'host interessato e cancellare il contenuto dell'unità di avvio ed eliminare l'unità virtuale (VD).
a) CIMC > Storage > Cisco 12G Modular Raid Controller > Storage Log > Clear Boot Drive
b) CIMC > Storage > Cisco 12G Modular Raid Controller > Virtual drive > Select the virtual drive > Delete Virtual Drive
Esegui sincronizzazione cluster
Eseguire la sincronizzazione cluster predefinita per Cluster-Manager dal server di avvio.
[inception-server] SMI Cluster Deployer# clusters POD-NAME-deployer actions sync run debug true
This will run sync. Are you sure? [no,yes] yes
message accepted
[inception-server] SMI Cluster Deployer#
Se la sincronizzazione predefinita del cluster ha esito negativo, eseguire la sincronizzazione del cluster con l'opzione di ridistribuzione della macchina virtuale per completare la reinstallazione (l'attività di sincronizzazione del cluster può richiedere circa 45-55 minuti, dipende dal numero di nodi ospitati nel cluster)
[inception-server] SMI Cluster Deployer# clusters POD-NAME-deployer actions sync run debug true force-vm-redeploy true
This will run sync. Are you sure? [no,yes] yes
message accepted
[inception-server] SMI Cluster Deployer#
Monitoraggio dei registri di sincronizzazione del cluster
[inception-server] SMI Cluster Deployer# monitor sync-logs POD-NAME-deployer
2023-02-23 10:15:07.548 DEBUG cluster_sync.POD-NAME: Cluster name: POD-NAME
2023-02-23 10:15:07.548 DEBUG cluster_sync.POD-NAME: Force VM Redeploy: true
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: Force partition Redeploy: false
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: reset_k8s_nodes: false
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: purge_data_disks: false
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: upgrade_strategy: auto
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: sync_phase: all
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: debug: true
...
...
...
Il provisioning e l'installazione del server vengono eseguiti correttamente mediante la sincronizzazione del cluster.
PLAY RECAP *********************************************************************
cm-primary : ok=535 changed=250 unreachable=0 failed=0 skipped=832 rescued=0 ignored=0
cm-secondary : ok=299 changed=166 unreachable=0 failed=0 skipped=627 rescued=0 ignored=0
localhost : ok=59 changed=8 unreachable=0 failed=0 skipped=18 rescued=0 ignored=0
Thursday 23 February 2023 13:17:24 +0000 (0:00:00.109) 0:56:20.544 *****. ---> ~56 mins to complete cluster sync
===============================================================================
2023-02-23 13:17:24.539 DEBUG cluster_sync.POD-NAME: Cluster sync successful
2023-02-23 13:17:24.546 DEBUG cluster_sync.POD-NAME: Ansible sync done
2023-02-23 13:17:24.546 INFO cluster_sync.POD-NAME: _sync finished. Opening lock
Verifica
Verificare che Cluster Manager interessato sia raggiungibile e che lo stato di DRBD contenga una panoramica di Cluster Manager primario e secondario.
cloud-user@POD-NAME-cm-primary:~$ ping X.X.X.Y
PING X.X.X.Y (X.X.X.Y) 56(84) bytes of data.
64 bytes from X.X.X.Y: icmp_seq=1 ttl=64 time=0.221 ms
64 bytes from X.X.X.Y: icmp_seq=2 ttl=64 time=0.165 ms
64 bytes from X.X.X.Y: icmp_seq=3 ttl=64 time=0.151 ms
64 bytes from X.X.X.Y: icmp_seq=4 ttl=64 time=0.154 ms
64 bytes from X.X.X.Y: icmp_seq=5 ttl=64 time=0.172 ms
64 bytes from X.X.X.Y: icmp_seq=6 ttl=64 time=0.165 ms
64 bytes from X.X.X.Y: icmp_seq=7 ttl=64 time=0.174 ms
--- X.X.X.Y ping statistics ---
7 packets transmitted, 7 received, 0% packet loss, time 6150ms
rtt min/avg/max/mdev = 0.151/0.171/0.221/0.026 ms
cloud-user@POD-NAME-cm-primary:~$ drbd-overview status
0:data/0 Connected Primary/Secondary UpToDate/UpToDate /mnt/stateful_partition ext4 568G 17G 523G 4%
Il gestore cluster interessato è stato installato e il provisioning della rete è stato eseguito correttamente.
2.2 Verificare il nome del cluster da Cluster Manager SSH-IP.
[inception-server] Distribuzione cluster SMI# show running-config cluster * nodi * k8s ssh-ip | select nodes * ssh-ip | select nodes * ucs-server indirizzo ip cimc | scheda
SSH
NOME IP SSH IP INDIRIZZO IP
—
NOME-POD cm-primary - 192.X.X.X 10.192.X.X
cm-secondario - 192.X.X.Y 10.192.X.Y
*SSH IP = Nodo SSH IP
*IP ADDRESS = indirizzo-ip cimc server ucs
2.3 Controllare la configurazione per il cluster di destinazione.
[inception-server] SMI Cluster Deployer# mostra i cluster running-config POD-NAME Accesso al server Inception e accesso a Deployer e verifica il nome del cluster con hosts-IP da Cluster-Manager. Accedere al server Inception e accedere a Deployer e verificare il nome del cluster con hosts-IP da Cluster-Manager.