Introduzione
Questo documento descrive come ripristinare Ultra Automation and Monitoring Engine (UAME) dal problema di perdita di memoria in UAME - CSCvu73187
Problema
L'allarme di Elastic Services Controller (ESC) sul monitor dello stato Ultra M:
[root@pod1-ospd ~]# cat /var/log/cisco/ultram-health/*.report | grep -i xxx
10.10.10.10/vnf-esc | esc | XXX | vnf-esc:(error)
Soluzione
Controllo stato
Passaggio 1. Accedere a OpenStack Platform Director (OSP-D) e verificare gli errori vnf-esc.
[stack@pod1-ospd ~]$ cat /var/log/cisco/ultram-health/*.report | grep -i xxx
[stack@pod1-ospd ~]$ cat /var/log/cisco/ultram-health/*.report | grep -iv ':-)'
Passaggio 2. Confermare che non sia possibile accedere a UAME tramite la gestione IP 10.241.179.116 ma che sia possibile eseguire il ping dell'IP:
(pod1) [stack@pod1-ospd ~]$ ssh ubuntu@10.10.10.10
ssh_exchange_identification: read: Connection reset by peer
(pod1) [stack@pod1-ospd ~]$ ping -c 5 10.10.10.10
PING 10.10.10.10 (10.10.10.10) 56(84) bytes of data.
64 bytes from 10.10.10.10: icmp_seq=1 ttl=57 time=0.242 ms
64 bytes from 10.10.10.10: icmp_seq=2 ttl=57 time=0.214 ms
64 bytes from 10.10.10.10: icmp_seq=3 ttl=57 time=0.240 ms
64 bytes from 10.10.10.10: icmp_seq=4 ttl=57 time=0.255 ms
64 bytes from 10.10.10.10: icmp_seq=5 ttl=57 time=0.240 ms
--- 10.10.10.10 ping statistics ---
5 packets transmitted, 5 received, 0% packet loss, time 4000ms
rtt min/avg/max/mdev = 0.214/0.238/0.255/0.016 ms
Passaggio 3. Confermare che le VM relative a ESC e UAME siano ATTIVE e in esecuzione su OSP-D.
[stack@pod1-ospd ~]$ source *core
(pod1) [stack@pod1-ospd ~]$
(pod1) [stack@pod1-ospd ~]$ nova list --field name,status,host,instance_name,power_state | grep esc
| 31416ffd-0719-4ce5-9e99-a1234567890e | pod1-uame-1 | ACTIVE | - | Running | pod1-AUTOMATION-ORCH=172.16.180.15; pod1-AUTOMATION-MGMT=172.16.181.33 |
| d6830e97-bd82-4d8e-9467-a1234567890e | pod1-uame-2 | ACTIVE | - | Running | pod1-AUTOMATION-ORCH=172.16.180.8; pod1-AUTOMATION-MGMT=172.16.181.12
(pod1) [stack@pod1-ospd ~]$ nova list --field name,status,host,instance_name,power_state | grep uame
| 0c1596bc-e50f-4374-9098-a1234567890e | pod1-esc-vnf-esc-core-esc-1 | ACTIVE | - | Running | pod1-AUTOMATION-ORCH=172.16.180.10; pod1-AUTOMATION-MGMT=172.16.181.10 |
| 3875618d-dcbe-4748-b196-a1234567890e | pod1-esc-vnf-esc-core-esc-2 | ACTIVE | - | Running | pod1-AUTOMATION-ORCH=172.16.180.18; pod1-AUTOMATION-MGMT=172.16.181.5
Passaggio 4. Verificare che sia possibile connettersi alla protezione ESC primaria e di backup. Verificare che anche lo stato ESC sia passato.
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ cat /opt/cisco/esc/keepalived_state
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ health.sh
============== ESC HA with DRBD =================
vimmanager (pgid 14654) is running
monitor (pgid 14719) is running
mona (pgid 14830) is running
snmp is disabled at startup
etsi is disabled at startup
pgsql (pgid 15130) is running
keepalived (pgid 13083) is running
portal is disabled at startup
confd (pgid 15027) is running
filesystem (pgid 0) is running
escmanager (pgid 15316) is running
=======================================
ESC HEALTH PASSED
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ ssh admin@172.16.180.12
####################################################################
# ESC on pod1-esc-vnf-esc-core-esc-2 is in BACKUP state.
####################################################################
[admin@pod1-esc-vnf-esc-core-esc-1 ~]$ cat /opt/cisco/esc/keepalived_state
BACKUP
Fasi di ripristino
Passaggio 1. Accedere alla console di Horizon Dashboard per l'istanza di pod1-uame-2.
Passaggio 2. Riavviare a caldo l'istanza della macchina virtuale pod1-uame-2 da Horizon Dashboard. Osservare i messaggi del log della console dell'istanza.
Passaggio 3. Quando la richiesta di accesso viene visualizzata nella console dell'istanza della VM pod1-uame-2 da Horizon Dashboard, avviare SSH in UAME tramite il relativo indirizzo IP 10.10.10.10 di gestione
(pod1) [stack@pod1-ospd ~]$ ssh ubuntu@10.10.10.10
Nota: Procedere al passaggio successivo solo se questo passaggio ha avuto esito positivo.
Passaggio 4. Controllare lo spazio su disco, in particolare per i file system /dev/vda3 su UAME primario.
ubuntu@pod1-uame-1:~$ df -kh
Passaggio 5. Troncare il file syslog o syslog.1 (le dimensioni dei due file sono maggiori, in genere in MB o GB) in UAME primario.
ubuntu@pod1-uame-1:~$ sudo su -
root@pod1-uame-1:~#
root@pod1-uame-1:~# cd /var/log
root@pod1-uame-1:/var/log# ls -lrth *syslog*
root@pod1-uame-1:/var/log# > syslog.1 or > syslog
Passaggio 6. Verificare che le dimensioni del file syslog o syslog.1 siano ora pari a 0 byte in UAME primario.
root@pod1-uame-1:/var/log# ls -lrth *syslog*
Passaggio 7. Verificare che df -kh disponga di spazio sufficiente per la partizione del file system nell'UAME primario.
ubuntu@pod1-uame-1:~$ df -kh
SSH in UAME secondario.
ubuntu@pod1-uame-1:~$ ssh ubuntu@172.16.180.8
password:
...
ubuntu@pod1-uame-2:~$
Passaggio 8. Troncare il file syslog o syslog.1 (le dimensioni dei due file sono maggiori, in genere in MB o GB) su UAME secondario.
ubuntu@pod1-uame-2:~$ sudo su -
root@pod1-uame-2:~#
root@pod1-uame-2:~# cd /var/log
root@pod1-uame-2:/var/log# ls -lrth *syslog*
root@pod1-uame-2:/var/log# > syslog.1 or > syslog
Passaggio 9. Verificare che le dimensioni del file syslog o syslog.1 siano ora pari a 0 byte su UAME secondario.
root@pod1-uame-2:/var/log# ls -lrth *syslog*
Passaggio 10. Verificare che df -kh disponga di spazio sufficiente per la partizione del file system nell'UAME secondario.
ubuntu@pod1-uame-2:~$ df -kh
Dopo il controllo dello stato di ripristino
Passaggio 1. Attendere che almeno un'iterazione di Ultra M Health Monitor confermi l'assenza di errori vnf-esc rilevati nel rapporto di stato.
[stack@pod1-ospd ~]$ cat /var/log/cisco/ultram-health/*.report | grep -i xxx
[stack@pod1-ospd ~]$ cat /var/log/cisco/ultram-health/*.report | grep -iv ':-)'
Passaggio 2. Verificare che le VM ESC e UAME siano ATTIVE e in esecuzione su OSPD.
[stack@pod1-ospd ~]$ source *core
(pod1) [stack@pod1-ospd ~]$ nova list --field name,status,host,instance_name,power_state | grep esc
(pod1) [stack@pod1-ospd ~]$ nova list --field name,status,host,instance_name,power_state | grep uame
Passaggio 3. SSH nell'ESC primario e di backup e confermare che anche lo stato ESC sia stato superato.
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ cat /opt/cisco/esc/keepalived_state
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ health.sh
============== ESC HA with DRBD =================
vimmanager (pgid 14638) is running
monitor (pgid 14703) is running
mona (pgid 14759) is running
snmp is disabled at startup
etsi is disabled at startup
pgsql (pgid 15114) is running
keepalived (pgid 13205) is running
portal is disabled at startup
confd (pgid 15011) is running
filesystem (pgid 0) is running
escmanager (pgid 15300) is running
=======================================
ESC HEALTH PASSED
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ ssh admin@
admin@172.16.181.26's password:
Last login: Fri May 1 10:28:12 2020 from 172.16.180.13
####################################################################
# ESC on scucs501-esc-vnf-esc-core-esc-2 is in BACKUP state.
####################################################################
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ cat /opt/cisco/esc/keepalived_state
BACKUP
Passaggio 4. Confermare in UAME che ESC vnfd è in stato ALIVE.
ubuntu@pod1-uame-1:~$ sudo su
ubuntu@pod1-uame-1:~$ confd_cli -u admin -C
pod1-uame-1# show vnfr state