Introducción
Este documento describe cómo recuperar Ultra Automation and Monitoring Engine (UAME) del problema de fuga de memoria en UAME - CSCvu73187
Problema
La alarma Elastic Services Controller (ESC) en el monitor de estado Ultra M:
[root@pod1-ospd ~]# cat /var/log/cisco/ultram-health/*.report | grep -i xxx
10.10.10.10/vnf-esc | esc | XXX | vnf-esc:(error)
Solución
Comprobación de estado
Paso 1. Inicie sesión en OpenStack Platform Director (OSP-D) y verifique los errores de vnf-esc.
[stack@pod1-ospd ~]$ cat /var/log/cisco/ultram-health/*.report | grep -i xxx
[stack@pod1-ospd ~]$ cat /var/log/cisco/ultram-health/*.report | grep -iv ':-)'
Paso 2. Confirme que no puede iniciar sesión en UAME a través de IP de administración 10.241.179.116, pero IP es ping:
(pod1) [stack@pod1-ospd ~]$ ssh ubuntu@10.10.10.10
ssh_exchange_identification: read: Connection reset by peer
(pod1) [stack@pod1-ospd ~]$ ping -c 5 10.10.10.10
PING 10.10.10.10 (10.10.10.10) 56(84) bytes of data.
64 bytes from 10.10.10.10: icmp_seq=1 ttl=57 time=0.242 ms
64 bytes from 10.10.10.10: icmp_seq=2 ttl=57 time=0.214 ms
64 bytes from 10.10.10.10: icmp_seq=3 ttl=57 time=0.240 ms
64 bytes from 10.10.10.10: icmp_seq=4 ttl=57 time=0.255 ms
64 bytes from 10.10.10.10: icmp_seq=5 ttl=57 time=0.240 ms
--- 10.10.10.10 ping statistics ---
5 packets transmitted, 5 received, 0% packet loss, time 4000ms
rtt min/avg/max/mdev = 0.214/0.238/0.255/0.016 ms
Paso 3. Confirme que las VM relacionadas con ESC y UAME estén ACTIVAS y se ejecuten en OSP-D.
[stack@pod1-ospd ~]$ source *core
(pod1) [stack@pod1-ospd ~]$
(pod1) [stack@pod1-ospd ~]$ nova list --field name,status,host,instance_name,power_state | grep esc
| 31416ffd-0719-4ce5-9e99-a1234567890e | pod1-uame-1 | ACTIVE | - | Running | pod1-AUTOMATION-ORCH=172.16.180.15; pod1-AUTOMATION-MGMT=172.16.181.33 |
| d6830e97-bd82-4d8e-9467-a1234567890e | pod1-uame-2 | ACTIVE | - | Running | pod1-AUTOMATION-ORCH=172.16.180.8; pod1-AUTOMATION-MGMT=172.16.181.12
(pod1) [stack@pod1-ospd ~]$ nova list --field name,status,host,instance_name,power_state | grep uame
| 0c1596bc-e50f-4374-9098-a1234567890e | pod1-esc-vnf-esc-core-esc-1 | ACTIVE | - | Running | pod1-AUTOMATION-ORCH=172.16.180.10; pod1-AUTOMATION-MGMT=172.16.181.10 |
| 3875618d-dcbe-4748-b196-a1234567890e | pod1-esc-vnf-esc-core-esc-2 | ACTIVE | - | Running | pod1-AUTOMATION-ORCH=172.16.180.18; pod1-AUTOMATION-MGMT=172.16.181.5
Paso 4. Confirme que puede conectarse a la ESC principal y de copia de seguridad. Verifique que el estado ESC también se haya pasado.
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ cat /opt/cisco/esc/keepalived_state
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ health.sh
============== ESC HA with DRBD =================
vimmanager (pgid 14654) is running
monitor (pgid 14719) is running
mona (pgid 14830) is running
snmp is disabled at startup
etsi is disabled at startup
pgsql (pgid 15130) is running
keepalived (pgid 13083) is running
portal is disabled at startup
confd (pgid 15027) is running
filesystem (pgid 0) is running
escmanager (pgid 15316) is running
=======================================
ESC HEALTH PASSED
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ ssh admin@172.16.180.12
####################################################################
# ESC on pod1-esc-vnf-esc-core-esc-2 is in BACKUP state.
####################################################################
[admin@pod1-esc-vnf-esc-core-esc-1 ~]$ cat /opt/cisco/esc/keepalived_state
BACKUP
Pasos de recuperación
Paso 1. Inicie sesión en la consola del panel de Horizonte para la instancia pod1-uame-2.
Paso 2. Soft Reinicie la instancia de VM pod1-uame-2 desde el panel de Horizonte. Observe los mensajes del registro de la consola de la instancia.
Paso 3. Una vez que se muestra el mensaje de inicio de sesión en la consola de la instancia de VM pod1-uame-2 desde el panel de Horizonte, inicie SSH en UAME a través de su IP de administración 10.10.10
(pod1) [stack@pod1-ospd ~]$ ssh ubuntu@10.10.10.10
Nota: Vaya al paso siguiente sólo si este paso se ha realizado correctamente.
Paso 4. Verifique el espacio en disco especialmente para el sistema de archivos /dev/vda3 en UAME primario.
ubuntu@pod1-uame-1:~$ df -kh
Paso 5. Truncate el archivo syslog o syslog.1 (tamaño de archivo más grande de los dos archivos, generalmente en MB o GB) en el UAME primario.
ubuntu@pod1-uame-1:~$ sudo su -
root@pod1-uame-1:~#
root@pod1-uame-1:~# cd /var/log
root@pod1-uame-1:/var/log# ls -lrth *syslog*
root@pod1-uame-1:/var/log# > syslog.1 or > syslog
Paso 6. Asegúrese de que el tamaño del archivo syslog o syslog.1 sea ahora 0 bytes en la UAME primaria.
root@pod1-uame-1:/var/log# ls -lrth *syslog*
Paso 7. Asegúrese de que df -kh tenga suficiente espacio libre para la partición del sistema de archivos en UAME principal.
ubuntu@pod1-uame-1:~$ df -kh
SSH en UAME secundario.
ubuntu@pod1-uame-1:~$ ssh ubuntu@172.16.180.8
password:
...
ubuntu@pod1-uame-2:~$
Paso 8. Trunca el archivo syslog o syslog.1 (tamaño de archivo más grande de los dos archivos, generalmente en MB o GB) en UAME secundario.
ubuntu@pod1-uame-2:~$ sudo su -
root@pod1-uame-2:~#
root@pod1-uame-2:~# cd /var/log
root@pod1-uame-2:/var/log# ls -lrth *syslog*
root@pod1-uame-2:/var/log# > syslog.1 or > syslog
Paso 9. Asegúrese de que el tamaño del archivo syslog o syslog.1 sea ahora 0 bytes en UAME secundario.
root@pod1-uame-2:/var/log# ls -lrth *syslog*
Paso 10. Asegúrese de que df -kh tenga suficiente espacio libre para la partición del sistema de archivos en UAME secundario.
ubuntu@pod1-uame-2:~$ df -kh
Comprobación del estado después de la recuperación
Paso 1. Espere al menos una iteración del monitor de estado Ultra M para confirmar que no se han visto errores vnf-esc en el informe de estado.
[stack@pod1-ospd ~]$ cat /var/log/cisco/ultram-health/*.report | grep -i xxx
[stack@pod1-ospd ~]$ cat /var/log/cisco/ultram-health/*.report | grep -iv ':-)'
Paso 2. Confirme que las VM ESC y UAME estén ACTIVAS y en ejecución en OSPD.
[stack@pod1-ospd ~]$ source *core
(pod1) [stack@pod1-ospd ~]$ nova list --field name,status,host,instance_name,power_state | grep esc
(pod1) [stack@pod1-ospd ~]$ nova list --field name,status,host,instance_name,power_state | grep uame
Paso 3. SSH en el ESC primario y de respaldo y confirme que el estado de ESC también se pasa.
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ cat /opt/cisco/esc/keepalived_state
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ health.sh
============== ESC HA with DRBD =================
vimmanager (pgid 14638) is running
monitor (pgid 14703) is running
mona (pgid 14759) is running
snmp is disabled at startup
etsi is disabled at startup
pgsql (pgid 15114) is running
keepalived (pgid 13205) is running
portal is disabled at startup
confd (pgid 15011) is running
filesystem (pgid 0) is running
escmanager (pgid 15300) is running
=======================================
ESC HEALTH PASSED
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ ssh admin@
admin@172.16.181.26's password:
Last login: Fri May 1 10:28:12 2020 from 172.16.180.13
####################################################################
# ESC on scucs501-esc-vnf-esc-core-esc-2 is in BACKUP state.
####################################################################
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ cat /opt/cisco/esc/keepalived_state
BACKUP
Paso 4. Confirme en UAME que el vnfd ESC está en estado ALIVE.
ubuntu@pod1-uame-1:~$ sudo su
ubuntu@pod1-uame-1:~$ confd_cli -u admin -C
pod1-uame-1# show vnfr state