المقدمة
يوضح هذا المستند كيفية إستعادة محرك الأتمتة والمراقبة Ultra Automation and Monitoring Engine (UAME) من تسرب الذاكرة في مشكلة UAME - CSCvu73187
المشكلة
تنبيه وحدة التحكم المرنة في الخدمات (ESC) على جهاز العرض الصحي Ultra M:
[root@pod1-ospd ~]# cat /var/log/cisco/ultram-health/*.report | grep -i xxx
10.10.10.10/vnf-esc | esc | XXX | vnf-esc:(error)
الحل
فحص الحالة
الخطوة 1. سجل الدخول إلى مدير النظام الأساسي ل OpenStack (OSP-D) وتحقق من أخطاء VNF-ESC.
[stack@pod1-ospd ~]$ cat /var/log/cisco/ultram-health/*.report | grep -i xxx
[stack@pod1-ospd ~]$ cat /var/log/cisco/ultram-health/*.report | grep -iv ':-)'
الخطوة 2. تأكد من عدم قدرتك على تسجيل الدخول إلى UAME عبر الإدارة IP 10.241.179.116 ولكن IP قابل للإدخال:
(pod1) [stack@pod1-ospd ~]$ ssh ubuntu@10.10.10.10
ssh_exchange_identification: read: Connection reset by peer
(pod1) [stack@pod1-ospd ~]$ ping -c 5 10.10.10.10
PING 10.10.10.10 (10.10.10.10) 56(84) bytes of data.
64 bytes from 10.10.10.10: icmp_seq=1 ttl=57 time=0.242 ms
64 bytes from 10.10.10.10: icmp_seq=2 ttl=57 time=0.214 ms
64 bytes from 10.10.10.10: icmp_seq=3 ttl=57 time=0.240 ms
64 bytes from 10.10.10.10: icmp_seq=4 ttl=57 time=0.255 ms
64 bytes from 10.10.10.10: icmp_seq=5 ttl=57 time=0.240 ms
--- 10.10.10.10 ping statistics ---
5 packets transmitted, 5 received, 0% packet loss, time 4000ms
rtt min/avg/max/mdev = 0.214/0.238/0.255/0.016 ms
الخطوة 3. تأكد من أن الأجهزة الافتراضية (VM) المتعلقة ب ESC و UAME نشطة وتعمل على OSP-D.
[stack@pod1-ospd ~]$ source *core
(pod1) [stack@pod1-ospd ~]$
(pod1) [stack@pod1-ospd ~]$ nova list --field name,status,host,instance_name,power_state | grep esc
| 31416ffd-0719-4ce5-9e99-a1234567890e | pod1-uame-1 | ACTIVE | - | Running | pod1-AUTOMATION-ORCH=172.16.180.15; pod1-AUTOMATION-MGMT=172.16.181.33 |
| d6830e97-bd82-4d8e-9467-a1234567890e | pod1-uame-2 | ACTIVE | - | Running | pod1-AUTOMATION-ORCH=172.16.180.8; pod1-AUTOMATION-MGMT=172.16.181.12
(pod1) [stack@pod1-ospd ~]$ nova list --field name,status,host,instance_name,power_state | grep uame
| 0c1596bc-e50f-4374-9098-a1234567890e | pod1-esc-vnf-esc-core-esc-1 | ACTIVE | - | Running | pod1-AUTOMATION-ORCH=172.16.180.10; pod1-AUTOMATION-MGMT=172.16.181.10 |
| 3875618d-dcbe-4748-b196-a1234567890e | pod1-esc-vnf-esc-core-esc-2 | ACTIVE | - | Running | pod1-AUTOMATION-ORCH=172.16.180.18; pod1-AUTOMATION-MGMT=172.16.181.5
الخطوة 4. تأكد من قدرتك على الاتصال ب ESC الأساسي والنسخ الاحتياطي. تحقق من تمرير صحة ESC أيضا.
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ cat /opt/cisco/esc/keepalived_state
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ health.sh
============== ESC HA with DRBD =================
vimmanager (pgid 14654) is running
monitor (pgid 14719) is running
mona (pgid 14830) is running
snmp is disabled at startup
etsi is disabled at startup
pgsql (pgid 15130) is running
keepalived (pgid 13083) is running
portal is disabled at startup
confd (pgid 15027) is running
filesystem (pgid 0) is running
escmanager (pgid 15316) is running
=======================================
ESC HEALTH PASSED
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ ssh admin@172.16.180.12
####################################################################
# ESC on pod1-esc-vnf-esc-core-esc-2 is in BACKUP state.
####################################################################
[admin@pod1-esc-vnf-esc-core-esc-1 ~]$ cat /opt/cisco/esc/keepalived_state
BACKUP
خطوات الاسترداد
الخطوة 1. سجل الدخول إلى وحدة تحكم لوحة معلومات الأفق لمثيل pod1-uame-2.
الخطوة 2. إعادة تمهيد ناعم لمثيل VM pod1-uame-2 من لوحة معلومات الأفق. لاحظ رسائل سجل وحدة التحكم الخاصة بالمثيل.
الخطوة 3. بمجرد ظهور مطالبة تسجيل الدخول في وحدة التحكم الخاصة بمثيل POD1-UAME-2 VM من لوحة معلومات الأفق، قم ببدء تشغيل SSH في وحدة التحكم في الشبكة النمطية للخدمات اللاسلكية (UAME) من خلال إدارتها IP 10.10.10.10
(pod1) [stack@pod1-ospd ~]$ ssh ubuntu@10.10.10.10
ملاحظة: انتقل إلى الخطوة التالية فقط في حالة نجاح هذه الخطوة.
الخطوة 4. تحقق من مساحة القرص الخاصة ب /dev/vda3 filesystem على UAME الأساسي.
ubuntu@pod1-uame-1:~$ df -kh
الخطوة 5. اقتطاع ملف syslog أو syslog.1 (حجم ملف أكبر من الملفين، عادة بالميغابايت أو غيغابايت) على UAME الأساسي.
ubuntu@pod1-uame-1:~$ sudo su -
root@pod1-uame-1:~#
root@pod1-uame-1:~# cd /var/log
root@pod1-uame-1:/var/log# ls -lrth *syslog*
root@pod1-uame-1:/var/log# > syslog.1 or > syslog
الخطوة 6. تأكد من أن حجم ملف syslog أو syslog.1 الآن هو 0 بايت على UAME الأساسي.
root@pod1-uame-1:/var/log# ls -lrth *syslog*
الخطوة 7. تأكد من أنه يجب أن يكون ل df -kh مساحة حرة كافية لتقسيم نظام الملفات على UAME الأساسي.
ubuntu@pod1-uame-1:~$ df -kh
بروتوكول طبقة الأمان (SSH) إلى UAME الثانوي.
ubuntu@pod1-uame-1:~$ ssh ubuntu@172.16.180.8
password:
...
ubuntu@pod1-uame-2:~$
الخطوة 8. اقتطاع ملف syslog أو syslog.1 (حجم ملف أكبر من الملفين، عادة بالميغابايت أو غيغابايت) على UAME الثانوي.
ubuntu@pod1-uame-2:~$ sudo su -
root@pod1-uame-2:~#
root@pod1-uame-2:~# cd /var/log
root@pod1-uame-2:/var/log# ls -lrth *syslog*
root@pod1-uame-2:/var/log# > syslog.1 or > syslog
الخطوة 9. تأكد من أن حجم ملف syslog أو syslog.1 الآن هو 0 بايت على UAME الثانوي.
root@pod1-uame-2:/var/log# ls -lrth *syslog*
الخطوة 10. تأكد من أنه يجب أن يحتوي DF -kh على مساحة حرة كافية لتقسيم نظام الملفات على UAME الثانوي.
ubuntu@pod1-uame-2:~$ df -kh
بعد التحقق من حالة الاسترداد
الخطوة 1. انتظر تكرار واحد على الأقل من Ultra M Health Monitor لتأكيد عدم ظهور أخطاء VNF-ESC في تقرير الصحة.
[stack@pod1-ospd ~]$ cat /var/log/cisco/ultram-health/*.report | grep -i xxx
[stack@pod1-ospd ~]$ cat /var/log/cisco/ultram-health/*.report | grep -iv ':-)'
الخطوة 2. تأكيد أن ESC و UAME VMs نشطة ومشغلة على OSPD.
[stack@pod1-ospd ~]$ source *core
(pod1) [stack@pod1-ospd ~]$ nova list --field name,status,host,instance_name,power_state | grep esc
(pod1) [stack@pod1-ospd ~]$ nova list --field name,status,host,instance_name,power_state | grep uame
الخطوة 3. SSH في مركز ESC الأساسي والنسخ الاحتياطي وتأكد من تمرير صحة ESC أيضا.
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ cat /opt/cisco/esc/keepalived_state
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ health.sh
============== ESC HA with DRBD =================
vimmanager (pgid 14638) is running
monitor (pgid 14703) is running
mona (pgid 14759) is running
snmp is disabled at startup
etsi is disabled at startup
pgsql (pgid 15114) is running
keepalived (pgid 13205) is running
portal is disabled at startup
confd (pgid 15011) is running
filesystem (pgid 0) is running
escmanager (pgid 15300) is running
=======================================
ESC HEALTH PASSED
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ ssh admin@
admin@172.16.181.26's password:
Last login: Fri May 1 10:28:12 2020 from 172.16.180.13
####################################################################
# ESC on scucs501-esc-vnf-esc-core-esc-2 is in BACKUP state.
####################################################################
[admin@pod1-esc-vnf-esc-core-esc-2 ~]$ cat /opt/cisco/esc/keepalived_state
BACKUP
الخطوة 4. تأكد في UAME أن ESC VNFD في حالة "حي".
ubuntu@pod1-uame-1:~$ sudo su
ubuntu@pod1-uame-1:~$ confd_cli -u admin -C
pod1-uame-1# show vnfr state