أستكشاف أخطاء عقدة HA لإدارة مجموعات CNDP وإصلاحها وإعادة تثبيت إعادة نشر Force-VM

خيارات التنزيل

PDF (325.9 KB)
عرض باستخدام Adobe Reader على مجموعة متنوعة من الأجهزة
ePub (135.7 KB)
العرض في تطبيقات مختلفة على iPhone أو iPad أو نظام تشغيل Android أو قارئ Sony أو نظام التشغيل Windows Phone
Mobi (Kindle) (126.8 KB)
عرض على جهاز Kindle أو تطبيق Kindle على أجهزة متعددة

تم التحديث:٣١ مايو ٢٠٢٣

معرّف المستند:220480

لغة خالية من التحيز

تسعى مجموعة الوثائق لهذا المنتج جاهدة لاستخدام لغة خالية من التحيز. لأغراض مجموعة الوثائق هذه، يتم تعريف "خالية من التحيز" على أنها لغة لا تعني التمييز على أساس العمر، والإعاقة، والجنس، والهوية العرقية، والهوية الإثنية، والتوجه الجنسي، والحالة الاجتماعية والاقتصادية، والتمييز متعدد الجوانب. قد تكون الاستثناءات موجودة في الوثائق بسبب اللغة التي يتم تشفيرها بشكل ثابت في واجهات المستخدم الخاصة ببرنامج المنتج، أو اللغة المستخدمة بناءً على وثائق RFP، أو اللغة التي يستخدمها منتج الجهة الخارجية المُشار إليه. تعرّف على المزيد حول كيفية استخدام Cisco للغة الشاملة.

حول هذه الترجمة

ترجمت Cisco هذا المستند باستخدام مجموعة من التقنيات الآلية والبشرية لتقديم محتوى دعم للمستخدمين في جميع أنحاء العالم بلغتهم الخاصة. يُرجى ملاحظة أن أفضل ترجمة آلية لن تكون دقيقة كما هو الحال مع الترجمة الاحترافية التي يقدمها مترجم محترف. تخلي Cisco Systems مسئوليتها عن دقة هذه الترجمات وتُوصي بالرجوع دائمًا إلى المستند الإنجليزي الأصلي (الرابط متوفر).

المحتويات

المقدمة

المتطلبات الأساسية

المتطلبات

المكونات المستخدمة

معلومات أساسية

ما هو برنامج SMI Cluster Manager؟

ما هو الخادم المبتكر؟

المشكلة

إجراءات الصيانة

تعريف البيئات المضيفة

التعرف على تفاصيل نظام المجموعة من الخادم الأولي

قم بإزالة محرك الأقراص الظاهري لمسح نظام التشغيل من الخادم

تشغيل مزامنة نظام المجموعة

مراقبة سجلات مزامنة نظام المجموعة

التحقق

المقدمة

يصف هذا المستند إجراء إسترداد "مدير المجموعة" من خادم البدء في إعداد "نظام النشر الأصلي للسحابة" (CNDP).

المتطلبات الأساسية

المتطلبات

توصي Cisco بأن تكون لديك معرفة بالمواضيع التالية:

البنية الأساسية للخدمات الدقيقة للمشترك (SMI) من Cisco
البنية المعمارية 5G CNDP أو SMI-Bare-metal (BM)
جهاز الكتلة الموزع المنسوخ نسخا متماثلا (DRBD)

المكونات المستخدمة

تستند المعلومات الواردة في هذا المستند إلى إصدارات البرامج والمكونات المادية التالية:

SMI 2020.02.2.35
Kubernetes v1.21.0

تم إنشاء المعلومات الواردة في هذا المستند من الأجهزة الموجودة في بيئة معملية خاصة. بدأت جميع الأجهزة المُستخدمة في هذا المستند بتكوين ممسوح (افتراضي). إذا كانت شبكتك قيد التشغيل، فتأكد من فهمك للتأثير المحتمل لأي أمر.

معلومات أساسية

ما هو برنامج SMI Cluster Manager؟

مدير نظام المجموعة هو عبارة عن مجموعة ثنائية العقد من keepalive يتم إستخدامها كنقطة أولية لكل من نشر مجموعة مستوى التحكم ومستوى المستخدم. وهو يشغل مجموعة Kubernetes أحادية العقدة ومجموعة من PODs المسؤولة عن إعداد نظام المجموعة بالكامل. مدير نظام المجموعة الأساسي فقط نشط بينما يتولى المدير الثانوي فقط في حالة حدوث عطل أو يتم إسقاطه يدويا لإجراء الصيانة.

ما هو الخادم المبتكر؟

تقوم هذه العقدة بإدارة دورة حياة مدير المجموعة (CM) الذي يقع تحته، ومن هنا يمكنك دفع تكوين اليوم0.

عادة ما يتم نشر هذا الخادم في المنطقة أو في مركز البيانات نفسه مثل وظيفة التهيئة من المستوى الأعلى (على سبيل المثال NSO) ويتم تشغيله عادة كجهاز افتراضي (VM).

المشكلة

تتم إستضافة "مدير نظام المجموعة" في نظام مجموعة مكون من عقدتين مع "جهاز الحظر الموزع المكرر" (DRBD)، كما تتم إضافة هذا الجهاز إلى "مدير نظام المجموعة الأساسي" و"مدير نظام المجموعة الثانوي". في هذه الحالة، ينتقل البرنامج الثانوي لإدارة المجموعة إلى حالة إيقاف التشغيل تلقائيا أثناء تهيئة/تثبيت نظام التشغيل في UCS، مما يشير إلى أن نظام التشغيل تالف.

cloud-user@POD-NAME-cm-primary:~$ drbd-overview status
0:data/0 WFConnection Primary/Unknown UpToDate/DUnknown /mnt/stateful_partition ext4 568G 369G 170G 69%

إجراءات الصيانة

تساعد هذه العملية في إعادة تثبيت نظام التشغيل على خادم CM.

تعريف البيئات المضيفة

تسجيل الدخول إلى برنامج Cluster-Manager وتحديد الأجهزة المضيفة:

cloud-user@POD-NAME-cm-primary:~$ cat /etc/hosts | grep 'deployer-cm'
127.X.X.X POD-NAME-cm-primary POD-NAME-cm-primary
X.X.X.X POD-NAME-cm-primary
X.X.X.Y POD-NAME-cm-secondary

التعرف على تفاصيل نظام المجموعة من الخادم الأولي

قم بتسجيل الدخول إلى خادم Start (البدء) وادخل إلى برنامج النشر وتحقق من اسم نظام المجموعة باستخدام Host-IP من برنامج Cluster-Manager.

بعد تسجيل الدخول الناجح إلى خادم البدء، قم بتسجيل الدخول إلى مركز العمليات كما هو موضح هنا.

user@inception-server: ~$ ssh -p 2022 admin@localhost

تحقق من اسم نظام المجموعة من برنامج Cluster Manager SSH-IP (SSH-ip = node SSH ip-address = ucs-server cimc ip address).

[inception-server] SMI Cluster Deployer# show running-config clusters * nodes * k8s ssh-ip | select nodes * ssh-ip | select nodes * ucs-server cimc ip-address | tab
                               SSH 
NAME             NAME          IP     SSH IP           IP ADDRESS 
------------------------------------------------------------------------------
POD-NAME-deployer     cm-primary    -      X.X.X.X          10.X.X.X ---> Verify Name and SSH IP if Cluster is part of inception server SMI.
                 cm-secondary  -      X.X.X.Y          10.X.X.Y

تحقق من تكوين نظام المجموعة الهدف.

[inception-server] SMI Cluster Deployer# show running-config clusters POD-NAME-deployer

قم بإزالة محرك الأقراص الظاهري لمسح نظام التشغيل من الخادم

قم بالاتصال بوحدة التحكم في الوصول (CIMC) الخاصة بالمضيف المتضرر وأمسح محرك أقراص التمهيد واحذف محرك الأقراص الظاهري (VD).

a) CIMC > Storage > Cisco 12G Modular Raid Controller > Storage Log > Clear Boot Drive
b) CIMC > Storage > Cisco 12G Modular Raid Controller > Virtual drive > Select the virtual drive > Delete Virtual Drive

Delete VD large copy

تشغيل مزامنة نظام المجموعة

قم بتشغيل مزامنة نظام المجموعة الافتراضية ل Cluster-Manager من الخادم الأصلي.

[inception-server] SMI Cluster Deployer# clusters POD-NAME-deployer actions sync run debug true
This will run sync. Are you sure? [no,yes] yes
message accepted
[inception-server] SMI Cluster Deployer#

في حالة فشل ميزة مزامنة نظام المجموعة الافتراضية، فعليك تنفيذ خيار مزامنة نظام المجموعة مع إعادة نشر برنامج Force-VM لإكمال عملية إعادة التثبيت (قد يستغرق إكمال نشاط مزامنة نظام المجموعة ما بين 45 إلى 55 دقيقة تقريبا، وهذا يعتمد على عدد العقد المستضافة على نظام المجموعة)

[inception-server] SMI Cluster Deployer# clusters POD-NAME-deployer actions sync run debug true force-vm-redeploy true
This will run sync. Are you sure? [no,yes] yes
message accepted
[inception-server] SMI Cluster Deployer#

مراقبة سجلات مزامنة نظام المجموعة

[inception-server] SMI Cluster Deployer# monitor sync-logs POD-NAME-deployer
2023-02-23 10:15:07.548 DEBUG cluster_sync.POD-NAME: Cluster name: POD-NAME 
2023-02-23 10:15:07.548 DEBUG cluster_sync.POD-NAME: Force VM Redeploy: true
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: Force partition Redeploy: false 
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: reset_k8s_nodes: false 
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: purge_data_disks: false 
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: upgrade_strategy: auto 
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: sync_phase: all 
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: debug: true 
...
...
...

تمت إعادة توفير الخادم وتثبيته بواسطة مزامنة نظام المجموعة الناجحة.

PLAY RECAP *********************************************************************
cm-primary :   ok=535 changed=250 unreachable=0 failed=0 skipped=832 rescued=0 ignored=0 
cm-secondary : ok=299 changed=166 unreachable=0 failed=0 skipped=627 rescued=0 ignored=0 
localhost :    ok=59  changed=8   unreachable=0 failed=0 skipped=18  rescued=0 ignored=0 

Thursday 23 February 2023 13:17:24 +0000 (0:00:00.109) 0:56:20.544 *****. ---> ~56 mins to complete cluster sync

===============================================================================

2023-02-23 13:17:24.539 DEBUG cluster_sync.POD-NAME: Cluster sync successful
2023-02-23 13:17:24.546 DEBUG cluster_sync.POD-NAME: Ansible sync done
2023-02-23 13:17:24.546 INFO cluster_sync.POD-NAME: _sync finished. Opening lock

التحقق

تحقق من إمكانية الوصول إلى "إدارة نظام المجموعة المتأثرة"، كما أن نظرة عامة على DRBD لمديري نظام المجموعة الأساسيين والثانويين في حالة UpDate.

cloud-user@POD-NAME-cm-primary:~$ ping X.X.X.Y
PING X.X.X.Y (X.X.X.Y) 56(84) bytes of data.
64 bytes from X.X.X.Y: icmp_seq=1 ttl=64 time=0.221 ms
64 bytes from X.X.X.Y: icmp_seq=2 ttl=64 time=0.165 ms
64 bytes from X.X.X.Y: icmp_seq=3 ttl=64 time=0.151 ms
64 bytes from X.X.X.Y: icmp_seq=4 ttl=64 time=0.154 ms
64 bytes from X.X.X.Y: icmp_seq=5 ttl=64 time=0.172 ms
64 bytes from X.X.X.Y: icmp_seq=6 ttl=64 time=0.165 ms
64 bytes from X.X.X.Y: icmp_seq=7 ttl=64 time=0.174 ms

--- X.X.X.Y ping statistics ---
7 packets transmitted, 7 received, 0% packet loss, time 6150ms
rtt min/avg/max/mdev = 0.151/0.171/0.221/0.026 ms

cloud-user@POD-NAME-cm-primary:~$ drbd-overview status
0:data/0 Connected Primary/Secondary UpToDate/UpToDate /mnt/stateful_partition ext4 568G 17G 523G 4%

يتم تثبيت مدير نظام المجموعة المتأثر وإعادة تزويده للشبكة بنجاح.

محفوظات المراجعة

المراجعة	تاريخ النشر	التعليقات
1.0	31-May-2023	الإصدار الأولي

تمت المساهمة بواسطة مهندسو Cisco

Himanshu Bisht
Cisco TAC Engineer
Adithian Arathi
Cisco Technical Leader

هل كان هذا المستند مفيدًا؟

التعليقات

اتصل بنا

فتح حالة دعم
(تتطلب عقد خدمة Cisco)