المقدمة
يوضح هذا المستند كيفية التعرف على نظام الحوسبة الموحدة (UCS) والتحقق من إدخالات الأخطاء الموجودة عليه في نظام النشر الأصلي للسحابة (CNDP).
معلومات أساسية
يتم الإبلاغ عن التنبيهات المتعلقة بالأجهزة في بيئة التنفيذ المشتركة (CEE) الخاصة بإدارة مجموعات الخدمات الدقيقة (SMI) للمشترك الأساسي في بنية الشبكة الفائقة (Ultra Cloud). Kubernetes (K8s)، docker، وهكذا معلومات ذات صلة يتم الإبلاغ عنها في ال CM فعلي عنوان (VIP).
تحذير: يرجى الرجوع إلى استبيان تصميم الشبكة ومعلومات العملاء (CIQ) للتحقق من عناوين IP.
المشكلة
تم الإبلاغ عن الخطأ "Equipment Alarm" في تنبيهات العرض.
- سجل الدخول إلى CM-CEE، وقم بتشغيل الأمر show alerts active detail، وإظهار ملخص محفوظات التنبيهات لعرض جميع تنبيهات المحفوظات النشطة.
- لاحظ IP الخاص بالخادم الذي تم الإبلاغ عنه في التنبيه.
[lab-deployer/labceec01] cee# show alerts active detail
alerts active detail server-alert 9c367ce5ee48
severity major
type "Equipment Alarm"
startsAt 2021-10-27T17:10:37.025Z
source 10.10.10.10
summary "DDR4_P1_C1_ECC: DIMM 5 is inoperable : Check or replace DIMM"
labels [ "alertname: server-alert" "cluster: cr-chr-deployer" "description: DDR4_P1_C1_ECC: DIMM 5 is inoperable : Check or replace DIMM" "fault_id: sys/rack-unit-1/board/memarray-1/mem-5/fault-F0185" "id: 134219020" "monitor: prometheus" "replica: cr-chr-deployer" "server: 10.10.10.10" "severity: major" ]
annotations [ "dn: cr-chr-deployer/10.10.10.10/sys/rack-unit-1/board/memarray-1/mem-5/fault-F0185/134219020" "summary: DDR4_P1_C1_ECC: DIMM 5 is inoperable : Check or replace DIMM" "type: Equipment Alarm" ]
[lab-deployer/labceec01] cee# show alerts history summary
NAME UID SEVERITY STARTS AT DURATION SOURCE SUMMARY
---------------------------------------------------------------------------------------------
vm-alive f6a65030b593 minor 09-02T10:28:28 1m40s 10-192-0-13 labd0123 is alive.
vm-error 3a6d840e3eda major 09-02T10:27:18 1m 10-192-0-13 labd0123 is down.
vm-alive 49b2c1941dc6 minor 09-02T10:25:38 1m40s 10-192-0-14 labd0123 is alive.
الحل
حدد الخدمات (الحاويات) و/أو الجهاز الظاهري (VM) أو الجهاز الظاهري (KVM) القائم على Kernel الذي تتم إستضافته على الخادم في SMI CM، وقم بتشغيل الأمر show running-config والعثور على تكوين IP للخادم.
- سجل الدخول إلى CM VIP (username: cloud-user)
- الحصول على IP من مركز OPS لمساحة الاسم smi-cm
- قم بتسجيل الدخول إلى مركز OPS، ثم تحقق من تكوين نظام المجموعة
- التعرف على العقد والأجهزة الافتراضية (VM) التي تعمل على الخادم
cloud-user@lab-deployer-cm-primary:~$ kubectl get svc -n smi-cm
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
cluster-files-offline-smi-cluster-deployer ClusterIP 10.102.200.178 <none> 8080/TCP 98d
iso-host-cluster-files-smi-cluster-deployer ClusterIP 10.102.100.208 192.168.1.102 80/TCP 98d
iso-host-ops-center-smi-cluster-deployer ClusterIP 10.102.200.73 192.168.1.102 3001/TCP 98d
netconf-ops-center-smi-cluster-deployer ClusterIP 10.102.100.207 192.168.184.193 3022/TCP,22/TCP 98d
ops-center-smi-cluster-deployer ClusterIP 10.10.20.20 <none> 8008/TCP,2024/TCP,2022/TCP,7681/TCP,3000/TCP,3001/TCP 98d
squid-proxy-node-port NodePort 10.102.60.114 <none> 3128:32261/TCP 98d
cloud-user@lab-deployer-cm-primary:~$ ssh -p 2024 admin@10.10.20.20
admin@10.10.20.20's password:
Welcome to the Cisco SMI Cluster Deployer on lab-deployer-cm-primary
Copyright © 2016-2020, Cisco Systems, Inc.
All rights reserved.
admin connected from 192.168.1.100 using ssh on ops-center-smi-cluster-deployer-7848c69844-xzdw6
[lab-deployer-cm-primary] SMI Cluster Deployer# show running-config clusters
مثال إخراج للحاويات
في هذا المثال، يتم إستخدام الخادم بواسطة عقدة primary-1.
[lab-deployer-cm-primary] SMI Cluster Deployer# show running-config clusters lab01-smf nodes primary-1
clusters lab01-smf
nodes primary-1
maintenance false
k8s node-type primary
k8s ssh-ip 10.192.10.22
k8s sshd-bind-to-ssh-ip true
k8s node-ip 10.192.10.22
k8s node-labels smi.cisco.com/node-type oam
exit
k8s node-labels smi.cisco.com/node-type-1 proto
exit
ucs-server cimc user admin
ucs-server cimc ip-address 10.10.10.10
مثال إخراج الأجهزة الافتراضية
يمكن إستخدام الخادم ل KVM-based.
في هذا المثال، يحتوي الخادم على وظائف مستوى المستخدم (UPFs) - UPF1 و UPF2.
[lab-deployer-cm-primary] SMI Cluster Deployer# show running-config clusters lab01-upf nodes labupf
clusters lab01-upf
nodes labupf
maintenance false
ssh-ip 10.192.30.7
type kvm
vms upf1
upf software lab...
...
type upf
exit
vms upf2
upf software lab...
...
type upf
exit
ucs-server cimc user admin
...
ucs-server cimc ip-address 10.10.10.10
...
exit
SSH إلى مضيف UCS
قم بالاتصال بمضيف UCS والتحقق من إدخالات الأعطال باستخدام خطأ النطاق، وأبديت إدخالات الأعطال، وأبديت محفوظات الأعطال.
labucs111-cmp1-11 /fault # show fault-entries
Time Severity Description ------------------------- ------------- ---------------------------------------
2021-03-26T10:10:10 major "DDR4_P1_C1_ECC: DIMM 19 is inoperable : Check or replace DIMM"
LABCP0222-Server22-02 /fault # show fault-history
Time Severity Source Cause Description
------------------- ------------- --------------- ------------------------- ----------------------------------------
2021 Dec 10 02:02:02 UTC info %CIMC EQUIPMENT_INOPERABLE "[F0174][cleared][equipment-inoperable][sys/rack-unit-1/board] IERR: A catastrophic fault has occurred on one of the processors: Cleared "
2021 Dec 1 01:01:01 UTC critical %CIMC EQUIPMENT_INOPERABLE "[F0174][critical][equipment-inoperable][sys/rack-unit-1/board] IERR: A catastrophic fault has occurred on one of the processors: Please check the processor's status. "