Dépannage des problèmes de serveur dans la solution CNDP

Options de téléchargement

PDF (167.8 KB)
Consulter à l'aide d'Adobe Reader sur un grand nombre d'appareils
ePub (84.0 KB)
Consulter à l’aide de différentes applications sur iPhone, iPad, Android ou Windows Phone
Mobi (Kindle) (70.3 KB)
Consulter sur un appareil Kindle ou à l’aide d’une application Kindle sur plusieurs appareils

Mis à jour:26 mai 2022

ID du document:217899

Langage exempt de préjugés

Dans le cadre de la documentation associée à ce produit, nous nous efforçons d’utiliser un langage exempt de préjugés. Dans cet ensemble de documents, le langage exempt de discrimination renvoie à une langue qui exclut la discrimination en fonction de l’âge, des handicaps, du genre, de l’appartenance raciale de l’identité ethnique, de l’orientation sexuelle, de la situation socio-économique et de l’intersectionnalité. Des exceptions peuvent s’appliquer dans les documents si le langage est codé en dur dans les interfaces utilisateurs du produit logiciel, si le langage utilisé est basé sur la documentation RFP ou si le langage utilisé provient d’un produit tiers référencé. Découvrez comment Cisco utilise le langage inclusif.

À propos de cette traduction

Cisco a traduit ce document en traduction automatisée vérifiée par une personne dans le cadre d’un service mondial permettant à nos utilisateurs d’obtenir le contenu d’assistance dans leur propre langue. Il convient cependant de noter que même la meilleure traduction automatisée ne sera pas aussi précise que celle fournie par un traducteur professionnel.

Contenu

Introduction

Informations générales

Problème

Solution

Exemple de sortie pour les conteneurs

Exemple de sortie pour les machines virtuelles

SSH dans l'hôte UCS

Introduction

Ce document décrit comment identifier un système UCS (Unified Computing System) et vérifier les entrées d'erreur sur celui-ci dans la plate-forme de déploiement natif du cloud (CNDP).

Informations générales

Les alertes liées au matériel sont signalées dans l'environnement d'exécution commun (CEE) de l'infrastructure de microservices d'abonné Ultra Cloud Core (SMI) Cluster Manager (CM). Les Kubernetes (K8s), docker, etc., sont signalés dans l'adresse IP virtuelle (VIP) de CM.

Attention : Pour vérifier les adresses IP, reportez-vous au questionnaire de conception de réseau et d'informations sur le client (CIQ).

Problème

L'erreur « Equipment Alarm » est signalée dans show alert.

Connectez-vous à CM-CEE, exécutez la commande show alert active detail et show alert history summary afin d'afficher toutes les alertes actives et historiques.
Notez l'adresse IP du serveur signalée dans l'alerte.

[lab-deployer/labceec01] cee# show alerts active detail 
alerts active detail server-alert 9c367ce5ee48
 severity    major
 type        "Equipment Alarm"
 startsAt    2021-10-27T17:10:37.025Z
 source      10.10.10.10
 summary     "DDR4_P1_C1_ECC: DIMM 5 is inoperable : Check or replace DIMM"
 labels      [ "alertname: server-alert" "cluster: cr-chr-deployer" "description: DDR4_P1_C1_ECC: DIMM 5 is inoperable : Check or replace DIMM" "fault_id: sys/rack-unit-1/board/memarray-1/mem-5/fault-F0185" "id: 134219020" "monitor: prometheus" "replica: cr-chr-deployer" "server: 10.10.10.10" "severity: major" ]
 annotations [ "dn: cr-chr-deployer/10.10.10.10/sys/rack-unit-1/board/memarray-1/mem-5/fault-F0185/134219020" "summary: DDR4_P1_C1_ECC: DIMM 5 is inoperable : Check or replace DIMM" "type: Equipment Alarm" ]

[lab-deployer/labceec01] cee# show alerts history summary
NAME      UID           SEVERITY  STARTS AT       DURATION  SOURCE       SUMMARY            
---------------------------------------------------------------------------------------------
vm-alive  f6a65030b593  minor     09-02T10:28:28  1m40s     10-192-0-13  labd0123 is alive. 
vm-error  3a6d840e3eda  major     09-02T10:27:18  1m        10-192-0-13  labd0123 is down.  
vm-alive  49b2c1941dc6  minor     09-02T10:25:38  1m40s     10-192-0-14  labd0123 is alive.

Solution

Identifiez les services (conteneurs) et/ou la machine virtuelle (VM) ou la machine virtuelle basée sur le noyau (KVM) qui est hébergée sur le serveur dans SMI CM, exécutez la commande show running-config et recherchez la configuration de l'adresse IP du serveur.

Connectez-vous au VIP CM (nom d'utilisateur : utilisateur cloud)
Obtenir l'adresse IP de OPS Center pour l'espace de noms smi-cm
Connectez-vous au centre OPS et vérifiez la configuration du cluster
Identifier les noeuds et les machines virtuelles qui s'exécutent sur le serveur

cloud-user@lab-deployer-cm-primary:~$ kubectl get svc -n smi-cm
NAME                                          TYPE        CLUSTER-IP       EXTERNAL-IP      PORT(S)                                                 AGE
cluster-files-offline-smi-cluster-deployer    ClusterIP   10.102.200.178   <none>           8080/TCP                                                98d
iso-host-cluster-files-smi-cluster-deployer   ClusterIP   10.102.100.208     192.168.1.102    80/TCP                                                  98d
iso-host-ops-center-smi-cluster-deployer      ClusterIP   10.102.200.73    192.168.1.102    3001/TCP                                                98d
netconf-ops-center-smi-cluster-deployer       ClusterIP   10.102.100.207   192.168.184.193   3022/TCP,22/TCP                                         98d
ops-center-smi-cluster-deployer               ClusterIP   10.10.20.20     <none>           8008/TCP,2024/TCP,2022/TCP,7681/TCP,3000/TCP,3001/TCP   98d
squid-proxy-node-port                         NodePort    10.102.60.114    <none>           3128:32261/TCP                                          98d

cloud-user@lab-deployer-cm-primary:~$ ssh -p 2024 admin@10.10.20.20
admin@10.10.20.20's password:
      Welcome to the Cisco SMI Cluster Deployer on lab-deployer-cm-primary
      Copyright © 2016-2020, Cisco Systems, Inc.
      All rights reserved.
admin connected from 192.168.1.100 using ssh on ops-center-smi-cluster-deployer-7848c69844-xzdw6
[lab-deployer-cm-primary] SMI Cluster Deployer# show running-config clusters

Exemple de sortie pour les conteneurs

Dans cet exemple, le serveur est utilisé par le noeud primaire-1.

[lab-deployer-cm-primary] SMI Cluster Deployer# show running-config clusters lab01-smf nodes primary-1
clusters lab01-smf
nodes primary-1
  maintenance false
  k8s node-type       primary
  k8s ssh-ip          10.192.10.22
  k8s sshd-bind-to-ssh-ip true
  k8s node-ip         10.192.10.22
  k8s node-labels smi.cisco.com/node-type oam
  exit
  k8s node-labels smi.cisco.com/node-type-1 proto
  exit
  ucs-server cimc user admin
  ucs-server cimc ip-address 10.10.10.10

Exemple de sortie pour les machines virtuelles

Le serveur peut être utilisé pour la machine virtuelle KVM.

Dans cet exemple, le serveur a des fonctions de plan utilisateur (UPF) - upf1 et upf2.

[lab-deployer-cm-primary] SMI Cluster Deployer# show running-config clusters lab01-upf nodes labupf
clusters lab01-upf
nodes labupf
  maintenance false
  ssh-ip      10.192.30.7
  type        kvm
  vms upf1
   upf software lab...
...
   type upf
  exit
  vms upf2
   upf software lab...
...
   type upf
  exit
  ucs-server cimc user admin
...
  ucs-server cimc ip-address 10.10.10.10
...
  exit

SSH dans l'hôte UCS

Connectez-vous à l'hôte UCS et vérifiez les entrées d'erreur avec une erreur d'étendue, affichez les entrées d'erreur et affichez l'historique des erreurs.

labucs111-cmp1-11 /fault # show fault-entries 
Time Severity Description ------------------------- ------------- --------------------------------------- 
2021-03-26T10:10:10 major "DDR4_P1_C1_ECC: DIMM 19 is inoperable : Check or replace DIMM"

LABCP0222-Server22-02 /fault # show fault-history
Time                Severity      Source          Cause                     Description                             
------------------- ------------- --------------- ------------------------- ----------------------------------------
2021 Dec 10 02:02:02 UTC info          %CIMC           EQUIPMENT_INOPERABLE      "[F0174][cleared][equipment-inoperable][sys/rack-unit-1/board] IERR: A catastrophic fault has occurred on one of the processors: Cleared "
2021 Dec 1 01:01:01 UTC critical      %CIMC           EQUIPMENT_INOPERABLE      "[F0174][critical][equipment-inoperable][sys/rack-unit-1/board] IERR: A catastrophic fault has occurred on one of the processors: Please check the processor's status. "

Historique de révision

Révision	Date de publication	Commentaires
1.0	26-May-2022	Première publication

Contribution d’experts de Cisco

Cinthia Janneth Martinez
Ingénieur TAC Cisco
Nebojsa Kosanovic
Ingénieur TAC Cisco

Ce document vous est-il utile?

Commentaires

Contacter Cisco

Ouvrir un dossier d’assistance
(Un contrat de service de Cisco est requis)

Dépannage des problèmes de serveur dans la solution CNDP

Options de téléchargement

Langage exempt de préjugés

À propos de cette traduction

Contenu

Introduction

Informations générales

Problème

Solution

Exemple de sortie pour les conteneurs

Exemple de sortie pour les machines virtuelles

SSH dans l'hôte UCS

Historique de révision

Contribution d’experts de Cisco

Ce document vous est-il utile?

Contacter Cisco

Ce document s’applique à ces produits