Introduction
Ce document décrit comment dépanner un problème de redémarrage de machine virtuelle CPS(Cisco Policy Suite) causé par une panne du noyau CentOS.
Problème
Chaque machine virtuelle CPS (qns, lb, pcrfclient, etc.) fonctionne sur CentOS. Ces machines virtuelles peuvent redémarrer en raison d'un problème du côté de CentOS plutôt que d'un problème du côté de l'application CPS. Si un redémarrage se produit en raison d'un problème avec le noyau CentOS, la cause racine ne peut pas être trouvée même si le CPS capture_env est examiné. Les journaux capture_env ne contiennent aucun journal d'erreurs provenant de la machine virtuelle redémarrée pendant le redémarrage. Dans de tels cas, les journaux sous /var/crash peuvent être utilisés pour l'investigation.
Solution
CentOS peut générer un vidage sur incident du noyau lorsque le problème se produit avec le noyau. Par défaut, CPS est configuré pour collecter les vidages de plantage du noyau pour toutes les VM.
L'état peut être vérifié à l'aide de cette commande.
[root@dc1-qns01 ~]# systemctl status kdump.service
● kdump.service - Crash recovery kernel arming
Loaded: loaded (/usr/lib/systemd/system/kdump.service; enabled; vendor preset: enabled)
Active: active (exited) since Tue 2023-01-10 07:29:35 UTC; 4 months 4 days ago
Main PID: 1023 (code=exited, status=0/SUCCESS)
Tasks: 0 (limit: 75300)
Memory: 0
CGroup: /system.slice/kdump.service
Si une panne du noyau se produit alors que kdump.service est activé, un répertoire nommé « address-YYY-MM-DD-HH:MM:SS » est généré sous /var/crash. CentOS génère 2 fichiers dans ce répertoire.
[root@dc1-lb02 127.0.0.1-2022-10-18-06:18:41]# pwd
/var/crash/127.0.0.1-2022-10-18-06:18:41
[root@dc1-lb02 127.0.0.1-2022-10-18-06:18:41]# ls -rtl
total 161436
-rw-r--r-- 1 root root 89787 Oct 18 2022 vmcore-dmesg.txt
-rw------- 1 root root 165215218 Oct 18 2022 vmcore
- vmcore :
Fichier qui stocke le contenu de la mémoire du noyau sous forme de fichier binaire. L'analyse nécessite des outils tels que kernel-debuginfo et crash.
- vmcore-dmesg.txt:
fichier texte dmesg en cas de panne.
Par exemple, dans le journal du côté CPS, les journaux d'erreurs juste avant le redémarrage n'ont pas été confirmés à partir des journaux de la machine virtuelle qui a redémarré. Résultat de l'analyse du côté VMware, le redémarrage a été provoqué par ce journal d'erreurs qui serait causé par le système d'exploitation invité.
The CPU has been disabled by the guest operating system. Power off or reset the virtual machine.
Vérifiez le /var/crash de la machine virtuelle redémarrée, si un répertoire correspond à l'heure de redémarrage. Il s'est avéré que le redémarrage était dû à un problème de noyau du côté de CentOS, et nous avons pu poursuivre l'enquête.