Inleiding
In dit document wordt beschreven hoe CPS(Cisco Policy Suite) problemen kunnen oplossen bij het opnieuw opstarten van VM's als gevolg van CentOS-kernelcrash.
Probleem
Elke CPS VMs (qns, lb, pcrfclient, enzovoort) draait op basis van CentOS. Deze VM kan opnieuw worden opgestart vanwege een probleem aan CentOS-zijde in plaats van een probleem aan CPS-toepassingszijde. Als de computer opnieuw wordt opgestart vanwege een probleem met de CentOS-kernel, kan de oorzaak niet worden gevonden, zelfs niet als de CPS capture_env wordt onderzocht. De capture_env-logbestanden bevatten geen foutlogboeken van herstart VM tijdens herstart. In dergelijke gevallen kunnen de logboeken onder /var/crash worden gebruikt voor onderzoek.
Oplossing
CentOS kan een kernel crash dump genereren als er problemen optreden met kernel. Standaard is CPS ingesteld om crashdumps voor kernel's voor alle VM's te verzamelen.
De status kan met deze opdracht worden gecontroleerd.
[root@dc1-qns01 ~]# systemctl status kdump.service
● kdump.service - Crash recovery kernel arming
Loaded: loaded (/usr/lib/systemd/system/kdump.service; enabled; vendor preset: enabled)
Active: active (exited) since Tue 2023-01-10 07:29:35 UTC; 4 months 4 days ago
Main PID: 1023 (code=exited, status=0/SUCCESS)
Tasks: 0 (limit: 75300)
Memory: 0
CGroup: /system.slice/kdump.service
Als een kernel crash optreedt met kdump.service ingeschakeld, wordt een directory met de naam "address-YYYY-MM-DD-HH:MM:SS" gegenereerd onder /var/crash. CentOS genereert 2 bestanden onder deze map.
[root@dc1-lb02 127.0.0.1-2022-10-18-06:18:41]# pwd
/var/crash/127.0.0.1-2022-10-18-06:18:41
[root@dc1-lb02 127.0.0.1-2022-10-18-06:18:41]# ls -rtl
total 161436
-rw-r--r-- 1 root root 89787 Oct 18 2022 vmcore-dmesg.txt
-rw------- 1 root root 165215218 Oct 18 2022 vmcore
- vmcore:
Een bestand waarin de inhoud van het kernel-geheugen als een binair bestand wordt opgeslagen. Analyse vereist tools zoals kernel-debuginfo en crash.
- vmcore-dmesg.txt:
dmesg-tekstbestand wanneer er een crash optreedt.
In het logbestand aan de CPS-kant werden foutmeldingen net voor de herstart niet bevestigd op basis van logbestanden van de VM die herstart. Analyseresultaat van VMWare kant, de reboot werd veroorzaakt met dit foutlogboek dat door gast OS zou worden veroorzaakt.
The CPU has been disabled by the guest operating system. Power off or reset the virtual machine.
Controleer de /var/crash van de herstart VM, als er een map is die overeenkomt met de herstarttijd. Het bleek dat de reboot te wijten was aan een kernel probleem aan de kant van CentOS, en we waren in staat om verder onderzoek.