排除CPS中的CentOS内核崩溃故障

下载选项

PDF (324.0 KB)
在各种设备上使用 Adobe Reader 查看
ePub (77.8 KB)
在 iPhone、iPad、Android、Sony Reader 或 Windows Phone 上使用各种应用查看
Mobi (Kindle) (61.8 KB)
在 Kindle 设备上查看或在多个设备上使用 Kindle 应用查看

已更新: 2023 年 5 月 18 日

文档 ID:220468

非歧视性语言

此产品的文档集力求使用非歧视性语言。在本文档集中，非歧视性语言是指不隐含针对年龄、残障、性别、种族身份、族群身份、性取向、社会经济地位和交叉性的歧视的语言。由于产品软件的用户界面中使用的硬编码语言、基于 RFP 文档使用的语言或引用的第三方产品使用的语言，文档中可能无法确保完全使用非歧视性语言。深入了解思科如何使用包容性语言。

关于此翻译

思科采用人工翻译与机器翻译相结合的方式将此文档翻译成不同语言，希望全球的用户都能通过各自的语言得到支持性的内容。请注意：即使是最好的机器翻译，其准确度也不及专业翻译人员的水平。 Cisco Systems, Inc. 对于翻译的准确性不承担任何责任，并建议您总是参考英文原始文档（已提供链接）。

简介

本文档介绍如何解决由CentOS内核崩溃引起的CPS(Cisco Policy Suite)VM重启问题。

问题

每个CPS虚拟机（qns、lb、pcrfclient等）都基于CentOS运行。这些VM可能由于CentOS端的问题而重新启动，而不是CPS应用端的问题。如果由于CentOS内核的问题而重新启动，即使对CPS capture_env进行了调查，也无法找到根本原因。在重新启动期间，capture_env日志不包含来自已重新启动虚拟机的任何错误日志。在这种情况下，/var/crash下的日志可用于调查。

解决方案

CentOS可以在内核出现问题时生成内核崩溃转储。默认情况下，CPS配置为收集所有VM的内核崩溃转储。

可以使用此命令检查状态。

[root@dc1-qns01 ~]# systemctl status kdump.service
● kdump.service - Crash recovery kernel arming
   Loaded: loaded (/usr/lib/systemd/system/kdump.service; enabled; vendor preset: enabled)
   Active: active (exited) since Tue 2023-01-10 07:29:35 UTC; 4 months 4 days ago
 Main PID: 1023 (code=exited, status=0/SUCCESS)
    Tasks: 0 (limit: 75300)
   Memory: 0
   CGroup: /system.slice/kdump.service

如果在启用kdump.service的情况下发生内核崩溃，则会在/var/crash下生成名为“address-YYYY-MM-DD-HH:MM:SS”的目录。CentOS在此目录下生成2个文件。

[root@dc1-lb02 127.0.0.1-2022-10-18-06:18:41]# pwd
/var/crash/127.0.0.1-2022-10-18-06:18:41

[root@dc1-lb02 127.0.0.1-2022-10-18-06:18:41]# ls -rtl
total 161436
-rw-r--r-- 1 root root     89787 Oct 18  2022 vmcore-dmesg.txt
-rw------- 1 root root 165215218 Oct 18  2022 vmcore

vmcore:
将内核内存的内容存储为二进制文件的文件。分析需要内核调试和崩溃等工具。

vmcore-dmesg.txt:
崩溃时的dmesg文本文件。

例如，在CPS端的日志中，未从重新启动的VM的日志中确认重新启动之前的错误日志。分析结果来自VMWare端，重新启动是由访客操作系统引起的此错误日志引起的。

The CPU has been disabled by the guest operating system. Power off or reset the virtual machine.

如果存在与重新启动时间匹配的目录，请检查重新启动的VM的/var/crash。事实证明，重新启动是由于CentOS端的一个内核问题，因此我们能够继续进一步调查。

修订历史记录

版本	发布日期	备注
1.0	22-May-2023	初始版本

由思科工程师提供

Yasuaki Nambu
思科TAC工程师