简介
本文档讨论思科实时监控工具(RTMT)警报,并演示如何对一些常见警报进行故障排除。
先决条件
要求
思科建议您了解Cisco Call Manager Web管理。
使用的组件
本文档中的信息基于Cisco CallManager Server 11.0。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。
背景信息
作为客户端应用运行的RTMT使用HTTPS和TCP来监控系统性能、设备状态、设备发现、计算机电话集成(CTI)应用和语音消息端口。RTMT可用于为其监控的集群配置警报。
系统生成警报消息以在满足预定义条件时通知管理员,例如当激活的服务从上到下变化时。系统可以通过电子邮件/电子页面发送警报。
支持警报定义、设置和查看的RTMT包含预配置和用户定义的警报。虽然您可以对这两种类型执行配置任务,但不能删除预配置的警报。
RTMT警报
如图所示,Unified RTMT在警报中心中显示预配置警报和自定义警报。
您还可以通过点击系统抽屉的层次结构树中的警报中心图标访问警报中心。
配置
Unified RTMT在适用的选项卡下组织警报:系统、CallManager、Cisco Unity Connection和自定义。
您可以在警报中心启用或禁用预配置和自定义警报;但是,不能删除预配置的警报。
RTMT中的警报分类如下:
系统警报
此列表包括预配置的系统警报:
-
身份验证失败
-
CiscoDRF故障
-
CoreDumpFileFound
-
CpuPreging
-
CriticalAuditEventGenerated
-
CriticalServiceDown
-
硬件故障
-
LogFileSearchStringFound
-
LogPartitionHighWaterMarkExceeded
-
LogPartitionLowWaterMarkExceeded
-
LowActivePartitionAvailableDiskSpace
-
LowAvailableVirtualMemory
-
LowInactivePartitionAvailableDiskSpace
-
LowSwapPartitionAvailableDiskSpace
-
ServerDown(适用于Unified Communications Manager(CUCM)集群)
-
SparePartitionHighWaterMarkExceeded
-
SparePartitionLowWaterMarkExceeded
-
SyslogSeverityMatchFound
-
SyslogStringMatchFound
-
SystemVersion不匹配
-
TotalProcessesAndThreadsExceededThreshold
CallManager警报
此列表包含预配置的CallManager警报。
- BeginThrottlingCallListBLFSubscriptions
- CallAttemptBlockedByPolicy
- CallProcessingNodeCpuPregging
- CaridseNgineCritical
- CARIDS引擎故障
- CARSchedulerJobFailed
- CDRAgentSendFileFailed
- CDRFileDeliveryFailed
- CDRHighWaterMarkExceeded
- CDRMaximumDiskSpaceExceeded
- 代码黄色
- DBChangeNotifyFailure
- DBReplicationFailure
- DBReplicationTableOutofSync
- DDRBlockPrevention
- DDRDown
- EMCCFailedInLocalCluster
- EMCCFailedInRemoteCluster
- ExcessiveVoiceQualityReports
- IMEDistributedCacheInactive
- IMEOverQuota
- IMEQualityAlert
- InsufficientFallbackIdentifiers
- IMEServiceStatus
- 无效凭据
- LowTFTPServerHeartbeatRate
- MaliciousCallTrace
- MediaListExhausted
- MgcpDChannelOutOfService
- NumberOfRegisteredDevicesExceeded
- NumberOfRegisteredGatewaysDefreced
- NumberOfRegisteredGatewaysAdvensed
- NumberOfRegisteredMediaDevicesDecivesDecivesDefared
- NumberOfRegisteredMediaDevicesAndexed
- NumberOfRegisteredPhonesDropped
- RouteListExhausted
- SDLLinkOutOfService
- TCPSetupToIMEFailed
- TLSConnectionToIMEFailed
- UserInputFailure
LowAvailableVirtualMemory和LowSwapPartitionAvailableDiskSpace
Linux服务器在一段时间内倾向于“不清除”虚拟内存的使用情况,而且已经看到它不断累积,因此会出现这些警报。
Linux作为操作系统的运行方式略有不同。
一旦将内存分配给进程,处理器将不会收回内存,除非对内存的某些其他进程请求超过可用内存。
这会导致高虚拟内存。
缺陷中记录了在更高版本的呼叫管理器中提高警报阈值的请求;https://bst.cloudapps.cisco.com/bugsearch/bug/CSCuq75767/?reffering_site=dumpcr
对于交换分区,此警报表示交换分区留有较低的可用空间,并且被系统大量使用。交换分区通常用于在需要时扩展物理RAM容量。在正常情况下,如果RAM足够,则交换不应使用太多。
此外,这些警报可能会引发由临时文件的生成引起的RTMT警报,建议重新启动服务器以清除任何不必要的临时文件。
LogPartitionHighWaterMarkExceeded和LogPartitionLowWaterMarkExceeded
在CUCM服务器的CLI上运行show status时,将显示一个值,该值指定CUCM磁盘空间中日志记录分区的占用和可用百分比。这些值也称为公共分区,它们指定服务器中日志/跟踪和CDR文件所占用的空间,尽管这些空间是无害的,但由于时间过长而缺少空间,在安装/升级过程中可能会导致问题。这些警报用于警告管理员清除可能在集群/服务器中随时间累积的日志。
LogPartitionLowWaterMarkExceeded:当已填充空间达到为警报配置的阈值时生成此警报。此警报用作磁盘使用情况的预检指示器。
LogPartitionHighWaterMarkExceeded:当已填充空间达到为警报配置的阈值时生成此警报。生成警报后,服务器开始自动清除最旧的日志,以便将空间降到HighWaterMark阈值所列的值。
最佳实践是在收到LogPartitionLowWaterMarkExceeded警报后立即手动清除日志。
为此,需要执行以下步骤:
步骤1.启动RTMT。
步骤2.选择Alert Central,然后执行以下任务:
选择LogPartitionHighWaterMarkExceeded,记录其值并将其阈值更改为60%。
选择LogPartitionLowWaterMarkExceeded,记录其值并将其阈值更改为50%。
轮询每5分钟进行一次,因此请等待5-10分钟,然后验证所需的磁盘空间是否可用。如果要释放公共分区中的更多磁盘空间,请再次将LogPartitionHighWaterMarkExceeded和LogPartitionLowWaterMarkExceeded线程值更改为较低值(例如30%和20%)。
在15到20分钟内清除公共分区中的空间。您可以在CLI中使用命令show status来监控磁盘使用率降低。
这会导致公共分区关闭。
CpuPreging
CpuPreng警报根据配置的阈值监控CPU使用率。
收到CPU追溯警报后,可通过转到左侧的“系统抽屉”(即“进程”)来占用占用最高CPU的进程。
从相关服务器的CLI中,这些输出将提供一些见解。
- utils diagnose test
- show process load cpu sorted
- show status
- utils核心活动列表
建议观察CPU峰值是在特定时间还是随机发生。如果随机发生,则需要的详细CUCM跟踪以及RisDC性能日志检查CPU中触发尖峰的是什么。如果警报发生在一天中的特定时间,则可能是由于某些计划活动(如灾难恢复系统(DRS)备份、CDR加载等)。
此外,根据关于哪个进程占用最多CPU的信息,采用特定日志以进行进一步调查。例如如果故障源是Tomcat,则需要Tomcat相关日志。
验证
使用本部分可确认配置能否正常运行。
如果在您遵循此处建议的解决方法后,警报未被解除,或者如果警报似乎对服务有直接影响,请联系Cisco TAC,了解有关呼叫管理器版本、集群中节点数、警报时间和持续时间以及在CPU追溯情况下所需流程缩小的必要详细信息。
故障排除
目前没有针对此配置的故障排除信息。