实时监控工具警报

下载选项

PDF (606.8 KB)
在各种设备上使用 Adobe Reader 查看
ePub (516.0 KB)
在 iPhone、iPad、Android、Sony Reader 或 Windows Phone 上使用各种应用查看
Mobi (Kindle) (498.6 KB)
在 Kindle 设备上查看或在多个设备上使用 Kindle 应用查看

已更新: 2018 年 4 月 27 日

文档 ID:213291

非歧视性语言

此产品的文档集力求使用非歧视性语言。在本文档集中，非歧视性语言是指不隐含针对年龄、残障、性别、种族身份、族群身份、性取向、社会经济地位和交叉性的歧视的语言。由于产品软件的用户界面中使用的硬编码语言、基于 RFP 文档使用的语言或引用的第三方产品使用的语言，文档中可能无法确保完全使用非歧视性语言。深入了解思科如何使用包容性语言。

关于此翻译

思科采用人工翻译与机器翻译相结合的方式将此文档翻译成不同语言，希望全球的用户都能通过各自的语言得到支持性的内容。请注意：即使是最好的机器翻译，其准确度也不及专业翻译人员的水平。 Cisco Systems, Inc. 对于翻译的准确性不承担任何责任，并建议您总是参考英文原始文档（已提供链接）。

简介

本文档讨论思科实时监控工具(RTMT)警报，并演示如何对一些常见警报进行故障排除。

先决条件

要求

思科建议您了解Cisco Call Manager Web管理。

使用的组件

本文档中的信息基于Cisco CallManager Server 11.0。

本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始（默认）配置。如果您使用的是真实网络，请确保您已经了解所有命令的潜在影响。

背景信息

作为客户端应用运行的RTMT使用HTTPS和TCP来监控系统性能、设备状态、设备发现、计算机电话集成(CTI)应用和语音消息端口。RTMT可用于为其监控的集群配置警报。

系统生成警报消息以在满足预定义条件时通知管理员，例如当激活的服务从上到下变化时。系统可以通过电子邮件/电子页面发送警报。

支持警报定义、设置和查看的RTMT包含预配置和用户定义的警报。虽然您可以对这两种类型执行配置任务，但不能删除预配置的警报。

RTMT警报

如图所示，Unified RTMT在警报中心中显示预配置警报和自定义警报。

您还可以通过点击系统抽屉的层次结构树中的警报中心图标访问警报中心。

配置

Unified RTMT在适用的选项卡下组织警报：系统、CallManager、Cisco Unity Connection和自定义。

您可以在警报中心启用或禁用预配置和自定义警报；但是，不能删除预配置的警报。

RTMT中的警报分类如下：

系统警报

此列表包括预配置的系统警报：

身份验证失败
CiscoDRF故障
CoreDumpFileFound
CpuPreging
CriticalAuditEventGenerated
CriticalServiceDown
硬件故障
LogFileSearchStringFound
LogPartitionHighWaterMarkExceeded
LogPartitionLowWaterMarkExceeded
LowActivePartitionAvailableDiskSpace
LowAvailableVirtualMemory
LowInactivePartitionAvailableDiskSpace
LowSwapPartitionAvailableDiskSpace
ServerDown(适用于Unified Communications Manager(CUCM)集群)
SparePartitionHighWaterMarkExceeded
SparePartitionLowWaterMarkExceeded
SyslogSeverityMatchFound
SyslogStringMatchFound
SystemVersion不匹配
TotalProcessesAndThreadsExceededThreshold

CallManager警报

此列表包含预配置的CallManager警报。

BeginThrottlingCallListBLFSubscriptions
CallAttemptBlockedByPolicy
CallProcessingNodeCpuPregging
CaridseNgineCritical
CARIDS引擎故障
CARSchedulerJobFailed
CDRAgentSendFileFailed
CDRFileDeliveryFailed
CDRHighWaterMarkExceeded
CDRMaximumDiskSpaceExceeded
代码黄色
DBChangeNotifyFailure
DBReplicationFailure
DBReplicationTableOutofSync
DDRBlockPrevention
DDRDown
EMCCFailedInLocalCluster
EMCCFailedInRemoteCluster
ExcessiveVoiceQualityReports
IMEDistributedCacheInactive

IMEOverQuota
IMEQualityAlert
InsufficientFallbackIdentifiers
IMEServiceStatus
无效凭据
LowTFTPServerHeartbeatRate
MaliciousCallTrace
MediaListExhausted
MgcpDChannelOutOfService
NumberOfRegisteredDevicesExceeded
NumberOfRegisteredGatewaysDefreced
NumberOfRegisteredGatewaysAdvensed
NumberOfRegisteredMediaDevicesDecivesDecivesDefared
NumberOfRegisteredMediaDevicesAndexed
NumberOfRegisteredPhonesDropped
RouteListExhausted
SDLLinkOutOfService
TCPSetupToIMEFailed
TLSConnectionToIMEFailed
UserInputFailure

LowAvailableVirtualMemory和LowSwapPartitionAvailableDiskSpace

Linux服务器在一段时间内倾向于“不清除”虚拟内存的使用情况，而且已经看到它不断累积，因此会出现这些警报。

Linux作为操作系统的运行方式略有不同。

一旦将内存分配给进程，处理器将不会收回内存，除非对内存的某些其他进程请求超过可用内存。

这会导致高虚拟内存。

缺陷中记录了在更高版本的呼叫管理器中提高警报阈值的请求；https://bst.cloudapps.cisco.com/bugsearch/bug/CSCuq75767/?reffering_site=dumpcr

对于交换分区，此警报表示交换分区留有较低的可用空间，并且被系统大量使用。交换分区通常用于在需要时扩展物理RAM容量。在正常情况下，如果RAM足够，则交换不应使用太多。

此外，这些警报可能会引发由临时文件的生成引起的RTMT警报，建议重新启动服务器以清除任何不必要的临时文件。

LogPartitionHighWaterMarkExceeded和LogPartitionLowWaterMarkExceeded

在CUCM服务器的CLI上运行show status时，将显示一个值，该值指定CUCM磁盘空间中日志记录分区的占用和可用百分比。这些值也称为公共分区，它们指定服务器中日志/跟踪和CDR文件所占用的空间，尽管这些空间是无害的，但由于时间过长而缺少空间，在安装/升级过程中可能会导致问题。这些警报用于警告管理员清除可能在集群/服务器中随时间累积的日志。

LogPartitionLowWaterMarkExceeded：当已填充空间达到为警报配置的阈值时生成此警报。此警报用作磁盘使用情况的预检指示器。

LogPartitionHighWaterMarkExceeded：当已填充空间达到为警报配置的阈值时生成此警报。生成警报后，服务器开始自动清除最旧的日志，以便将空间降到HighWaterMark阈值所列的值。

最佳实践是在收到LogPartitionLowWaterMarkExceeded警报后立即手动清除日志。

为此，需要执行以下步骤：

步骤1.启动RTMT。

步骤2.选择Alert Central，然后执行以下任务：

选择LogPartitionHighWaterMarkExceeded，记录其值并将其阈值更改为60%。

选择LogPartitionLowWaterMarkExceeded，记录其值并将其阈值更改为50%。

轮询每5分钟进行一次，因此请等待5-10分钟，然后验证所需的磁盘空间是否可用。如果要释放公共分区中的更多磁盘空间，请再次将LogPartitionHighWaterMarkExceeded和LogPartitionLowWaterMarkExceeded线程值更改为较低值（例如30%和20%）。

在15到20分钟内清除公共分区中的空间。您可以在CLI中使用命令show status来监控磁盘使用率降低。

这会导致公共分区关闭。

CpuPreging

CpuPreng警报根据配置的阈值监控CPU使用率。

收到CPU追溯警报后，可通过转到左侧的“系统抽屉”（即“进程”）来占用占用最高CPU的进程。

从相关服务器的CLI中，这些输出将提供一些见解。

utils diagnose test
show process load cpu sorted
show status
utils核心活动列表

建议观察CPU峰值是在特定时间还是随机发生。如果随机发生，则需要的详细CUCM跟踪以及RisDC性能日志检查CPU中触发尖峰的是什么。如果警报发生在一天中的特定时间，则可能是由于某些计划活动(如灾难恢复系统(DRS)备份、CDR加载等)。

此外，根据关于哪个进程占用最多CPU的信息，采用特定日志以进行进一步调查。例如如果故障源是Tomcat，则需要Tomcat相关日志。

验证

使用本部分可确认配置能否正常运行。

如果在您遵循此处建议的解决方法后，警报未被解除，或者如果警报似乎对服务有直接影响，请联系Cisco TAC，了解有关呼叫管理器版本、集群中节点数、警报时间和持续时间以及在CPU追溯情况下所需流程缩小的必要详细信息。

故障排除

目前没有针对此配置的故障排除信息。

由思科工程师提供

Animesh Lochan
Cisco TAC Engineer