简介
本文描述如何验证四分析集群的健康。
Cisco 建议您了解以下主题:
使用的组件
本文档中的信息基于以下软件和硬件版本:
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。
背景信息
四集群包括运行在多个UCS C220-M4服务器的多个VMs [Vitual Machines]间的数百进程(程序)。当集群可能不功能完备的时,几个服务和功能是到位帮助监控集群的操作和警告管理员。
当验证集群的健康时,本文提供怎样的视图检查。当范围本文包括验证健康时,如果操作要求帮助寻址什么看上去是不正常运行的某事,收集快照和打开有思科四解决方案支持TAC小组的一个盒。
用于的两常用工具验证集群的健康是团星状态并且服务在本文报道与两三个其他系统工具一起的状态页。虽然水手关键电子邮件告警经常是第一个征兆的其中一个给某事可能发生在集群的管理员,通过团星状态和服务状态页集群的健康是典型地最佳执行的验证。
当玻色子警报提供Syslog类似功能,在一些四版本,一些关键水手警报时在一通常作用的集群被触发了。 一搜索通过cisco.com四产品的bug搜索工具有度量关键字的将帮助识别一特定量度的可能的问题。
什么时候检查团星的健康:
通常,集群的管理员不会必须检查集群的功能。 当可能是需要的时,然而有某些时期。列出得一些示例此处:
- 当用户看到在用户界面(UI)的意外行为。这一部分根据用户的知识和体验集群如何应该作用,但是一些示例在此部分可操作的显示参数显示。
- 当一些数据预计被看到,但是它不显示在UI。例如,从软件或硬件代理程序(传感器)的流数据,当查看数据预计显示的适当的范围和时间范围时。
- 在集群的任何定期服务、升级或者主要操作前后。万一开,是最佳实践收集快照,在和另一个快照,在所有维护并且有此联机后前TAC案例。这帮助TAC通过寻找在维护期间做的变动查出问题。
Note:一些服务中断在集群的系统维护后一段时间是正常。时期可能是在datanode VM在该服务器运行服务器更换的示例的24个小时。在集群的正常系统冗余典型地减轻单个服务器更换的负面影响。
不同的方式验证四团星的操作状态
可操作的显示参数
有集群的操作知识和体验的管理员能认可什么集群的正常操作看起来象在他们的环境。这些是寻找什么的一些示例,当请验证时集群是否通常操作。
示例 1:最新的流可用的时间是在当前时间的10分钟内
示例 2:最新的应用程序工作区可用的时间是在当前时间的10个小时内:
示例 3:控制板内容填充。
团星状态
四分析集群包括或者6个(8RU)或36个(39RU)服务器根据集群键入。Status页的集群提供服务器以及其他仅有的金属服务器信息的状态。
Status页的集群在从下拉式的设置的维护菜单可得到查找(设置>维护;在左列的团星状态。)
Note:仅图标可视,直到您点击左手列。
集群Status页在集群显示所有服务器列表在集群的。 一个作用的服务器应该显示
状态委任了和
激活状态如显示此处。
Note:镜像被削到前6 36个服务器(39RU集群)。
如果状态显示非激活,这典型地指向服务器哪些没有启动或潜在有电缆或连通性问题。
因为您点击在列表的一个服务器,关于该特定服务器的additonal信息显示,包括:
- 运行在仅有的金属服务器的实例(虚拟机)。
- 在集群内的专用IP地址。
- CIMC在集群内的IP地址。
- CIMC, RAID控制器)运行在服务器的固件版本(BIOS。
服务状态
所有服务在思科四分析使用请集群以他们的从属关系和健康状态的ServiceStatus页显示。
Status页的服务在从下拉式的设置的维护菜单可得到查找。(设置>维护;在左列的服务状态。)
Note:仅图标可视,直到您点击左手列。
默认情况下Status页的服务显示集群功能和从属关系在一张图形视图。如果图标是所有绿色,错误没有检测。
如果有用红色显示或橙色的服务,树型视图将显示服务列表和允许您到深入在服务的从属关系以及在其他详细信息服务状态功能检测。当打开有TAC的时,一个案件此从属关系错误信息是特别重要注释和捕获。
例如,这是什么列表显示看上去象,当其中一台在集群的HDFS DataNode虚拟机发生故障时
Note:可能没有一显而易见的影响到集群由于冗余设计到四集群。
Note:在维护被执行了后,在返回对一作用的状态的某一服务中可能有某延迟。 例如,有对此的一DataNode虚拟机实例运行为RMA维护退役并且再服役的服务器可能占去对24个小时,在检测的问题清除前。
虽然在服务状态的详细信息指示在某个检测的问题情形下,什么可以发生,建议是开TAC案例是否有关于含义和可能性操作的任何问题采取到修正他们。
水手警报
水手是开放源监听和警报系统哪些用于开始在引导程序)的四分析集群监控服务(程序多种量度运行在集群的。当服务正常运行,它将填充其在openTSDB的量度。水手程序是否在当前量度查看一服务的量度在openTSDB的并且运用水手规则确定警告。水手警报在Monitoring>稍兵[Alerts]下的集群UI可能被看到本地。
水手用途电子邮件(被发送对集群站点配置site_bosun_email)警告一个潜在的严重情况的集群管理员,当该量度的一阈值被超过。水手生成电子邮件的3种类型:
Crtiical :当水手警报规则的一量度超出配置的阈值
正常:一旦量度属于阈值,跟随“关键”电子邮件
摘要:在六小时窗口期间,典型地发送每6个小时并且显示警报的摘要
电子邮件告警示例:
关键(intentservice.checkMissingIntentService量度) :
正常:
摘要:
重要告警包含量度,当,阈值、被测量的数据点和问题的说明的信息。 例如,当服务发生故障和不再提供其量度给openTSDB时,警报也许生成。水手重要告警的含义和潜在影响可能要求TAC案例打开改善了解上下文并且解释警报的含义。
收集快照和开放TAC案例
思科四解决方案团队专门化并且支持四分析客户。最帮助TAC工程师与他们的故障排除流程的其中一个公用项目是日志的快照集从集群的。有时在快照日志文件包含的仅信息是要了解问题的足够。否则,快照在许多情况下提供在故障排除流程的起点。
在四集群的一个快照类似于在其他思科产品的techsupport。 它是被压缩tarball文件或日志文件从所有服务器和虚拟机并且包括:
- 日志
- Hadoop/YARN应用程序和日志的状态
- 提醒的历史记录
- 许多TSDB统计信息
快照页在从设置pulldown的Maintence菜单可得到查找。(设置>维护;在左列的快照。)
Note:仅图标可视,直到您点击左手列。
快照页提供多种选项选择,但是,除非提示由TAC工程师,默认值可以使用收集快照。
修改的一个重要区域是注释。注释应该提供信息指示快照为什么收集了,当有从集群时收集的多个快照,并且被添加的注释也是可用的在快照里面在分析期间由Cisco TAC。
当创建按钮点击时,快照进程开始。仅一个快照可以每次创建,并且需要进程的几分钟能完成。快照集的一进度条被看到在快照页顶部。
快照可能然后下载到用户的本地系统,当您点击在快照页的适当的下载链路,如镜像所显示, :
Note:快照文件可能在大小上是一样大象数百兆字节。此文件可能然后上传到开放TAC案例。
相关信息