简介
本文档介绍用于对思科网真多点控制单元(MCU)产品进行故障排除的过程。本文档面向视频系统管理员及其客户为视频系统管理员的思科合作伙伴。
MCU系列产品是行业领先的多媒体会议产品。它们是复杂的嵌入式系统,硬件由思科设计,用于提供最佳性能。本文档旨在帮助解决可能由Cisco MCU产品的硬件故障导致的任何情况。必须由Cisco技术支持工程师提供制造授权返还(RMA),工程师根据可疑组件,通过一系列测试验证产品确实出现故障。本指南旨在通过深入了解这些测试来加速此过程。
先决条件
要求
Cisco 建议您了解以下主题:
- 思科网真MCU MSE系列
- 思科网真 MCU 5300 系列
- 思科网真 MCU 4500 系列
- 思科网真 MCU 4200 系列
- 思科网真ISDN网关(GW)系列
使用的组件
本文档中的信息基于思科网真MCU媒体服务引擎(MSE)系列。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。
相关产品
本文档也可用于以下硬件和软件版本:
- 思科网真服务器7010
- 思科网真 MCU 5300 系列
- 思科网真 MCU 4500 系列
- 思科网真 MCU 4200 系列
- 思科网真ISDN网关系列
思科网真MCU MSE系列RMA清单
本节介绍一些更基本的检查,这些检查用于确认MCU MSE系列刀片是否运行正常且没有硬件故障。完成这些检查时,应记录MCU行为。
完成对MCU的快速检查
本部分提供一份核对表,您可以使用此核对表通过Web界面对MCU的基本配置进行故障排除。这可通过验证H.323设置、自动总机、端口许可证使用和环回呼叫来完成。
验证刀片是否可以进行视频呼叫。如果可以访问MCU Web界面,并且可以进行呼叫,则其基本可以正常工作。请完成以下步骤:
- 打开Web浏览器并导航到MCU IP地址。主页必须立即显示。
注意:如果网页无法访问,请参阅本文档的检查MCU网络连接部分。
- 单击Status链接以检查MCU上当前运行的软件版本。
注意:如果当前使用的是早于版本4.3的版本,建议您查看最新的版本说明并考虑升级。
- 如果能够访问Web界面,请完成以下步骤:
- 导航到设置> H.323,将H.323网守使用设置为禁用。此步骤非常重要,因为某些网守会阻止直接从MCU到IP地址的呼叫。
- 导航到设置>会议>高级设置,确保呼入未知会议或自动总机呼叫设置为默认自动总机。
- 创建新会议,并添加IP地址为127.0.0.1的H.323参与者。这会使MCU回拨到其自己的自动总机(AA)。AA屏幕显示在预览缩略图中,并且音频和视频编解码器在每个方向上都进行协商。
以下是MCU可以成功呼叫自身时MCU MSE 8510屏幕的示例:
如果此操作有效,并且发现连接的参与者(类似于上一个映像),则很可能存在网守、网络或终端互操作性问题。拨打实际终端,并使用事件日志和H323/会话发起协议(SIP)日志从该终端进行故障排除。如果连接立即失败,但Web界面仍能正常工作,请继续此过程。
- 要验证端口许可证是否已分配到MCU,请转至Supervisor刀片的Port License management部分。以下图像显示了来自Supervisor MSE 8050刀片的端口许可证分配:
在图像中,插槽4下的空块显示此插槽中有刀片,没有为其分配端口许可证。此刀片无法进行呼叫,因此第3步中介绍的环回测试会在此刀片上失败。Slots 2、3、5和7下的蓝色块显示这些插槽具有完全分配的端口许可证。如果插槽显示警告符号,则插槽中没有刀片。半蓝色方块表示刀片分配了部分端口许可证,但并未表示刀片已满容量。这样的刀片在分配了更多许可证之前无法连接其通告的总端口数。
- 如果没有为刀片分配端口许可证,则分配端口许可证(联机帮助中描述了此过程)。如果端口许可证没有密钥,请与您的客户经理联系。
注意:如果呼叫失败,即使刀片有足够的端口许可证,请参阅本文档的在Web界面上访问MCU部分。如果在此测试期间网络界面不可用,并且与刀片的联系丢失,则刀片可能已重新启动;检索刀片诊断日志,并与Cisco技术支持联系。
检查MCU网络连接
根据网络连接和网络配置的验证,使用此部分排除尝试从浏览器连接到MCU Web界面的问题。
尝试从浏览器连接到MCU Web界面时,可能会遇到以下问题之一:
- PC和MCU之间的网络有问题
- MCU本身的问题(网络接口卡(NIC)、硬件或配置)
要对此问题进行故障排除,请完成以下步骤:
- 尝试ping MCU的IP地址。
注意:NetBSD产品的最大大小为76字节。大多数路由器的默认值为100字节。
如果MCU响应ping,但Web界面关闭,则MCU可能未能完全启动,或者被锁定到重新启动循环。如果出现这种情况,请参阅本文档的刀片上的物理检查部分。如果MCU不响应ping,请继续执行此程序。
- 导航到包含MCU MSE 8510刀片的机箱的Supervisor MSE 8050刀片的Web界面。如果无法访问Supervisor刀片用户界面,请与您的本地网络管理员联系以调查可能的网络问题。如果可以访问Supervisor刀片用户界面,并且Supervisor和MCU不在不同的网络上,则问题很可能出在刀片或其IP设置上。
- 从Supervisor刀片用户界面中,导航到硬件,然后单击MCU MSE 8510刀片的插槽编号链接。然后单击Port A选项卡。
- 检查MCU Port A IP配置,并确认网络中的其他主机未分配相同的IP地址。IP地址重复是一个非常常见的问题。如有必要,请咨询网络管理员以验证这些设置。
- 检查端口A以太网状态部分。如果链路状态不是up,请检查网络电缆是否已连接到交换机。电缆或交换机端口可能存在问题。
- 如果现在可以在网络上访问MCU,请重复此过程的第一步。如果IP地址设置正确并且以太网链路状态为启用,但无法从网络上的任何位置联系刀片,请参阅本文档的通过Supervisor检查MCU MSE 8510系列刀片部分。
通过管理引擎检查MCU MSE 8510系列刀片
完成以下步骤以检查MCU刀片和会议状态、运行状况以及正常运行时间、软件版本、温度和电压报告:
- 单击Hardware,然后单击出现问题的刀片的插槽编号。摘要页面提供有关以下内容的信息:
- 刀片状态,以及IP地址、正常运行时间、序列号和软件版本
- 刀片运行状况,包括温度、电压和实时时钟(RTC)电池
- 活动会议的已报告状态、参与者数量、使用的音频/视频端口以及流查看器
下图显示了刀片运行状况部分:
- 如果任何电压状态(电流或更差)未显示OK,请确保在机箱电源机架中安装了足够的整流器。此外,按照计算MSE 8000 Cisco文章的功率和电流要求中的详细说明,检查电源是否满足机箱的当前要求。
- 如果电源调配未显示OK,请与Cisco技术支持联系。
- 如果刀片运行状况部分中的任何其他当前状态未显示为正常,请与Cisco技术支持联系。
- 如果所有当前状态都显示OK,但一个或多个Worst status seen未显示OK,请从Supervisor获取事件日志和警报日志,并与Cisco技术支持联系。
- 检查正常运行时间。如果正常运行时间过短(少于30分钟),并且没有已知原因(例如,如果未重新启动或刀片未重新插入),则刀片可能最近已重新启动。重新启动的原因可能是软件缺陷或硬件问题。这取决于它是一次性重新启动,还是循环的。
要确定以下内容,请完成以下步骤:
- 等待30分钟。
- 刷新页面。
- 再次检查正常运行时间。
如果可以从更新的正常运行时间确定刀片随后是否再次重新启动,请参阅本文档的崩溃部分。
- 如果在检查状态页面后刀片未重新启动,并且它在所有其他方面均正常运行(通过验证网络设置和端口许可证),则刀片可能在没有任何可用的数字信号处理器(DSP)资源的情况下启动。
要验证这一点,请完成以下步骤:
- 从Supervisor用户界面检查刀片摘要页上的Reported status部分:
- 刀片显示其成功引导和许可的视频资源总数。此数量必须等于分配给刀片的端口许可证数量,当刀片处于高清(HD)/HD+模式时,最大数量为20;当刀片处于标准定义(SD)模式时,最大数量为80。如果不相等,请联系Cisco技术支持并提供所记录的行为、版本和诊断日志。
刀片上的物理检查
本部分介绍根据LED指示灯解释和刀片移动到不同插槽时对刀片执行物理检查的步骤。
如果在完成前面部分所述的步骤后无法确定刀片有硬件问题,请实际检查MSE 8000系列机箱。要执行物理检查,请完成以下步骤:
- 确保给刀片式服务器足够的时间在您最初接通机箱电源后启动(或将刀片式服务器安装到已通电的机箱中)。这大约需要20分钟。
- 观察并注意在刀片前面亮起的LED灯的颜色。重要的LED灯包括:
- 电源(蓝色)-此指示灯位于底部塑料卡舌正上方,在刀片式服务器通电后立即点亮。
- 状态(绿色)-当刀片成功引导时,此指示灯亮起。
- 报警(红色)-当刀片正在启动或处于无法启动状态时,此指示灯熄灭。
- 以太网端口A链路(三条绿色)-指示灯指示活动、双工和速度。从版本4.4开始,8510仅支持端口A上的连接;不支持端口B、C和D。
此映像显示八个MCU MSE 8510系列刀片已成功引导,其中一个刀片仍在引导或无法成功引导:
- 如果在观察LED灯时遇到问题,请完成以下步骤:
- 如果没有指示灯点亮,请检查机箱的其余部分是否通电,以及刀片式服务器是否正确插入插槽。
- 如果指示灯仍未亮起,请将刀片移至机箱中的另一个插槽。优选地,将其与具有已知工作叶片的槽交换。
- 如果刀片仍然无法通电,请与Cisco技术支持联系。
- 如果蓝色电源指示灯亮起,但其他指示灯均不亮,请与Cisco技术支持联系。如果红色报警灯的亮起时间超过30分钟,请参阅本文档的崩溃部分。
- 如果蓝色电源指示灯和绿色状态指示灯亮起,但绿色端口A指示灯未亮起,则无需RMA。这表示与交换机端口的连接出现问题。使用新的电缆/交换机端口/交换机,并从Supervisor Hardware选项卡检查刀片以太网端口A配置。强烈建议将链路的两端都设置为自动协商。
注意:在排除故障时,获取串行日志和诊断日志非常重要。当您向Cisco技术支持提出服务请求时,应提供这些信息。
在Web界面上访问MCU
可以通过设备随附的控制台电缆通过控制台会话访问思科网真MCU。如果无法通过Web界面访问系统且未响应ping请求,您可以打开设备的控制台会话,以便通过检查启用的服务、端口配置和状态对其进行故障排除。
如果系统无法ping通,或者您在分配IP地址后无法导航到系统的Web界面,请完成以下步骤以访问MCU:
- 验证设备正面是否没有红色报警灯。如果设备通电超过20分钟,并且红色警报指示灯仍然亮起,请参阅本文档的崩溃部分。
- 如果设备上的绿色状态灯亮起,请使用随设备提供的控制台电缆将PC连接到控制台端口。
注意:有关如何完成此步骤的说明,请参阅思科收购的Codian单元Cisco文章上的Connecting to the console port。
- 要验证连接的终端会话是否实际连接,请按几次Enter键,然后会显示提示。显示的提示符显示您的设备(例如,IPGW:>、ISDNGW:>或MCU:>):
- 要验证是否启用了HTTP和/或HTTPS服务,请输入service show命令:
- 要验证设备上的链路状态,请输入status命令:
- 如果端口A上显示无链路,则尝试将以太网电缆连接到端口B,以查看链路状态是否更改:
- 如果端口B能够检测到链路,但端口A不能,则完成以下步骤以再次检查端口A上的IP配置:
- 如果端口A看起来没有问题,则尝试reset_config过程以将单元恢复为出厂默认设置。
注意:有关此过程的详细信息,请参阅Cisco文章重置密码并将设备恢复为出厂设置。
- 出厂重置过程完成后,重新配置端口的静态IP地址。
- 如果仍然遇到问题,请从控制台重新引导系统,并通过使用的终端客户端将引导的输出收集到文本文件中:
MCU MSE 8510系列刀片和MCU MSE 8710系列刀片将两个以太网接口显示为vfx0和vfx1。机架安装式系统(MCU 4500系列和4200系列、IPGW 3500系列和ISDN GW 3241系列)显示其以太网接口为bge0和bge1。
- 在MCU MSE 8510和8710系列刀片服务器上,验证MAC地址是否已分配,以及vfx0和vfx1是否没有问题。
- 在机架安装式设备上,您可能会看到下一个图中所示的输出(使用bge0命令),它表明设备中存在网络接口卡(NIC)故障。这表示未检测到物理层。如果发现这种情况,请与Cisco技术支持联系。
- 如果在交换端口后显示no link,请验证网络连接。理想情况下,输出应如下图所示,并显示所有IP信息。这表示单元上的IP设置配置正确。
注意:出于安全原因,映像中的IP地址信息会被隐藏。
- 更改设备上的IP地址,以便发现网络上任何一组IP地址的问题。
- 将以太网电缆移到单独的交换机端口,以消除所有交换机端口问题。
- 如果消除了交换机端口问题,请通过交叉电缆将笔记本电脑直接连接到该设备,然后使用子网中包含的相同子网掩码、默认网关和IP地址配置笔记本电脑。
- 在笔记本电脑上配置IP地址后,从笔记本电脑向设备发送ping。尝试从笔记本电脑访问设备的Web界面。此外,尝试通过ping命令从设备控制台会话向笔记本电脑IP地址发送ping。如果存在连接和Web访问,则表明存在网络连接问题。否则,以太网端口PIN有可能损坏,您应联系Cisco技术支持。
崩溃
思科网真MCU产品崩溃的原因包括:无法完全启动、连续的重新启动周期或连续会议所发生的事件。
如果设备上的红色报警灯持续点亮20分钟以上,您就无法导航到设备Web界面,或者您无法进行视频呼叫,则设备可能未能完全启动或陷入重新启动循环。如果出现这种情况,请完成以下步骤以对该问题进行故障排除:
- 拔下设备电源线。如果是刀片,请将其从机箱中取出。
- 等待五分钟,然后打开设备电源。
- 如果设备无法正常启动,请收集控制台日志,其中会显示尝试启动的设备。这是针对此情况的最佳诊断工具。有关如何获取控制台日志的信息,请参阅连接到Cisco收购的Codian单元Cisco上的控制台端口一文。
- 关闭设备电源,然后打开设备电源。
- 等到输出完全停止,或者设备重新启动三或四次。与Cisco技术支持联系,并提供控制台日志。
排除MSE 8000系列风扇托架、电源整流器和电源架故障
风扇托架、电源整流器和电源架均通过Supervisor MSE 8050系列刀片进行监控。您可以通过Supervisor Web界面排除与这些故障或问题相关的任何故障。本节介绍通过验证日志和状态排除风扇、电源架或电源整流器故障的步骤。
下图显示了完整的MSE 8000系列机箱:
请注意,在上图中:
- 上部和下部风扇托架
- 插入的刀片
- 单个刀片的特写
- 机架安装
注意:有关如何安装MSE 8000系列机箱的详细信息,请参阅思科网真MSE 8000入门指南。
排除MSE 8000系列风扇故障
使用此部分可以通过验证Supervisor MSE 8050系列刀片上的警报状态和事件日志来排除MSE 8000系列机箱上的风扇故障。
以下是事件日志中的一个输出,其中显示了上部风扇托架的问题:
37804 2012/07/03 18:43:28.567 HEALTH Warning
upper fan tray, fan 3 too slow - 1569 rpm
37805 2012/07/03 18:43:28.567 ALARMS Info
set alarm : 2 / Fan failure SET
37806 2012/07/03 18:43:44.568 ALARMS Info
clear alarm : 2 / Fan failure CLEAR
37807 2012/07/03 18:44:00.569 HEALTH Warning
upper fan tray, fan 3 too slow
当您看到这些错误时,请完成以下步骤以收集所需的日志:
- 要下载警报日志文本文件,请导航到警报>警报日志>下载为文本。请观察记录此信息的最新日期。
- 要下载事件日志文本文件,请导航到日志>事件日志>下载为文本。
- 导航到警报 > 警报状态,然后抓取警报状态页的屏幕快照。
- 卸下顶部风扇托架,并验证所有风扇是否正常工作。
- 卸下底部风扇托架,并验证所有风扇是否正常工作。
- 要从Supervisor清除Historic Alarms,请导航到Alarms > Alarms Status > Clear Historic Alarms。
- 要清除警报日志,请导航到警报 > 警报日志 > 清除日志。
- 监控,并查看警报是否返回。
- 如果问题再次出现,请将顶部托盘与底部托盘交换,并确定风扇托盘是否出现问题。如果问题再次出现并出现在风扇托架后,请与Cisco技术支持联系并提供您所收集的日志。
电源架问题
在MSE 8000系列机箱中,有两个独立的直流电源输入,您可以直接连接到两个直流电源,或者连接到两个将交流电转换为直流电的瓦莱尔机架。MSE 8000系列机箱可使用一个或两个电源架(A和B)运行。这些电源分别提供给每个风扇托架和刀片。设备可以从电源A或电源B完全供电。如果其中一个电源发生故障,设备将继续运行,因为它从另一个电源获取电源。
思科建议,为了获得完全冗余和最大可靠性,电源必须连接到独立电源。每台都必须具有提供单元和包含相同数量整流器的每个机架的全部电负载的能力。
下图显示MSE 8000系列直流电源架:
下面是可能会遇到的两个常见电源架问题:
- 与电源架失去联系 -导航到硬件>电源时,电源A显示与电源架失去联系。这意味着Supervisor MSE 8050系列无法与电源架通信。
- 10/外部电源超出范围SET -这意味着机箱的输入电压超出规格。通过计算MSE 8000在线工具的电源和电流要求,验证是否向机箱提供了正确的电源和电流。
如果在执行前面提到的电源和电流验证时没有发现差异,请检索此信息并联系思科技术支持:
- MSE 8050系列管理引擎配置
- 审核日志
- 警报日志
- 事件日志
- “警报状态”(Alarm Status)页面的截图
- 机箱中刀片的数量和型号
- 电源的状态
配置电源状态监控
Cisco建议您配置电源状态监控,以便就日志中发现的任何错误、警告或其他重要信息向视频管理员提供可靠反馈。
为了能够监控电源电压以及AC到DC电源架(如果需要),请完成Cisco TelePresence Supervisor 2.3联机帮助(可打印格式)第61页上的步骤。完成电源状态配置后,清除日志。
检查从电源架背面连接到机箱的电源架监控电缆。这是用于电源架监控的特殊电缆。检查电缆时要小心,因为它很容易与常规DB9-RJ45控制台电缆混淆。电源架监控电缆的标签上写着:电源架后部:
MSE 8000系列机箱背面有两个连接器对:左边的连接器对标记为插槽10,右边的连接器对标记为插槽1。确保监控电缆连接到插槽1,即代表MSE 8050系列Supervisor插槽的连接器。
如果您遇到电源架监控配置的任何问题,请完成以下步骤:
- 交换从机架A到机架B的电源机架监控电缆,以确定电缆是否存在问题。如果电缆出现问题,请与Cisco技术支持联系。
- 换用电源架A和电源架B上的NIC卡,以确定NIC卡是否是问题原因。如果警报返回,并且问题出在NIC卡之后,请与Cisco技术支持联系。
下图显示了电源架NIC卡:
排除电源整流器故障
在某些情况下,您可能会遇到某个电源整流器的问题。本节介绍如何解决这些问题。
以下是带整流器的电源架正视图:
下面是电源架的后视图:
要解决电源整流器的问题,请完成以下步骤:
- 如果整流器上出现错误,请重新安装它,并等待查看错误是否仍然出现(整流器可热插拔)。
- 如果几分钟后仍然出现此错误,请将整流器放入电源机架A或B的不同插槽中,以确定整流器或电源机架插槽是否出现问题。
- 如果仍然遇到问题,请与Cisco技术支持联系并提供以下信息:
- 处于警报状态的整流器的图片
- 整流器的序列号(位于整流器的右侧左侧)
- “电源”页的屏幕快照(硬件>电源)
- “运行状况”(Health)页面的截图(状态>运行状况)
- 审核日志
- 警报日志
- 事件日志
排除Cisco TelePresence ISDN GW故障
思科网真ISDN GW通过ISDN提供在IP和ISDN网络之间的无缝集成,具有完整的功能透明性。本节介绍如何对DSP上的ISDN PRI接口和缓冲区进行故障排除。
PRI第1层和第2层关闭
使用此部分可以对ISDN GW上的PRI接口问题进行故障排除。可以使用环回插头检查PRI端口以确定其是否出现故障:
- 第1层(L1)表示物理层或PRI连接。
- 第2层(L2)用于信令。
您可以使用环回电缆来确定ISDN GW上PRI端口的L1状态。将Pin1连接到Pin4,并将Pin2连接到Pin5,以便创建环回电缆。
将环回电缆插入端口1,并检查L1状态。如果端口1 上的L1状态显示为Up,则问题很可能是由于使用的电缆引起的。您可以使用环回电缆沿线路进一步向下排查,以隔离问题。
如果使用环回电缆时端口1上的L1状态显示为关闭,请为ISDN GW上的PRI启用端口2。使用环回电缆也测试Port 2。如果特定端口仍然出现问题,则可能是PRI端口出现故障。请与 Cisco 技术支持联系。
乒乓错误和DSP超时
DSP上有两个缓冲区称为Ping和Pong。每个缓冲区一次处理十毫秒的数据(一个ISDN帧)。目的是在您读取下一个缓冲区时处理一个缓冲区。如果这两个缓冲区彼此不同步,它们会交换以尝试重新同步。
以下是Cisco Telepresence ISDN GW事件日志中的示例,其中缓冲区失去同步并尝试自行更正:
14031 2012/02/29 13:03:05.143 dspapi Warning DSP(05):
"Ping Pong buffer returned to sync 0, 11111111"
14032 2012/02/29 13:03:05.399 dspapi Error DSP(05):
"Ping Pong buffer out of sync 1, 11111111"
14033 2012/02/29 13:03:05.399 dspapi Info DSP(05):
"Attempt to correct Ping Pong buffer sync"
14034 2012/02/29 13:03:05.400 dspapi Warning DSP(05):
"Ping Pong buffer returned to sync 0, 11111111"
14035 2012/02/29 13:03:05.856 dspapi Error DSP(05):
"Ping Pong buffer out of sync 1, 11111111"
14036 2012/02/29 13:03:05.856 dspapi Info DSP(05):
"Attempt to correct Ping Pong buffer sync"
14037 2012/02/29 13:03:05.862 dspapi Warning DSP(05):
"Ping Pong buffer returned to sync 0, 11111111"
14064 2012/02/29 13:03:21.626 dspapi Info DSP(04):
"receive from local primary dsp timeout"
14065 2012/02/29 13:03:21.626 dspapi Info DSP(03):
"receive from local primary dsp timeout"
14066 2012/02/29 13:03:21.638 dspapi Info DSP(15):
"receive from peer primary dsp timeout (rx)"
以下是需要考虑的一些问题:
- 为什么它们会不同步?
- 无效帧、有故障的ISDN时钟或不可靠的PRI是否可能导致此问题?
以下是需要收集的信息列表:
- 有多少个PRI连接到此GW?
- 所有PRI是来自同一交换机还是来自不同的交换机?
- 如果所有PRI均已拔下并重新引导系统,错误是否继续?收集显示这些错误的控制台日志。
- 如果仅连接PRI 1,是否返回错误?
- 如果仅连接PRI 2,是否返回错误?对所有PRI重复上述操作,一次一个。
如果使用不同交换机的PRI,则PRI时钟必须同步(来自同一电信公司的PRI通常同步)。一台交换机的PRI的时钟可能与另一台交换机的PRI的时钟完全不同步。如果只有一个PRI已连接且看起来正常,则从一台交换机连接一个PRI,从另一台交换机连接一个PRI,重新启动系统,然后查看错误是否返回。记录您的测试和行为,根据需要提供给Cisco技术支持。
相关信息