Catalyst 4000/4500交换机系列在交换机架构中使用末节ASIC设计。交换机通过内部管理控制协议管理这些线卡末节ASIC(Astro/Leman/NiceR)。当这些内部管理请求和回应丢失或被延迟时,将生成控制台和系统日志消息。由于这些通信损失的原因各不相同,产生这些错误信息的根源也不明显。
本文的目的是帮助了解在Cat4000平台上生成的Astro/Leman/Nicer超时消息,并且凭借Cisco TAC的帮助解决这些问题。CatOS和Cisco IOS.的未来版本将提供改进的错误消息,如有可能,可以识别根本原因。
当stub ASIC (Astro/Lemans/Nicer)超时消息出现时,您可在基于CatOS的Catalyst 4000/4500交换机上获得与以下类似的报告:
%SYS-4-P2_WARN: 1/Astro(4/3) - timeout occurred %SYS-4-P2_WARN: 1/Astro(4/3) - timeout is persisting
请注意,根据软件版本,错误消息的措辞可能会有所不同。Astro、Lemans和Nicer指不同类型的末节ASIC。本文档的背景理论部分介绍了更多详细信息。
对于基于Cisco IOS的Supervisor (Supervisor II+、III和iv),会出现以下的错误信息:
%C4K_LINECARDMGMTPROTOCOL-4-INITIALTIMEOUTWARNING: Astro 5-2(Fa5/9-16) - management request timed out. %C4K_LINECARDMGMTPROTOCOL-4-ONGOINGTIMEOUTWARNING: Astro 5-2(Fa5/9-16) - consecutive management requests timed out.
注意:本文档主要介绍基于CatOS的Supervisor或交换机的故障排除。如果注意,某些信息适用于基于Cisco IOS的Supervisor。
注:本文档还介绍Astro末节ASIC,但大部分部分适用于其他类型的末节ASIC(Lemans和Nicer)线卡,因此,将在相应部分中注明。
阅读本文档后,读者将了解以下内容:
Catalyst 4000/4500中末节ASIC的功能。
可能导致内部管理数据包超时消息的条件。
当故障排除这一状况时,供Cisco TAC使用需要的步骤和要收集的命令。
Astro超时和故障排除部分提供有关每个问题的背景和详细说明。你可以选择直接进入本文的“故障排除的简单方法”章节。
有关文档规则的详细信息,请参阅 Cisco 技术提示规则。
本文档没有任何特定的前提条件。
本文档特定于使用末节ASIC的Catalyst 4000/4500 Supervisor或线卡。
Astro stub ASIC指控制一组8个邻接10/100端口的10/100stub ASIC,这些端口通过到底板的千兆带宽连接与Supervisor通信,如下图所示。
管理引擎通过SERDES(SERealizer-DESerializer)组件与线卡末节ASIC通信。Supervisor端有一个SERDES组件连接到底板,每个stub ASIC的线路卡上有另外一个SERDES,可连接到底板。
通常可以使用上图来排除不同线路卡类型的故障。超时消息中的stub ASIC的不同取决于线路卡的类型。有关ASIC名称及其说明的列表,请参阅下表。
末节ASIC | 描述 | 示例 |
---|---|---|
阿斯特罗 | 8端口10/100控制器末节ASIC | WS-X4148-RJ45V |
NiceR | 4端口1000控制器末节ASIC | WS-X4418-GB(端口3-18) |
勒芒 | 8端口10/100/1000控制器末节ASIC | WS-X4448-GB-RJ |
内部管理流量与正常数据流量一起流经两个SERDES组件。内部管理流量用于读/写末节ASIC和Phy寄存器。最常见的操作包括读取链路状态和统计信息。
以下各节说明%SYS-4-P2_WARN的含义和可能的原因:1/(Stub)(module_number/)Stub_reference - Timeout occurred错误消息。
从6.2.1和6.3.1的软件版本开始添加 Astro (stub)超时消息,并在6.4.4 (CSCea73908) 版本中进一步增强,以指示Supervisor在与10/100线路卡上的Astro stub ASIC通信时,丢失内部管理控制数据包。丢失通信有多个原因,见下面“故障排除”章节的详细描述。
以下故障排除流程图提供了在可能的根本原因之间隔离故障的方法,十分快速、简便:
**各种根本原因可能表现出类似症状。请联系TAC以进一步排除故障。
当Supervisor软件没有收到来自线路卡stub ASIC的多个内部管理答复时,就会发出Astro/Lemans/Nicer超时报告。如果:
管理请求丢失或延迟
管理响应丢失或延迟
当软件在等待管理数据包响应时连续超时10次时,系统会打印“timeout occurred...”(超时……)消息。后续超时导致打印“连续管理……” 或"。.超时持续……" 消息,具体取决于软件版本。
此日志消息的速率限制为每10分钟一次。当超时发生时,转发到受影响末节ASIC的数据包继续。然而不能看到链路/autoneg速度/双工的任何更改,因为软件不会收到管理信息包回复。并且当超时出现时,接口组的数据流统计数据的更新程序会受到影响。
出现Astro/Lemans/Nicer超时消息有多种原因。下面分别介绍了每个。
以下情况可能导致末节超时条件:
网络问题
配置问题
邻居元素
Catalyst交换机之外的其他因素
导致高数据流负载的第2层环路或广播风暴,会引起内部管理控制信息包的损失。这种情况发生通常由于CPU繁忙(CPU HOG),不能处理它的队列。
内部管理控制数据流采用来自Astro(或其他Stub芯片)的正常数据流量通向Supervisor的相同数据路径。 因此,控制数据包可能因拥塞而丢失。
通过修复Cisco Bug ID CSCea73908(仅限注册客户),在CatOS版本6.4(4)及更高版本中,可以更好地处理内部管理请求超时时间。这个增强功能可能防止由于CPU繁忙造成的许多瞬变控制数据包超时。
操作:排除第2层环路故障;或更改配置以解析流量模式。
解决方法:将交换机管理接口(sc0)移到基于CatOS的交换机上的非用户流量VLAN。使用set interface sc0 <vlan-id>命令移动接口sc0的vlan。
注意:从Cisco IOS 12.1(20)EW开始,基于Cisco IOS的Supervisor在CPU处理内部管理数据包机制方面引入了增强功能。这个增强功能有助于防止由于意外的低优先级数据流大量占用CPU资源,而导致内部管理控制信息包损失。
解决方案:请参阅上述解决方法。
前面板用户端口配置为半双工。残余部分ASIC的流出数据流与流入数据流的冲突,可能导致残余部分缓冲区非常迟缓地排出。这可能引起填满新的内部管理请求的Supervisor上的tx队列丢弃,从而导致超时错误信息。
使用A类电缆的网络也可能导致此问题。连接到带有RJ-45补丁程序的1A类BALUN的工作站断开时,BALUN会在内部反向循环,造成流出数据流返回。此情况模拟在前面板端口上连接外部环回。在端口进入阻塞状态之前,传出流量会环回到交换机。这可能导致末节缓冲区溢出,具体取决于流量速率。
操作:请参阅解决方法。
解决方法:避免半双工配置。Type1A布线时,避免从1A 类BALUN插入RJ-45接插线,避免形成BALUN中的内部环回。
解决方案:请参阅解决方法。
如果只在一个模块上的一个Astro (或其他stub ASIC) 上看到错误,并且没有发生第二层环路,则问题很可能在于Supervisor或线路卡上的有故障的SERDES组件。例如,如果错误信息始终在模块3上的Astro 4上,如下所示,则模块3上的SERDES组件或Supervisor上的SERDES组件发生了故障。
%SYS-4-P2_WARN: 1/Astro(3/4) – timeout occurred
在上述错误消息中,括号中的数字"4"表示Astro #,而不是实际端口3/4。此数字引用一组八个端口(3/33-3/40),因为它是模块3上的第四个Astro。
一个有故障的SERDES组件可能导致流向Astro/Lemans/NiceR的控制流量和数据流量间断接通,造成超时。但是,通常,如果SERDES出现故障,将持续显示错误消息。
操作:为了确定哪些(Supervisor或线路卡) SERDES已坏,执行以下步骤:
将线卡移动到机箱或另一个机箱中的备用插槽。如果有可用插槽,请用已知工作模块换用插槽。
如果在新插槽中的相同Astro/Lemans/Nicer上继续出现Astro/Lemans/Nicer超时信息,则很可能是SERDES或线路卡上的Astro/Lemans/Nicer发生了故障,线路卡需要更换。
注意:通过在备用插槽中重新插入模块,可在线卡上执行在线诊断。如果发现有故障的SERDES或Astro/Lemans/Nicer,交换机将该端口标为“有故障”。
如果超时在原始线路卡Astro/Lemans/Nicer上没有继续出现,很可能是Supervisor SERDES存在故障。对此进行验证,在原始插槽中插入一个已知工作模块,并查看新的模块是否超时。
如果它确实起作用,则可能是Supervisor上的SERDES。参见“Catalyst WS-X4013 Supervisor Exhibits Partial Loss of Connectivity”的问题信息通告(Field Notice),查看带有故障SERDES组件的受影响序列号的列表。
解决方法:无
解决方案:请联系TAC以进一步排除故障。
连接到带有SupervisorI或II或III或IV引擎的Catalyst 4000、或者Catalyst 2948G、Cat2980G的设备可能遇到部分或完全的网络连接丢失。某些或所有端口都可能受到影响。这些症状伴随着基于CatOS的Supervisor上的无效CRC丢弃数据包的快速增加,以及stub ASIC超时错误信息。
问题归结于信息包缓冲存储器(SRAM)故障,这是硬故障或暂时故障类型。
操作:根据发生了下列两个瞬变数据包缓冲存储器故障签名中的哪一个,选择行动措施:
SUP I、SUP II、2948G、2980G的瞬态数据包缓冲区内存故障签名
以下是此问题的症状:
InvalidPktBufferCRC的快速增量与如下消息类似
%SYS-4-P2_WARN: 1/Invalid crc, dropped packet, count = xxxx
使用reset命令进行软重置将导致Supervisor无法开机自检。
如果执行硬重启(重新通电),Supervisor将通过POST,并且不会再碰到故障。
注:如果Supervisor I、II、2948G、2980G出现硬包缓冲内存故障,硬重置将无法解决问题,并且Supervisor或交换机仍将无法开机自检。
有关此问题的详细信息,请参阅Supervisor II的Cisco Bug ID CSCdy46288(仅注册客户)、Supervisor I/2948G/的Cisco Bug ID CSCeb56266(仅注册客户)WS-C2980G-A的2980G和Cisco Bug ID CSCeb56325(仅注册客户)。
SUP III、SUP IV的瞬态数据包缓冲内存故障签名
以下是此问题的症状:
VlanZeroBadCrc计数器快速递增,并显示在以下命令输出中:
show platform cpuport all (prior to 12.1(11b)EW1 ) or show platform cpu packet statistics all (Since 12.1(11b)EW1) depending upon the software version. Starting from 12.1(19)EW, you should also see the following error message rapidly incrementing errors: %C4K_SWITCHINGENGINEMAN-2-PACKETMEMORYERROR3: Persistent Errors in Packet Memory xxxx
软重置会导致Supervisor无法开机自检。使用show diagnostics power-on命令验证故障。
硬重置(重新通电)将恢复Supervisor,并且它将通过开机自检。
注意:如果Supervisor III/IV出现硬SRAM故障,硬重置将无法恢复Supervisor,并且仍会使POST失败。
有关Supervisor III/IV上此问题的详细信息,请参阅Cisco Bug ID CSCdz57255(仅限注册客户)
解决方法:一旦有瞬变的SRAM问题,重新通电或硬重置交换机。硬SRAM问题没有解决方法。
解决方案:请联系TAC以进一步排除故障。
如果看到Astro/Lemans/NiceR超时消息,指向多个模块编号或者多个Astro/Lemans/Nicer,则这可能意味着Supervisor上发生了时钟故障。时钟故障通常伴随着Astro/Lemans/Nicer超时错误信息和BlockTXQueue和BlockedGigaport错误信息,如下所示:
%SYS-4-P2_WARN: 1/Blocked queue on gigaport ...
操作:请联系TAC以进一步排除有关Cisco Bug ID CSCdp89537(仅限注册客户)和CSCdp93187(仅限注册客户)的故障。
解决方法:无
解决方案:请联系TAC以进一步排除故障。
采用Supervisor II (WS-X4013)的Catalyst4000系列交换机可能进入Supervisor和线路卡无法正确相互通信的状态。当交换机进入此状态时,模块状态指示灯将是红色(不闪烁),并且/或者端口指示灯闪闪烁,顺序类似于模块或交换机重置。这将伴随Astro/Lemans/NiceR超时消息。
此问题由交换机的临时电源中断引起(少于500毫秒)。 临时电源中断可能是由于生产环境中的不稳定电源供电。
操作:请参阅下面的解决方法。
解决方法:重置(软或硬)交换机。
解决方案:使用Cisco Bug ID CSCea14710(仅限注册客户)或更高版本的修复程序升级到软件映像。