了解和排除Astro故障或勒芒或者在Catalyst 4000/4500系列交换机的尼斯超时

下载选项

PDF (216.2 KB)
在各种设备上使用 Adobe Reader 查看
ePub (149.8 KB)
在 iPhone、iPad、Android、Sony Reader 或 Windows Phone 上使用各种应用查看
Mobi (Kindle) (179.2 KB)
在 Kindle 设备上查看或在多个设备上使用 Kindle 应用查看

已更新: 2007 年 11 月 17 日

文档 ID:45640

非歧视性语言

此产品的文档集力求使用非歧视性语言。在本文档集中，非歧视性语言是指不隐含针对年龄、残障、性别、种族身份、族群身份、性取向、社会经济地位和交叉性的歧视的语言。由于产品软件的用户界面中使用的硬编码语言、基于 RFP 文档使用的语言或引用的第三方产品使用的语言，文档中可能无法确保完全使用非歧视性语言。深入了解思科如何使用包容性语言。

关于此翻译

思科采用人工翻译与机器翻译相结合的方式将此文档翻译成不同语言，希望全球的用户都能通过各自的语言得到支持性的内容。请注意：即使是最好的机器翻译，其准确度也不及专业翻译人员的水平。 Cisco Systems, Inc. 对于翻译的准确性不承担任何责任，并建议您总是参考英文原始文档（已提供链接）。

简介

Catalyst 4000/4500交换机系列在交换机架构中使用末节ASIC设计。交换机通过内部管理控制协议管理这些线卡末节ASIC(Astro/Leman/NiceR)。当这些内部管理请求和回应丢失或被延迟时，将生成控制台和系统日志消息。由于这些通信损失的原因各不相同，产生这些错误信息的根源也不明显。

本文的目的是帮助了解在Cat4000平台上生成的Astro/Leman/Nicer超时消息，并且凭借Cisco TAC的帮助解决这些问题。CatOS和Cisco IOS.的未来版本将提供改进的错误消息，如有可能，可以识别根本原因。

当stub ASIC (Astro/Lemans/Nicer)超时消息出现时，您可在基于CatOS的Catalyst 4000/4500交换机上获得与以下类似的报告：

%SYS-4-P2_WARN: 1/Astro(4/3) - timeout occurred
%SYS-4-P2_WARN: 1/Astro(4/3) - timeout is persisting

请注意，根据软件版本，错误消息的措辞可能会有所不同。Astro、Lemans和Nicer指不同类型的末节ASIC。本文档的背景理论部分介绍了更多详细信息。

对于基于Cisco IOS的Supervisor (Supervisor II+、III和iv)，会出现以下的错误信息：

%C4K_LINECARDMGMTPROTOCOL-4-INITIALTIMEOUTWARNING: Astro 5-2(Fa5/9-16) - management 
request timed out. 
%C4K_LINECARDMGMTPROTOCOL-4-ONGOINGTIMEOUTWARNING: Astro 5-2(Fa5/9-16) - consecutive 
management requests timed out.

注意：本文档主要介绍基于CatOS的Supervisor或交换机的故障排除。如果注意，某些信息适用于基于Cisco IOS的Supervisor。

注：本文档还介绍Astro末节ASIC，但大部分部分适用于其他类型的末节ASIC（Lemans和Nicer）线卡，因此，将在相应部分中注明。

阅读本文档后，读者将了解以下内容：

Catalyst 4000/4500中末节ASIC的功能。
可能导致内部管理数据包超时消息的条件。
当故障排除这一状况时，供Cisco TAC使用需要的步骤和要收集的命令。

Astro超时和故障排除部分提供有关每个问题的背景和详细说明。你可以选择直接进入本文的“故障排除的简单方法”章节。

开始使用前

规则

有关文档规则的详细信息，请参阅 Cisco 技术提示规则。

先决条件

本文档没有任何特定的前提条件。

使用的组件

本文档特定于使用末节ASIC的Catalyst 4000/4500 Supervisor或线卡。

背景理论

Astro stub ASIC指控制一组8个邻接10/100端口的10/100stub ASIC，这些端口通过到底板的千兆带宽连接与Supervisor通信，如下图所示。

管理引擎通过SERDES(SERealizer-DESerializer)组件与线卡末节ASIC通信。Supervisor端有一个SERDES组件连接到底板，每个stub ASIC的线路卡上有另外一个SERDES，可连接到底板。

通常可以使用上图来排除不同线路卡类型的故障。超时消息中的stub ASIC的不同取决于线路卡的类型。有关ASIC名称及其说明的列表，请参阅下表。

末节ASIC	描述	示例
阿斯特罗	8端口10/100控制器末节ASIC	WS-X4148-RJ45V
NiceR	4端口1000控制器末节ASIC	WS-X4418-GB（端口3-18）
勒芒	8端口10/100/1000控制器末节ASIC	WS-X4448-GB-RJ

内部管理流量与正常数据流量一起流经两个SERDES组件。内部管理流量用于读/写末节ASIC和Phy寄存器。最常见的操作包括读取链路状态和统计信息。

排除故障的简单方法

以下各节说明%SYS-4-P2_WARN的含义和可能的原因：1/(Stub)(module_number/)Stub_reference - Timeout occurred错误消息。

从6.2.1和6.3.1的软件版本开始添加 Astro (stub)超时消息，并在6.4.4 (CSCea73908) 版本中进一步增强，以指示Supervisor在与10/100线路卡上的Astro stub ASIC通信时，丢失内部管理控制数据包。丢失通信有多个原因，见下面“故障排除”章节的详细描述。

以下故障排除流程图提供了在可能的根本原因之间隔离故障的方法，十分快速、简便：

**各种根本原因可能表现出类似症状。请联系TAC以进一步排除故障。

末节(Astro/Lemans/NiceR)ASIC超时

当Supervisor软件没有收到来自线路卡stub ASIC的多个内部管理答复时，就会发出Astro/Lemans/Nicer超时报告。如果：

管理请求丢失或延迟
管理响应丢失或延迟

当软件在等待管理数据包响应时连续超时10次时，系统会打印“timeout occurred...”（超时……）消息。后续超时导致打印“连续管理……” 或"。.超时持续……" 消息，具体取决于软件版本。

此日志消息的速率限制为每10分钟一次。当超时发生时，转发到受影响末节ASIC的数据包继续。然而不能看到链路/autoneg速度/双工的任何更改，因为软件不会收到管理信息包回复。并且当超时出现时，接口组的数据流统计数据的更新程序会受到影响。

故障排除

出现Astro/Lemans/Nicer超时消息有多种原因。下面分别介绍了每个。

原因 1：高流量负载、第2层环路或流向CPU的过多网络流量

以下情况可能导致末节超时条件：

网络问题
配置问题
邻居元素
Catalyst交换机之外的其他因素

导致高数据流负载的第2层环路或广播风暴，会引起内部管理控制信息包的损失。这种情况发生通常由于CPU繁忙(CPU HOG)，不能处理它的队列。

内部管理控制数据流采用来自Astro(或其他Stub芯片)的正常数据流量通向Supervisor的相同数据路径。因此，控制数据包可能因拥塞而丢失。

通过修复Cisco Bug ID CSCea73908（仅限注册客户），在CatOS版本6.4(4)及更高版本中，可以更好地处理内部管理请求超时时间。这个增强功能可能防止由于CPU繁忙造成的许多瞬变控制数据包超时。

操作：排除第2层环路故障；或更改配置以解析流量模式。

解决方法：将交换机管理接口(sc0)移到基于CatOS的交换机上的非用户流量VLAN。使用set interface sc0 <vlan-id>命令移动接口sc0的vlan。

注意：从Cisco IOS 12.1(20)EW开始，基于Cisco IOS的Supervisor在CPU处理内部管理数据包机制方面引入了增强功能。这个增强功能有助于防止由于意外的低优先级数据流大量占用CPU资源，而导致内部管理控制信息包损失。

解决方案：请参阅上述解决方法。

原因 2：半双工/1A型布线

前面板用户端口配置为半双工。残余部分ASIC的流出数据流与流入数据流的冲突，可能导致残余部分缓冲区非常迟缓地排出。这可能引起填满新的内部管理请求的Supervisor上的tx队列丢弃，从而导致超时错误信息。

使用A类电缆的网络也可能导致此问题。连接到带有RJ-45补丁程序的1A类BALUN的工作站断开时，BALUN会在内部反向循环，造成流出数据流返回。此情况模拟在前面板端口上连接外部环回。在端口进入阻塞状态之前，传出流量会环回到交换机。这可能导致末节缓冲区溢出，具体取决于流量速率。

操作：请参阅解决方法。

解决方法：避免半双工配置。Type1A布线时，避免从1A 类BALUN插入RJ-45接插线，避免形成BALUN中的内部环回。

解决方案：请参阅解决方法。

原因 3：SERDES组件故障

如果只在一个模块上的一个Astro (或其他stub ASIC) 上看到错误，并且没有发生第二层环路，则问题很可能在于Supervisor或线路卡上的有故障的SERDES组件。例如，如果错误信息始终在模块3上的Astro 4上，如下所示，则模块3上的SERDES组件或Supervisor上的SERDES组件发生了故障。

%SYS-4-P2_WARN: 1/Astro(3/4) – timeout occurred

在上述错误消息中，括号中的数字"4"表示Astro #，而不是实际端口3/4。此数字引用一组八个端口(3/33-3/40)，因为它是模块3上的第四个Astro。

一个有故障的SERDES组件可能导致流向Astro/Lemans/NiceR的控制流量和数据流量间断接通，造成超时。但是，通常，如果SERDES出现故障，将持续显示错误消息。

操作：为了确定哪些(Supervisor或线路卡) SERDES已坏，执行以下步骤：

将线卡移动到机箱或另一个机箱中的备用插槽。如果有可用插槽，请用已知工作模块换用插槽。
如果在新插槽中的相同Astro/Lemans/Nicer上继续出现Astro/Lemans/Nicer超时信息，则很可能是SERDES或线路卡上的Astro/Lemans/Nicer发生了故障，线路卡需要更换。

注意：通过在备用插槽中重新插入模块，可在线卡上执行在线诊断。如果发现有故障的SERDES或Astro/Lemans/Nicer，交换机将该端口标为“有故障”。
如果超时在原始线路卡Astro/Lemans/Nicer上没有继续出现，很可能是Supervisor SERDES存在故障。对此进行验证，在原始插槽中插入一个已知工作模块，并查看新的模块是否超时。

如果它确实起作用，则可能是Supervisor上的SERDES。参见“Catalyst WS-X4013 Supervisor Exhibits Partial Loss of Connectivity”的问题信息通告（Field Notice），查看带有故障SERDES组件的受影响序列号的列表。

解决方法：无

解决方案：请联系TAC以进一步排除故障。

原因 4：瞬态/硬SRAM故障

连接到带有SupervisorI或II或III或IV引擎的Catalyst 4000、或者Catalyst 2948G、Cat2980G的设备可能遇到部分或完全的网络连接丢失。某些或所有端口都可能受到影响。这些症状伴随着基于CatOS的Supervisor上的无效CRC丢弃数据包的快速增加，以及stub ASIC超时错误信息。

问题归结于信息包缓冲存储器(SRAM)故障，这是硬故障或暂时故障类型。

操作：根据发生了下列两个瞬变数据包缓冲存储器故障签名中的哪一个，选择行动措施：

SUP I、SUP II、2948G、2980G的瞬态数据包缓冲区内存故障签名

以下是此问题的症状：
- InvalidPktBufferCRC的快速增量与如下消息类似
```
%SYS-4-P2_WARN: 1/Invalid crc, dropped packet, count = xxxx
```
- 使用reset命令进行软重置将导致Supervisor无法开机自检。
- 如果执行硬重启(重新通电)，Supervisor将通过POST，并且不会再碰到故障。
注：如果Supervisor I、II、2948G、2980G出现硬包缓冲内存故障，硬重置将无法解决问题，并且Supervisor或交换机仍将无法开机自检。

有关此问题的详细信息，请参阅Supervisor II的Cisco Bug ID CSCdy46288(仅注册客户)、Supervisor I/2948G/的Cisco Bug ID CSCeb56266(仅注册客户)WS-C2980G-A的2980G和Cisco Bug ID CSCeb56325(仅注册客户)。
SUP III、SUP IV的瞬态数据包缓冲内存故障签名

以下是此问题的症状：
- VlanZeroBadCrc计数器快速递增，并显示在以下命令输出中：
```
show platform cpuport all (prior to 12.1(11b)EW1 ) 
or  show platform cpu packet statistics all (Since 12.1(11b)EW1) 
depending upon the software version. Starting from 12.1(19)EW, 
you should also see the following error message rapidly incrementing errors: 

%C4K_SWITCHINGENGINEMAN-2-PACKETMEMORYERROR3: Persistent Errors in 
Packet Memory xxxx
```
- 软重置会导致Supervisor无法开机自检。使用show diagnostics power-on命令验证故障。
- 硬重置（重新通电）将恢复Supervisor，并且它将通过开机自检。
注意：如果Supervisor III/IV出现硬SRAM故障，硬重置将无法恢复Supervisor，并且仍会使POST失败。

有关Supervisor III/IV上此问题的详细信息，请参阅Cisco Bug ID CSCdz57255(仅限注册客户)

解决方法：一旦有瞬变的SRAM问题，重新通电或硬重置交换机。硬SRAM问题没有解决方法。

解决方案：请联系TAC以进一步排除故障。

原因 5：管理引擎时钟故障

如果看到Astro/Lemans/NiceR超时消息，指向多个模块编号或者多个Astro/Lemans/Nicer，则这可能意味着Supervisor上发生了时钟故障。时钟故障通常伴随着Astro/Lemans/Nicer超时错误信息和BlockTXQueue和BlockedGigaport错误信息，如下所示：

%SYS-4-P2_WARN: 1/Blocked queue on gigaport ...

操作：请联系TAC以进一步排除有关Cisco Bug ID CSCdp89537(仅限注册客户)和CSCdp93187(仅限注册客户)的故障。

解决方法：无

解决方案：请联系TAC以进一步排除故障。

原因 6：短功率中断

采用Supervisor II (WS-X4013)的Catalyst4000系列交换机可能进入Supervisor和线路卡无法正确相互通信的状态。当交换机进入此状态时，模块状态指示灯将是红色(不闪烁)，并且/或者端口指示灯闪闪烁，顺序类似于模块或交换机重置。这将伴随Astro/Lemans/NiceR超时消息。

此问题由交换机的临时电源中断引起(少于500毫秒)。临时电源中断可能是由于生产环境中的不稳定电源供电。

操作：请参阅下面的解决方法。

解决方法：重置（软或硬）交换机。

解决方案：使用Cisco Bug ID CSCea14710(仅限注册客户)或更高版本的修复程序升级到软件映像。

了解和排除Astro故障或勒芒或者在Catalyst 4000/4500系列交换机的尼斯超时

下载选项

非歧视性语言

关于此翻译

目录

简介

开始使用前

规则

先决条件

使用的组件

背景理论

排除故障的简单方法

末节(Astro/Lemans/NiceR)ASIC超时

故障排除

原因 1：高流量负载、第2层环路或流向CPU的过多网络流量

原因 2：半双工/1A型布线

原因 3：SERDES组件故障

原因 4：瞬态/硬SRAM故障

原因 5：管理引擎时钟故障

原因 6：短功率中断

相关信息

此文档是否有帮助?

联系我们

本文档适用于以下产品