简介
本文档说明了引起 Cisco 路由器上奇偶校验错误的原因及相应的故障解决办法。
先决条件
要求
Cisco 建议您先了解如何排除路由器崩溃故障方面的知识。
有关详细信息,请参阅路由器崩溃故障排除。
使用的组件
本文档不限于特定的软件和硬件版本。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。
规则
有关文档规则的详细信息,请参阅 Cisco 技术提示规则。
识别奇偶校验错误
内存奇偶校验错误发生在基于多通道接口处理器 (MIPS) 的处理器产品中,这些产品如下所示:
-
Cisco 4500/4700 系列路由器
-
Cisco 7500 系列路由器(RSP1、RSP2、RSP4、RSP8、VIP2-10、VIP2-15、VIP2-20、VIP2-40、VIP2-50)
-
Cisco 7000 系列路由器 (RSP 7000)
-
Cisco 7200 系列路由器(NPE-100、NPE-150、NPE-175、NPE-200、NPE-225、NPE-300)
-
Cisco 12000 系列互联网路由器
以下是一些消息,全部与系统内某处检测到错误的奇偶校验相关(该列表并不详尽,但包含大多数常见消息):
暂时性与永久性奇偶错误
奇偶校验错误共有两种:
研究显示,暂时性奇偶校验错误的出现频率比硬奇偶校验错误高出10到100倍。因此,Cisco 强烈建议只有再次出现奇偶校验错误时才应更换相应零部件。这样将大大减小对网络的影响。
查明问题
路由器的内存位于不同的位置上。理论上讲,奇偶错误可影响到任何内存位置,但大多数内存问题发生在动态 RAM (DRAM) 或共享RAM (SRAM) 中。以下将基于不同的平台来说明如何找出受影响的内存位置,以及在确定是硬奇偶检验错误时必须更换哪个部件:
Cisco 4500 和 4700 平台
在 Cisco 4500 和 4700 平台上,crashinfo 文件在早于 Cisco IOS® 软件版本 12.2(10) 和 12.2(10)T 的版本中不可用。
找出故障发生位置的一种方法是在控制台日志和 show version 命令输出中查看“重新启动理由”:
-
DRAM 中的奇偶校验错误:
如果在崩溃后没有手动重新加载路由器,show version 的输出将如下所示:
System restarted by processor memory parity error at PC 0x601799C4,
address 0x0
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
如果 crashinfo 文件是可用的,或者,如果已捕获控制台日志,您还会看到类似以下的内容:
*** Cache Error Exception ***
Cache Err Reg = 0xa0255c61
data reference, primary cache, data field error , error on SysAD Bus
PC = 0xbfc0edc0, Cause = 0xb800, Status Reg = 0x34408007
DRAM 中重复出现奇偶校验错误表明 DRAM 或机箱存在故障。如果您最近卸除了机箱,或者,如果进行了任何硬件配置更改,请重新安装 DRAM 芯片以解决问题。否则,首先更换DRAM。这一定可以防止奇偶校验错误。若路由器依然崩溃,则更换机箱。
-
SRAM中的奇偶错误:
如果在崩溃后没有手动重新加载路由器,则 show version 命令的输出如下所示:
System restarted by shared memory parity error at PC 0x60130F40
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
如果 crashinfo 文件是可用的,或者,如果已捕获控制台日志,您还会看到类似以下的内容:
*** Shared Memory Parity Error ***
shared memory control register= 0xffe3
error(s) reported for: CPU on byte(s): 0/1
或
%PAR-1-FATAL: Shared memory parity error
shared memory status register= 0xFFEF
error(s) reported for: CPU on byte(s): 0/1 2/3
或
*** Shared Memory Parity Error ***
shared memory control register= 0xffdf
error(s) reported for: NIM1 on byte(s): 0/1 2/3
注意:
-
若生成 CPU 错误报告,则更换 SRAM。
-
若生成NIM(x)错误报告,则更换插槽(x)中的网络模块。已分配到插槽 (x) 的 SRAM 也可能受到影响。在这种情况下,请更换 SRAM。
若 SRAM 中重复出现奇偶校验错误,则说明 SRAM 芯片出现故障,或存在故障的网络模块将错误的奇偶校验写入 SRAM 中。如果最近卸除了机箱,或者,如果做了任何硬件配置更改,请重新安装网络模块和 SRAM 芯片以解决问题。否则,检查控制台日志中报错的位置(参见上面的输出示例)。
路由/交换处理器(RSP)、网络处理引擎(NPE)和路由处理器(RP)平台
与 Cisco 4000 系列一样,问题可能是由这些平台中存在故障的 DRAM 或 SRAM 所致。问题也可能是由存在故障的处理器卡(RP、RSP 或 NPE)所致。Cisco 7000 和 7500 还可能报告由接口处理器故障或接口处理器安装位置不当(传统的 xIP 或 VIP)所引发的奇偶校验错误。
检查 crashinfo 文件和控制台日志中是否有以下错误消息之一:
DRAM或SRAM(MEMD)中的奇偶校验错误
对于 RP、RSP 和 NPE,通常显示以下内容:
Error: primary data cache, fields: data, (SysAD)
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
virtual address corresponds to main:data, cache word 0
或只显示:
Error: primary data cache, fields: data, SysAD
phy21:3 0x201880, va14:12 0x1000, addr 63E01880
这说明RSP本身发生故障。如果问题只发生一次,它很可能是一个暂时性的问题。
从SRAM中引起的奇偶校验错误
对于 RSP,消息可能如下所示:
%RSP-3-ERROR: MD error 0000008000000200
%RSP-3-ERROR: QA parity error (bytes 0:3) 02
%RSP-3-ERROR: MEMD parity error condition
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA)
log 22010000, data 00000000 00000000
%RSP-3-RESTART: cbus complex
或
%RSP-3-ERROR: CyBus error 01
%RSP-3-ERROR: read data parity
%RSP-3-ERROR: read parity error (bytes 0:7) 20
%RSP-3-ERROR: physical address (bits 20:15) 000000
如果无迹象表明其他接口处理器将错误的奇偶校验写入 SRAM(例如,VIP2-1-MSG 错误消息)中,则出现奇偶校验错误最可能的原因是 SRAM 本身。在这种情况下,请更换 RSP。
如果其他错误消息表明接口处理器写入错误的奇偶校验,则可能是卡发生故障或安装位置不当所致。
通用接口处理器
如果在日志或crashinfo文件中收到%VIP2-1-MSG: slot(x)消息,请参阅VIP崩溃故障排除。
推荐的操作
首次出现奇偶校验错误时,不可能判断出是软奇偶校验错误还是硬奇偶校验错误。从经验来看,多数发生的奇偶校验错误是软奇偶校验错误,您通常能消除它们。若最近更换了某些硬件或移动了机架,请重新安装受影响的部件(DRAM、SRAM、NPE、RP、RSP 或 VIP)。若经常出现多个奇偶校验错误,则说明存在硬件故障。在本文档提及的说明帮助下替换受影响的部件(DRAM、RSP、VIP 或者主板)。
建立 TAC 服务请求时要收集的信息
如果执行上述故障排除步骤操作后仍需帮助,并且要使用 Cisco TAC 建立服务请求,请确保包括以下信息: |
- 在建立服务请求之前已执行故障排除。
- show technical-support 命令的输出(如果可能,在启用模式下)。
- show log 命令的输出或控制台捕获信息(如果可用)。
- crashinfo 文件(如果存在,并且尚未包括在 show technical-support 命令输出中。若存在多个 crashinfo 文件,则提供所有文件)。
- 您看到的由于处理器内存奇偶检验错误导致的重新加载次数,以及发生重新加载的时间。
请将您所收集到的上述数据附加在一个非压缩的、纯文本格式(.txt)文件中。要在您的服务请求中附加信息,请通过 TAC 服务请求工具(仅限注册用户)上载它。如果无法访问服务请求工具,可以将相关信息附加到服务请求,然后将其发送到 attach@cisco.com,并在邮件的主题行中注明服务请求号。 注:在收集上述信息之前,除非需要排除处理器内存奇偶校验错误,否则请勿手动重新加载路由器或重新启动路由器,因为这样会导致确定问题根本原因所需的重要信息丢失。 |
相关信息