奇偶校验错误故障排除指南

下载选项

PDF (297.3 KB)
在各种设备上使用 Adobe Reader 查看
ePub (84.7 KB)
在 iPhone、iPad、Android、Sony Reader 或 Windows Phone 上使用各种应用查看
Mobi (Kindle) (80.2 KB)
在 Kindle 设备上查看或在多个设备上使用 Kindle 应用查看

已更新: 2019 年 3 月 21 日

文档 ID:116135

非歧视性语言

此产品的文档集力求使用非歧视性语言。在本文档集中，非歧视性语言是指不隐含针对年龄、残障、性别、种族身份、族群身份、性取向、社会经济地位和交叉性的歧视的语言。由于产品软件的用户界面中使用的硬编码语言、基于 RFP 文档使用的语言或引用的第三方产品使用的语言，文档中可能无法确保完全使用非歧视性语言。深入了解思科如何使用包容性语言。

关于此翻译

思科采用人工翻译与机器翻译相结合的方式将此文档翻译成不同语言，希望全球的用户都能通过各自的语言得到支持性的内容。请注意：即使是最好的机器翻译，其准确度也不及专业翻译人员的水平。 Cisco Systems, Inc. 对于翻译的准确性不承担任何责任，并建议您总是参考英文原始文档（已提供链接）。

简介

本文档介绍软奇偶校验和硬奇偶校验错误，解释常见错误消息，并推荐有助于避免或最小化奇偶校验错误的方法。硬件和软件设计的最新改进也减少了奇偶校验问题。

背景

处理器或内存奇偶校验错误是什么？

奇偶校验是存储额外的二进制数字（位），以表示少量计算机数据（通常为一个字节）的奇偶校验（奇数或偶数），而该数据存储在内存中。然后，将从存储的数据计算的奇偶校验值与最终奇偶校验值进行比较。如果这两个值不同，则表示数据错误，并且至少一个位必须因数据损坏而更改。

在计算机系统内，来自内部或外部原因的电或磁干扰可能导致单个内存位自发地翻转到相反状态。此事件使原始数据位无效，称为奇偶校验错误。

这种内存错误（如果未被检测）可能具有不可检测且不重要的结果，或可能导致存储的数据永久损坏或机器崩溃。

内存奇偶校验错误有许多原因，可归类为软奇偶校验错误或硬奇偶校验错误。

软错误

大多数奇偶校验错误是由静电或磁相关环境条件引起的。

存储器芯片中的大多数单粒子误差是由背景辐射（如宇宙射线中的中子）、电磁干扰(EMI)或静电放电(ESD)引起的。这些事件可以随机改变一个或多个存储单元的电状态或可能干扰用于读取和写入存储单元的电路。

这些事件通常是瞬态或随机的，通常发生一次。软错误可以是次要错误或严重错误：

可在不重置组件的情况下更正的轻微软错误是单事件设置(SEU)。
需要组件或系统重置的严重软错误是单事件后台(SEL)。

软错误不是由硬件故障引起的；它们是瞬时的，不频繁，大多可能是SEU，并且是由内存数据的环境中断引起的。

如果遇到软奇偶校验错误，请分析受影响系统位置最近发生的环境更改。可能导致软奇偶校验错误的常见ESD和EMI来源包括：

电源线和电源
配电装置
通用电源
照明系统
发电机
核设施（辐射）
太阳耀斑（辐射）

硬错误

其它奇偶校验错误是由存储器硬件的物理故障或用于读取和写入存储器单元的电路引起的。

硬件制造商采取广泛措施来防止和测试硬件缺陷。但是，缺陷仍然存在；例如，如果用于存储数据位的任何存储单元的格式不正确，则它们可能无法保持电荷或更易受到环境条件的影响。

同样，当存储器本身可以正常工作时，用于读取和写入存储器单元的电路的任何物理或电气损坏也可能导致数据位在传输期间发生改变，从而导致奇偶校验错误。

这些事件通常非常频繁且重复发生，并且只要使用受影响的内存或电路，就会发生。确切频率取决于故障的程度和损坏设备的使用频率。

请记住，硬奇偶校验错误是硬件故障的结果，并且每当使用受影响的组件时都会重新出现。

如果遇到硬奇偶校验错误，请分析在受影响系统的位置发生的物理更改。可能导致硬奇偶校验错误的常见硬件故障来源包括：

电源浪涌（无接地）
ESD
过热或冷却
安装不正确或部分安装
组件不兼容
制造缺陷

常见错误消息

Cisco IOS®^软件提供了各种奇偶校验错误消息，这些错误消息因受影响的组件及其对系统的相对影响而异。

处理器

检测到缓存错误！ CP0_CAUSE（注册号13/0）：0x00000400 CPO_ECC（注册26/0）：0x000000B3 CPO_BUSERRDPA（注册号26/1）：0x000000B3 CPO_CACHERI（注册器27/0）：0x20000000 检测到实际缓存错误。系统将停止。 Error:主instr缓存，字段：数据 , 实际物理地址0x00000000, 虚拟地址不精确。数据奇偶校验错误不精确
解释	这是多层交换功能卡3(MSFC3)的路由处理器(RP)或交换机处理器(SP)CPU使用的2级(L2)缓存（静态随机访问存储器或SRAM）中奇偶校验错误的结果。
建议	定期监控系统以重新出现。如果未观察到其他事件，则是软错误。如果错误频发，请请求退货授权(RMA)以更换管理引擎，并标记设备故障分析(EFA)模块。
%SYSTEM_CONTROLLER-3-ERROR:Error condition detected:SYSAD_PARITY_ERROR
解释	这是MSFC3的带内控制器(IBC)使用的系统地址（数据总线）中出现奇偶校验错误的结果。
建议	定期监控系统以重新出现。如果未观察到其他事件，则是软错误。如果错误频发，请请求RMA以更换Supervisor引擎，并标记模块以进行EFA。
%SYSTEM_CONTROLLER-3-ERROR:Error condition detected:TM_DATA_PARITY_ERROR
解释	这是MSFC3的IBC使用的表管理器数据中出现奇偶校验错误的结果。
建议	定期监控系统以重新出现。如果未观察到其他事件，则是软错误。如果错误频发，请请求RMA以更换Supervisor引擎，并标记模块以进行EFA。
%SYSTEM_CONTROLLER-3-ERROR:Error condition detected:TM_NPP_PARITY_ERROR
解释	这是MSFC3的IBC使用的表管理器“下一页指针”中奇偶校验错误的结果。
建议	定期监控系统以重新出现。如果未观察到其他事件，则是软错误。如果错误频发，请请求RMA以更换Supervisor引擎，并标记模块以进行EFA。在12.1(8)E和12.2(33)SXI3之间的Cisco IOS软件版本中，响应SYSTEM_CONTROLLER-3-ERROR事件的默认行为是重置IBC并记录错误消息。但是，这种纠正措施导致IBC（以及CPU）无法传输或接收数据的一些已记录案例。因此，在12.2(33)SXI4之后的Cisco IOS软件版本中，更改了行为，以记录错误消息并重置系统；请参阅Cisco Bug ID CSCtf51541。
中断异常，CPU信号20,PC = 0x[dec]
解释	这是Cisco Catalyst 6700系列模块使用的CPU L2缓存(SRAM)中出现单位奇偶校验错误的结果。
建议	定期监控系统以重新出现。如果未观察到其他事件，则是软错误。如果错误频发，请请求RMA以更换6700模块，并标记模块以进行EFA。在早于12.2(33)SXI5的Cisco IOS软件版本中，软件Bug(Cisco Bug ID CSCtj06411 )甚至会导致单位奇偶校验错误重置6700模块。这在版本12.2(33)SXI6和12.2(33)SXJ（适用于Supervisor引擎720）和版本15.0SY（适用于Supervisor引擎2T）中得到解决。

RAM

%SYSTEM_CONTROLLER-3-ERROR:Error condition detected:SYSDRAM_PARITY_ERROR
解释	这是MSFC3使用的同步DRAM(SDRAM)内存模块(DIMM)出现不可纠正的奇偶校验错误的结果。
建议	定期监控系统以重新出现。如果未观察到其他事件，则是软错误。如果错误频繁出现，请清洁并重新拔插DIMM，然后继续监控。如果错误继续，请请求RMA以更换或升级DIMM。
%SYSTEM_CONTROLLER-3-COR_MEM_ERR:可纠正的DRAM内存错误。计数[dec]，日志[hex]
解释	这是MSFC3使用的SDRAM(DIMM)中可更正的奇偶校验错误的结果。
建议	定期监控系统以重新出现。如果未观察到其他事件，则是软错误。如果错误频繁出现，请清洁并重新拔插DIMM，然后继续监控。如果错误继续，请请求RMA以更换或升级DIMM。
%MWAM-DFC[dec]-0-CORRECTABLE_ECC_ERR:发生可纠正的ECC错误，A_BUS_L2_ERRORS:0x10000、A_BUS_MEMIO_ERRORS:0x0、A_SCD_BUS_ERR_STATUS:0x80983000
解释	这是6700系列模块使用的DRAM中出现单位奇偶校验错误的结果。
建议	定期监控系统以重新出现。如果未观察到其他事件，则是软错误。如果错误频繁出现，请清洁并重新拔插DIMM，然后继续监控。如果错误继续，请请求RMA以更换或升级DIMM。
%PM_SCP-SP-2-LCP_FW_ERR_INFORM:模块[dec]遇到以下错误：在线圈#[dec]上检测到LTL奇偶校验错误。
解释	这是Cisco Catalyst 6100和Cisco Catalyst 6300系列模块使用的SRAM中出现奇偶校验错误的结果。
建议	定期监控系统以重新出现。如果未观察到其他事件，则是软错误。如果错误频发，请请求RMA以更换6100或6300模块，并标记模块以进行EFA。
%SYS-4-SYS_LCPERR4:Module [dec]:在线圈#[dec]上检测到LTL奇偶校验错误
解释	这是6100和6300系列模块使用的SRAM中奇偶校验错误的结果。
建议	定期监控系统以重新出现。如果未观察到其他事件，则是软错误。如果错误频发，请请求RMA以更换6100或6300模块，并标记模块以进行EFA。

ASIC

%PM_SCP-SP-2-LCP_FW_ERR_INFORM:模块[dec]遇到以下错误：端口[dec]上检测到端口ASIC([name])数据包缓冲区故障
解释	这是Cisco Catalyst 6148A系列以太网模块使用的端口ASIC数据包缓冲区(SRAM)出现奇偶校验错误的结果。
建议	定期监控系统以重新出现。如果未观察到其他事件，则是软错误。如果错误频发，请请求RMA以更换6148A模块，并标记模块以进行EFA。
%LTL-SP-2-LTL_PARITY_CHECK:0x[hex]的LTL奇偶校验请求]
解释	这是Catalyst 6100-6500和6700系列模块使用的端口ASIC端口索引表(SRAM)中出现奇偶校验错误的结果。
建议	定期监控系统以重新出现。如果未观察到其他事件，则是软错误。如果错误频发，请请求RMA以更换模块，并标记模块以进行EFA。

请参阅以下Cisco IOS软件文档，获取错误消息的完整列表：

命令输出解释程序工具（仅限注册用户）支持某些 show 命令。使用输出解释器工具来查看 show 命令输出的分析。

建议

此时，您可能已确定是否遇到软奇偶校验错误或硬奇偶校验错误。虽然这可以解决单个事件，但其他奇偶校验错误漏洞可能仍然存在，因此您应该对整个网络采取更全面的方法。

因此，思科和Catalyst 6500业务部门建议您审核这些缓解程序并采取适当的纠正措施，以消除或减少将来的奇偶校验错误。

软错误(SEU)

单事件（软）奇偶校验错误由环境条件引起，可能只发生一次(SEU)或极不经常发生，例如每月或每年。虽然您不需要更换硬件，但您确实希望减少将来的故障。

这些最佳实践显着降低了软奇偶校验错误的可能性。

环境审计

思科建议您对受影响的网络位置执行环境审计。您可以自行或与思科代表、思科团队(如思科高级服务)或第三方顾问协作执行此审核。

环境审计的确切覆盖范围和复杂性取决于许多不同的变量，如地理位置、建筑和房间大小和设计、电气设计和布局以及其他相关因素。

考虑网络中或网络周围可能存在哪些ESD和EMI环境源。以下是可能导致软奇偶校验错误的常见干扰源：

电源线和电源
配电装置
通用电源
照明系统
发电机
核设施（辐射）
太阳耀斑（辐射）

机箱放置

如果配电装置、发电机或照明系统太靠近机箱，或者机箱上或旁边有多条电源线，则可能发生SEU。

在Catalyst 6500机箱与这些电源和磁源之间提供足够的距离非常重要。建议的距离因组件而异，可从组件数据表中获得。

通常，思科建议您定位距离常见电源和磁干扰源至少3到6英寸的系统。电源电缆应尽可能地从机箱上下布线，不应将电缆布置在紧密封装的捆绑包中，或在机箱上或旁边布置大量电缆。

接地

电源波动和电源浪涌相对比较常见，Catalyst 6500电源设计用于适应电压电流的微小变化。

但是，必须为机箱和机架提供适当的电接地，以便从系统中抽走任何过高的电压。如果未正确接地，电源浪涌可能导致各种ASIC和内存组件损坏或故障。有关详细信息，请参阅《Catalyst 6500系列交换机安装指南，安装交换机，建立系统接地》。

ESD

ESD可以轻松损坏关键组件，而不会出现任何明显损害。应将适当的预防措施纳入实验室运作政策，但由于行动迅速和监督有限，此类措施经常被忽略，不幸的是。

思科建议您的实验室运营管理与思科系统公司一起，对所有网络区域或至少所有出现硬件故障或被指定为任务关键型区域执行环境审计。审计完成后，思科建议您为所有新安装的系统实施标准化的环境核对表，以避免将来发生SEU奇偶校验事件。

拇指螺钉

所有模块化网络系统都设计为插入带有一组物理接口引脚的机箱背板。机箱背板本身实质上是一系列互连的电线。每个机箱插槽中的引脚形成了Supervisor和以太网模块之间的物理数据连接。因此，这些引脚的正确插入和对齐至关重要。

Catalyst 6500提供导轨和定位销，有助于在机箱中进行安装。插槽引脚（插座）和模块连接器设计为易于接合并提供高带宽的电连接。插入机箱后，模块两侧都有拇指螺钉完全接合背板引脚。请参阅《Catalyst 6500系列交换机模块安装说明》。

如果模块已正确插入插槽，且拇指螺钉已正确拧紧，则不会出现通信问题。但是，模块的日常插入可能会出现以下几种情况，这些情况可能导致插针不正确甚至不完整：

插入力不足 — 如果模块部分插入而不使用拇指螺钉，则可能导致总线停顿，并且模块可能无法与其他模块通信。根据插入级别（例如，如果物理接触有限），模块可能能够传输和接收数据，但可能遇到导致数据包损坏的位错误。
垂直未对中 — 当模块的一侧仅位于导轨上时会发生这种情况。这很容易识别，因为模块显示为对角线，并且通常不与背板引脚连接。
水平未对齐 — 如果仅在一侧使用拇指螺钉，则某些针无法正确啮合。这是一个常见问题，因为模块可能似乎已正确插入。水平不对中实际上是插入力不足的一种形式。

思科建议您实施一个操作管理流程，要求在生产环境中的所有Catalyst 6500模块上使用拇指螺钉。这可确保背板引脚的正确和完全插入和对齐，并防止因位错误和相关通信故障而导致的未来故障。

硬错误（故障）

频繁或可重复（硬）奇偶校验错误是由内存或用于读写的电路的物理故障引起的。在这种情况下，请更换硬件并请思科技术支持中心(TAC)或您的思科系统工程师对退回的硬件执行EFA。

这些最佳实践显着降低了出现硬奇偶校验错误的可能性。

硬件（MTBF和EOL）审核

思科建议您对受影响的网络位置执行网络审计。您可以自行或与思科代表、思科团队(如思科高级服务)或第三方顾问协作执行此审核。

所有硬件（来自所有供应商）都可能最终降低物理完整性，因此跟踪网络中所有硬件组件的生命周期以充分了解组件故障的可能性非常重要。

硬件可靠性可以通过平均无故障时间(MTBF)框架进行测量。由于MTBF只是统计平均值，这并不意味着MTBF时间段结束时肯定会发生故障。但是，组件故障的可能性和漏洞会增加，因此应标记此类硬件进行刷新。有关每个Catalyst 6500产品的特定MTBF值，请参阅Cisco Catalyst 6500系列交换机产品手册。

汇总计算的Catalyst 6500“系统级”MTBF值大于7年。

除MTBF框架外，思科还提供寿命终止(EOL)框架，该框架定义给定产品的预期生命周期并提供适用的公告，以帮助您更新旧设备。有关各种传统Catalyst 6500产品，请参阅寿命终止和销售终止通知。

通过这次硬件审核，思科建议您实施您自己的MTBF和EOL流程，以识别并跟踪硬件以进行潜在更新。这可确保最新硬件正在运行，并最大限度地降低硬件故障的可能性。

硬件诊断

Catalyst 6500系列和Cisco IOS软件为系统中使用的所有硬件组件提供通用在线诊断(GOLD)和运行状况监控(HM)诊断。可以启用的两种基本诊断类型是按需诊断和启动诊断。有关其他信息，请参阅Cisco Catalyst 6500系列交换机上的通用在线诊断。

思科建议对所有硬件组件启用“完整”启动诊断，以确保执行所有诊断测试，并确认所有硬件组件在启动时都能按预期运行。

思科还建议您安排对关键基础设施组件进行每日或每周定期的按需诊断。除仅在初始化期间进行的启动诊断外，按需诊断还可确保硬件继续按预期运行。有关详细信息，请参阅Catalyst 6500版本12.2SX软件配置指南、接口和硬件组件、在线诊断程序。

除默认按需诊断测试外，思科建议您启用这些按需诊断测试，以主动识别可能发生故障的内存组件：

TestLinecardMemory
TestAsicMemory

奇偶校验错误故障排除指南

下载选项

非歧视性语言

关于此翻译

目录

简介

背景

软错误

硬错误

常见错误消息

处理器

RAM

ASIC

最新进展

处理器

RAM

ASIC

软件

MSFC IBC重置

6700系列“单位奇偶校验错误”重置

建议

软错误(SEU)

环境审计

机箱放置

接地

ESD

最新固件(Rommon)

拇指螺钉

硬错误（故障）

硬件（MTBF和EOL）审核

硬件诊断

相关信息

由思科工程师提供

此文档是否有帮助?

联系我们

本文档适用于以下产品