此产品的文档集力求使用非歧视性语言。在本文档集中,非歧视性语言是指不隐含针对年龄、残障、性别、种族身份、族群身份、性取向、社会经济地位和交叉性的歧视的语言。由于产品软件的用户界面中使用的硬编码语言、基于 RFP 文档使用的语言或引用的第三方产品使用的语言,文档中可能无法确保完全使用非歧视性语言。 深入了解思科如何使用包容性语言。
思科采用人工翻译与机器翻译相结合的方式将此文档翻译成不同语言,希望全球的用户都能通过各自的语言得到支持性的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 Cisco Systems, Inc. 对于翻译的准确性不承担任何责任,并建议您总是参考英文原始文档(已提供链接)。
本文档介绍软奇偶校验和硬奇偶校验错误,解释常见错误消息,并推荐有助于避免或最小化奇偶校验错误的方法。硬件和软件设计的最新改进也减少了奇偶校验问题。
处理器或内存奇偶校验错误是什么?
奇偶校验是存储额外的二进制数字(位),以表示少量计算机数据(通常为一个字节)的奇偶校验(奇数或偶数),而该数据存储在内存中。然后,将从存储的数据计算的奇偶校验值与最终奇偶校验值进行比较。如果这两个值不同,则表示数据错误,并且至少一个位必须因数据损坏而更改。
在计算机系统内,来自内部或外部原因的电或磁干扰可能导致单个内存位自发地翻转到相反状态。此事件使原始数据位无效,称为奇偶校验错误。
这种内存错误(如果未被检测)可能具有不可检测且不重要的结果,或可能导致存储的数据永久损坏或机器崩溃。
内存奇偶校验错误有许多原因,可归类为软奇偶校验错误或硬奇偶校验错误。
大多数奇偶校验错误是由静电或磁相关环境条件引起的。
存储器芯片中的大多数单粒子误差是由背景辐射(如宇宙射线中的中子)、电磁干扰(EMI)或静电放电(ESD)引起的。 这些事件可以随机改变一个或多个存储单元的电状态或可能干扰用于读取和写入存储单元的电路。
这些事件通常是瞬态或随机的,通常发生一次。软错误可以是次要错误或严重错误:
软错误不是由硬件故障引起的;它们是瞬时的,不频繁,大多可能是SEU,并且是由内存数据的环境中断引起的。
如果遇到软奇偶校验错误,请分析受影响系统位置最近发生的环境更改。可能导致软奇偶校验错误的常见ESD和EMI来源包括:
其它奇偶校验错误是由存储器硬件的物理故障或用于读取和写入存储器单元的电路引起的。
硬件制造商采取广泛措施来防止和测试硬件缺陷。但是,缺陷仍然存在;例如,如果用于存储数据位的任何存储单元的格式不正确,则它们可能无法保持电荷或更易受到环境条件的影响。
同样,当存储器本身可以正常工作时,用于读取和写入存储器单元的电路的任何物理或电气损坏也可能导致数据位在传输期间发生改变,从而导致奇偶校验错误。
这些事件通常非常频繁且重复发生,并且只要使用受影响的内存或电路,就会发生。确切频率取决于故障的程度和损坏设备的使用频率。
请记住,硬奇偶校验错误是硬件故障的结果,并且每当使用受影响的组件时都会重新出现。
如果遇到硬奇偶校验错误,请分析在受影响系统的位置发生的物理更改。可能导致硬奇偶校验错误的常见硬件故障来源包括:
Cisco IOS®软件提供了各种奇偶校验错误消息,这些错误消息因受影响的组件及其对系统的相对影响而异。
检测到缓存错误! 检测到实际缓存错误。 系统将停止。 Error:主instr缓存,字段: 数据 , 数据奇偶校验错误不精确 |
|
解释 | 这是多层交换功能卡3(MSFC3)的路由处理器(RP)或交换机处理器(SP)CPU使用的2级(L2)缓存(静态随机访问存储器或SRAM)中奇偶校验错误的结果。 |
建议 | 定期监控系统以重新出现。如果未观察到其他事件,则是软错误。如果错误频发,请请求退货授权(RMA)以更换管理引擎,并标记设备故障分析(EFA)模块。 |
%SYSTEM_CONTROLLER-3-ERROR:Error condition detected:SYSAD_PARITY_ERROR | |
解释 | 这是MSFC3的带内控制器(IBC)使用的系统地址(数据总线)中出现奇偶校验错误的结果。 |
建议 | 定期监控系统以重新出现。如果未观察到其他事件,则是软错误。如果错误频发,请请求RMA以更换Supervisor引擎,并标记模块以进行EFA。 |
%SYSTEM_CONTROLLER-3-ERROR:Error condition detected:TM_DATA_PARITY_ERROR | |
解释 | 这是MSFC3的IBC使用的表管理器数据中出现奇偶校验错误的结果。 |
建议 | 定期监控系统以重新出现。如果未观察到其他事件,则是软错误。如果错误频发,请请求RMA以更换Supervisor引擎,并标记模块以进行EFA。 |
%SYSTEM_CONTROLLER-3-ERROR:Error condition detected:TM_NPP_PARITY_ERROR | |
解释 | 这是MSFC3的IBC使用的表管理器“下一页指针”中奇偶校验错误的结果。 |
建议 | 定期监控系统以重新出现。如果未观察到其他事件,则是软错误。如果错误频发,请请求RMA以更换Supervisor引擎,并标记模块以进行EFA。 在12.1(8)E和12.2(33)SXI3之间的Cisco IOS软件版本中,响应SYSTEM_CONTROLLER-3-ERROR事件的默认行为是重置IBC并记录错误消息。 但是,这种纠正措施导致IBC(以及CPU)无法传输或接收数据的一些已记录案例。因此,在12.2(33)SXI4之后的Cisco IOS软件版本中,更改了行为,以记录错误消息并重置系统;请参阅Cisco Bug ID CSCtf51541。 |
中断异常,CPU信号20,PC = 0x[dec] | |
解释 | 这是Cisco Catalyst 6700系列模块使用的CPU L2缓存(SRAM)中出现单位奇偶校验错误的结果。 |
建议 | 定期监控系统以重新出现。如果未观察到其他事件,则是软错误。如果错误频发,请请求RMA以更换6700模块,并标记模块以进行EFA。 在早于12.2(33)SXI5的Cisco IOS软件版本中,软件Bug(Cisco Bug ID CSCtj06411 )甚至会导致单位奇偶校验错误重置6700模块。这在版本12.2(33)SXI6和12.2(33)SXJ(适用于Supervisor引擎720)和版本15.0SY(适用于Supervisor引擎2T)中得到解决。 |
%SYSTEM_CONTROLLER-3-ERROR:Error condition detected:SYSDRAM_PARITY_ERROR | |
解释 | 这是MSFC3使用的同步DRAM(SDRAM)内存模块(DIMM)出现不可纠正的奇偶校验错误的结果。 |
建议 | 定期监控系统以重新出现。如果未观察到其他事件,则是软错误。如果错误频繁出现,请清洁并重新拔插DIMM,然后继续监控。如果错误继续,请请求RMA以更换或升级DIMM。 |
%SYSTEM_CONTROLLER-3-COR_MEM_ERR:可纠正的DRAM内存错误。计数[dec],日志[hex] | |
解释 | 这是MSFC3使用的SDRAM(DIMM)中可更正的奇偶校验错误的结果。 |
建议 | 定期监控系统以重新出现。如果未观察到其他事件,则是软错误。如果错误频繁出现,请清洁并重新拔插DIMM,然后继续监控。如果错误继续,请请求RMA以更换或升级DIMM。 |
%MWAM-DFC[dec]-0-CORRECTABLE_ECC_ERR:发生可纠正的ECC错误,A_BUS_L2_ERRORS:0x10000、A_BUS_MEMIO_ERRORS:0x0、A_SCD_BUS_ERR_STATUS:0x80983000 | |
解释 | 这是6700系列模块使用的DRAM中出现单位奇偶校验错误的结果。 |
建议 | 定期监控系统以重新出现。如果未观察到其他事件,则是软错误。如果错误频繁出现,请清洁并重新拔插DIMM,然后继续监控。如果错误继续,请请求RMA以更换或升级DIMM。 |
%PM_SCP-SP-2-LCP_FW_ERR_INFORM:模块[dec]遇到以下错误:在线圈#[dec]上检测到LTL奇偶校验错误。 | |
解释 | 这是Cisco Catalyst 6100和Cisco Catalyst 6300系列模块使用的SRAM中出现奇偶校验错误的结果。 |
建议 | 定期监控系统以重新出现。如果未观察到其他事件,则是软错误。如果错误频发,请请求RMA以更换6100或6300模块,并标记模块以进行EFA。 |
%SYS-4-SYS_LCPERR4:Module [dec]:在线圈#[dec]上检测到LTL奇偶校验错误 | |
解释 | 这是6100和6300系列模块使用的SRAM中奇偶校验错误的结果。 |
建议 | 定期监控系统以重新出现。如果未观察到其他事件,则是软错误。如果错误频发,请请求RMA以更换6100或6300模块,并标记模块以进行EFA。 |
%PM_SCP-SP-2-LCP_FW_ERR_INFORM:模块[dec]遇到以下错误:端口[dec]上检测到端口ASIC([name])数据包缓冲区故障 | |
解释 | 这是Cisco Catalyst 6148A系列以太网模块使用的端口ASIC数据包缓冲区(SRAM)出现奇偶校验错误的结果。 |
建议 | 定期监控系统以重新出现。如果未观察到其他事件,则是软错误。如果错误频发,请请求RMA以更换6148A模块,并标记模块以进行EFA。 |
%LTL-SP-2-LTL_PARITY_CHECK:0x[hex]的LTL奇偶校验请求] | |
解释 | 这是Catalyst 6100-6500和6700系列模块使用的端口ASIC端口索引表(SRAM)中出现奇偶校验错误的结果。 |
建议 | 定期监控系统以重新出现。如果未观察到其他事件,则是软错误。如果错误频发,请请求RMA以更换模块,并标记模块以进行EFA。 |
请参阅以下Cisco IOS软件文档,获取错误消息的完整列表:
命令输出解释程序工具(仅限注册用户)支持某些 show 命令。使用输出解释器工具来查看 show 命令输出的分析。
奇偶校验错误领域的研究仍在进行中,并且并非每个场景都能解决,但Cisco Catalyst 6500硬件和软件开发组织继续引入新的方法,如纠错码(ECC)保护,以尽量减少和减少奇偶校验错误的发生。
本文档开始讨论第三代(WS-XSUP720和6700早期系列)Catalyst 6500产品,本部分总结了第四代(VS-S720-10G和更高的6700系列)和第五代(VS-S720-10G和更高版本)的改进与SUP2T-10G和6900系列)。
VS-S720-10G模块采用新的MSFC3子板,带有新的IBC和更新的SR7010A精简指令集计算(RISC)RP和SP CPU,每个运行600Mhz。第1级(L1)、第2级和第3级(L3)高速缓存能够进行奇偶校验检测。较新的IBC具有前代产品的所有功能,并且向附加的SRAM添加ECC保护(单位校正、多位检测)。
6700系列模块支持带ECC保护的L2缓存(L1缓存支持奇偶校验检测)的CPU,该CPU可以纠正单位奇偶校验错误,而无需重置。但是,由于Cisco Bug ID CSCsz39222,Cisco IOS软件(Supervisor引擎720)的版本12.2SXI在发生单位CPU缓存奇偶校验错误时仍会重置模块。这在Cisco IOS软件的版本12.2SXJ(Supervisor引擎720)和15.0SY(Supervisor引擎2T)中得到解决。
VS-SUP2T-10G的特点是新的MSFC5子板,带集成IBC和新的单核MPC8572 PPC RP CPU(带ECC保护的L2和L3缓存,L1缓存支持奇偶校验检测),每核以1.5Ghz运行。它还配备了新的独立带外连接管理处理器(CMP)CPU和ECC保护的DRAM,即使RP CPU当前不可用,也可用。
新的IBC具有前几代产品的所有功能,并支持附加的SRAM的ECC保护,以及奇偶校验错误处理方面的改进。新的MSFC5还具有板载故障记录(OBFL)ROM,用于存储所有模块初始化和诊断事件。新的单CPU设计还降低了奇偶校验错误事件的统计可能性。
6900系列模块支持带ECC保护的L1和L2缓存的更新CPU,该CPU可以纠正单位奇偶校验错误,而无需重置。新一代支持相同的IBC,并且已整合了用于单位奇偶校验纠错的软件处理。
带MSFC3的VS-S720-10G采用带ECC保护的双数据速率(DDR)SDRAM,工作频率为266Mhz。
6700系列模块支持DDR SDRAM和ECC保护,工作频率为266Mhz。
与单数据速率(SDR)SDRAM相比,DDR SDRAM接口通过更严格地控制电数据和时钟信号的定时,使更高的传输速率成为可能。DDR接口使用双倍泵浦(在时钟信号的上升沿和下降沿上进行数据传输)以降低时钟频率。较低的时钟频率降低了将存储器连接到控制器的电路板上的信号完整性要求。
带MSFC5的VS-SUP2T-10G采用带ECC保护的DDR3 SDRAM,工作频率为667Mhz。
6900系列模块支持DDR3 SDRAM和ECC保护,工作频率为667Mhz。
DDR3 SDRAM的主要优势是其能够以两倍的速率(8倍于其内存阵列的速度)传输数据,从而实现更高的带宽或峰值数据速率。DDR3内存还可将功耗降低30%,即使它使用与DDR和DDR2相同的电信令标准。
带PFC3C的VS-S720-10G的SRAM数据包缓冲区具有ECC保护。这提供了不重置模块的单位奇偶校验纠错,以及多位奇偶校验错误检测。
带DFC3C的6700系列具有带ECC保护的SRAM数据包缓冲区。这提供了不重置模块的单位奇偶校验纠错,以及多位奇偶校验错误检测。
带PFC4的VS-SUP2T-10G的SRAM数据包缓冲区具有ECC保护。这提供了不重置模块的单位奇偶校验纠错,以及多位奇偶校验错误检测。
带DFC4的6900系列具有带ECC保护的SRAM数据包缓冲区。这提供了不重置模块的单位奇偶校验纠错,以及多位奇偶校验错误检测。
Cisco IOS软件旨在支持ECC保护。如果支持ECC保护的硬件组件经历SEU,则代码应更正损坏的数据或重置受影响的组件,而不要求对受影响的模块进行完全硬件重置。
但是,在Cisco IOS软件的早期版本中,有一些例外是由于软件Bug而有意更改或故障。以下是两个显着的例外。
在12.1(8)E和12.2(33)SXI3之间的Cisco IOS软件版本中,响应SEU SYSTEM_CONTROLLER-3-ERROR事件的默认行为是重置IBC并记录错误消息。但是,这种纠正措施导致IBC(以及CPU)无法传输或接收数据的一些已记录案例。
因此,在版本12.2(33)SXI4(Cisco Bug ID CSCtf51541)之后,更改了行为,以记录错误消息并重置系统。尽管这种反应可能看起来更为严重,但是,更好的是重置系统并纠正内存结构,而不是让系统无响应。
正在开发的功能(Cisco Bug ID CSCtr89859)将添加一个新的命令行界面(CLI)命令,用于切换默认行为。此增强功能最适用于使用单个管理引擎且因此没有管理引擎冗余的系统。
在早于12.2(33)SXI5的Cisco IOS软件版本中,软件Bug(Cisco Bug ID CSCtj06411 )甚至会导致单位奇偶校验错误重置6700模块。这通常是可纠正的奇偶校验错误,不需要重置模块。
此Bug在版本12.2(33)SXI6+和12.2SXJ(用于Supervisor引擎720)和版本15.0SY(用于Supervisor引擎2T)中得到解决。升级到适当版本后,6700模块只需记录错误消息,即可继续运行。
此时,您可能已确定是否遇到软奇偶校验错误或硬奇偶校验错误。虽然这可以解决单个事件,但其他奇偶校验错误漏洞可能仍然存在,因此您应该对整个网络采取更全面的方法。
因此,思科和Catalyst 6500业务部门建议您审核这些缓解程序并采取适当的纠正措施,以消除或减少将来的奇偶校验错误。
单事件(软)奇偶校验错误由环境条件引起,可能只发生一次(SEU)或极不经常发生,例如每月或每年。虽然您不需要更换硬件,但您确实希望减少将来的故障。
这些最佳实践显着降低了软奇偶校验错误的可能性。
思科建议您对受影响的网络位置执行环境审计。您可以自行或与思科代表、思科团队(如思科高级服务)或第三方顾问协作执行此审核。
环境审计的确切覆盖范围和复杂性取决于许多不同的变量,如地理位置、建筑和房间大小和设计、电气设计和布局以及其他相关因素。
考虑网络中或网络周围可能存在哪些ESD和EMI环境源。以下是可能导致软奇偶校验错误的常见干扰源:
如果配电装置、发电机或照明系统太靠近机箱,或者机箱上或旁边有多条电源线,则可能发生SEU。
在Catalyst 6500机箱与这些电源和磁源之间提供足够的距离非常重要。建议的距离因组件而异,可从组件数据表中获得。
通常,思科建议您定位距离常见电源和磁干扰源至少3到6英寸的系统。电源电缆应尽可能地从机箱上下布线,不应将电缆布置在紧密封装的捆绑包中,或在机箱上或旁边布置大量电缆。
电源波动和电源浪涌相对比较常见,Catalyst 6500电源设计用于适应电压电流的微小变化。
但是,必须为机箱和机架提供适当的电接地,以便从系统中抽走任何过高的电压。如果未正确接地,电源浪涌可能导致各种ASIC和内存组件损坏或故障。有关详细信息,请参阅《Catalyst 6500系列交换机安装指南,安装交换机,建立系统接地》。
ESD可以轻松损坏关键组件,而不会出现任何明显损害。应将适当的预防措施纳入实验室运作政策,但由于行动迅速和监督有限,此类措施经常被忽略,不幸的是。
思科建议您的实验室运营管理与思科系统公司一起,对所有网络区域或至少所有出现硬件故障或被指定为任务关键型区域执行环境审计。审计完成后,思科建议您为所有新安装的系统实施标准化的环境核对表,以避免将来发生SEU奇偶校验事件。
Catalyst硬件组件使用固件(也称为Rommon)代码来初始化、通信和运行诊断。完成这些功能后,系统操作将转到Cisco IOS软件。固件问题并不常见,但如果为Supervisor和模块使用不同版本的固件代码,则可能会出现问题。
因此,最好确保所有组件都使用最新的固件代码,以确保模块的初始化和通信正确。思科建议您的运营管理执行网络审核,并使用最新固件版本升级所有硬件组件。
已知固件问题和升级程序记录在:
从思科网站下载最新固件版本:
所有模块化网络系统都设计为插入带有一组物理接口引脚的机箱背板。机箱背板本身实质上是一系列互连的电线。每个机箱插槽中的引脚形成了Supervisor和以太网模块之间的物理数据连接。因此,这些引脚的正确插入和对齐至关重要。
Catalyst 6500提供导轨和定位销,有助于在机箱中进行安装。插槽引脚(插座)和模块连接器设计为易于接合并提供高带宽的电连接。插入机箱后,模块两侧都有拇指螺钉完全接合背板引脚。请参阅《Catalyst 6500系列交换机模块安装说明》。
如果模块已正确插入插槽,且拇指螺钉已正确拧紧,则不会出现通信问题。但是,模块的日常插入可能会出现以下几种情况,这些情况可能导致插针不正确甚至不完整:
思科建议您实施一个操作管理流程,要求在生产环境中的所有Catalyst 6500模块上使用拇指螺钉。这可确保背板引脚的正确和完全插入和对齐,并防止因位错误和相关通信故障而导致的未来故障。
频繁或可重复(硬)奇偶校验错误是由内存或用于读写的电路的物理故障引起的。在这种情况下,请更换硬件并请思科技术支持中心(TAC)或您的思科系统工程师对退回的硬件执行EFA。
这些最佳实践显着降低了出现硬奇偶校验错误的可能性。
思科建议您对受影响的网络位置执行网络审计。您可以自行或与思科代表、思科团队(如思科高级服务)或第三方顾问协作执行此审核。
所有硬件(来自所有供应商)都可能最终降低物理完整性,因此跟踪网络中所有硬件组件的生命周期以充分了解组件故障的可能性非常重要。
硬件可靠性可以通过平均无故障时间(MTBF)框架进行测量。由于MTBF只是统计平均值,这并不意味着MTBF时间段结束时肯定会发生故障。但是,组件故障的可能性和漏洞会增加,因此应标记此类硬件进行刷新。有关每个Catalyst 6500产品的特定MTBF值,请参阅Cisco Catalyst 6500系列交换机产品手册。
汇总计算的Catalyst 6500“系统级”MTBF值大于7年。
除MTBF框架外,思科还提供寿命终止(EOL)框架,该框架定义给定产品的预期生命周期并提供适用的公告,以帮助您更新旧设备。有关各种传统Catalyst 6500产品,请参阅寿命终止和销售终止通知。
通过这次硬件审核,思科建议您实施您自己的MTBF和EOL流程,以识别并跟踪硬件以进行潜在更新。这可确保最新硬件正在运行,并最大限度地降低硬件故障的可能性。
Catalyst 6500系列和Cisco IOS软件为系统中使用的所有硬件组件提供通用在线诊断(GOLD)和运行状况监控(HM)诊断。可以启用的两种基本诊断类型是按需诊断和启动诊断。有关其他信息,请参阅Cisco Catalyst 6500系列交换机上的通用在线诊断。
思科建议对所有硬件组件启用“完整”启动诊断,以确保执行所有诊断测试,并确认所有硬件组件在启动时都能按预期运行。
思科还建议您安排对关键基础设施组件进行每日或每周定期的按需诊断。除仅在初始化期间进行的启动诊断外,按需诊断还可确保硬件继续按预期运行。有关详细信息,请参阅Catalyst 6500版本12.2SX软件配置指南、接口和硬件组件、在线诊断程序。
除默认按需诊断测试外,思科建议您启用这些按需诊断测试,以主动识别可能发生故障的内存组件: