简介
本文档介绍处理UCS服务器内存错误的故障排除步骤。
先决条件
要求
Cisco建议您了解这些主题。
使用的组件
本文档中的信息基于以下软件和硬件版本:
- UCS系列服务器M5、M6、M7及更高版本。
- UCS 管理器
- 思科集成管理控制器(CIMC)
- Cisco Intersight管理模式(IMM)
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
背景信息
内存错误
尝试读取内存位置时遇到内存错误。从内存中读取的值与应存在的值不匹配。这些错误分为两种类型:
1. 软错误
软错误是暂时的,不会继续重复。这些都是临时的,通常可以通过重试读取或重写内存位置来纠正。
2. 硬错误
永久性的物理缺陷会导致这些症状。 重写内存位置并重试读取访问不能消除硬错误。因此,此内存错误无法纠正,在错误继续重复时需要更换内存。
可更正的错误
如果检测到错误并纠正错误,则认为它们是可纠正的。这可以通过重试读取或者使用纠错码(ECC)数据计算正确的内存内容并将正确的数据写回内存中来实现。检测到错误并纠正后,思科集成管理控制器(IMC)会在系统事件日志中记录该事件。
通常,可纠正的错误是软错误的结果。如果可更正错误在较长的时间段内存在于同一内存位置内,则可能表示存在潜在的硬错误。
自适应双设备数据校正(ADDDC)
ADDDC备用可更正两个连续的DRAM故障(如果它们位于同一区域)。ADDDC将数据从发生故障的位动态移动到备用内存,以防无法纠正错误。触发该机制需要可纠正的ECC错误阈值。
在某些可纠正ECC错误优先于不可纠正ECC错误的情况下,ADDDC会有所帮助。
包装后修复(PPR)
封装后修复(PPR)可通过利用冗余DRAM行永久修复DIMM中的故障内存区域。这种永久性现场修复可以从硬错误中快速恢复,而无需更换DIMM。要执行修复,系统必须遇到ADDDC事件并经历至少一个重新引导循环。此修复活动不会影响操作系统的性能或可用内存总量。
默认情况下,PPR和ADDDC处于启用状态,但是可以进行配置。PPR要求同时启用ADDDC备用RAS模式。如果RAS设置不是ADDDC备用或平台默认值,则PPR不运行。唯一支持的PPR模式是硬PPR,这意味着修复是永久性的。
部分缓存行备用(PCLS)
内存控制器中有一个错误预防机制。它通过识别内存中故障小部分数据来工作。这些有故障的位置与备份数据一起被记录在一个特殊的目录中,可以替换它们。访问内存时,如果故障点出错,控制器将使用来自目录的备份数据,以确保所有数据都能顺利运行。
注意:具体功能取决于CPU架构和服务器上运行的固件版本。确保您使用的是最新推荐的版本,以便更好地处理内存错误。
排除RAS故障
UCS 管理器
通常,您会将UCS Manager中的这些故障视为RAS事件。
在运行状况摘要中,您可以找到有关错误的详细信息(无论是PCLS还是PPR已触发)。
PCLS示例
在M6及更高版本服务器上,您可以选择启用部分缓存线路备用(PCLS)作为BIOS选项,这是一种错误预防机制。必须尽快重新启动服务器,以便PPR可以启动并修复DIMM。服务器重新启动后,监控同一DIMM的其他UCS Manager故障。
正如警报所提到的,建议尽早重新启动服务器,因为存在发生无法纠正的错误的相关风险,进而会导致服务器意外停机。
PPR示例
服务器启用了ADDDC和PPR,并且发生了RAS事件。此故障建议重新启动PPR以修复DIMM。服务器需要尽快重新启动,PPR才能启动并修复DIMM。
服务器重新启动后,监控同一DIMM的其他UCS Manager故障。
正如警报所提到的,建议尽早重新启动服务器,因为存在发生无法纠正的错误的相关风险,进而会导致服务器意外停机。
Intersight管理模式
服务器已启用ADDDC,并且发生BANK VLS事件,创建您所看到的故障。在此场景中,下一步是尽快执行服务器重新启动,以允许执行PPR。
思科集成管理控制器(CIMC)
使用思科集成管理控制器时,故障会如图所示。如果服务器有ADDDC并且发生了VLS事件,则按设计运行,以防止发生无法纠正的错误。
故障排除步骤
- 验证是否存在其它DIMM故障(例如不可纠正的错误)。
- 计划维护窗口。
- 将主机置于维护模式,然后重新启动服务器以尝试使用包后修复(PPR)永久修复DIMM。
UCSM重新启动步骤
注意:您也可以从操作系统重新启动服务器。本示例使用服务器UI中的reboot选项。
导航到UCS Manager Web界面。
刀片式服务器
导航到设备>机箱>服务器X。
集成服务器
导航到设备>机架安装>服务器X。
单击KVM控制台。
在KVM窗口中,点击服务器操作,选择重置,然后点击确定。
在KVM中监控重新启动过程,并确保操作系统正确启动。
IMM重新启动步骤
导航到Servers 选项卡,找到server,然后单击Action(三点)菜单。
然后,选择Power菜单,然后选择Power Cycle选项。
单击Power Cycle按钮以确认操作。
在Requests菜单下验证进度。
CIMC重新启动步骤
导航到主机电源选项,然后选择重新通电。
启动KVM以监控重新启动过程,并确保操作系统正确启动。
监控新故障
如果在重新启动后没有发生错误,意味着没有其他RAS事件或与DIMM相关的故障,则PPR成功,服务器可以重新投入使用。
如果发生新的ADDDC事件,请重复上述步骤中概述的重新启动过程,以便使用PPR执行额外的永久修复。
如果重新启动后出现“Uncorrectable Error(无法纠正的错误)”或“Unoperational fault(无法操作)” ,则该故障表示需要更换内存。
注意:如果您遇到任何此类故障,请向思科TAC提交支持请求以更换DIMM。
UCS Manager不可纠正的内存错误
IMM内存无法纠正的错误
无法纠正的错误故障。此故障指示DIMM出现无法纠正的错误,需要更换。
CIMC无法纠正的内存错误
相关信息