简介
本文档介绍更换B460 M4主板时可能发生的两种发现故障及其各自的解决方案。
先决条件
要求
本文档假设您了解UCS B460 M4和UCS Manager(UCSM)。
使用的组件
- B460 M4刀片服务器
- UCS 管理器
- 固件2.2(3b)
背景
B460 M4服务器由两个可扩展的M4刀片模块(B260 M4)和一个可扩展连接器组成,可交叉连接两个刀片模块并允许它们作为单个服务器运行。底部的刀片模块是“主”,顶部的刀片模块是“从”。
发现问题
发现在3%时失败 — 固件不匹配
在此故障场景中,发现以3%的速度失败,远程调用描述聚合刀片CIMC固件版本不匹配。在两个CIMC上激活相同的固件版本,如下图所示。这可能是因为更换主板或刀片模块的固件与现有B460 M4服务器不同。
注意:以下示例显示CIMC固件不匹配,但同一过程适用于不匹配的CIMC、BIOS和主板控制器固件。
整体状态将为发现失败,如下图所示。
可从命令行(CLI)检查不匹配的固件,如下所示。在以下输出中,第一个CIMC是主CIMC,第二个是从CIMC。
UCS-A# show system firmware expand detail
Server 7:
CIMC:
Running-Vers: 2.2(3b)
Package-Vers:
Update-Status: Ready
Activate-Status:
Startup-Vers:
Backup-Vers: 2.2(3a)
Bootloader-Vers: 2.2(3b).33
CIMC:
Running-Vers: 2.2(3a)
Package-Vers:
Update-Status: Ready
Activate-Status:
Startup-Vers:
Backup-Vers: 2.2(3b)
Bootloader-Vers: 2.2(3a).33
CIMC:
Running-Vers: 2.2(3b)
Package-Vers: 2.2(3b)B
Update-Status: Ready
Activate-Status: Ready
Startup-Vers: 2.2(3b)
Backup-Vers: 2.2(3b)
Bootloader-Vers: 2.2(3b).33
解决方案
要从中恢复,请执行以下步骤。
1)导航至Equipment > Chassis > Chassis # > Servers > Server # > Installed Firmware 选项卡。
2)右键单击需要更新的组件(例如BIOS、CIMC控制器),然后选择“更新固件”。在本例中,CIMC控制器将更新为2.2(3b)。
3)选中正确的固件,选中“强制”复选框,然后单击“应用”。
提示:如果不清楚需要从下拉列表中选择哪个版本,服务器管理员可以导航到Equipment > Firmware Management > Packages,展开ucs-k9-bundle-b-series.VERSION.B.bin并查找“ucs-EXM4”。 这将包括三个组件:bios(BIOS)、brdprog(主板控制器)和cimc(CIMC控制器)。
提示:由于主板控制器固件无法降级,如果更换主板附带的主板控制器固件版本不存在于域中的任何刀片系列软件包中,网络管理员可以下载包含所需主板控制器版本固件的刀片系列软件包。要验证哪个刀片系列软件包包含所需的固件,请查看Cisco UCS Manager的发行捆绑包内容文档。
4)监控Installed Firmware选项卡,并等到Update Status(更新状态)和Activate Status(激活状态)列更改为Ready(就绪),Backup Version(备份版本)列更改为正确的固件。
提示:服务器管理员可以从Equipment > Chassis > Chassis # > Servers > Server # > Inventory选项卡> CIMC选项卡> Update Status监控更新状态
5)右键单击此组件并选择激活固件。再次,选中正确的固件,选中“强制”复选框,然后单击“应用”。
6)“已安装固件”选项卡中的“激活状态”列将更改状态,并最终返回“就绪”。
7)在服务器重新启动时,“常规”选项卡中的“总体状态”将更改为“不可访问”。然后,它应更改为Discovery并完成发现过程。
发现在5%时失败 — 主板控制器固件不匹配
注意:在此故障场景中,发现以5%的速率失败,远程调用说明聚合刀片板控制器固件版本不匹配。在两个主板控制器上激活相同的固件版本,如下图所示。这可能是因为更换主板或刀片模块的固件与现有B460 M4服务器不同。
可从命令行(CLI)检查不匹配的固件,如下所示。在以下输出中,第一板控制器是主控制器,第二板控制器是从控制器。
srini-2gfi-96-b-A /chassis/server # show firmware board controller detail
Server 2/7:
Board Controller:
Running-Vers: 2.0 <<<<
Package-Vers: 2.2(7.156)B
Activate-Status: Ready
Board Controller: ( Master)
Running-Vers: 2.0 <<<<
Package-Vers:
Activate-Status:
Board Controller: ( Slave)
Running-Vers: 1.0 <<<<
Package-Vers:
Activate-Status:
解决方案
要恢复,请执行以下步骤
第 1 步 |
在导航窗格,请点击Equipment选项卡。 |
步骤 2 |
在Equipment(设备)选项卡上,点击Equipment(设备)节点。 |
步骤 3 |
在“工作”(Work)窗格中,点击“固件管理”(Firmware Management)选项卡。 |
步骤 4 |
在Installed Firmware(已安装固件)选项卡上,点击Activate Firmware(激活固件)。 Cisco UCS Manager GUI打开激活固件对话框并验证Cisco UCS域中所有终端的固件版本。此步骤可能需要几分钟,具体取决于机箱和服务器的数量 |
步骤 5 |
从激活固件对话框菜单栏上的过滤器下拉列表中,选择主板控制器。 Cisco UCS Manager GUI在激活固件对话框中显示具有板控制器的所有服务器。 |
步骤 6 |
对于主板控制器,要更新,请从“启动版本”下拉列表中选择最大/最大版本。(注:降级不可能;始终选择要激活的最高版本) |
步骤7 |
Click OK. |
步骤 8 |
(可选)在升级具有不同架构的CPU时,您还可以使用强制板控制器激活选项更新固件版本。例如,从Sandy Bridge升级到Ivy Bridge CPU时。 |
发现在7%时失败 — CPU不匹配
在此故障场景中,发现失败率为7%,远程调用说明预启动硬件配置失败 — 查看POST/诊断结果,如下图所示。
“常规”(General)选项卡中的“总体状态”(Overal Status)将为“计算失败”(Compute Failed)。
单击“常规”(General)选项卡中“操作”(Actions)下的“查看帖子结果”(View Post Results)可验证POST结果。下图显示问题是由CPU不匹配引起的。
解决方案
如果硬件在两个刀片模块之间匹配,则这可能是由服务器上缓存的信息造成的。存在一个增强请求(CSCuv27099),用于从UCS Manager(UCSM)清除缓存的信息。 服务器管理员还可以联系思科技术支持中心(TAC)以获取解决方法。