简介
本文档介绍有关排查因服务器电源状态 - MC 错误而导致刀片服务器发现失败的问题的步骤。
先决条件
要求
思科建议您掌握与下列主题相关的实际应用知识:
- 思科统一计算系统 (UCS)
- 思科交换矩阵互联 (FI)
使用的组件
本文档中的信息基于以下软件和硬件版本:
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
背景信息
- 刀片服务器固件升级,服务器在正常运行时间策略重新启动后关闭。
- 数据中心发生电源故障事件。
以上可能是引发问题的原因。
问题
重新启动时或发现期间出现下列错误消息。
“无法更改刀片服务器电源状态”
UCSM 报告此警报,说明刀片服务器无法启动
在固件升级或任何其他维护过程中重新启动的刀片服务器发现失败/在 FSM 中显示以下消息:
“无法更改服务器电源状态 - MC 错误 (-20):管理控制器无法处理请求 (sam:dme:ComputePhysicalturnup:Execute) 或处理请求失败”
SEL 日志显示下列错误条目:
CIMC | Platform alert POWER_ON_FAIL #0xde | 预测性故障已取消断言 | 已取消断言
CIMC | Platform alert POWER_ON_FAIL #0xde | 预测性故障已断言 | 已断言
故障排除
从 UCSM CLI Shell 连接到刀片服务器的 CIMC,并使用下列 power 命令验证刀片服务器电源状态
- ssh FI-IP-ADDR
- connect cimc X
- 电源
Failure Scenario # 1
OP:[ status ]
Power-State: [ on ]
VDD-Power-Good: [ inactive ]
Power-On-Fail: [ active ]
Power-Ctrl-Lock: [ unlocked ]
Power-System-Status: [ Good ]
Front-Panel Power Button: [ Enabled ]
Front-Panel Reset Button: [ Enabled ]
OP-CCODE:[ Success ]
Failure Scenario #2
OP:[ status ]
Power-State: [ off ]
VDD-Power-Good: [ inactive ]
Power-On-Fail: [ inactive ]
Power-Ctrl-Lock: [ permanent lock ] <<<----------------
Power-System-Status: [ Bad ] <<<---------------
Front-Panel Power Button: [ Disabled ]
Front-Panel Reset Button: [ Disabled ]
OP-CCODE:[ Success ]
工作场景的输出#
[ help ]# power
OP:[ status ]
Power-State: [ on ]
VDD-Power-Good: [ active ]
Power-On-Fail: [ inactive ]
Power-Ctrl-Lock: [ unlocked ]
Power-System-Status: [ Good ]
Front-Panel Power Button: [ Enabled ]
Front-Panel Reset Button: [ Enabled ]
OP-CCODE:[ Success ]
[ power ]#
验证传感器值#
POWER_ON_FAIL | disc -> | discrete | 0x0200 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | >>> 非正常运行
传感器值#
POWER_ON_FAIL | disc -> | discrete | 0x0100 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | 不适用 | >>>> 正常运行
执行 sensors 命令并检查功率和电压传感器的值。将该输出与同一型号刀片服务器在通电状态下的输出进行比较。
如果某些传感器的“读数”或“状态”列显示“无”,这可能并非一直都是硬件故障。
日志片段#
Sel.log#
CIMC | Platform alert POWER_ON_FAIL #0xde | 预测性故障已断言 | 已断言
power-on-fail.hist inside the tmp/techsupport_pidXXXX/CIMCX_TechSupport-nvram.tar.gz)
如果上述操作不起作用,下一步请收集 UCSM 和机箱技术支持日志捆绑包。
这有助于进一步调查问题。
对于前面提到的现象,请尝试执行以下步骤来解决问题。
第 1 步:验证刀片服务器 FSM 状态是否为“失败”,描述为“状态 - MC 错误 (-20)”。
导航至设备 > 机箱 X > 服务器 Y > FSM
第 2 步:记下受影响的刀片服务器序列号并停用该刀片服务器。
<<<IMP:记下“常规”选项卡中的问题刀片服务器序列号,然后再将其停用。稍后在第 4 步中将需要此信息>>>
导航至设备 > 机箱 X > 服务器 Y > 常规 > 服务器维护 > 停用 > 确定。
第三步:FI-A/B# 重置插槽 x/y
例如,#Chassis2-Server 1 受到影响。
FI-A# 重置插槽 2/1
运行上述命令后,等待 30-40 秒
第 4 步:重新启用已停用的刀片服务器。
导航至设备 > 已停用 > 服务器 > 查找已停用的服务器(查找正确的刀片服务器,其序列号为停用前在第 2 步中记录的序列号) > 选中正确的刀片服务器对应的“重新启用”复选框(使用序列号验证) > 保存更改。
第 5 步:解决插槽问题(如果发现问题)。
导航至设备 > 机箱 X > 服务器 Y。
如果重新启用的刀片出现“解决插槽问题”弹出窗口,请验证其序列号并点击“此处”接受插槽中的服务器。
刀片服务器发现应立即启动。
等待服务器发现操作完成。在“服务器 FSM”选项卡中监控进度。
第六步:如果第 1 步到第 5 步不起作用并且 FSM 再次失败,则停用刀片服务器,并尝试以物理方式重新安装它。
如果服务器仍然无法执行发现操作,在存在硬件问题的情况下,请联系思科 TAC。
NOTE: If you have B200 M4 blade and notice failure scenario #2 , please refer following bug and Contact TAC
CSCuv90289
B200 M4 fails to power on due to POWER_SYS_FLT
相关信息
发现机箱的程序
UCSM 服务器管理指南