简介
本文档介绍如何对大多数类型的UCS服务器都出现的“服务器无法访问”故障的常见原因进行故障排除。
先决条件
要求
思科建议您了解统一计算系统管理器(UCSM)和Intersight托管模式(IMM)下的服务器管理知识。
使用的组件
本文档不限于特定的软件和硬件版本。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
背景信息
用户在其UCS域中可能会收到一个常见故障,即通知您服务器不可访问。这可能是由于多种原因,并且根据监控工具和UCSM/IMM版本的不同,故障可能看起来有几种不同的方式。
System Notification from [UCSM Domain Name] - diagnostic:GOLD-minor - 2023-05-25 01:56:41 GMT-04:00 Recovered : Server x/y (service profile: org-root/ls-[service_profile]) inaccessible
Serial number: [Server Serial]
Alert: System Name: [UCSM Domain Name]
Time of Event:2022-08-31 03:15:04 GMT-05:00 Event Description:Server x (service profile: org-root/ls-[service_profile]) inaccessible Severity Level:4
如果正在使用IMM,则在GUI中可能会看到“Connection to Server was lost”消息。还可以观察到与Intersight故障断开的情况。
与服务器的连接已丢失IMM
当刀片上的思科集成管理控制器(CIMC)遇到问题,并且重新启动或尝试重新启动时,会出现此警报。这会触发服务器不可访问警报,因为当刀片的管理平面重新启动时,UCSM/IMM无法与刀片通信,因此它认为刀片不可访问。一旦CIMC重新启动,刀片状态将恢复正常。
这就是为什么您可以收到此警报,然后当您检查域时,服务器会查找并正常运行。
常见缺陷参考
思科漏洞ID CSCwe19822 -适用于4.2(2c)/5.0(1c)之后的M5/M6服务器(适用于X系列)
思科漏洞ID CSCwa85667 -适用于4.1(3e) - 4.2(2a)之间的M5/M6服务器,还包括5.0(1b)以后的X系列
思科漏洞ID CSCvz62711 -适用于4.1(3d) - 4.2(2a)之间的M5/M6服务器
思科漏洞ID CSCwi50991 -适用于4.3(2e)之前代码上为M5/M6系列的刀片服务器
思科漏洞ID CSCvv79912 -适用于4.0(4h)到4.2(1a)/4.1(3d)之间的M5/M6服务器
思科漏洞ID CSCvh25786 -适用于2.0(13f)和3.0(4a)以后的M4/M5服务器
故障排除
场景 1
第一个也是最常见的情况是接收警报,然后检查UCSM/IMM时,服务器看起来运行正常,没有(新)故障。在检查操作系统时,它似乎已启动并运行且没有中断。
UCSM中的正常服务器
日志捆绑包在其中一个OBFL日志中显示此消息,该日志位于CIMCx_TechSupport.tar.gz > obfl > obfl-log。
3:2022 Sep 8 10:54:33 UTC:+0000:(4.2(2d)):kernel:-:[watchdog_init]:976:BMC Watchdog resetted BMC.
这说明CIMC已崩溃并自行重新启动。
在此场景中,当CIMC成功重新启动且服务器不存在问题时,无需进一步操作。
场景 2
下一个情况是接收警报,然后在检查UCSM/IMM时,如果使用UCSM,服务器仍显示为不可访问;如果使用IMM,则服务器已断开连接。 检查操作系统时,系统似乎已启动并正常运行,不会出现中断。
由于操作系统已启动并正在运行,但UCSM/IMM无法与刀片通信,这意味着CIMC未重新启动或在进程中停止。
此场景中的第一步是使用SSH或控制台连接到交换矩阵互联(FI),然后运行此命令,将x/y替换为受影响的机箱/刀片。有三种不同的结果。
1)与CIMC的连接成功。
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
Trying 127.5.1.1...
Connected to 127.5.1.1.
Escape character is '^]'.
CIMC Debug Firmware Utility Shell [ support ]
[ help ]#
如果看到此输出,则CIMC上仍有一些生存期,您可以尝试重置CIMC以恢复刀片。
如果正在使用UCSM,请导航到设备>机箱>机箱编号>服务器>服务器编号>恢复服务器>重置CIMC。
Recover Server for Blade的位置
重置CIMC
如果正在使用IMM,请导航到受影响的服务器并选择Actions > System > Reboot Management Controller。
重新启动管理控制器IMM
如果重新启动CIMC后,服务器恢复正常,则问题得到解决,无需进一步操作。
如果故障仍然存在,请继续执行下一个连接cimc输出的故障排除步骤。
2)无法连接到CIMC。
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
Trying 127.5.1.8...
telnet: Unable to connect to remote host: No route to host
3)与CIMC摊位的连接。在这种情况下,运行命令后以及尝试转义(Ctrl + C)时,不会发生任何情况。
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
^C
Console escape. Commands are:
l go to line mode
c go to command mode
z suspend telnet
e exit telent
continuing...
最后两个输出中任意一个的故障排除相同。在这些情况下,CIMC完全关闭,无法与交换矩阵互联通信。需要重新启动服务器才能恢复CIMC。重新引导刀片时,始终建议使用维护窗口。
如果正在使用UCSM,则可以通过使用SSH连接到交换矩阵互联并运行此命令将x/y替换为受影响的机箱/服务器来模拟物理重新拔插刀片。您必须输入正确的机箱/服务器,因为此命令不会提示您进行确认。
UCSM-A# reset slot x/y
注意:reset slot命令会立即重新启动指定插槽x/y中的刀片。如果操作系统仍在运行,请确保服务器可以安全重启。
如果成功,此命令不会返回任何内容。如果命令执行失败,将显示一条消息。
如果正在使用IMM,或者reset slot命令未能解决无法访问的问题,则唯一的另一个选项是以物理方式重新定向刀片。
如果在物理重新拔插刀片后,问题仍然存在,请联系TAC进行进一步的故障排除。
场景 3
最终情况是接收警报,然后当检查UCSM/IMM时,如果使用UCSM,服务器仍显示为无法访问;如果使用IMM,则服务器已断开连接。 检查操作系统时,该操作系统已关闭且无法访问。
在这种情况下,所能做的只是重新启动服务器。如果无法重新启动,请实际重新安装服务器。
如果在物理重新拔插刀片后,问题仍然存在,请联系TAC进行进一步的故障排除。
结论
接收服务器不可访问故障的原因有很多,其中有些比另一些影响更大。下面的步骤是评估是否需要任何故障排除或您的域是否正常且无需执行任何操作的好方法。