简介
本文档介绍如何对无法与CIMC通信的Cisco UCS C系列机架式服务器mLOM卡进行故障排除。
先决条件
要求
本文档没有任何特定的要求。
使用的组件
本文档中的信息基于以下软件和硬件版本:
- 运行固件版本4.0(4i)的思科统一计算系统(UCS) C220-M5
- 运行固件版本4.3(3b)的Cisco UCS VIC 1387(这是模块化板载局域网(mLOM)适配器)
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
背景信息
mLOM安装在思科UCS控制器、计算、对象存储磁盘(OSD)计算和ceph节点中。
虚拟接口卡(VIC)是充当UCS服务器中mLOM卡的适配器。
mLOM VIC适配器是一个现场可更换单元(FRU),根据Undercloud和Overcloud网络要求放置在控制器、计算和存储服务器中。
- 控制器服务器有一个mLOM(带2个10GigE端口)、一个LOM(带2个1Gb端口)和1Gb思科集成管理控制器(CIMC)端口。
- 计算服务器有一个mLOM(带2x10GigE端口)、一个LOM(带2x1Gb端口)、2个PCIe卡(位于插槽1和4中,带2x10GigE)和1个GigE CIMC。
- OSD计算服务器有一个mLOM(带2x10GigE端口)、一个LOM(带2xGb端口)和两个PCIe卡(位于插槽1和4中,带2x10GigE端口10GigE和1xGb CIMC端口)。
- 存储服务器有一个mLOM(带2个10GigE端口)、一个LOM(带2个Gb端口)和1Gb CIMC端口。
mLOM接口通过为各种网络提供VIM网络接口,为超云调配、VNF管理和协调提供服务。这些网络可以包括外部浮动IP网络、内部API网络、存储网络、存储管理网络和租户网络。
排除mLOM和CIMC之间的通信问题,以帮助维护这些网络中的功能。
症状
症状 1.CIMC GUI显示“Unable to communicate with the Adapter Card - mLOM”
在UCS CIMC中访问网络/适配器卡- mLOM时,GUI会显示消息“无法与适配器卡- mLOM通信”。重新加载WebUI以获取最新数据。"
症状 2.mLOM未出现在UCS适配器列表中
标有tech_support.frupid的UCS技术支持文件(位于UCS技术支持文件路径<TMP > tech_support.frupid>)的适配器列表中,没有该mLOM条目。
在正常情况下,mLOM显示在UCS技术支持tech_support_frupids适配器列表中。
AdapterList:
…
Slot: MLOM
Description: Cisco UCS VIC1387 Virtual Interface Card - Dual Port 40Gb QSFP+ MLOM
PID: UCSC-MLOM-C40Q-03
CPN: xxxxx
powMin: xxxxx
powMax: xxxxx
Vendor: xxxxx
Device: xxxxx
SubVendor: xxxxx
SubDevice: xxxxx
症状 3.mLOM未显示在“scope adapter mlom”的CIMC CLI范围机箱输出中
C220-node/chassis # scope adapter mlom
Error: Managed object does not exist, use show command to list valid targets
症状 4.IPMI传感器未检测到mLOM
根据UCS技术支持文件<UCS Tech support > tmp > tech_support>,智能平台管理接口(IPMI)传感器未检测到mLOM卡。
Running: dumpIPMISensors
Querying All IPMI Sensors:
Sensor Name | Reading | Unit | Status | LNR | LC | LNC | UNC | UC | UNR |
=================|=========|==============|========|=========|=========|=========|=========|=========|=========|
MLOM_PRSNT | disc -> | discrete | 0x0280 | na | na | na | na | na | na |
MLOM_TEMP | 38.000 | degrees C | OK | na | na | na | na | 90.000 | 95.000 |
mLOM卡部分检测
CIMC通过服务器主板上的传感器和连接观察服务器库存,但服务器操作系统通过服务器数据通道观察硬件。 由于CIMC和服务器操作系统清单使用不同的物理路径来监控mLOM卡,因此可以部分检测到mLOM卡,或者CIMC清单数据显示的结果可能与服务器操作系统不同。
- mLOM将显示在现场可替换单元(FRU)记录中<UCS技术支持> TMP > tech_support.frupid>。
====== Dumping IPMI FRU Records ======
…
FRU Device Description : FRU_MLOM (ID
Board Mfg : Cisco Systems Inc
Board Product : UCSC-MLOM-C40Q-03
Board Serial : FCH2328764C
Board Part Number : 73-17793-06
Board Extra : A03V04
Board Extra : 0000000000
OEM (0xUnknown (0x9)) Record
- mLOM在线状态似乎已在UCS技术支持SEL解码<UCS技术支持>var > sel_decode>中进行了断言。
Id: 757
severity: Normal
dateTime: 2023-12-29 11:08:15 EST
dateTimeOrder: 00028
description: "FRU_MLOM MLOM_PRSNT: Presence sensor for FRU_MLOM, Device Inserted / Device Present was asserted"
- BIOS技术日志<UCS Tech Support > mnt > jffs2 > BIOS > bt > BiosTech.log>可以显示之前已检测到mLOM卡。
7:2023 Dec 29 11:04:33 EST:mLomPresent = TRUE
7:2023 Dec 29 11:04:33 EST:mLomSku = mLOM-x8
- mLOM可以显示在UCS技术支持库存适配器列表和FRU详细信息列表中<UCS技术支持>var >清单-all>。
Adapter List
slot-number: MLOM
serial-number: FCH2328764C
card-type: 81
asic-type: 1
product-id: UCSC-MLOM-C40Q-03
asic-name: cruz
hw-part-no: 73-17793-06
hw-revision: 3
i2cLogicalBus: 112
new-card: no
active: no
standby-power: no
overtemp-condition: no
fan-running: no
ncsiPackageId: 1
eth-interface: eth0
bmc-mac0: 2c:f8:9b:29:7d:de
bmc-mac1: 2c:f8:9b:29:7d:df
cruz-mac: 2c:f8:9b:29:7d:c2
ipAddress: 127.16.3.1
remoteIPAddress: 127.16.3.2
virtual-eth-if: eth0_m3.4043
actions-blocked: yes
capabilities: 0x1
diagnostic-mode: no
UCSM-mode: Standalone
description:
...
FRU Details
FRU_MLOM(ID8)
Board Mfg : Cisco Systems Inc
Board Product : UCSC-MLOM-C40Q-03
Board Serial : FCH2328764C
Board Part Number : 73-17793-06
Board Extra : A03V04
Board Extra : 0000000000
OEM (0xUnknown (0x9)) Record
- mLOM将显示在CIMC CLI mLOM适配器范围<show detail>输出中。
C220-WZP2204006C /chassis # scope adapter MLOM
C220-WZP2204006C /chassis/adapter # show detail
PCI Slot MLOM:
Product Name: N/A
Serial Number: FCH22127H6J
Product ID: UCSC-MLOM-C40Q-03
Adapter Hardware Revision: 3
Current FW Version: N/A
VNTAG: N/A
FIP: N/A
LLDP: N/A
PORT CHANNEL: N/A
Configuration Pending:
Cisco IMC Management Enabled: no
VID: N/A
Vendor: N/A
Description:
Bootloader Version: N/A
FW Image 1 Version: N/A
FW Image 1 State: N/A
FW Image 2 Version: N/A
FW Image 2 State: N/A
FW Update Status: N/A
FW Update Error: N/A
FW Update Stage: N/A
FW Update Overall Progress: N/A
故障排除步骤
在每个步骤之间,检查<show pci-adapter>的scope chassis输出中是否能看到mLOM卡。
注意:由于服务器状态(而非与mLOM卡通信时出现的任何问题),这些输出中仍会显示“Not-Loaded”。
C220-node# scope chassis
C220-node /chassis # show pci-adapter
Slot Vendor ID Device ID SubVendor ID SubDevice ID Firmware Version Product Name Option ROM Status
---------- ---------- ---------- ------------- ------------- ------------- ------------------------- ----------
MLOM 0x1137 0x0042 0x1137 0x015d 4.3(3b) Cisco UCS VIC 1387 MLOM Not-Loaded <<<<<<<<<<<<
MRAID 0x1000 0x0014 0x1137 0x020e 51.10.0-3151 Cisco 12G Modular Raid... Not-Loaded
L 0x8086 0x1563 0x1137 0x01a3 0x80000EC9... Intel X550 LOM Not-Loaded
步骤1:检查物理连接
跟踪mLOM上两个端口到其网络交换机的电缆以确保它们未损坏。如有必要,请更换电缆和小型封装热插拔(SFP)。
- 断开并重新连接服务器端的SFP并评估mLOM连接。
- 断开并重新连接mLOM卡上的SFP并评估mLOM连接。
第二步:确认BIOS已启用所有端口。如果未启用,请启用端口。
步骤 2.1通过重新启动服务器并单击F2进入Aptio设置实用程序来访问服务器上的BIOS。
步骤 2.2在BIOS菜单中,导航到高级LOM和PCI选项,并确保启用所有板载LOM端口。
步骤 2.3导航至PCIe插槽库存详细信息。插槽mLOM卡详细信息必须显示在此处。例如,Missing Slot mLOM。
第三步:重新启动CIMC
CIMC重新启动仅重新启动CIMC管理平面。服务器数据平面不受影响。
步骤 3.1进入CIMC命令模式,Server# scope cimc。
步骤 3.2使用Server /cimc # reboot重新启动CIMC。
第四步:运行Cisco UCS主机升级实用程序(HUU)以刷新UCS
步骤 4.1使用<show brief>命令收集其固件版本。
Running: showBrief
Fri Dec 29 11:13:29 EST 2023
BMC Version Info
ver: 4.0(4i) <<<<<<<< Firmware Version
步骤 4.2从思科软件下载网站,下载适用于UCS固件版本的相应Cisco UCS主机升级实用程序。
https://software.cisco.com/download/home
例如,对于版本为4.0(4i)的UCS C220 M5,正确的实用程序版本为ucs-c220m5-huu-4.0.4i.iso。
https://software.cisco.com/download/home/286318809/type/283850974/release/4.0(4i)
步骤 4.3使用同一型号Cisco UCS服务器的《思科主机升级实用程序用户指南》中“使用全部更新选项更新固件”部分列出的步骤刷新UCS固件。
例如,对于UCS C220 M5型号服务器,更新固件的指南位于:https://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/c/sw/lomug/2-0-x/3_0/b_huu_3_0_1/b_huu_2_0_13_chapter_011.html。
- 如果HUU出现提示“Running and packaged versions are same, skip update.”,在刷新过程中,正确的固件已在此UCS服务器中运行。
- 检查Cisco HUU是否显示mLOM卡的存在。以下是不显示mLOM卡的Cisco HUU实用程序的示例。
第五步:以物理方式重新拔插mLOM适配器卡
按照同一型号Cisco UCS服务器的《服务器安装和维修指南》中的“更换mLOM卡”中所述的步骤实际重新拔插mLOM适配器卡。
例如,对于UCS C220 M5型号服务器,重新拔插mLOM的指南位于:https://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/c/hw/C220M5/install/C220M5/C220M5_chapter_010.html#task_zz5_h1m_3z。
结论
如果验证了物理连接和BIOS端口,则表明已在CIMC上执行硬重新启动,服务器固件已使用正确的固件重新刷新,并且已实际重新拔插mLOM卡,但mLOM卡未出现在<show pci-adapter>的输出中,则可以推断mLOM硬件故障。在这种情况下,请更换mLOM卡。
相关信息