簡介
本文檔介紹如何對無法與CIMC通訊的Cisco UCS C系列機架式伺服器mLOM卡進行故障排除。
必要條件
需求
本文件沒有特定需求。
採用元件
本文中的資訊係根據以下軟體和硬體版本:
- 執行韌體版本4.0(4i)的Cisco整合運算系統(UCS) C220-M5
- 運行韌體版本4.3(3b)的Cisco UCS VIC 1387(這是模組化LAN On Motherboard (mLOM)介面卡)
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
背景資訊
mLOM安裝在Cisco UCS控制器、計算、對象儲存磁碟(OSD)計算和ceph節點中。
虛擬介面卡(VIC)是在UCS伺服器中充當mLOM卡的介面卡。
mLOM VIC介面卡是一個現場可更換單元(FRU),根據Undercloud和Overcloud網路要求放置在控制器、計算和儲存伺服器中。
- 控制器伺服器有一個mLOM (配備2x10GigE連線埠)、1個LOM (配備2x1Gb連線埠)和1Gb思科整合式管理控制器(CIMC)連線埠。
- 計算伺服器有一個mLOM,帶2x10GigE埠,1個LOM,帶2x1Gb埠,插槽1和4中有2個PCIe卡,帶2x10GigE和1個GigE CIMC。
- OSD計算伺服器有一個mLOM帶2x10GigE埠,一個LOM帶2xGb埠,插槽1和4中有2個PCIe卡,帶2x10GigE埠10GigE,1xGb CIMC埠。
- 儲存伺服器有一個mLOM和2x10GigE埠,一個LOM和2xGb埠,以及1Gb CIMC埠。
mLOM介面透過為各種網路提供VIM網路介面,為超雲調配、VNF管理和協調提供服務。這些網路可以包括外部浮動IP網路、內部API網路、儲存網路、儲存管理網路和租戶網路。
排除mLOM和CIMC之間的通訊故障,幫助維護這些網路中的功能。
症狀
症狀1.CIMC GUI顯示「Unable to communicate with the Adapter Card - mLOM(無法與介面卡卡通訊- mLOM)」
在UCS CIMC中訪問網路/介面卡卡- mLOM時,GUI顯示「無法與介面卡卡通訊- mLOM」消息。重新載入WebUI以取得最新資料。
症狀2.mLOM未出現在UCS介面卡清單中
mLOM條目在UCS技術支援檔案tech_support.frupid的介面卡清單中缺失,該檔案位於UCS技術支援檔案路徑<TMP > tech_support.frupid>中。
在正常情況下,mLOM顯示在UCS技術支援tech_support_frumids介面卡清單中。
AdapterList:
…
Slot: MLOM
Description: Cisco UCS VIC1387 Virtual Interface Card - Dual Port 40Gb QSFP+ MLOM
PID: UCSC-MLOM-C40Q-03
CPN: xxxxx
powMin: xxxxx
powMax: xxxxx
Vendor: xxxxx
Device: xxxxx
SubVendor: xxxxx
SubDevice: xxxxx
症狀3.mLOM未出現在「scope adapter mlom」的CIMC CLI Scope機箱輸出中
C220-node/chassis # scope adapter mlom
Error: Managed object does not exist, use show command to list valid targets
症狀4.IPMI感測器未檢測到mLOM
根據UCS技術支援檔案<UCS技術支援> tmp > tech_support>,智慧平台管理介面(IPMI)感測器未檢測到mLOM卡。
Running: dumpIPMISensors
Querying All IPMI Sensors:
Sensor Name | Reading | Unit | Status | LNR | LC | LNC | UNC | UC | UNR |
=================|=========|==============|========|=========|=========|=========|=========|=========|=========|
MLOM_PRSNT | disc -> | discrete | 0x0280 | na | na | na | na | na | na |
MLOM_TEMP | 38.000 | degrees C | OK | na | na | na | na | 90.000 | 95.000 |
mLOM卡部分檢測
CIMC透過伺服器主機板上的感測器和連線觀察伺服器清單,但伺服器作業系統透過伺服器資料通道觀察硬體。 由於CIMC和伺服器作業系統清單使用不同的物理路徑來監控mLOM卡,因此mLOM卡可以被部分檢測,或者CIMC清單資料顯示與伺服器作業系統不同的結果。
- mLOM可能出現在現場可更換單元(FRU)記錄<UCS技術支援> TMP > tech_support.frupid>中。
====== Dumping IPMI FRU Records ======
…
FRU Device Description : FRU_MLOM (ID
Board Mfg : Cisco Systems Inc
Board Product : UCSC-MLOM-C40Q-03
Board Serial : FCH2328764C
Board Part Number : 73-17793-06
Board Extra : A03V04
Board Extra : 0000000000
OEM (0xUnknown (0x9)) Record
- 在UCS技術支援SEL解碼<UCS技術支援> var > sel_decode>中似乎已斷言mLOM的存在。
Id: 757
severity: Normal
dateTime: 2023-12-29 11:08:15 EST
dateTimeOrder: 00028
description: "FRU_MLOM MLOM_PRSNT: Presence sensor for FRU_MLOM, Device Inserted / Device Present was asserted"
- BIOS技術日誌<UCS技術支援> mnt > jffs2 > BIOS > bt > BiosTech.log>可以顯示先前檢測到mLOM卡。
7:2023 Dec 29 11:04:33 EST:mLomPresent = TRUE
7:2023 Dec 29 11:04:33 EST:mLomSku = mLOM-x8
- mLOM可以顯示在UCS技術支援庫存介面卡清單和FRU詳細資訊清單中<UCS技術支援> var >資產-all>。
Adapter List
slot-number: MLOM
serial-number: FCH2328764C
card-type: 81
asic-type: 1
product-id: UCSC-MLOM-C40Q-03
asic-name: cruz
hw-part-no: 73-17793-06
hw-revision: 3
i2cLogicalBus: 112
new-card: no
active: no
standby-power: no
overtemp-condition: no
fan-running: no
ncsiPackageId: 1
eth-interface: eth0
bmc-mac0: 2c:f8:9b:29:7d:de
bmc-mac1: 2c:f8:9b:29:7d:df
cruz-mac: 2c:f8:9b:29:7d:c2
ipAddress: 127.16.3.1
remoteIPAddress: 127.16.3.2
virtual-eth-if: eth0_m3.4043
actions-blocked: yes
capabilities: 0x1
diagnostic-mode: no
UCSM-mode: Standalone
description:
...
FRU Details
FRU_MLOM(ID8)
Board Mfg : Cisco Systems Inc
Board Product : UCSC-MLOM-C40Q-03
Board Serial : FCH2328764C
Board Part Number : 73-17793-06
Board Extra : A03V04
Board Extra : 0000000000
OEM (0xUnknown (0x9)) Record
- mLOM可以顯示在CIMC CLI mLOM介面卡範圍<show detail>輸出中。
C220-WZP2204006C /chassis # scope adapter MLOM
C220-WZP2204006C /chassis/adapter # show detail
PCI Slot MLOM:
Product Name: N/A
Serial Number: FCH22127H6J
Product ID: UCSC-MLOM-C40Q-03
Adapter Hardware Revision: 3
Current FW Version: N/A
VNTAG: N/A
FIP: N/A
LLDP: N/A
PORT CHANNEL: N/A
Configuration Pending:
Cisco IMC Management Enabled: no
VID: N/A
Vendor: N/A
Description:
Bootloader Version: N/A
FW Image 1 Version: N/A
FW Image 1 State: N/A
FW Image 2 Version: N/A
FW Image 2 State: N/A
FW Update Status: N/A
FW Update Error: N/A
FW Update Stage: N/A
FW Update Overall Progress: N/A
疑難排解步驟
在每個步驟之間,檢查<show pci-adapter>的作用域機箱輸出中是否可看到mLOM卡。
注意:由於伺服器狀態(而不是與mLOM卡通訊時出現的任何問題),這些輸出中仍會顯示「Not-Loaded」。
C220-node# scope chassis
C220-node /chassis # show pci-adapter
Slot Vendor ID Device ID SubVendor ID SubDevice ID Firmware Version Product Name Option ROM Status
---------- ---------- ---------- ------------- ------------- ------------- ------------------------- ----------
MLOM 0x1137 0x0042 0x1137 0x015d 4.3(3b) Cisco UCS VIC 1387 MLOM Not-Loaded <<<<<<<<<<<<
MRAID 0x1000 0x0014 0x1137 0x020e 51.10.0-3151 Cisco 12G Modular Raid... Not-Loaded
L 0x8086 0x1563 0x1137 0x01a3 0x80000EC9... Intel X550 LOM Not-Loaded
步驟 1.檢查物理連線
追蹤mLOM上兩個連線埠與其網路交換器之間的纜線,確保它們未損壞。如有必要,更換電纜和小型封裝熱插拔(SFP)。
- 斷開連線並重新連線伺服器端上的SFP,並評估mLOM連線。
- 斷開並重新連線mLOM卡上的SFP,並評估mLOM連線。
步驟 2.確認BIOS已啟用所有埠。如果未啟用它們,請啟用連線埠。
步驟 2.1.重新啟動伺服器,然後按一下F2進入Aptio設定公用程式,以存取伺服器上的BIOS。
步驟 2.2.在BIOS選單中,導航到高級LOM和PCI選項,並確保啟用所有板載LOM埠。
步驟 2.3.導航到PCIe插槽庫存詳細資訊。必須在此顯示插槽mLOM卡詳細資訊。例如, Missing Slot mLOM。
步驟 3.重新啟動CIMC
CIMC重新啟動僅重新啟動CIMC管理平面。伺服器資料平面不受影響。
步驟 3.1.進入CIMC命令模式,Server# scope cimc。
步驟 3.2.使用Server /cimc # reboot重新啟動CIMC。
步驟 4.運行Cisco UCS主機升級實用程式(HUU)以刷新UCS
步驟 4.1.使用<show brief>命令收集其韌體版本。
Running: showBrief
Fri Dec 29 11:13:29 EST 2023
BMC Version Info
ver: 4.0(4i) <<<<<<<< Firmware Version
步驟 4.2.從Cisco軟體下載網站,下載適用於UCS韌體版本的相應Cisco UCS主機升級實用程式。
https://software.cisco.com/download/home
例如,對於版本為4.0(4i)的UCS C220 M5,正確的實用程式版本為ucs-c220m5-huu-4.0.4i.iso。
https://software.cisco.com/download/home/286318809/type/283850974/release/4.0(4i)
步驟 4.3.使用相同型號的Cisco UCS伺服器的「Cisco Host Upgrade Utility User Guide」(思科主機升級實用程式使用手冊)中「Updating Firmware Using the Update All Option」(使用更新全部選項更新韌體)部分列出的步驟刷新UCS韌體。
例如,對於UCS C220 M5型號伺服器,更新韌體的指南位於:https://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/c/sw/lomug/2-0-x/3_0/b_huu_3_0_1/b_huu_2_0_13_chapter_011.html。
- 如果HUU生成提示「運行版本和封裝版本相同,請跳過更新。」,在刷新過程中,正確的韌體已在此UCS伺服器中運行。
- 檢查Cisco HUU是否顯示存在mLOM卡。以下是未顯示mLOM卡的Cisco HUU實用程式示例。
步驟 5.實際重新拔插mLOM介面卡卡
使用同一型號的Cisco UCS伺服器的《伺服器安裝和服務指南》中的「更換mLOM卡」中描述的步驟實際重新拔插mLOM介面卡卡。
例如,對於UCS C220 M5型號伺服器,重新拔插mLOM的指南位於:https://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/c/hw/C220M5/install/C220M5/C220M5_chapter_010.html#task_zz5_h1m_3z。
結論
如果已驗證物理連線和BIOS埠,並且已對CIMC執行硬重新啟動,已使用正確的韌體刷新伺服器韌體,並且已物理重新拔插mLOM,但是mLOM卡未顯示在<show pci-adapter>的輸出中,則可以得出結論mLOM硬體故障。在這種情況下,請更換mLOM卡。
相關資訊