소개
이 문서에서는 CIMC와 통신할 수 없는 Cisco UCS C-Series Rack Server mLOM 카드의 문제를 해결하는 방법에 대해 설명합니다.
사전 요구 사항
요구 사항
이 문서에 대한 특정 요건이 없습니다.
사용되는 구성 요소
이 문서의 정보는 다음 소프트웨어 및 하드웨어 버전을 기반으로 합니다.
- 펌웨어 버전 4.0(4i)을 실행하는 Cisco UCS(Unified Computing System) C220-M5
- 펌웨어 버전 4.3(3b)을 실행하는 Cisco UCS VIC 1387(mLOM(modular LAN On Motherboard) 어댑터)
이 문서의 정보는 특정 랩 환경의 디바이스를 토대로 작성되었습니다. 이 문서에 사용된 모든 디바이스는 초기화된(기본) 컨피그레이션으로 시작되었습니다. 현재 네트워크가 작동 중인 경우 모든 명령의 잠재적인 영향을 미리 숙지하시기 바랍니다.
배경 정보
mLOM은 Cisco UCS 컨트롤러, 컴퓨팅, OSD(Object Storage Disk) 컴퓨팅 및 ceph 노드에 설치됩니다.
VIC(virtual interface card)는 UCS 서버에서 mLOM 카드 역할을 하는 어댑터입니다.
mLOM VIC 어댑터는 Undercloud 및 Overcloud 네트워킹 요구 사항에 따라 컨트롤러, 컴퓨팅 및 스토리지 서버에 배치되는 FRU(Field Replaceable Unit)입니다.
- 컨트롤러 서버에는 mLOM 1개(10GigE 포트 2개), LOM 1개(1Gb 포트 2개), 1Gb CIMC(Cisco Integrated Management Controller) 포트가 있습니다.
- 컴퓨팅 서버에는 mLOM 1개(2x10GigE 포트), LOM 1개(2x1Gb 포트), PCIe 카드 2개(슬롯 1 및 4)가 있습니다(2x10GigE 포트). GigE CIMC는 1개입니다.
- OSD 컴퓨팅 서버에는 mLOM 1개에 10GigE 포트 2개, LOM 1개에 2xGb 포트 2개, PCIe 카드 2개에 10GigE 포트 2개, CIMC 포트 1개에 10GigE 포트 2개가 있습니다.
- 스토리지 서버에는 mLOM 1개와 10GigE 포트 2개, LOM 1개와 2xGb 포트, 1Gb CIMC 포트가 있습니다.
mLOM 인터페이스는 다양한 네트워크에 VIM 네트워킹 인터페이스를 제공함으로써 오버클라우드 프로비저닝, VNF 관리 및 오케스트레이션을 수행합니다. 이러한 네트워크에는 외부 유동 IP 네트워크, 내부 API 네트워크, 스토리지 네트워크, 스토리지 관리 네트워크, 테넌트 네트워크가 포함될 수 있습니다.
mLOM과 CIMC 간의 통신 문제를 트러블슈팅하여 이러한 네트워크 내에서 기능을 유지 관리합니다.
증상
증상 1. CIMC GUI에 "Unable to communicate with the Adapter Card - mLOM(어댑터 카드와 통신할 수 없음 - mLOM)"이 표시됩니다.
UCS CIMC에서 네트워킹/어댑터 카드 - mLOM에 액세스할 때 GUI에 "Unable to communicate with the Adapter Card - mLOM(어댑터 카드와 통신할 수 없음 - mLOM)"이라는 메시지가 표시됩니다. WebUI를 다시 로드하여 최신 데이터를 가져옵니다."
증상 2. mLOM이 UCS 어댑터 목록에 나타나지 않습니다
UCS 기술 지원 파일 경로 <TMP > tech_support.frupids>에 있는 tech_support.frupids라는 레이블이 붙은 UCS 기술 지원 파일의 어댑터 목록에 mLOM 항목이 없습니다.
일반적인 상황에서는 mLOM이 UCS Tech Support tech_support_frupids Adapter List(UCS 기술 지원 tech_support_frupids 어댑터 목록)에 나타납니다.
AdapterList:
…
Slot: MLOM
Description: Cisco UCS VIC1387 Virtual Interface Card - Dual Port 40Gb QSFP+ MLOM
PID: UCSC-MLOM-C40Q-03
CPN: xxxxx
powMin: xxxxx
powMax: xxxxx
Vendor: xxxxx
Device: xxxxx
SubVendor: xxxxx
SubDevice: xxxxx
증상 3. mLOM이 "scope adapter mlom"에 대한 CIMC CLI Scope Chassis 출력에 나타나지 않습니다.
C220-node/chassis # scope adapter mlom
Error: Managed object does not exist, use show command to list valid targets
증상 4. IPMI 센서에서 mLOM이 탐지되지 않음
mLOM 카드는 UCS Tech Support 파일 <UCS Tech support > tmp > tech_support>에 따라 IPMI(Intelligent Platform Management Interface) 센서에서 감지되지 않습니다.
Running: dumpIPMISensors
Querying All IPMI Sensors:
Sensor Name | Reading | Unit | Status | LNR | LC | LNC | UNC | UC | UNR |
=================|=========|==============|========|=========|=========|=========|=========|=========|=========|
MLOM_PRSNT | disc -> | discrete | 0x0280 | na | na | na | na | na | na |
MLOM_TEMP | 38.000 | degrees C | OK | na | na | na | na | 90.000 | 95.000 |
mLOM 카드 부분 탐지
CIMC는 서버 마더보드의 센서 및 연결을 통해 서버 인벤토리를 관찰하지만, 서버 운영 체제는 서버 데이터 채널을 통해 하드웨어를 관찰합니다. CIMC와 서버 운영 체제 인벤토리는 mLOM 카드를 모니터링하기 위해 서로 다른 물리적 경로를 사용하므로 mLOM 카드를 부분적으로 탐지하거나 CIMC 인벤토리 데이터에 서버 운영 체제와 다른 결과가 표시될 수 있습니다.
- mLOM은 FRU(Field Replaceable Unit) 레코드 <UCS Tech Support > TMP > tech_support.frupids>에 나타날 수 있습니다.
====== Dumping IPMI FRU Records ======
…
FRU Device Description : FRU_MLOM (ID
Board Mfg : Cisco Systems Inc
Board Product : UCSC-MLOM-C40Q-03
Board Serial : FCH2328764C
Board Part Number : 73-17793-06
Board Extra : A03V04
Board Extra : 0000000000
OEM (0xUnknown (0x9)) Record
- mLOM 프레즌스는 UCS Tech Support SEL Decodes <UCS Tech Support > var > sel_decode>에서 어설션된 것으로 보일 수 있습니다.
Id: 757
severity: Normal
dateTime: 2023-12-29 11:08:15 EST
dateTimeOrder: 00028
description: "FRU_MLOM MLOM_PRSNT: Presence sensor for FRU_MLOM, Device Inserted / Device Present was asserted"
- BIOS 기술 로그 <UCS Tech Support > mnt > jffs2 > BIOS > bt > BiosTech.log>에서 mLOM 카드가 이전에 탐지되었음을 확인할 수 있습니다.
7:2023 Dec 29 11:04:33 EST:mLomPresent = TRUE
7:2023 Dec 29 11:04:33 EST:mLomSku = mLOM-x8
- mLOM은 UCS Tech Support Inventory Adapter(UCS 기술 지원 인벤토리 어댑터) 목록 및 FRU Details(FRU 세부사항) 목록 <UCS 기술 지원 > var > inventory-all>에 표시될 수 있습니다.
Adapter List
slot-number: MLOM
serial-number: FCH2328764C
card-type: 81
asic-type: 1
product-id: UCSC-MLOM-C40Q-03
asic-name: cruz
hw-part-no: 73-17793-06
hw-revision: 3
i2cLogicalBus: 112
new-card: no
active: no
standby-power: no
overtemp-condition: no
fan-running: no
ncsiPackageId: 1
eth-interface: eth0
bmc-mac0: 2c:f8:9b:29:7d:de
bmc-mac1: 2c:f8:9b:29:7d:df
cruz-mac: 2c:f8:9b:29:7d:c2
ipAddress: 127.16.3.1
remoteIPAddress: 127.16.3.2
virtual-eth-if: eth0_m3.4043
actions-blocked: yes
capabilities: 0x1
diagnostic-mode: no
UCSM-mode: Standalone
description:
...
FRU Details
FRU_MLOM(ID8)
Board Mfg : Cisco Systems Inc
Board Product : UCSC-MLOM-C40Q-03
Board Serial : FCH2328764C
Board Part Number : 73-17793-06
Board Extra : A03V04
Board Extra : 0000000000
OEM (0xUnknown (0x9)) Record
- mLOM은 CIMC CLI mLOM 어댑터 범위 <show detail> 출력에 나타날 수 있습니다.
C220-WZP2204006C /chassis # scope adapter MLOM
C220-WZP2204006C /chassis/adapter # show detail
PCI Slot MLOM:
Product Name: N/A
Serial Number: FCH22127H6J
Product ID: UCSC-MLOM-C40Q-03
Adapter Hardware Revision: 3
Current FW Version: N/A
VNTAG: N/A
FIP: N/A
LLDP: N/A
PORT CHANNEL: N/A
Configuration Pending:
Cisco IMC Management Enabled: no
VID: N/A
Vendor: N/A
Description:
Bootloader Version: N/A
FW Image 1 Version: N/A
FW Image 1 State: N/A
FW Image 2 Version: N/A
FW Image 2 State: N/A
FW Update Status: N/A
FW Update Error: N/A
FW Update Stage: N/A
FW Update Overall Progress: N/A
문제 해결 단계
각 단계 사이에 mLOM 카드가 <show pci-adapter>의 범위 섀시 출력에 표시되는지 확인합니다.
참고: mLOM 카드와 통신하는 데 문제가 발생하는 것이 아니라 서버 상태 때문에 이러한 출력에 '로드되지 않음'이 계속 표시될 수 있습니다.
C220-node# scope chassis
C220-node /chassis # show pci-adapter
Slot Vendor ID Device ID SubVendor ID SubDevice ID Firmware Version Product Name Option ROM Status
---------- ---------- ---------- ------------- ------------- ------------- ------------------------- ----------
MLOM 0x1137 0x0042 0x1137 0x015d 4.3(3b) Cisco UCS VIC 1387 MLOM Not-Loaded <<<<<<<<<<<<
MRAID 0x1000 0x0014 0x1137 0x020e 51.10.0-3151 Cisco 12G Modular Raid... Not-Loaded
L 0x8086 0x1563 0x1137 0x01a3 0x80000EC9... Intel X550 LOM Not-Loaded
1단계. 물리적 연결 확인
mLOM의 두 포트에서 네트워크 스위치로 연결되는 케이블을 추적하여 손상되지 않았는지 확인합니다. 필요한 경우 케이블 및 SFP(Small Form-factor Pluggable)를 교체합니다.
- 서버 쪽에서 SFP의 연결을 끊고 다시 연결하고 mLOM 연결을 평가합니다.
- mLOM 카드에서 SFP의 연결을 끊고 다시 연결하고 mLOM 연결을 평가합니다.
2단계. BIOS에서 모든 포트가 활성화되었는지 확인합니다. 활성화되지 않은 경우 포트를 활성화합니다.
2.1단계. 서버를 재부팅하고 F2 를 클릭하여 Aptio Setup Utility를 입력하여 서버의 BIOS에 액세스합니다.
2.2단계. BIOS 메뉴에서 Advanced LOM(고급 LOM) 및 PCI options(PCI 옵션)로 이동하고 All Onboard LOM Ports(모든 온보드 LOM 포트)가 활성화되어 있는지 확인합니다.
2.3단계. PCIe 슬롯 인벤토리 세부 정보로 이동합니다. 슬롯 mLOM 카드 세부사항이 여기에 표시되어야 합니다. 예를 들어, Missing Slot mLOM입니다.
3단계. CIMC 재부팅
CIMC를 재부팅하면 CIMC 관리 플레인만 재부팅됩니다. 서버 데이터 플레인은 영향을 받지 않습니다.
3.1단계. CIMC 명령 모드, Server# scope cimc를 입력합니다.
3.2단계. Server /cimc # reboot를 사용하여 CIMC를 재부팅합니다.
4단계. Cisco UCS HUU(Host Upgrade Utility)를 실행하여 UCS를 다시 시작합니다
4.1단계. <show brief> 명령을 사용하여 펌웨어 버전을 수집합니다.
Running: showBrief
Fri Dec 29 11:13:29 EST 2023
BMC Version Info
ver: 4.0(4i) <<<<<<<< Firmware Version
4.2단계. Cisco Software Download(Cisco 소프트웨어 다운로드) 웹 사이트에서 UCS 펌웨어 버전에 적합한 Cisco UCS Host Upgrade Utility를 다운로드합니다.
https://software.cisco.com/download/home
예를 들어, 버전이 4.0(4i)인 UCS C220 M5의 경우 올바른 유틸리티 버전은 ucs-c220m5-huu-4.0.4i.iso입니다.
https://software.cisco.com/download/home/286318809/type/283850974/release/4.0(4i)
4.3단계. 동일한 모델의 Cisco UCS 서버에 대해 'Cisco Host Upgrade Utility 사용 설명서'의 'Update Firmware Using the Update All Option'(모든 업데이트 옵션을 사용하여 펌웨어 업데이트) 섹션에 나열된 절차를 사용하여 UCS 펌웨어를 업데이트합니다.
예를 들어, UCS C220 M5 모델 서버의 경우 펌웨어 업데이트 지침은 https://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/c/sw/lomug/2-0-x/3_0/b_huu_3_0_1/b_huu_2_0_13_chapter_011.html에 있습니다.
- HUU에서 "Running 및 packaged versions is same, skip update"라는 프롬프트가 나타나면 재플래시 절차 중에 올바른 펌웨어가 이 UCS 서버에서 이미 작동하고 있습니다.
- Cisco HUU에 mLOM 카드가 있는지 확인합니다. 다음은 mLOM 카드가 표시되지 않는 Cisco HUU 유틸리티의 예입니다.
5단계. mLOM 어댑터 카드를 물리적으로 재장착합니다.
동일한 모델의 Cisco UCS 서버에 대한 '서버 설치 및 서비스 가이드'의 'mLOM 카드 교체'에 설명된 절차에 따라 mLOM 어댑터 카드를 물리적으로 재장착합니다.
예를 들어 UCS C220 M5 모델 서버의 경우 mLOM 재장착 안내서는 https://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/c/hw/C220M5/install/C220M5/C220M5_chapter_010.html#task_zz5_h1m_3z에 있습니다.
결론
물리적 연결 및 BIOS 포트가 확인되고, CIMC에서 하드 재부팅이 수행되고, 서버 펌웨어가 올바른 펌웨어로 다시 추가되고, mLOM이 물리적으로 재장착되었지만, mLOM 카드가 <show pci-adapter>의 출력에 나타나지 않으면 mLOM 하드웨어 오류가 발생할 수 있습니다. 이러한 경우 mLOM 카드를 교체합니다.
관련 정보