소개
이 문서에서는 Cisco UCS(Unified Computing System) 솔루션의 메모리 모듈 및 관련 문제를 해결하는 방법에 대해 설명합니다.
사전 요구 사항
요구 사항
Cisco에서는 Cisco UCS(Unified Computing System)에 대한 지식을 권장합니다.
사용되는 구성 요소
이 문서는 특정 소프트웨어 및 하드웨어 버전으로 한정되지 않습니다.
그러나 이 문서에서는 다음 사항을 다룹니다.
- Cisco UCS B-Series Blade Server
- UCS 관리자
- UCS는 듀얼 DIMM(In-line Memory Module)을 RAM 모듈로 사용합니다.
이 문서의 정보는 특정 랩 환경의 디바이스를 토대로 작성되었습니다. 이 문서에 사용된 모든 디바이스는 초기화된(기본) 컨피그레이션으로 시작되었습니다. 현재 네트워크가 작동 중인 경우 모든 명령의 잠재적인 영향을 미리 숙지하시기 바랍니다.
방법론 문제 해결
이 섹션에서는 UCS 메모리 문제의 몇 가지 부분을 다룹니다.
- 메모리 배치
- UCSM 및 CLI를 통한 DIMM 문제 해결
- 기술 지원을 체크 인할 로그
용어 및 약어
DIMM |
듀얼 인라인 메모리 모듈 |
ECC |
오류 수정 코드 |
LVDIMM |
저전압 DIMM |
MCA |
시스템 검사 아키텍처 |
회원 |
메모리 내장 자체 테스트 |
MRC |
메모리 참조 코드 |
POST |
POST(Power On Self Test) |
SPD |
시리얼 프레즌스 탐지 |
DDR |
이중 데이터 전송률 |
RAS |
신뢰성, 가용성 및 서비스 가용성 |
메모리 배치
메모리 배치는 UCS 솔루션의 가장 주목할만한 물리적 측면 중 하나입니다.
일반적으로 서버에는 요청된 양이 미리 채워진 메모리가 함께 제공됩니다.
그러나 의심스러운 경우 하드웨어 설치 가이드를 참조하십시오.
메모리 채우기 규칙은 특정 플랫폼의 B-series 기술 사양을 참조하십시오.
B 시리즈 기술 사양 링크:
데이터 시트
메모리 오류
- DIMM 오류
- 멀티비트 = 수정 불가
- POST는 BIOS에 의해 매핑되며 OS에 DIMM이 표시되지 않습니다.
- 런타임은 일반적으로 OS를 재부팅합니다.
- 패리티 오류
- SPD(Serial Presence Detect) 오류
- 구성 오류
- 지원되지 않는 DIMM
- 지원되지 않는 DIMM 설치
수정 가능한 오류와 수정 불가능한 오류
특정 오류의 수정 가능 여부는 메모리 시스템 내에서 사용되는 ECC 코드의 강도에 따라 달라집니다.
프로그램 실행에 영향을 미치지 않고 수정 가능한 오류가 발생할 경우 전용 하드웨어에서 해결할 수 있습니다.
수정 가능한 오류가 있는 DIMM은 비활성화되지 않으며 OS에서 사용할 수 있습니다. 이 Total Memory
및 Effective Memory
같은 것입니다.
이러한 수정 가능한 오류는 UCSM 작동 가능 상태에서 다음과 같이 보고됩니다 Degraded
전반적인 운영성은 Operable
수정 가능한 오류가 있습니다.
수정 불가능한 오류는 응용 프로그램이나 운영 체제가 실행을 계속할 수 없게 만듭니다.
수정 불가능한 오류가 있는 DIMM은 비활성화되며 OS에서 이를 볼 수 없습니다. 이 경우 UCSM operState가 Unoperable로 변경됩니다.
UCSM 및 CLI를 통한 DIMM 문제 해결
GUI에서 오류 확인
UCSM |
로그 |
설명 |
DIMM 상태 |
조작성 |
SEL |
의견 |
작동 가능 |
작동 가능 |
SEL 로그에서 DIMM 관련 오류를 확인합니다. |
DIMM이 설치되고 작동합니다. |
작동 가능 |
저하됨 |
SEL에서 ECC 오류를 확인합니다. |
실행 시간 중에 수정 가능한 ECC DIMM 오류가 탐지됩니다. |
제거됨 |
해당 없음 |
로그 없음 |
DIMM이 설치되지 않았거나 SPD 데이터가 손상되었습니다. |
비활성화됨 |
작동 가능 |
SEL에서 ID를 확인할 수 없는 오류를 확인합니다. |
기능 카탈로그를 확인하고 업데이트합니다. |
비활성화됨 |
해당 없음 |
동일한 채널에서 다른 DIMM에 장애가 발생한 경우 SEL을 선택합니다. |
DIMM이 정상이지만 동일한 채널의 실패한 DIMM으로 구성 규칙을 유지할 수 없으므로 DIMM이 비활성화됩니다. |
비활성화됨 |
해당 없음 |
로그 없음 |
누락된 DIMM으로 인해 메모리 구성 규칙에 실패했습니다. |
작동 불능 |
작동 불가/교체 필요 |
|
UE ECC 오류가 검색되었습니다. |
저하됨 |
작동 불능 |
SEL에서 ECC 오류를 확인합니다. |
호스트가 재부팅되기 전에 ECC 오류로 인해 DIMM 상태 및 운영성이 변경되었습니다. |
저하됨 |
작동 불가/교체 필요 |
POST/MRC 중 ECC 오류가 발생하면 SEL을 선택합니다. |
런타임 중에 수정 불가능한 ECC 오류가 감지되었으며, DIMM은 OS에 사용 가능한 상태로 유지되며, OS가 충돌하여 다시 작동하지만 이 DIMM을 계속 사용할 수 있습니다. 나중에 다시 오류가 발생할 수 있습니다. 대부분의 경우 DIMM을 교체해야 합니다. |
통계를 얻으려면 Equipment > Chassis > Server > Inventory > Memory,
마우스 오른쪽 단추를 Memory
및 선택 show navigator.
CLI에서 오류 확인
이 명령은 CLI에서 오류를 해결할 때 유용합니다.
scope server x/y -> show memory detail
scope server x/y -> show memory-array detail
scope server x/y -> scope memory-array x -> show stats history memory-array-env-stats detail
메모리 어레이 범위에서 DIMM에 액세스할 수도 있습니다.
scope server X/Y > scope memory-array Z > scope DIMM N
그런 다음 DIMM별 통계를 얻거나 오류 카운터를 재설정할 수 있습니다.
UCS/chassis/server/memory-array/dimm # reset-errors
UCS /chassis/server/memory-array/dimm* # commit-buffer
UCS /chassis/server/memory-array/dimm # show stats memory-error-state
이 정보와 일치하는 수정 가능한 오류가 표시되면 블레이드 서버를 재설정하는 대신 BMC를 재설정하여 문제를 해결할 수 있습니다.
다음 Cisco UCS Manager CLI 명령을 사용합니다.
BMC를 재설정해도 블레이드에서 실행 중인 OS에는 영향을 주지 않습니다.
To reset memory-error counters on a Cisco UCS C-Series Rack Server operating in standalone mode, run the script on the CLI:
UCS-C# scope reset-ecc
UCS-C/reset-ecc # set enabled yes
UCS-C/reset-ecc *# commit
For colusa servers:
UCS# scope chassis
UCS /chassis # scope server x
UCS /chassis/server # reset-ecc
UCS 릴리스 2.27 및 3.1 이상에서는 메모리 수정 오류에 대한 임계값이 제거되었습니다.
따라서 메모리 모듈은 더 이상 Inoperable
또는 Degraded
오로지 수정된 메모리 오류 때문입니다.
Cisco UCS Server에서 수정 가능한 메모리 오류 관리 백서에 따라
더 큰 용량, 더 큰 대역폭, 더 낮은 작동 전압에 대한 업계의 요구로 인해 메모리 오류율이 증가합니다.
기존에는 수정 가능한 오류를 수정 불가능한 오류와 동일한 방식으로 처리했기 때문에 경고 발생 시 모듈을 즉시 교체해야 했습니다.
수정 가능한 오류가 수정 불가능한 오류와 상관관계가 없으며 수정 가능한 오류가 시스템 성능을 저하시키지 않는다는 광범위한 연구를 통해 Cisco UCS 팀은 수정 가능한 오류가 있는 모듈을 즉시 교체하지 않는 것이 좋습니다.
수정 가능한 오류에 대해 저하된 메모리 경고가 발생한 고객은 메모리 오류를 재설정하고 작업을 재개하는 것이 좋습니다. 이 권장 사항은 불필요한 서버 중단을 방지하는 데 도움이 됩니다. 향후 오류 관리 기능이 개선되어 수정 가능한 다양한 유형의 오류를 구별하고 필요한 경우 적절한 조치를 식별할 수 있습니다.
최소한 버전 2.1(3c) 또는 2.2(1b)를 사용하십시오. 이 버전은 UCS 메모리 오류 관리 기능이 향상되었습니다
기술 지원을 체크 인할 로그 파일
UCSM_X_TechSupport > sam_techsupportinfo
에서는 DIMM 및 메모리 어레이에 대한 정보를 제공합니다.
섀시/서버 기술 지원
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt -> Generic tech support information about sever X.
CIMCX_TechSupport\obfl\obfl-log -> OBFL logs provide an ongoing logs about status and boot of server X.
CIMCX_TechSupport\var\log\sel -> SEL logs for server X.
플랫폼/버전을 기준으로 기술 지원 번들의 파일을 찾습니다.
var/nuova/BIOS > RankMarginTest.txt
var/nuova/BIOS > MemoryHob.txt
var/nuova/var/nuova/ BIOS > MrcOut_*.txt
이러한 파일은 BIOS 레벨에서 볼 수 있는 메모리에 대한 정보를 제공합니다.
DIMM 상태 보고서 테이블과 상호 참조되는 정보가 있습니다.
예:
/var/nuova/BIOS/RankMarginTest.txt
- BIOS Training test MEMBIST에서 테스트 결과를 표시하는 데 유용합니다.
- 오류를 찾습니다.
- DIMM이 매핑되어 있는지 확인합니다.
- DIMM별 정보(공급업체/속도/PID)를 표시합니다.
DIMM |GB|R|MfgDate|Mod ID |DRAM ID |Reg ID |CtW Tck CLS Taa V|Freq|Part#
A1 18| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A2 26| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
첫 번째 열에는 두 개의 값이 있습니다.
DIMM 로케이터(F2)
DIMM 상태(01)
각 상태에 대한 간단한 설명은 다음과 같습니다.
0x00 // 설치되지 않음(DIMM 없음)
0x01 // 설치됨(작동 중)
/// 0x02-0F(예약됨)
//// 실패
0x10 // 교육 실패
0x11 // 실패한 시계 교육
/// 0x12-17(예약됨)
0x18 // 실패한 MemBIST
/// 0x19-1F(예약됨)
//// 무시됨
0x20 // 무시됨(디버그 콘솔에서 사용 안 함)
0x21 // 무시됨(BMC에서 보고한 SPD 오류)
0x22 // 무시됨(비 RDIMM)
0x23 // 무시됨(비 ECC)
0x24 // 무시됨(x4가 아님)
0x25 // 무시됨(동일한 LDIMM의 다른 PDIMM 실패)
0x26 // 무시됨(같은 채널의 다른 LDIMM이 실패했습니다.)
0x27 // 무시됨(LockStep 또는 Mirror의 다른 채널 실패)
0x28 // 무시됨(잘못된 PDIMM 설치)
0x29 // 무시됨(PDIMM 조직 불일치)
0x2A // 무시됨(PDIMM 레지스터 공급업체 불일치)
/// 0x2B-7F(예약됨)
var/nuova/BIOS > MemoryHob.txt
서버에 설치된 유효 메모리와 실패 메모리를 표시합니다.
+++ BEGINNING OF FILE
Memory Speed = 1067 MHz
Memory Mode = 00
RAS Modes = 03
MRC Flags = 0000000A
Total Memory = 98304 MB
Effective Memory = 90112 MB
Failed Memory = 8192 MB
Ignored Memory = 0 MB
Redundant Memory = 0 MB
|---------------------------------|
| Memory | Channel | DIMM Status |
| Channel | Status | 1 2 |
|---------------------------------|
| A | 01 | 01 01 |
| B | 01 | 01 01 |
| C | 01 | 01 01 |
| D | 01 | 01 01 |
| E | 01 | 01 01 |
| F | 01 | 01 18 |
|---------------------------------|
18h - MemBist 테스트에서 DIMM이 실패하면 DIMM 상태가 실패로 표시됩니다. 정상 작동이 확인된 DIMM으로 교체합니다.
DIMM 상태 설명
00h 설치되지 않음(DIMM 없음)
01h 설치됨(작동 중)
02h-0Fh 예약됨
10h 실패(교육)
11h 실패(시계 교육)
12h-17h 예약됨
18h 실패(MemBIST)
19h-1Fh 예약됨
20h 무시됨(디버그 콘솔에서 사용 안 함)
21h 무시됨(BMC에서 보고한 SPD 오류)
22h 무시됨(비 RDIMM)
23h 무시됨(비 ECC)
24h 무시됨(x4가 아닌 경우)
25h 무시됨(동일한 LDIMM의 다른 PDIMM 실패)
26h 무시됨(같은 채널의 다른 LDIMM 실패)
27h 무시됨(LockStep 또는 Mirror의 다른 채널)
28h 무시됨(잘못된 메모리 채우기)
29h 무시됨(조직 불일치)
2Ah 무시됨(등록 공급업체 불일치)
2Bh- 7Fh 예약됨
80h 무시됨( 해결 방법 루프)
81h 무시됨(Stuck I2C 버스)
82h - 예약됨
DIMM 차단 목록
수신 Cisco UCS Manager
, 의 상태 Dual In-line Memory Module
(DIMM)은 SEL 이벤트 레코드를 기반으로 합니다.
메모리 테스트를 실행하는 동안 BIOS에서 수정 불가능한 메모리 오류가 발생하면 DIMM이 오류로 표시됩니다.
결함이 있는 DIMM은 작동하지 않는 장치로 간주됩니다.
DIMM 차단 목록을 활성화하면 Cisco UCS Manager는 메모리 테스트 실행 메시지를 모니터링하고 DIMM SPD 데이터에서 메모리 오류가 발생하는 모든 DIMM을 차단합니다.
DIMM 차단 목록 추가는 UCSM 2.2(2)에서 선택 사항인 글로벌 정책으로 도입되었습니다.
이 기능을 제대로 구현하려면 서버 펌웨어가 B-Series 블레이드의 경우 2.2(1)+이고 C-Series 랙 서버의 경우 2.2(3)+여야 합니다.
UCSM 2.2(4)에서 DIMM, Blocklisting이 활성화됩니다.
기술 지원 파일을 엽니다.../var/log/DimmBL.log
/var/nuova/BIOS/MrcOut.txt 파일이 있는 경우 엽니다.
DIMM Status(DIMM 상태) 테이블을 찾습니다. DIMM 상태를 확인합니다.
DIMM 차단 목록 = 1E
DIMM Status(DIMM 상태) 테이블을 찾습니다. DIMM 상태를 확인합니다.
DIMM 상태:
00 - 설치되지 않음
01 - 설치됨
10 - 실패(교육 실패) 지우기
1E - 실패(BMC에 의해 나열된 DIMM 차단)
1F - 실패(SPD 오류)
25 - 사용 안 함(다른 DIMM이 동일한 채널에서 실패함)
예:
DIMM 상태:
|=======================|
| 메모리 | DIMM 상태 |
| 채널 | 1 2 3 |
|=======================|
| A | 25 1F 25 |
| B | 01 01 01 |
| C | 1F 25 25 |
| D | 01 01 01 |
| E | 01 01 01 |
| F | 25 25 1E |
| G | 01 01 01 |
| H | 01 01 01 |
|=======================|
DIMM 상태:
01 - 설치됨
1E - 실패(BMC에 의해 나열된 DIMM 차단)
1F - 실패(SPD 오류)
25 - 사용 안 함(다른 DIMM이 동일한 채널에서 실패함)
DIMM 차단 목록 오류를 지우는 방법
UCSM GUI
UCSM CLI
UCS-B/chassis/server # reset-all-memory-errors
관련 정보
주목할 만한 버그
Cisco 버그 ID CSCug93076 B200M3-DDR 전압 레귤레이터에 가벼운 부하 상태에서 과도한 노이즈 발생
Cisco 버그 ID CSCup07488 IPMI DIMM 결함 센서가 오류 수 없이 Dimm Degraded(DIMM 성능 저하)를 설정하고 있습니다.
Cisco 버그 ID CSCud22620 성능 저하된 DIMM 식별의 정확성 향상
Cisco 버그 ID CSCuw44524 C460M4, B260M4 또는 B460M4 IVB 지우기 CMOS로 인해 메모리 UECC 오류가 발생할 수 있습니다
Cisco 버그 ID CSCur19705 B200M3에서 관찰된 ECC/UECC 오류
Cisco 버그 ID CSCvm88447 재설정 ECC 단계 설명서가 독립형 Colusa Server에 대해 누락되었습니다.