소개
이 문서에서는 UCS 서버의 메모리 오류를 처리하기 위한 트러블슈팅 단계에 대해 설명합니다.
사전 요구 사항
요구 사항
Cisco에서는 이러한 주제에 대해 알고 있는 것이 좋습니다.
- UCS에 대한 기본 이해
- 메모리 아키텍처에 대한 기본 이해.
사용되는 구성 요소
이 문서의 정보는 다음 소프트웨어 및 하드웨어 버전을 기반으로 합니다.
- UCS 제품군 서버 M5, M6, M7 이상
- UCS 관리자
- CIMC(Cisco Integrated Management Controller)
- Cisco IMM(Intersight Managed Mode)
이 문서의 정보는 특정 랩 환경의 디바이스를 토대로 작성되었습니다. 이 문서에 사용된 모든 디바이스는 초기화된(기본) 컨피그레이션으로 시작되었습니다. 현재 네트워크가 작동 중인 경우 모든 명령의 잠재적인 영향을 미리 숙지하시기 바랍니다.
배경 정보
메모리 오류
메모리 오류는 메모리 위치를 읽으려고 할 때 발생합니다. 메모리에서 읽은 값이 있어야 할 값과 일치하지 않습니다. 이러한 오류는 두 가지 유형으로 분류됩니다.
1. 소프트 오류
소프트 오류는 일시적이며 계속 반복되지 않습니다. 이들은 일시적이며, 종종 읽기를 다시 시도하거나 메모리 위치를 다시 쓰는 것에 의해 정정될 수 있다.
2. 하드 오류
영구적인 물리적 결함이 원인입니다. 메모리 위치를 다시 쓰고 읽기 액세스를 다시 시도해도 하드 오류가 발생하지 않습니다. 따라서 이 메모리 오류는 수정할 수 없으며, 오류가 계속 반복되므로 메모리를 교체해야 합니다.
수정 가능한 오류
오류가 발견되어 수정될 경우 수정 가능한 것으로 간주됩니다. 이는 읽기를 다시 시도하거나 ECC(Error Correction Code) 데이터를 사용하여 올바른 메모리 내용을 계산하고 적절한 데이터를 메모리에 다시 쓰는 방법으로 수행할 수 있습니다. 오류를 감지하여 수정한 후 Cisco IMC(Integrated Management Controller)는 시스템 이벤트 로그에 이벤트를 기록합니다.
일반적으로 수정 가능한 오류는 소프트 오류의 결과입니다. 수정 가능한 오류가 동일한 메모리 위치 내에서 장기간 지속되는 경우, 잠재적인 하드 오류를 나타낼 수 있습니다.
적응형 ADDDC(Double Device Data Correction)
ADDDC 스페어링은 동일한 영역에 있는 경우 연속되는 두 개의 DRAM 장애를 수정할 수 있습니다. ADDDC는 오류가 발생한 비트에서 예비 메모리로 데이터를 동적으로 이동하므로 수정 가능한 오류가 수정 불가능한 상태가 되는 것을 방지합니다. 메커니즘을 트리거하려면 수정 가능한 ECC 오류의 임계값이 필요합니다.
ADDDC는 수정 가능한 ECC 오류가 수정 불가능한 ECC 오류보다 먼저 발생하는 경우에 유용합니다.
PPR(Post Package Repair)
PPR(Post Package Repair)은 중복 DRAM 행을 활용하여 DIMM 내의 결함이 있는 메모리 영역을 영구적으로 복구할 수 있습니다. 이 영구적인 현장 수리 기능으로 DIMM을 교체할 필요 없이 하드 오류로부터 신속하게 복구할 수 있습니다. 복구를 수행하려면 시스템에서 ADDDC 이벤트를 경험하고 하나 이상의 재부팅 주기를 거쳐야 합니다. 이 복구 작업은 OS에서 사용할 수 있는 전체 메모리 또는 성능에 영향을 주지 않습니다.
PPR 및 ADDDC는 기본적으로 활성화되어 있지만 구성할 수 있습니다. PPR을 사용하려면 ADDC 예비 RAS 모드도 활성화해야 합니다. RAS 설정이 ADDDC Sparing 또는 Platform Default가 아니면 PPR이 작동하지 않습니다. 지원되는 유일한 PPR 모드는 Hard PPR이며, 이는 수리가 영구적임을 의미합니다.
PCLS(Partial Cache Line Sparing)
메모리 컨트롤러에 오류 방지 메커니즘이 있습니다. 그것은 메모리에 있는 데이터의 작은 부분의 결함을 식별함으로써 작동한다. 이러한 결함 위치는 이를 대체할 수 있는 백업 데이터와 함께 특수 디렉토리에 기록됩니다. 메모리에 액세스할 때 이러한 결함 지점에 오류가 있으면 컨트롤러는 디렉토리의 백업 데이터를 사용하여 모든 것이 원활하게 실행되도록 합니다.
참고: 이 기능은 CPU 아키텍처 및 서버에서 실행 중인 펌웨어 버전에 따라 사용할 수 있습니다. 메모리 오류를 더 잘 처리할 수 있는 마지막 권장 버전인지 확인합니다.
RAS 오류 트러블슈팅
UCS 관리자
일반적으로 UCS Manager에서 이러한 결함이 RAS 이벤트로 표시됩니다.
상태 요약에서 PCLS 또는 PPR이 트리거되었는지 여부에 대한 자세한 정보를 확인할 수 있습니다.
PCLS 예
M6 서버 이상에서는 오류 방지 메커니즘인 BIOS 옵션으로 PCLS(Partial Cache Line Sparing)를 활성화하는 옵션이 있습니다. PPR이 DIMM을 시작하고 복구할 수 있도록 서버를 가능한 한 빨리 재부팅해야 합니다. 서버가 재부팅되면 동일한 DIMM에 대한 추가 UCS Manager 장애를 모니터링합니다.
경고에서 언급했듯이 수정 불가능한 오류가 발생하고 결과적으로 예기치 않은 서버 다운타임이 발생할 위험이 있으므로 가능한 한 빨리 서버를 재부팅하는 것이 좋습니다.
PPR 예
서버에서 ADDDC 및 PPR을 사용하도록 설정했으며 RAS 이벤트가 발생했습니다. 이 결함으로 인해 PPR이 DIMM을 복구하도록 재부팅해야 합니다. PPR이 DIMM을 시작하고 복구하려면 서버를 가능한 한 빨리 재부팅해야 합니다.
서버가 재부팅되면 동일한 DIMM에 대한 추가 UCS Manager 장애를 모니터링합니다.
경고에서 언급했듯이 수정 불가능한 오류가 발생하고 결과적으로 예기치 않은 서버 다운타임이 발생할 위험이 있으므로 가능한 한 빨리 서버를 재부팅하는 것이 좋습니다.
Intersight 관리 모드
서버에서 ADDDC를 활성화했으며 BANK VLS 이벤트가 발생하여 오류가 발생했습니다. 이 시나리오에서 다음 단계는 가능한 한 빨리 서버 리부팅을 수행하여 PPR을 실행할 수 있도록 허용하는 것입니다.
CIMC(Cisco Integrated Management Controller)
Cisco Integrated Management Controller를 사용할 경우 fault가 다음과 같이 나타납니다. 서버에 ADDDC가 있고 VLS 이벤트가 발생한 경우 수정 불가능한 오류를 방지하기 위해 설계된 것으로 작동합니다.
문제 해결 단계
- 예를 들어 다른 DIMM 결함이 없고 수정 불가능한 오류가 없는지 확인합니다.
- 유지 관리 기간을 예약합니다.
- 호스트를 유지 보수 모드로 설정하고 서버를 재부팅하여 PPR(Post Package Repair)을 사용하여 DIMM의 영구 복구를 시도합니다.
UCSM 재부팅 단계
참고: OS에서도 서버를 재부팅할 수 있습니다. 이 예에서는 서버 UI의 reboot 옵션을 사용합니다.
UCS Manager 웹 인터페이스로 이동합니다.
블레이드 서버
Equipment(장비) > Chassis(섀시) > Server X(서버 X)로 이동합니다.
통합 서버
Equipment(장비) > Rack-Mounts(랙 마운트) > Server X(서버 X)로 이동합니다.
KVM 콘솔을 클릭합니다.
kvm 창에서 server actions(서버 작업)를 클릭하고 Reset(재설정)을 선택한 다음 OK(확인)를 클릭합니다.
KVM에서 재부팅 프로세스를 모니터링하고 OS가 올바르게 부팅되는지 확인합니다.
IMM 재부팅 단계
Servers(서버) 탭으로 이동하여 서버를 식별한 다음 Action(3개의 점) 메뉴를 클릭합니다.
다음으로, Power(전원) 메뉴를 선택한 다음 Power Cycle(전원 껐다 켜기) 옵션을 선택합니다.
Power Cycle(전원 주기) 버튼을 클릭하여 작업을 확인합니다.
요청 메뉴 아래에서 진행 상황을 확인합니다.
CIMC 재부팅 단계
Host Power(호스트 전원) 옵션으로 이동하고 Power Cycle(전원 주기)을 선택합니다.
KVM을 실행하여 재부팅 프로세스를 모니터링하고 OS가 올바르게 부팅되는지 확인합니다.
새 결함 모니터링
재부팅 후 오류가 발생하지 않으면 DIMM과 관련된 다른 RAS 이벤트 또는 결함이 없는 것입니다. PPR이 성공했으며 서버를 다시 사용할 수 있습니다.
새 ADDDC 이벤트가 발생할 경우 이전 단계에 설명된 재부팅 프로세스를 반복하여 PPR을 사용하여 추가 영구 복구를 수행합니다.
재부팅 후 Uncorrectable Error(수정 불가 오류) 또는 Unoperable Fault(작동 불가 결함)가 발생하면 해당 fault는 메모리를 교체해야 함을 나타냅니다.
참고: 이러한 결함이 발생하면 Cisco TAC에서 케이스를 열어 DIMM을 교체하십시오.
UCS Manager 수정 불가능한 메모리 오류
IMM 메모리 수정 불가 오류
수정 불가능한 오류 오류입니다. 결함은 DIMM에 수정 불가능한 오류가 있어 교체해야 함을 나타냅니다.
CIMC 수정 불가 메모리 오류
관련 정보