排除UCS伺服器上的記憶體錯誤

下載選項

PDF (1.1 MB)
在多種裝置上使用 Adobe Reader 檢視
ePub (774.9 KB)
在 iPhone、iPad、Android、Sony Reader 或 Windows Phone 上的各種應用程式中檢視
Mobi (Kindle) (738.6 KB)
在 Kindle 裝置或多部裝置的 Kindle 應用程式上檢視

已更新: 2024 年 10 月 25 日

文件 ID:222546

無偏見用語

本產品的文件集力求使用無偏見用語。針對本文件集的目的，無偏見係定義為未根據年齡、身心障礙、性別、種族身分、民族身分、性別傾向、社會經濟地位及交織性表示歧視的用語。由於本產品軟體使用者介面中硬式編碼的語言、根據 RFP 文件使用的語言，或引用第三方產品的語言，因此本文件中可能會出現例外狀況。深入瞭解思科如何使用包容性用語。

關於此翻譯

思科已使用電腦和人工技術翻譯本文件，讓全世界的使用者能夠以自己的語言理解支援內容。請注意，即使是最佳機器翻譯，也不如專業譯者翻譯的內容準確。Cisco Systems, Inc. 對這些翻譯的準確度概不負責，並建議一律查看原始英文文件（提供連結）。

簡介

本文檔介紹處理UCS伺服器上記憶體錯誤的故障排除步驟。

必要條件

需求

思科建議您瞭解以下主題。

對UCS的基本瞭解。
對記憶體架構有基本的瞭解。

採用元件

本文中的資訊係根據以下軟體和硬體版本：

UCS系列伺服器M5、M6、M7及更高版本。
UCS管理器
思科整合式管理控制器(CIMC)
Cisco Intersight管理模式(IMM)

本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除（預設）的組態來啟動。如果您的網路運作中，請確保您瞭解任何指令可能造成的影響。

背景資訊

記憶體錯誤

嘗試讀取記憶體位置時遇到記憶體錯誤。從記憶體讀取的值與應該存在的值不符。這些錯誤分為兩種型別：

1. 軟錯誤

軟錯誤是暫時性的，不會繼續重複。這些是暫時性的，通常可以透過重試讀取或重寫記憶體位置來修正。

2. 硬性錯誤

永久性物理缺陷會導致這些症狀。重寫記憶體位置並重新嘗試讀取訪問不會消除硬錯誤。因此，此記憶體錯誤無法修正，而且當錯誤繼續重複時，需要更換記憶體。

可更正的錯誤

如果檢測到錯誤並糾正錯誤，則認為這些錯誤是可糾正的。這可以透過重試讀取或者使用糾錯碼(ECC)資料計算正確的記憶體內容並將正確的資料寫回記憶體中來實現。檢測到錯誤並糾正後，思科整合管理控制器(IMC)會將事件記錄在系統事件日誌中。

通常，可糾正的錯誤是軟錯誤的結果。如果可糾正的錯誤在相同記憶體位置中持續較長時間，則可能表示存在潛在的硬錯誤。

調適型雙裝置資料修正(ADDDC)

ADDDC備援可以更正兩個連續的DRAM故障（如果它們位於同一區域）。ADDDC會以動態方式將資料從故障位元移動到備用記憶體，以避免無法更正的錯誤。需要可糾正的ECC錯誤閾值才能觸發該機制。

ADDDC在某些可糾正的ECC錯誤優先於不可糾正的ECC錯誤的情況下會有所幫助。

包裝後修復(PPR)

「封裝後修復」(PPR)可利用備援DRAM列，永久修復DIMM內的故障記憶體區域。這種永久性的現場修復可快速從硬錯誤中恢復，無需更換DIMM。要執行修復，系統必須遇到ADDDC事件並經歷至少一個重新引導循環。此修復活動不影響效能或作業系統可用的記憶體總數。

PPR和ADDDC預設啟用，但是可以配置。PPR需要同時啟用ADDDC備用RAS模式。如果RAS設定不是ADDDC備件或平台預設值，則PPR不運行。唯一支援的PPR模式是硬PPR，這意味著修復是永久性的。

部分快取線路備援(PCLS)

記憶體控制器中有一個錯誤預防機制。它透過辨識記憶體中故障小部分資料來工作。這些故障位置會與可替換它們的備份資料一起記錄在特殊目錄中。存取記憶體時，如果發生故障的部位發生錯誤，控制器就會使用目錄的備份資料，以確保所有專案都能順利執行。

註：根據CPU體系結構和伺服器上運行的韌體版本，這些功能可用。確保您使用的是最後建議的版本，以便更好地處理記憶體錯誤。

排除RAS故障

UCS管理器

通常，您會將UCS Manager中的這些故障視為RAS事件。

在運行狀況摘要中，您可以找到有關錯誤的詳細資訊，包括PCLS或PPR是否觸發。

PCLS範例

在M6和更新版本中，您可以選擇啟用部分快取線路備援(PCLS)作為BIOS選項，這是預防錯誤的機制。伺服器必須儘快重新開機，PPR才能啟動並修復DIMM。重新啟動伺服器後，監控同一DIMM的其他UCS Manager故障。

如警示所述，建議儘早重新啟動伺服器，因為可能會發生無法修正的錯誤，進而造成伺服器意外停機。

PCLS2 Example

PPR示例

伺服器啟用了ADDDC和PPR，並且發生了RAS事件。此故障建議重新啟動PPR以修復DIMM。伺服器需要儘快重新啟動，PPR才能啟動並修復DIMM。

重新啟動伺服器後，監控同一DIMM的其他UCS Manager故障。

如警示所述，建議儘早重新啟動伺服器，因為可能會發生無法修正的錯誤，進而造成伺服器意外停機。

PPR Example

Intersight管理模式

伺服器啟用了ADDDC，並且發生了BANK VLS事件，從而產生了您看到的故障。在此案例中，下一步是儘快執行伺服器重新開機，以便執行PPR。

Intersight Managed Mode

思科整合式管理控制器(CIMC)

使用思科整合管理控制器時，故障如圖所示。如果伺服器具有ADDDC且發生VLS事件，則此作業會按照設計來防止無法修正的錯誤。

Cisco Integrated Management Controller

疑難排解步驟

驗證是否存在其他DIMM故障（例如，DIMM故障和無法糾正的錯誤）。
安排維護時間。
將主機置於維護模式，然後重新啟動伺服器，以嘗試使用包後修復(PPR)永久修復DIMM。

UCSM重新引導步驟

注意：您也可以從作業系統重新啟動伺服器。此示例使用伺服器UI中的reboot選項。

導航到UCS Manager Web介面。

刀鋒伺服器

導航到裝置>機箱>伺服器X。

整合式伺服器

導航到裝置>機架安裝>伺服器X。

按一下KVM console。

Reboot KVM Console

在KVM窗口上，按一下伺服器操作，選擇重置，然後按一下確定。

KVM Console

在KVM中監控重新引導過程，並確保作業系統正確啟動。

IMM重新啟動步驟

導航到Servers頁籤，辨識伺服器，然後按一下Action （三個點）選單。

IMM Reboot Steps

然後，選擇Power選單，然後選擇Power Cycle選項。

Power Menu

按一下Power Cycle按鈕以確認操作。

Power Cycle Server

驗證請求選單下的進度。

Requests Menu

CIMC重新啟動步驟

導航到主機電源選項，然後選擇重新通電。

啟動KVM以監控重新引導過程，並確保作業系統正確啟動。

監控新故障

如果重新啟動後未發生錯誤，表示沒有其它RAS事件或與DIMM相關的故障，則PPR成功，伺服器可以重新投入使用。

如果發生新的ADDDC事件，請重複上述步驟中概述的重新引導過程，以便使用PPR執行額外的永久修復。

如果重新啟動後出現「Uncorrectable Error（無法糾正的錯誤）」或無法運行的故障，則表明需要更換記憶體。

注意：如果遇到這些錯誤中的任何一個，請向Cisco TAC提交支援請求以更換DIMM。

UCS Manager不可糾正的記憶體錯誤

UCS Manager Uncorrectable Memory Error - 1

UCS Manager Uncorrectable Memory Error - 2

IMM記憶體無法更正的錯誤

無法更正的錯誤錯誤。此故障表示DIMM有無法糾正的錯誤，需要更換。

IMM Memory Uncorrectable Error