簡介
本文檔介紹處理UCS伺服器上記憶體錯誤的故障排除步驟。
必要條件
需求
思科建議您瞭解以下主題。
採用元件
本文中的資訊係根據以下軟體和硬體版本:
- UCS系列伺服器M5、M6、M7及更高版本。
- UCS管理器
- 思科整合式管理控制器(CIMC)
- Cisco Intersight管理模式(IMM)
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
背景資訊
記憶體錯誤
嘗試讀取記憶體位置時遇到記憶體錯誤。從記憶體讀取的值與應該存在的值不符。這些錯誤分為兩種型別:
1. 軟錯誤
軟錯誤是暫時性的,不會繼續重複。這些是暫時性的,通常可以透過重試讀取或重寫記憶體位置來修正。
2. 硬性錯誤
永久性物理缺陷會導致這些症狀。 重寫記憶體位置並重新嘗試讀取訪問不會消除硬錯誤。因此,此記憶體錯誤無法修正,而且當錯誤繼續重複時,需要更換記憶體。
可更正的錯誤
如果檢測到錯誤並糾正錯誤,則認為這些錯誤是可糾正的。這可以透過重試讀取或者使用糾錯碼(ECC)資料計算正確的記憶體內容並將正確的資料寫回記憶體中來實現。檢測到錯誤並糾正後,思科整合管理控制器(IMC)會將事件記錄在系統事件日誌中。
通常,可糾正的錯誤是軟錯誤的結果。如果可糾正的錯誤在相同記憶體位置中持續較長時間,則可能表示存在潛在的硬錯誤。
調適型雙裝置資料修正(ADDDC)
ADDDC備援可以更正兩個連續的DRAM故障(如果它們位於同一區域)。ADDDC會以動態方式將資料從故障位元移動到備用記憶體,以避免無法更正的錯誤。需要可糾正的ECC錯誤閾值才能觸發該機制。
ADDDC在某些可糾正的ECC錯誤優先於不可糾正的ECC錯誤的情況下會有所幫助。
包裝後修復(PPR)
「封裝後修復」(PPR)可利用備援DRAM列,永久修復DIMM內的故障記憶體區域。這種永久性的現場修復可快速從硬錯誤中恢復,無需更換DIMM。要執行修復,系統必須遇到ADDDC事件並經歷至少一個重新引導循環。此修復活動不影響效能或作業系統可用的記憶體總數。
PPR和ADDDC預設啟用,但是可以配置。PPR需要同時啟用ADDDC備用RAS模式。如果RAS設定不是ADDDC備件或平台預設值,則PPR不運行。唯一支援的PPR模式是硬PPR,這意味著修復是永久性的。
部分快取線路備援(PCLS)
記憶體控制器中有一個錯誤預防機制。它透過辨識記憶體中故障小部分資料來工作。這些故障位置會與可替換它們的備份資料一起記錄在特殊目錄中。存取記憶體時,如果發生故障的部位發生錯誤,控制器就會使用目錄的備份資料,以確保所有專案都能順利執行。
註:根據CPU體系結構和伺服器上運行的韌體版本,這些功能可用。確保您使用的是最後建議的版本,以便更好地處理記憶體錯誤。
排除RAS故障
UCS管理器
通常,您會將UCS Manager中的這些故障視為RAS事件。
在運行狀況摘要中,您可以找到有關錯誤的詳細資訊,包括PCLS或PPR是否觸發。
PCLS範例
在M6和更新版本中,您可以選擇啟用部分快取線路備援(PCLS)作為BIOS選項,這是預防錯誤的機制。伺服器必須儘快重新開機,PPR才能啟動並修復DIMM。重新啟動伺服器後,監控同一DIMM的其他UCS Manager故障。
如警示所述,建議儘早重新啟動伺服器,因為可能會發生無法修正的錯誤,進而造成伺服器意外停機。
PPR示例
伺服器啟用了ADDDC和PPR,並且發生了RAS事件。此故障建議重新啟動PPR以修復DIMM。伺服器需要儘快重新啟動,PPR才能啟動並修復DIMM。
重新啟動伺服器後,監控同一DIMM的其他UCS Manager故障。
如警示所述,建議儘早重新啟動伺服器,因為可能會發生無法修正的錯誤,進而造成伺服器意外停機。
Intersight管理模式
伺服器啟用了ADDDC,並且發生了BANK VLS事件,從而產生了您看到的故障。在此案例中,下一步是儘快執行伺服器重新開機,以便執行PPR。
思科整合式管理控制器(CIMC)
使用思科整合管理控制器時,故障如圖所示。如果伺服器具有ADDDC且發生VLS事件,則此作業會按照設計來防止無法修正的錯誤。
疑難排解步驟
- 驗證是否存在其他DIMM故障(例如,DIMM故障和無法糾正的錯誤)。
- 安排維護時間。
- 將主機置於維護模式,然後重新啟動伺服器,以嘗試使用包後修復(PPR)永久修復DIMM。
UCSM重新引導步驟
注意:您也可以從作業系統重新啟動伺服器。此示例使用伺服器UI中的reboot選項。
導航到UCS Manager Web介面。
刀鋒伺服器
導航到裝置>機箱>伺服器X。
整合式伺服器
導航到裝置>機架安裝>伺服器X。
按一下KVM console。
在KVM窗口上,按一下伺服器操作,選擇重置,然後按一下確定。
在KVM中監控重新引導過程,並確保作業系統正確啟動。
IMM重新啟動步驟
導航到Servers頁籤,辨識伺服器,然後按一下Action (三個點)選單。
然後,選擇Power選單,然後選擇Power Cycle選項。
按一下Power Cycle按鈕以確認操作。
驗證請求選單下的進度。
CIMC重新啟動步驟
導航到主機電源選項,然後選擇重新通電。
啟動KVM以監控重新引導過程,並確保作業系統正確啟動。
監控新故障
如果重新啟動後未發生錯誤,表示沒有其它RAS事件或與DIMM相關的故障,則PPR成功,伺服器可以重新投入使用。
如果發生新的ADDDC事件,請重複上述步驟中概述的重新引導過程,以便使用PPR執行額外的永久修復。
如果重新啟動後出現「Uncorrectable Error(無法糾正的錯誤)」或無法運行的故障,則表明需要更換記憶體。
注意:如果遇到這些錯誤中的任何一個,請向Cisco TAC提交支援請求以更換DIMM。
UCS Manager不可糾正的記憶體錯誤
IMM記憶體無法更正的錯誤
無法更正的錯誤錯誤。此故障表示DIMM有無法糾正的錯誤,需要更換。
CIMC不可糾正的記憶體錯誤
相關資訊