簡介
本檔案介紹如何對思科整合運算系統(UCS)解決方案中的記憶體模組及相關問題進行疑難排解。
必要條件
需求
思科建議瞭解思科統一計算系統(UCS)。
採用元件
本文件所述內容不限於特定軟體和硬體版本。
但是本檔案將說明:
- Cisco UCS B系列刀鋒伺服器
- UCS管理器
- UCS使用雙列直插式記憶體模組(DIMM)作為RAM模組。
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
故障排除方法
本節介紹UCS記憶體問題的幾個部分。
- 內存放置
- 通過UCSM和CLI排除DIMM故障
- 用於簽入技術支援的日誌
術語和縮寫
DIMM |
雙列直插式記憶體模組 |
ECC |
糾錯碼 |
LVDIMM |
低電壓DIMM |
MCA |
機器檢查體系結構 |
會員 |
記憶體內建自檢 |
MRC |
記憶體參考代碼 |
POST |
加電自檢 |
SPD |
Serial Presence檢測 |
DDR |
雙倍資料速率 |
RAS |
可靠性、可用性和可維護性 |
內存放置
內存放置是UCS解決方案最顯著的物理方面之一。
通常,伺服器附帶預填充了請求數量的記憶體。
但是如果有疑問,請參閱硬體安裝指南。
有關記憶體填充規則,請參閱特定平台的B系列技術規格。
B系列技術規格連結:
產品介紹
記憶體錯誤
- DIMM錯誤
- Multibit =不可校正
- POST由BIOS對映;作業系統看不到DIMM。
- 運行時通常會導致作業系統重新啟動。
可更正錯誤與不可更正錯誤
特定錯誤是可糾正的還是不可糾正的取決於在儲存器系統中使用的ECC代碼的強度。
當出現可更正的錯誤時,專用硬體能夠修復這些錯誤,而不會影響程式執行。
帶有可更正錯誤的DIMM不會被禁用,並且可供作業系統使用。其 Total Memory
和 Effective Memory
都是一樣的。
在UCSM可操作性狀態下報告以下可更正的錯誤: Degraded
而整體可操作性為 Operable
有可更正的錯誤。
不可糾正的錯誤使得應用程式或作業系統無法繼續執行。
帶有無法糾正錯誤的DIMM被禁用,作業系統看不到它們。在此案例中,UCSM operState更改為Inoperational。
通過UCSM和CLI排除DIMM故障
從GUI檢查錯誤
UCSM |
記錄檔 |
說明 |
DIMM狀態 |
可操作性 |
SEL |
意見 |
可操作的 |
可操作的 |
檢查SEL日誌中是否存在與DIMM相關的錯誤。 |
已安裝DIMM且工作正常。 |
可操作的 |
降級 |
檢查SEL的ECC錯誤。 |
在運行時檢測到可更正的ECC DIMM錯誤。 |
已刪除 |
不適用 |
無日誌 |
DIMM未安裝或損壞SPD資料。 |
已禁用 |
可操作的 |
檢查SEL中是否存在身份無法建立的錯誤。 |
檢查並更新功能目錄。 |
已禁用 |
不適用 |
如果同一通道中的另一個DIMM出現故障,請檢查SEL。 |
DIMM正常但被禁用,因為同一通道中發生故障的DIMM無法維護配置規則。 |
已禁用 |
不適用 |
無日誌 |
由於缺少DIMM,記憶體配置規則失敗。 |
無法操作 |
無法操作/需要更換 |
|
檢測到UE ECC錯誤。 |
降級 |
無法操作 |
檢查SEL的ECC錯誤。 |
由於主機重新啟動前檢測到ECC錯誤,DIMM狀態和可操作性已更改。 |
降級 |
無法操作/需要更換 |
在POST/MRC期間檢查SEL的ECC錯誤。 |
在運行時檢測到無法糾正的ECC錯誤,DIMM對作業系統仍然可用,作業系統崩潰並恢復,但仍可以使用此DIMM。稍後可能會再次出現錯誤。在大多數情況下必須更換DIMM。 |
要獲取統計資訊,請導航至 Equipment > Chassis > Server > Inventory > Memory,
然後按一下右鍵 Memory
並選取 show navigator.
從CLI檢查錯誤
這些命令在排除CLI錯誤時非常有用。
scope server x/y -> show memory detail
scope server x/y -> show memory-array detail
scope server x/y -> scope memory-array x -> show stats history memory-array-env-stats detail
從記憶體陣列範圍,您還可以訪問DIMM。
scope server X/Y > scope memory-array Z > scope DIMM N
從這裡可以獲取每個DIMM統計資訊或重置錯誤計數器。
UCS/chassis/server/memory-array/dimm # reset-errors
UCS /chassis/server/memory-array/dimm* # commit-buffer
UCS /chassis/server/memory-array/dimm # show stats memory-error-state
如果您看到與此資訊匹配的可糾正錯誤,可以通過重置BMC而不是重置刀鋒伺服器來糾正此問題。
使用以下Cisco UCS Manager CLI命令:
(重置BMC不會影響刀片上運行的作業系統。)
To reset memory-error counters on a Cisco UCS C-Series Rack Server operating in standalone mode, run the script on the CLI:
UCS-C# scope reset-ecc
UCS-C/reset-ecc # set enabled yes
UCS-C/reset-ecc *# commit
For colusa servers:
UCS# scope chassis
UCS /chassis # scope server x
UCS /chassis/server # reset-ecc
在UCS版本2.27和3.1及更高版本中,已移除記憶體修正錯誤的閾值。
因此,不再將記憶體模組報告為 Inoperable
或 Degraded
僅由於已更正的記憶體錯誤。
根據白皮書Managing Correctable Memory Errors on Cisco UCS Servers
業界對更大容量、更大頻寬和更低工作電壓的要求導致記憶體錯誤率增加。
傳統上,業界對待可糾正錯誤的方式與對待不可糾正錯誤的方式相同,這就要求在發出警報時立即更換模組。
鑑於大量研究表明可糾正的錯誤與不可糾正的錯誤無關,並且可糾正的錯誤不會降低系統效能,Cisco UCS團隊建議不要使用可糾正的錯誤立即更換模組。
如果客戶遇到可糾正錯誤的降級記憶體警報,建議重置記憶體錯誤並恢復操作。 此建議有助於避免不必要的伺服器中斷。 未來對錯誤管理的增強將區分各種型別的可糾正錯誤,並確定所需的適當操作(如果有)。
至少應使用2.1(3c)或2.2(1b)版,該版本具有對UCS記憶體錯誤管理的增強功能
要簽入技術支援的日誌檔案
UCSM_X_TechSupport > sam_techsupportinfo
提供有關DIMM和記憶體陣列的資訊。
機箱/伺服器技術支援
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt -> Generic tech support information about sever X.
CIMCX_TechSupport\obfl\obfl-log -> OBFL logs provide an ongoing logs about status and boot of server X.
CIMCX_TechSupport\var\log\sel -> SEL logs for server X.
根據平台/版本,導航至技術支援捆綁包中的檔案。
var/nuova/BIOS > RankMarginTest.txt
var/nuova/BIOS > MemoryHob.txt
var/nuova/var/nuova/ BIOS > MrcOut_*.txt
這些檔案提供從BIOS級別看到的記憶體資訊。
資訊可以再次與DIMM狀態報告表交叉引用。
範例:
/var/nuova/BIOS/RankMarginTest.txt
- 查詢錯誤。
- 檢視是否對映了任何DIMM。
- 顯示DIMM特定資訊(供應商/速度/PID)。
DIMM |GB|R|MfgDate|Mod ID |DRAM ID |Reg ID |CtW Tck CLS Taa V|Freq|Part#
A1 18| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A2 26| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
第一列有兩個值:
DIMM定位器(F2)
DIMM狀態(01)
以下是每種狀態的簡短說明:
0x00 //未安裝(無DIMM)
0x01 //已安裝(工作)
/// 0x02-0F(保留)
///失敗
0x10 //培訓失敗
0x11 //時鐘培訓失敗
// 0x12-17(保留)
0x18 //失敗的MemBIST
/// 0x19-1F(保留)
///忽略
0x20 //已忽略(從調試控制檯禁用)
0x21 //已忽略(BMC報告了SPD錯誤)
0x22 //忽略(非RDIMM)
0x23 //已忽略(非ECC)
0x24 //已忽略(非x4)
0x25 //已忽略(同一LDIMM中的其他PDIMM出現故障)
0x26 //已忽略(同一通道中的其他LDIMM出現故障)
0x27 //已忽略(LockStep或Mirror中的其他通道失敗)
0x28 //已忽略(無效的PDIMM填充)
0x29 //已忽略(PDIMM組織不匹配)
0x2A //已忽略(PDIMM暫存器供應商不匹配)
/// 0x2B-7F(保留)
var/nuova/BIOS > MemoryHob.txt
顯示伺服器上安裝的有效記憶體和故障記憶體。
+++ BEGINNING OF FILE
Memory Speed = 1067 MHz
Memory Mode = 00
RAS Modes = 03
MRC Flags = 0000000A
Total Memory = 98304 MB
Effective Memory = 90112 MB
Failed Memory = 8192 MB
Ignored Memory = 0 MB
Redundant Memory = 0 MB
|---------------------------------|
| Memory | Channel | DIMM Status |
| Channel | Status | 1 2 |
|---------------------------------|
| A | 01 | 01 01 |
| B | 01 | 01 01 |
| C | 01 | 01 01 |
| D | 01 | 01 01 |
| E | 01 | 01 01 |
| F | 01 | 01 18 |
|---------------------------------|
18h - DIMM狀態在MemBist測試中失敗時標籤為失敗。 更換為確認工作正常的DIMM。
DIMM狀態說明
00h未安裝(無DIMM)
已安裝01h(正在工作)
02h-0Fh保留
10h失敗(培訓)
11h失敗(時鐘培訓)
12h-17h保留
18h失敗(MemBIST)
19h-1Fh保留
已忽略20h(從調試控制檯禁用)
已忽略21h(BMC報告了SPD錯誤)
已忽略22小時(非RDIMM)
已忽略23h(非ECC)
已忽略24小時(非x4)
已忽略25h(同一LDIMM中的其他PDIMM出現故障)
已忽略26h(同一通道中的其他LDIMM出現故障)
已忽略27h(LockStep或Mirror中的其他通道)
已忽略28h(記憶體填充無效)
已忽略29h(組織不匹配)
已忽略2Ah(註冊供應商不匹配)
2Bh- 7Fh保留
80h已忽略(解決方案 — 循環)
81h被忽略(停滯的I2C匯流排)
82小時 — 已保留
DIMM塊清單
在 Cisco UCS Manager
,狀態 Dual In-line Memory Module
(DIMM)基於事件記錄。
當BIOS在記憶體測試執行期間遇到不可糾正的記憶體錯誤時,DIMM被標籤為故障。
有故障的DIMM被視為無法正常工作的裝置。
如果啟用DIMM阻止清單,Cisco UCS Manager將監視記憶體測試執行消息,並阻止在DIMM SPD資料中遇到記憶體錯誤的任何DIMM。
DIMM塊清單是在UCSM 2.2(2)中作為可選全域性策略引入的。
伺服器韌體必須為2.2(1)+(B系列刀片)和2.2(3)+(C系列機架式伺服器)才能正確實施此功能。
在UCSM 2.2(4)中,啟用DIMM塊清單。
開啟技術支援檔案……/var/log/DimmBL.log
開啟檔案/var/nuova/BIOS/MrcOut.txt(如果可用)
查詢DIMM狀態表。查詢DIMM狀態:
DIMM塊清單= 1E
查詢DIMM狀態表。查詢DIMM狀態:
DIMM狀態:
00 — 未安裝
01 — 已安裝
10 — 失敗(培訓失敗)清除
1E — 故障(BMC列出的DIMM塊)
1F — 失敗(SPD錯誤)
25 — 已禁用(其他DIMM在同一通道中出現故障。)
範例:
DIMM狀態:
|=======================|
| 記憶體 | DIMM狀態 |
| 通道 | 1 2 3 |
|=======================|
| A | 25 1F 25 |
| B | 01 01 01 |
| 思 | 1F 25 25 |
| D | 01 01 01 |
| E | 01 01 01 |
| 思 | 25 25 1E |
| G | 01 01 01 |
| H | 01 01 01 |
|=======================|
DIMM狀態:
01 — 已安裝
1E — 故障(BMC列出的DIMM塊)
1F — 失敗(SPD錯誤)
25 — 已禁用(同一通道中的其他DIMM出現故障)
清除DIMM塊清單錯誤的方法
UCSM GUI
UCSM CLI
UCS-B/chassis/server # reset-all-memory-errors
相關資訊
值得注意的錯誤
思科漏洞ID CSCug93076 B200M3-DDR電壓調節器在輕負載下噪音過大
Cisco錯誤ID CSCup07488 IPMI DIMM故障感測器設定Dimm降級,無錯誤計數。
思科錯誤ID CSCud22620提高了識別降級DIMM的準確性
Cisco錯誤ID CSCuw44524 C460M4、B260M4或B460M4 IVB清除CMOS可能導致記憶體UECC錯誤
在B200M3上觀察到的思科錯誤ID CSCur19705 ECC/UECC錯誤
獨立群集伺服器缺少思科錯誤ID CSCvm88447重置錯誤碼步驟文檔