はじめに
このドキュメントでは、Cisco Unified Computing System(UCS)ソリューションのメモリモジュールおよび関連する問題をトラブルシューティングする方法について説明します。
前提条件
要件
Cisco Unified Computing System(UCS)に関する知識があることが推奨されます。
使用するコンポーネント
このドキュメントの内容は、特定のソフトウェアやハードウェアのバージョンに限定されるものではありません。
ただし、このドキュメントでは次の点について説明します。
- Cisco UCS Bシリーズブレードサーバ
- UCS マネージャ
- UCSはRAMモジュールとしてデュアルインラインメモリモジュール(DIMM)を使用します。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、クリアな(デフォルト)設定で作業を開始しています。本稼働中のネットワークでは、各コマンドによって起こる可能性がある影響を十分確認してください。
トラブルシューティングの方法
このセクションでは、UCSメモリの問題のいくつかの部分について説明します。
- メモリの取り付け
- UCSMおよびCLIによるDIMMのトラブルシューティング
- テクニカルサポートで確認するログ
用語および略語
DIMM |
Dual In-line Memory Module(デュアル インライン メモリ モジュール) |
ECC |
Error Correcting Code(エラー訂正コード) |
LVDIMM |
Low Voltage DIMM(低電圧 DIMM) |
MCA |
Machine Check Architecture(マシン チェック アーキテクチャ) |
MEMBIST |
Memory Built-In Self Test(メモリ組み込み自己テスト) |
MRC |
Memory Reference Code(メモリ参照コード) |
POST |
Power On Self Test |
SPD |
Serial Presence Detect(シリアル プレゼンス検出) |
DDR |
Double Data Rate(ダブル データ レート) |
RAS |
Reliability, Availability and Serviceability(信頼性、可用性、有用性) |
メモリの取り付け
メモリの配置は、UCSソリューションの最も重要な物理的側面の1つです。
通常、サーバには要求された量のメモリが事前に搭載されています。
ただし、不明な点がある場合は、ハードウェアインストールガイドを参照してください。
メモリの取り付けルールについては、各プラットフォームのBシリーズの技術仕様を参照してください。
B シリーズの技術仕様書のリンク:
データシート
メモリ エラー
- DIMM エラー
- マルチビット:訂正不能
- POSTはBIOSによってマッピングされ、OSはDIMMを認識しません。
- ランタイムにより、OS がほぼ常にリブートされる.
- パリティ エラー
- Serial Presence Detect(SPD)エラー
- 設定エラー
- サポート外の DIMM
- サポート外の DIMM 取り付け
修正可能なエラーと修正不可能なエラー
特定のエラーが訂正可能か訂正不能かは、メモリ システムに採用されている ECC コードの強度に依存します。
専用ハードウェアは、訂正可能なエラーが生じた場合に、プログラムの実行に影響を与えずにそのエラーを修復できます。
修正可能なエラーが発生したDIMMは無効にされておらず、OSで使用できます。「 Total Memory
と Effective Memory
同じです。
これらの修正可能なエラーは、UCSMの操作可能状態で次のように報告されます Degraded
全体的な運用性は Operable
エラーを修正できます。
修正不可能なエラーがあると、アプリケーションまたはオペレーティングシステムの実行を続行できなくなります。
修正不可能なエラーのあるDIMMは無効になり、OSからは認識されません。この場合、UCSM operStateはInoperableに変更されます。
UCSM および CLI での DIMM トラブルシューティング
GUIからのエラーチェック
UCSM |
ログ |
説明 |
DIMM Status |
ステータス |
SEL |
注釈 |
操作可能 |
操作可能 |
SEL ログで DIMM 関連エラーの確認が必要. |
DIMM がインストールされ、動作しています。 |
操作可能 |
低下 |
SEL で ECC エラーの確認が必要. |
ランタイム中に訂正可能な ECC DIMM エラーが検出されました。 |
削除済み |
N/A |
ログなし |
DIMM がインストールされていないか、SPD データが破損しています。 |
Disabled |
操作可能 |
SEL で識別不能エラーの確認が必要. |
Capability Catalog の確認と更新が必要. |
Disabled |
N/A |
SEL で同じチャネルの他の DIMM が不良でないか確認が必要. |
DIMMは正常ですが、同じチャネル内の障害が発生したDIMMでは設定ルールを維持できないため、無効になっています。 |
Disabled |
N/A |
ログなし |
DIMMが取り外されたため、メモリ構成ルールに失敗しました。 |
操作不能 |
Inoperable/Replacement required |
|
UE ECC エラーが検出されました。 |
低下 |
操作不能 |
SEL で ECC エラーの確認が必要. |
ホストがリブートする前に ECC エラーが検出されたため、[DIMM Status] と [Operability] が変更されました。 |
低下 |
Inoperable/Replacement required |
SEL で POST/MRC 中の ECC エラーの確認が必要. |
ランタイム中に訂正不能な ECC エラーが検出されましたが、OS は DIMM の使用を続行できます。OS はクラッシュして復旧しましたが、DIMM の使用を続行できます。エラーは再発の可能性があります。ほとんどの場合、DIMMを交換する必要があります。 |
統計情報を取得するには、 Equipment > Chassis > Server > Inventory > Memory,
右クリック Memory
および選択 show navigator.
CLIからのエラーチェック
CLI からエラーのトラブルシューティングを行うには、次のコマンドが使用できます。
scope server x/y -> show memory detail
scope server x/y -> show memory-array detail
scope server x/y -> scope memory-array x -> show stats history memory-array-env-stats detail
メモリアレイスコープから、DIMMにアクセスすることもできます。
scope server X/Y > scope memory-array Z > scope DIMM N
そこから、DIMMごとの統計情報を取得したり、エラーカウンタをリセットしたりできます。
UCS/chassis/server/memory-array/dimm # reset-errors
UCS /chassis/server/memory-array/dimm* # commit-buffer
UCS /chassis/server/memory-array/dimm # show stats memory-error-state
この情報に一致する修正可能なエラーが表示された場合は、ブレードサーバをリセットするのではなく、BMCをリセットすることで問題を修正できます。
次の Cisco UCS Manager CLI コマンドを使用します。
(BMCをリセットしても、ブレードで実行されているOSには影響しません)。
To reset memory-error counters on a Cisco UCS C-Series Rack Server operating in standalone mode, run the script on the CLI:
UCS-C# scope reset-ecc
UCS-C/reset-ecc # set enabled yes
UCS-C/reset-ecc *# commit
For colusa servers:
UCS# scope chassis
UCS /chassis # scope server x
UCS /chassis/server # reset-ecc
UCSリリース2.27および3.1以降では、メモリ訂正エラーのしきい値が削除されています。
したがって、メモリモジュールは Inoperable
または Degraded
単にメモリエラーの訂正によるものです。
ホワイトペーパー『Managing Correctable Memory Errors on Cisco UCS Servers』を参照してください。
業界では、容量の増加、帯域幅の拡大、動作電圧の低下に対する要求が高まっており、メモリエラー率の向上につながります。
従来、業界では訂正可能なエラーを訂正不能なエラーと同様に扱い、アラートが発生するとすぐにモジュールの交換が必要とされてきました。
広範な調査により、訂正可能なエラーは訂正不能なエラーと相関関係がないこと、訂正可能なエラーはシステム パフォーマンスを低下させないことがわかったので、Cisco UCS チームは訂正可能なエラーが発生するモジュールの交換は、状況判断のうえ、対応することを推奨します。
訂正可能なエラーに関するDegraded memoryアラートが発生したお客様には、メモリエラーをリセットして操作を再開することを推奨します。 この推奨事項は、不要なサーバ中断を回避するのに役立ちます。 エラー管理の今後の機能拡張では、さまざまなタイプの訂正可能なエラーを区別し、必要に応じて適切なアクションを特定します。
少なくとも、バージョン2.1(3c)または2.2(1b)を使用してください。これらのバージョンには、UCSメモリエラー管理に関する機能拡張が含まれています
テクニカル サポートで確認すべきログ ファイル
UCSM_X_TechSupport > sam_techsupportinfo
DIMM およびメモリ アレイに関する情報が記載されています。
サーバおよびシャーシに関するテクニカル サポート
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt -> Generic tech support information about sever X.
CIMCX_TechSupport\obfl\obfl-log -> OBFL logs provide an ongoing logs about status and boot of server X.
CIMCX_TechSupport\var\log\sel -> SEL logs for server X.
プラットフォーム/バージョンに基づいて、テクニカルサポートバンドル内のファイルに移動します。
var/nuova/BIOS > RankMarginTest.txt
var/nuova/BIOS > MemoryHob.txt
var/nuova/var/nuova/ BIOS > MrcOut_*.txt
これらのファイルには、BIOS レベルで見たメモリに関する情報が記載されています。
これらの情報は、DIMM状態レポートテーブルで再度相互参照できます。
以下に例を挙げます。
/var/nuova/BIOS/RankMarginTest.txt
- BIOSトレーニングテストMEMBISTのテスト結果を表示するのに便利です。
- エラーを探します。
- DIMMがマップアウトされているかどうかを確認します。
- DIMM固有の情報(ベンダー/速度/PID)を表示します。
DIMM |GB|R|MfgDate|Mod ID |DRAM ID |Reg ID |CtW Tck CLS Taa V|Freq|Part#
A1 18| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A2 26| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
最初のカラムには、次の 2 つの値があります。
DIMM ロケータ(F2)
DIMM ステータス(01)
各ステータスの概要は次のとおりです。
0x00 // インストールされていない(DIMM なし)
0x01 // インストール済み(動作中)
//// 0x02-0F(予約済み)
//// 失敗
0x10 // トレーニング失敗
0x11 // クロック トレーニング失敗
//// 0x12-17(予約済み)
0x18 // MEMBIST 失敗
//// 0x19-1F(予約済み)
//// 無視
0x20 // 無視(デバッグ コンソールから無効化済み)
0x21 // 無視(BMC から SPD エラーのレポートあり)
0x22 // 無視(非 RDIMM)
0x23 // 無視(非 ECC)
0x24 // 無視(非 x4)
0x25 // 無視(同一 LDIMM 内の他の PDIMM が不良)
0x26// 無視(同一チャネル内の他の LDIMM が不良)
0x27 // 無視(ロックステップまたはミラーリングされている他のチャネルが失敗)
0x28 // 無視(無効な PDIMM の取り付け)
0x29 // 無視(PDIMM 組織の不一致)
0x2A // 無視(PDIMM 登録ベンダーの不一致)
//// 0x2B-7F(予約済み)
var/nuova/BIOS > MemoryHob.txt
サーバにインストールされている有効なメモリと障害のあるメモリを表示します。
+++ BEGINNING OF FILE
Memory Speed = 1067 MHz
Memory Mode = 00
RAS Modes = 03
MRC Flags = 0000000A
Total Memory = 98304 MB
Effective Memory = 90112 MB
Failed Memory = 8192 MB
Ignored Memory = 0 MB
Redundant Memory = 0 MB
|---------------------------------|
| Memory | Channel | DIMM Status |
| Channel | Status | 1 2 |
|---------------------------------|
| A | 01 | 01 01 |
| B | 01 | 01 01 |
| C | 01 | 01 01 |
| D | 01 | 01 01 |
| E | 01 | 01 01 |
| F | 01 | 01 18 |
|---------------------------------|
18h:DIMM が MEMBIST テストで不合格になると、DIMM ステータスが失敗となります。 問題のない既知の DIMM と交換してください。
DIMM ステータスの内容
00h インストールされていない(DIMM なし)
01h インストール済み(動作中)
02h-0Fh 予約済み
10h 失敗(トレーニング)
11h 失敗(クロック トレーニング)
12h-17h 予約済み
18h 失敗(MEMBIST)
19h-1Fh 予約済み
20h 無視(デバッグ コンソールから無効化済み)
21h 無視(BMC から SPD エラーのレポートあり)
22h 無視(非 RDIMM)
23h 無視(非 ECC)
24h 無視(非 x4)
25h 無視(同一 LDIMM 内の他の PDIMM が不良)
26h 無視(同一チャネル内の他の LDIMM が失敗)
27h 無視(ロックステップまたはミラーリングされた他のチャネル)
28h 無視(無効なメモリの取り付け)
29h 無視(組織の不一致)
2Ah 無視(登録ベンダーの不一致)
2Bh-7Fh 予約済み
80h 無視(回避策:ループ中)
81h 無視(I2C バスのスタック)
82h - FFh予約済み
DIMMブロックリスト
イン Cisco UCS Manager
の状態 Dual In-line Memory Module
(DIMM)はSELイベントレコードに基づいています。
メモリ テストの実行中に BIOS が訂正不能なメモリ エラーに遭遇すると、DIMM は不良とみなされます。
不良な DIMM は、動作しないデバイスとみなされます。
DIMMブロックリストを有効にすると、Cisco UCS Managerはメモリテストの実行メッセージを監視し、DIMM SPDデータ内でメモリエラーが発生したDIMMをブロックリストに登録します。
DIMMブロックリストは、UCSM 2.2(2)でオプションのグローバルポリシーとして導入されました。
この機能を正しく実装するには、サーバ ファームウェアのバージョンを、B シリーズ ブレードの場合は 2.2(1) 以上、C シリーズ ラック サーバの場合は 2.2(3) 以上にする必要があります。
UCSM 2.2(4)では、DIMMのブロックリストが有効になっています。
次のコマンドでテクニカル サポートファイルを開きます。.../var/log/DimmBL.log
ファイルが使用可能なら、次のコマンドでファイルを開きます。/var/nuova/BIOS/MrcOut.txt
DIMM ステータス テーブルを確認します。DIMMのステータスを確認します。
DIMMブロックリスト= 1E
DIMM ステータス テーブルを確認します。DIMMのステータスを確認します。
DIMM Status:
00:インストールされていない
01:インストール済み
10:失敗(トレーニング失敗)クリア
1E – 障害(BMCによるDIMMブロックリスト)
1F:失敗(SPD エラー)
25 – 無効(他のDIMMが同じチャネルで障害が発生)
以下に例を挙げます。
DIMM Status:
|=======================|
| メモリ | DIMM Status |
| チャネル | 1 2 3 |
|=======================|
| A | 25 1F 25 |
| B | 01 01 01 |
| C | 1F 25 25 |
| D | 01 01 01 |
| E | 01 01 01 |
| F | 25 25 1E |
| G | 01 01 01 |
| H | 01 01 01 |
|=======================|
DIMM Status:
01:インストール済み
1E – 障害(BMCによるDIMMブロックリスト)
1F:失敗(SPD エラー)
25:無効(同一チャネルの他の DIMM が失敗)
DIMMブロックリスティングエラーをクリアする方法
UCSM GUI
UCSM CLI
UCS-B/chassis/server # reset-all-memory-errors
関連情報
重要なバグ
Cisco Bug ID CSCug93076 B200M3-DDR電圧レギュレータで軽負荷時に過剰なノイズが発生する
Cisco Bug ID CSCup07488 IPMI DIMM障害センサーがDIMM Degradedをエラー数なしで設定しています。
Cisco Bug ID CSCud22620性能低下DIMMの識別精度の向上
Cisco Bug ID CSCuw44524 C460M4、B260M4、またはB460M4 IVBクリアCMOSがメモリUECCエラーを引き起こす可能性
Cisco Bug ID CSCur19705 B200M3でのECC/UECCエラーの発生
スタンドアロンColusaサーバに関するCisco Bug ID CSCvm88447Reset ECC Stepsドキュメントがない