はじめに
このドキュメントでは、UCSサーバでメモリエラーを処理するためのトラブルシューティング手順について説明します。
前提条件
要件
次のトピックに関する知識を身に付けておくことをお勧めします。
- UCSの基本的な知識。
- メモリアーキテクチャの基本知識。
使用するコンポーネント
このドキュメントの情報は、次のソフトウェアとハードウェアのバージョンに基づいています。
- UCSファミリサーバM5、M6、M7以降
- UCS マネージャ
- Cisco インテグレーテッド マネージメント コントローラ(CIMC)
- Cisco Intersightマネージドモード(IMM)
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、クリアな(デフォルト)設定で作業を開始しています。本稼働中のネットワークでは、各コマンドによって起こる可能性がある影響を十分確認してください。
背景説明
メモリ エラー
メモリエラーは、メモリの場所を読み取ろうとする際に発生します。メモリから読み取られた値が、そこにあるはずの値と一致しません。これらのエラーは、次の2つのタイプに分類されます。
1. ソフトエラー
ソフトエラーは一時的なもので、繰り返し発生し続けることはありません。これらは一時的なものであり、読み取りを再試行するか、メモリの場所を書き換えることで、多くの場合、修正できます。
2. ハードエラー
永続的な物理不具合が原因です。 メモリの場所を書き換えて読み取りアクセスを再試行しても、ハードエラーは解消されません。その結果、このメモリエラーは修正不可能であり、エラーが繰り返し発生するため、メモリを交換する必要があります。
修正可能なエラー
エラーが検出されて修正されると、修正可能と見なされます。これは、読み取りを再試行するか、またはエラー訂正コード(ECC)データを使用して正しいメモリ内容を計算し、適切なデータをメモリに書き戻すことで実現できます。エラーが検出されて修正されると、Cisco Integrated Management Controller(IMC)はイベントをシステムイベントログに記録します。
通常、修正可能なエラーはソフトエラーの結果です。同じメモリ位置で修正可能なエラーが長期間続く場合は、潜在的なハードエラーを示している可能性があります。
適応型ダブルデバイスデータ修正(ADDDC)
ADDDCスペアリングでは、同じ領域に存在する場合に、連続する2つのDRAM障害を修正できます。ADDDCは、障害ビットからスペアメモリに動的にデータを移動し、修正可能なエラーが修正不能になるのを防ぎます。このメカニズムをトリガーするには、修正可能なECCエラーのしきい値が必要です。
ADDDCは、修正可能なECCエラーが修正不可能なECCエラーの前に存在する場合に役立ちます。
ポストパッケージ修復(PPR)
Post Package Repair(PPR)では、冗長DRAM列を活用することで、DIMM内の障害が発生したメモリ領域を永続的に修復できます。この修理は現場で行う修理であるため、DIMMを交換しなくてもハードエラーから迅速に復旧できます。修復を実行するには、システムでADDDCイベントが発生し、少なくとも1回の再起動サイクルが実行される必要があります。この修復アクティビティは、パフォーマンスやOSで使用可能な総メモリに影響を与えません。
PPRとADDDCはデフォルトで有効になっていますが、設定可能です。PPRでは、ADDDCスペアリングRASモードも有効にする必要があります。RAS設定がADDDCスペアリングまたはプラットフォームのデフォルト以外の場合、PPRは動作しません。サポートされているPPRモードはハードPPRのみです。つまり、修復は永続的に行われます。
部分キャッシュラインスペアリング(PCLS)
メモリコントローラにはエラー防止メカニズムがあります。これは、メモリ内のデータの欠陥のある小さな部分を特定することによって機能します。これらの障害のある場所は、それらを置き換えることができるバックアップデータとともに、特別なディレクトリに記録されます。メモリにアクセスする際に、これらの障害スポットにエラーが発生した場合、コントローラはディレクトリからのバックアップデータを使用して、すべてが円滑に動作することを確認します。
注:これらの機能は、サーバで実行されているCPUアーキテクチャとファームウェアのバージョンによって異なります。メモリエラーをより適切に処理するために、最新の推奨バージョンを使用していることを確認します。
RAS障害のトラブルシューティング
UCS マネージャ
通常、UCS Managerでは、これらの障害はRASイベントとして表示されます。
状態の概要では、PCLSまたはPPRがトリガーされたかどうかなど、エラーに関する詳細情報を確認できます。
PCLSの例
M6以降のサーバでは、エラー防止メカニズムであるBIOSオプションとしてPatrial Cache Line Sparing(PCLS)を有効にするオプションがあります。PPRを起動してDIMMを修復するには、できるだけ早くサーバをリブートする必要があります。サーバがリブートしたら、同じDIMMで追加のUCS Managerの障害を監視します。
アラートで説明しているように、修正不可能なエラーが発生して予期しないサーバのダウンタイムが発生するリスクがあるため、できるだけ早い時期にサーバを再起動することを推奨します。
PPRの例
サーバーでADDDCおよびPPRが有効になっていて、RASイベントが発生しました。この障害は、PPRをリブートしてDIMMを修復することを示唆しています。PPRを起動してDIMMを修復するには、できるだけ早くサーバをリブートする必要があります。
サーバがリブートしたら、同じDIMMで追加のUCS Managerの障害を監視します。
アラートで説明しているように、修正不可能なエラーが発生して予期しないサーバのダウンタイムが発生するリスクがあるため、できるだけ早い時期にサーバを再起動することを推奨します。
Intersight 管理モード
サーバでADDDCが有効になっていて、BANK VLSイベントが発生し、表示される障害が発生しました。このシナリオでは、次のステップとして、PPRを実行できるように、できるだけ早くサーバをリブートします。
Cisco インテグレーテッド マネージメント コントローラ(CIMC)
Cisco Integrated Management Controller(CIMC)を使用している場合、障害は次のように表示されます。サーバにADDDCがあり、VLSイベントが発生した場合、これは修正不可能なエラーを防ぐために設計された通りに動作しています。
トラブルシューティングの手順
- たとえば、他のDIMM障害がなく、修正不可能なエラーがあることを確認します。
- メンテナンス時間帯をスケジュールします。
- ホストをメンテナンスモードにしてサーバをリブートし、Post Package Repair(PPR)を使用してDIMMの恒久的な修復を試みます。
UCSMの再起動手順
注:OSからサーバをリブートすることもできます。この例では、サーバUIからrebootオプションを使用します。
UCS ManagerのWebインターフェイスに移動します。
ブレードサーバ
Equipment > Chassis > Server Xの順に移動します。
統合サーバ
Equipment > Rack-Mounts > Server Xの順に移動します。
KVM consoleをクリックします。
KVMウィンドウで、server actionsをクリックし、Resetを選択してOKをクリックします。
KVMでリブートプロセスを監視し、OSが正しく起動することを確認します。
IMMのリブート手順
Serversタブに移動し、serverを識別して、Action (3つのドット)メニューをクリックします。
次に、Powerメニューを選択し、次にPower Cycle オプションを選択します。
Power Cycleボタンをクリックして、操作を確定します。
Requestsメニューで進行状況を確認します。
CIMCのリブート手順
Host Powerオプションまで移動し、Power Cycleを選択します。
KVMを起動してリブートプロセスを監視し、OSが正しく起動することを確認します。
新しい障害の監視
リブート後にエラーが発生しない場合、つまりDIMMに関連する他のRASイベントまたは障害がない場合、PPRは成功し、サーバは再び使用できます。
新しいADDDCイベントが発生した場合は、前の手順で説明した再起動プロセスを繰り返し、PPRで追加の永続的な修復を実行します。
修正不可能なエラー、または再起動後に動作不能な障害が発生した場合、その障害はメモリを交換する必要があることを示します。
注:これらの障害が発生した場合は、Cisco TACでケースをオープンし、DIMMを交換してください。
UCS Managerの修正不可能なメモリエラー
IMMメモリの修正不可能なエラー
修正不可能なエラー障害。この障害は、DIMMに修正不可能なエラーがあり、交換が必要であることを示しています。
CIMCの修正不可能なメモリエラー
関連情報