はじめに
このドキュメントでは、さまざまな種類のディスクエラー、その分類方法、および識別に使用できるツールについて説明します。
前提条件
要件
このドキュメントに関する固有の要件はありません。
使用するコンポーネント
このドキュメントの情報は、Unified Computing System(UCS)のハードディスクに基づいています。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、クリアな(デフォルト)設定で作業を開始しています。対象のネットワークが実稼働中である場合には、どのようなコマンドについても、その潜在的な影響について確実に理解しておく必要があります。
背景説明
また、ハードディスクドライブ(HDD)とRedundant Array of Independent Disks(RAID)コントローラの役割についても、ドライブのメディアエラーを特定する際の概要を示します。
注:メディアエラーは、メディアエラーとも呼ばれます
HDDメディアエラーの処理
HDDのメディアエラーの原因
中程度のエラーの最も一般的な原因は、信号の振幅が低いことです。この結果、
- 信頼性の低い論理バスアドレス(LBA)の読み取り場所。複数回の再試行で回復する場合があります。
- 一時的な状態、ソフトパーティクルによる高いフライライト。
- 一時的な衝撃、振動、または音響イベントによって発生し、トラック外の書き込みが発生する一時的な状態。
- HDD製造でのエラーマップ機能の低下により、現在のプライマリ不具合の場所でパディングが発生する。
HDDはどのようにメディアエラーを検出しますか。
ステップ1:HDDは定期的にバックグラウンドメディアスキャンを実行してエラーを検出します。
ステップ 2:HDDがメディアから読み取ろうとしますが、何らかの理由で書き込まれたデータを取得できません。
ステップ 3:書き込まれたデータを取得できない場合、HDDはメディアからデータを正常に読み取るために、さまざまなエラー回復手順を試みるHDDリカバリコードを呼び出します。
ステップ 4:すべてのリカバリ手順が失敗した場合、ドライブはホストに03/11/0xエラーを返し、LBAは保留中の不具合リストに配置されます。
RAIDコントローラは中程度のエラーをどのように検出しますか。
- Patrol Reads、Consistency Checks、Normal Reads、Rebuild、Read / Modify / Writeの各操作の実行中に、RAIDコントローラで中程度のエラーが発生します。
- RAID構成に基づいて、コントローラはHDDによって報告されたメディアエラーを処理できる可能性があり、それ以上のアクションは必要ありません。
- 場合によっては、コントローラは中程度のエラーを処理できず、エラーを処理するためにホストにエラーを渡します。
オペレーティングシステム(OS)でメディアエラーが発生するのはいつですか。
- HDDが中程度のエラーを報告し、RAIDコントローラがリカバリを処理できない場合、ホストにエラーが通知されます。
- この通知は、イベントが発生したことをシステムに通知するアドバイザリメッセージではなく、HDDおよびRAIDコントローラがメディアエラーから回復できなかったため、OSに対する要求です。
- メディアエラーを正しく解決するために必要なコンテキストがOSにある場合は、OSで処理する必要があります
- ディスクがJust a Bunch Of Disk(JBOD)の場合、コントローラによって修正されないため、OSにはエラーが表示されます。これは、HyperFlex(HX)/仮想ストレージエリアネットワーク(VSAN)環境で共通です。
HDDの役割
拡張不具合(G-list)HDDレベル
ドライブの動作中に、ヘッドが弱い磁気読み取りレベルのセクタに遭遇する可能性があります。データはまだ読み取り可能ですが、適切なセクターの読み取りレベルの推奨値を下回る可能性があります。このディスクドライブは、このセクタを、既知の良好な予約リストで利用可能な新しい場所にセクタがこのデータをスペアできるセクタと見なします。データが移動されると、古いセクタアドレスが拡張不具合リストに追加され、二度と使用されなくなります。このプロセスは、回復可能なメディアエラーです。正常な予備セクターの大半が使い果たされると、ドライブはSMARTトリガーを起動します。
RAIDコントローラロール
パトロール読み取り
- Patrol Readは、バックグラウンドでドライブの読み取りを実行し、ドライブの不正な領域をマップするユーザー定義可能なオプションです。
- Patrol Readは、ドライブ障害の原因となる可能性がある物理ディスク・エラーをチェックします。これらのチェックには通常、是正措置の試みが含まれます。Patrol Readは、自動または手動でアクティブ化することで有効/無効を切り替えることができます。
- Patrol Readは、コントローラに接続されている物理ディスクのすべてのセクタを定期的に確認します。セクタには、RAID構成のドライブのシステム予約領域が含まれます。Patrol Readは、すべてのRAIDレベルとすべてのホット・スペア・ドライブに対して機能します。
- このプロセスは、RAIDコントローラが定義された時間アイドル状態で、他のバックグラウンドタスクがアクティブでない場合にのみ開始されます。ただし、負荷の高い入出力(I/O)プロセスと同時に実行し続けることができます。
- JBODで構成されたドライブに対してパトロール読み取りを実行することはできません。
注:潜在的なセマンティックインデックス(LSI)では、最適なシステムパフォーマンスを得るために、Patrol Read Frequencyおよびその他のPatrol Read設定をデフォルト値のままにしておくことを推奨します。値を変更する場合は、後で復元できるように、元の既定値をここに記録してください。
注:Patrol Readでは、実行中の進行状況は報告されません。patrol readステータスは、イベントログでのみ報告されます。
Patrol Readオプションを次の図に示します。
MegaCliの例
Patrol Readの状態およびPatrol Readの実行間隔に関する情報を表示するには、次の手順を実行します。
# MegaCli64 -AdpPR -Info -aALL
現在のPatrol Read Rateを確認するには、次のコマンドを実行します。
# MegaCli64:AdpGetProp PatrolReadRate:すべて
自動パトロール読み取りを無効にするには:
# MegaCli64 -AdpPR -Dsbl -aALL
自動パトロール読み取りを有効にするには、次の手順を実行します。
#MegaCli64 -AdpPR -EnblAuto -aALL
手動パトロール読み取りスキャンを開始するには、次の手順に従います。
# MegaCli64 -AdpPR -Start -aALL
Patrol Readスキャンを停止するには、次の手順に従います。
# MegaCli64 -AdpPR -Stop -aALL
整合性チェック
- RAIDでは、整合性チェックによってアレイ内の冗長データの正確性が検証されます。例えば、パリティ付きシステムにおいて、整合性チェックとは、データドライブのパリティを計算し、その結果をパリティドライブの内容と比較する手段である。
- JBODは整合性チェックをサポートしていません。
- RAID 0は整合性チェックをサポートしていません。
- RAID 1では、パリティではなくデータ比較を使用します。
- RAID 6は2つのパリティドライブのパリティを計算し、その両方を確認します。
注:月に1回以上、整合性チェックを実行することをお勧めします。
Consistency Checkの管理オプションを次の図に示します。
Consistency Checkのスケジューリングオプションを次の図に示します。
MegaCliの例
スケジュールされた次回の整合性チェック時刻を確認するには、次の手順に従います。
#MegaCli64 -AdpCcSched -Info -aALL
スケジュールされた整合性チェック時間を変更するには、次の手順に従います。
#MegaCli64 -AdpCCSched -SetSTartTime 20171028 02 -aALL
整合性チェックを無効にするには、次の手順に従います。
#MegaCli64 -AdpCcSched -Dsbl -aALL
RAIDコントローラがメディアエラーを修復できない状態
- RAID 0の場合
- 冗長性がないため、コントローラはLBAに書き込むデータをHDDに提供できません。
- RAID 1内
- コントローラが、どのミラー・コピーに正しいデータが含まれているかを判断できない場合。これは、両方のLBAを読み取ることができても、データが一致しない場合にのみ発生します。
- RAID 5
- 同じストライプに2つ以上のエラーがある場合。アレイのリビルドが開始された後に発生する可能性が高い。リビルドされたドライブは1つのエラーであり、他のリビルドのドライブで発生したメディアエラーは2番目のエラーです。コントローラは、交換用ドライブでLBAを再構築するために必要なデータを再構築できません。
- RAID 6
- 同じストライプに3つ以上のエラーがある場合。配列の再構築中に発生する可能性が最も高いです。リビルドされるドライブは1つのエラーです。リビルドの進行中に、他の2つのドライブで発生したメディアエラーは2番目と3番目のエラー、またはメディアエラーと2番目のドライブの障害です。コントローラは、エラーが発生したドライブでLBAを再構築するために必要なデータを再構築できません。
関連情報