Cisco UCS Manager トラブルシューティングリファレンスガイド

偏向のない言語

この製品のマニュアルセットは、偏向のない言語を使用するように配慮されています。このマニュアルセットでの偏向のない言語とは、年齢、障害、性別、人種的アイデンティティ、民族的アイデンティティ、性的指向、社会経済的地位、およびインターセクショナリティに基づく差別を意味しない言語として定義されています。製品ソフトウェアのユーザーインターフェイスにハードコードされている言語、RFP のドキュメントに基づいて使用されている言語、または参照されているサードパーティ製品で使用されている言語によりドキュメントに例外が存在する場合があります。シスコのインクルーシブランゲージに対する取り組みの詳細は、こちらをご覧ください。

翻訳について

このドキュメントは、米国シスコ発行ドキュメントの参考和訳です。リンク情報につきましては、日本語版掲載時点で、英語版にアップデートがあり、リンク先のページが移動/変更されている場合がありますことをご了承ください。あくまでも参考和訳となりますので、正式な内容については米国サイトのドキュメントを参照ください。

マニュアルのコンテンツ

このマニュアル内で検索

ご利用いただける言語

Download Options

Book Title

Cisco UCS Manager トラブルシューティングリファレンスガイド

Chapter Title

サーバのハードウェア問題のトラブルシューティング

PDF - Complete Book (2.97 MB) PDF - This Chapter (1.52 MB)
View with Adobe Reader on a variety of devices

検索結果

Updated:: 2018年1月31日

章のタイトル：サーバのハードウェア問題のトラブルシューティング

診断ボタンと LED
DIMM メモリの問題
- メモリの用語および略語
- DIMM のエラーのトラブルシューティング
CPU の問題
ディスクドライブと RAID に関する問題
アダプタの問題
電源の問題
- Cisco UCS B440 サーバの FET 障害のトラブルシューティング
Cisco TAC に連絡するときに必要となる情報

サーバのハードウェア問題のトラブルシューティング

この章は、次の項で構成されています。

診断ボタンと LED
DIMM メモリの問題
CPU の問題
ディスクドライブと RAID に関する問題
アダプタの問題
電源の問題
Cisco TAC に連絡するときに必要となる情報

診断ボタンと LED

ブレードの起動時に、POST 診断によって CPU、DIMM、HDD、およびアダプタカードがテストされます。エラー通知がある場合は、Cisco UCS Manager に送信されます。通知はシステムイベントログ（SEL）または show tech-support コマンド出力で確認できます。エラーが検出されると、障害が発生したコンポーネントの横にある LED がオレンジに点灯します。実行時に、ブレード BIOS、コンポーネントドライバ、および OS によってハードウェアの障害がモニタされます。修正できないエラーまたは規定値を超える修正できるエラー（ホスト ECC エラーなど）が発生すると、ハードウェアのコンポーネントの診断 LED がオレンジに点灯します。

LED の状態は保存されます。シャーシからブレードを取り外すと、LED の値は最大 10 分間継続されます。マザーボードの LED 診断ボタンを押すと、コンポーネントに障害が発生していることを示す LED が最大 30 秒間点灯します。シャーシにブレードを取り付け直して起動すると、LED の障害値がリセットされます。

DIMM 挿入エラーが検出されると、ブレードの検出に失敗する場合があり、エラーはサーバの POST 情報でレポートされます。これらのエラーは、Cisco UCS Manager CLI または Cisco UCS Manager GUI で確認できます。ブレードサーバに DIMM を取り付けるときは、特定のルールに従う必要があります。このルールはブレードサーバのモデルによって異なります。ルールについてはブレードサーバの各マニュアルを参照してください。

HDD ステータス LED は HDD の前面にあります。CPU、DIMM、またはアダプタカードで障害が発生すると、サーバヘルス LED は、軽微な障害ではオレンジに点灯し、重大な障害ではオレンジに点滅します。

DIMM メモリの問題

DIMM エラーのタイプ

Cisco UCS サーバは、修正可能および訂正不能な DIMM エラーを検出し、報告できます。

修正可能な DIMM エラー: 修正可能なエラーのある DIMM はディセーブルにならず、OS で利用できます。合計メモリと実効メモリは同じです（メモリのミラーリングが考慮されます）。これらの訂正可能なエラーは、所定のエラーしきい値を超えると、低下エラーとしてで報告されます。

訂正不能な DIMM エラー: 一般に、訂正不能なエラーは修復できず、アプリケーションやオペレーティングシステムは処理を続行できなくなる場合があります。訂正不能なエラーの DIMM は、DIMM のブラックリストへの追加が有効な場合、または DIMM が BIOS POST 中に再起動に失敗し、OS でメモリを確認できない場合に無効になります。この場合、の operState では DIMM は動作不能となります。

DIMM メモリに問題が発生すると、サーバの起動に失敗したり、サーバがその能力以下で動作したりする場合があります。DIMM の問題が疑われる場合は、次の内容を検討します。

システムでサポートされる DIMM は、シスコによりテストされ、シスコの基準を満たし、シスコにより販売される DIMM のみです。サードパーティ製の DIMM はサポートされません。このような DIMM が存在する場合、これらの DIMM をシスコが販売する DIMM に交換してから、問題のトラブルシューティングを続行してください。
不具合がある DIMM が、使用しているサーバのモデルでサポートされているかどうかを確認します。サーバのインストレーションガイドおよび技術仕様を参照して、サーバ、CPU、および DIMM を正しく組み合わせて使用しているかどうかを確認します。
不具合がある DIMM がスロットに確実に装着されていることを確認します。DIMM を取り外してからもう一度装着します。
すべての Cisco サーバには必須または推奨の DIMM 取り付け順序があります。サーバのインストレーションガイドおよび技術仕様を参照して、所定のサーバタイプに対して DIMM を適切に追加していることを確認します。
交換用の DIMM の最大速度が以前に取り付けられていたメモリの速度より遅い場合、サーバ内のすべての DIMM の速度が低下するか、場合によっては完全に動作しなくなります。サーバ内の DIMM はすべて同じタイプである必要があります。最適なパフォーマンスを得るために、サーバ内の DIMM はすべて同じタイプである必要があります。
DIMM の数およびサイズは、サーバ内のすべての CPU について同一である必要があります。DIMM の構成に不一致があると、システムのパフォーマンスが低下する場合があります。

メモリの用語および略語
DIMM のエラーのトラブルシューティング

メモリの用語および略語

表 1 メモリの用語および略語
略語	意味
DIMM	Dual In-line Memory Module（デュアルインラインメモリモジュール）
DRAM	ダイナミックランダムアクセスメモリ
ECC	Error Correction Mode（エラー訂正モード）
LVDIMM	Low Voltage DIMM（低電圧 DIMM）
MCA	Machine Check Architecture（マシーンチェックアーキテクチャ）
MEMBIST	Memory Built-In Self Test（メモリ組み込み自己テスト）
MRC	Memory Reference Code（メモリリファレンスコード）
POST	Power On Self Test（電源投入時自己診断テスト）
SPD	Serial Presence Detect（シリアルプレゼンス検出）
DDR	Double Data Rate（ダブルデータレート）
CAS	Column Address Strobe（コラムアドレスストローベ）
RAS	Row Address Strobe（行アドレスストローベ）

DIMM のエラーのトラブルシューティング

DIMM の正しい取り付け

DIMM が正しく取り付けられていることを確認します。

次の図に示す最初の例では、DIMM が正常に挿入され、固定されています。少量のほこりによっていずれかの接点が塞がれていない限り、この DIMM は正常に機能します。2 番目の例は、DIMM の向きがスロットのキーの向きと合っていない場合を示しています。DIMM はこの方向に挿入することはできないため、スロットに合うように向きを変える必要があります。3 番目の例では、DIMM の左側は正しく装着され、ラッチがしっかりとかかっていますが、右側はスロットにわずかに接触しているだけで、ラッチが DIMM のノッチに固定されていません。4 番目の例では、左側はしっかりと挿入されて固定されていますが、右側は挿入が不完全で、ラッチがしっかりと固定されていません。

図 1. DIMM の取り付け

Cisco UCS Manager CLI を使用した場合の DIMM エラーのトラブルシューティング

Cisco UCS Manager CLIでメモリ情報を確認して、発生する可能性のある DIMM エラーを識別します。

手順

	コマンドまたはアクション	目的
ステップ 1	UCS-A# scope serverx/y	指定したサーバのサーバモードを開始します。
ステップ 2	UCS-A /chassis/server # show memory detail	サーバのメモリ情報が表示されます。
ステップ 3	UCS-A /chassis/server # show memory-array detail	メモリアレイの詳細情報が表示されます。
ステップ 4	UCS-A /chassis/server # scope memory-arrayx	指定したアレイのアレイモードを開始します。
ステップ 5	UCS-A /chassis/server/memory-array # show stats	メモリアレイの統計が表示されます。

次に、Cisco UCS Manager CLI を使用してメモリ情報を確認する例を示します。

UCS-A# scope server 1/5
UCS-A /chassis/server # show memory detail
Server 1/5:
    Array 1:
        CPU ID: 1
        Current Capacity (GB): 393216
        Error Correction: Undisc
        Max Capacity (GB): 393216
        Max Devices: 48
        Populated: 48

        DIMMS:

        ID 1:
            Location: DIMM_A0
            Presence: Equipped
            Overall Status: Operable
            Operability: Operable
            Visibility: Yes
            Product Name: 8GB DDR3-1333MHz RDIMM/PC3-10600/dual rank 2Gb DRAM
            PID: N01-M308GB2
            VID: V01
            Vendor: 0xCE00
            Vendor Description: Samsung Electronics, Inc.
            Vendor Part Number: M393B1K70BH1-CH9
            Vendor Serial (SN): 0x46185EC2
            HW Revision: 0
            Form Factor: Dimm
            Type: Other
            Capacity (MB): 8192
            Clock: 1067
            Latency: 0.900000
            Width: 64
.
.
.
UCS-A /chassis/server # show memory-array detail

Memory Array:
    ID: 1
    Current Capacity (GB): 384
    Max Capacity (GB): 384
    Populated: 48
    Max Devices: 48
    Error Correction: Undisc
    Product Name:
    PID:
    VID:
    Vendor:
    Serial (SN):
    HW Revision: 0
    Threshold Status: N/A
    Power State: N/A
    Thermal Status: N/A
    Voltage Status: N/A

UCS-A /chassis/server # scope memory-array 1
UCS-A /chassis/server/memory-array # show stats

Memory Array Env Stats:
    Time Collected: 2011-09-27T20:15:52.858
    Monitored Object: sys/chassis-1/blade-5/board/memarray-1/array-env-stats
    Suspect: No
    Input Current (A): 62.400002
    Thresholded: 0

Memory Error Stats:
    Time Collected: 2011-09-27T20:15:43.821
    Monitored Object: sys/chassis-1/blade-5/board/memarray-1/mem-1/error-stats
    Suspect: No
    Address Parity Errors: 0
    Mismatch Errors: 0
    Ecc Multibit Errors: 0
    Ecc Singlebit Errors: 0
    Thresholded: 0

    Time Collected: 2011-09-27T20:15:43.821
    Monitored Object: sys/chassis-1/blade-5/board/memarray-1/mem-2/error-stats
    Suspect: No
    Address Parity Errors: 0
    Mismatch Errors: 0
    Ecc Multibit Errors: 0
    Ecc Singlebit Errors: 0
    Thresholded: 0

    Time Collected: 2011-09-27T20:15:43.821
    Monitored Object: sys/chassis-1/blade-5/board/memarray-1/mem-3/error-stats
    Suspect: No
    Address Parity Errors: 0
    Mismatch Errors: 0
    Ecc Multibit Errors: 0
    Ecc Singlebit Errors: 0
    Thresholded: 0
.
.
.
UCS-A /chassis/server/memory-array #

Cisco UCS Manager GUIを使用した DIMM エラーのトラブルシューティング

Cisco UCS Manager GUIを使用して、発生している DIMM エラーの種類を特定できます。

手順

ステップ 1	ナビゲーションペインで、正しいシャーシを展開し、サーバを選択します。
ステップ 2	[Inventory]タブで、[Memory] タブをクリックします。サーバのメモリエラーが表示されます。
ステップ 3	サーバの [Statistics]タブで、[Chart] タブをクリックします。関連するメモリアレイを展開して、そのアレイに関する情報を表示できます。
ステップ 4	OS 側から見たメモリの容量が、サーバに関連付けられたサービスプロファイルにリストされているメモリの容量と一致していることを確認します。たとえば、OS からすべてのメモリが見えているか、または一部のメモリしか見えていないかを確認します。可能な場合には、OS からメモリ診断ツールを実行します。

DIMM の低下エラーのトラブルシューティング

修正可能なエラーのある DIMM はディセーブルにならず、OS で利用できます。合計メモリと実効メモリは同じです（メモリのミラーリングが考慮されます）。これらの修正可能なエラーは、Cisco UCS Manager において、低下としてレポートされます。

前述の情報に一致する修正可能なエラーがレポートされている場合、その問題は、ブレードサーバを装着し直したり、リセットしたりするのではなく、BMC をリセットすることによって修正できます。次の Cisco UCS Manager CLI コマンドを使用します。

（注）

BMC のリセットは、ブレード上で実行されている OS に影響を及ぼしません。

手順

	コマンドまたはアクション	目的
ステップ 1	UCS1-A# scope server x/y	サーバコンフィギュレーションモードを開始します。
ステップ 2	UCS1-A /chassis/server # scope bmc	BMC のコンフィギュレーションモードを開始します。
ステップ 3	UCS1-A /chassis/server/bmc # reset	BMC サーバをハードリセットします。
ステップ 4	UCS1-A /chassis/server/bmc* # commit-buffer	トランザクションをシステムの設定にコミットします。

次の例では、BMC をリセットする方法を示します。

UCS1-A# scope server x/y
UCS1-A /chassis/server # scope bmc
UCS1-A /chassis/server/bmc # reset
UCS1-A /chassis/server/bmc* # commit-buffer

動作不能な DIMM エラーのトラブルシューティング

修正不可能なエラーが発生している DIMM はディセーブルになり、そのメモリはサーバの OS から認識されません。システムが稼働しているときに DIMM で障害が発生した場合、OS が予期せずクラッシュする可能性があります。修正不可能な DIMM エラーの場合、DIMM は動作不能としてに表示されます。これらのエラーは、ソフトウェアでは修正できません。不良 DIMM を特定して取り外すと、サーバをブートできます。たとえば、1 つ以上の DIMM が不良であるために、BIOS で POST を渡せなくなります。

手順

ステップ 1	1 つの DIMM（できればテスト済みの良好な DIMM）または DIMM ペアを、1 つ目のプロセッサの 1 つ目の使用可能スロットに取り付けます（POST を成功させるための最小要件）。
ステップ 2	システムのブートを再試行します。
ステップ 3	それでもなお BIOS POST に失敗する場合は、ステップ 2 で別の DIMM を使用してステップ 1 ～ 3 を繰り返します。
ステップ 4	BIOS POST に成功し、、続けてメモリを追加します。そのサーバモデルの装着規則に従います。一部のメモリ構成では BIOS POST を正しく渡せるが、他のメモリ構成では渡せないという場合は、その情報を使用して、問題の原因の特定に役立てます。

DIMM の問題に関する推奨される解決策

次の表に、DIMM の問題のトラブルシューティングを行うためのガイドラインおよび推奨される解決策を示します。

表 2 DIMM の問題
問題	推奨される解決策
DIMM が認識されない。	DIMM が、アクティブ CPU をサポートするスロットに装着されていることを確認します。 DIMM が Cisco 製品であることを確認します。サードパーティ製のメモリは Cisco UCS ではサポートされていません。
DIMM がスロットに合わない。	DIMM がそのサーバモデルでサポートされていることを確認します。スロットに対して DIMM の向きが正しいことを確認します。DIMM とそのスロットにはキーが付いており、2 方向のうちのいずれか一方でのみ固定できます。
DIMM が SEL、POST、または LED で不良としてレポートされるか、または Cisco IMC で動作不能としてレポートされる。	DIMM がそのサーバモデルでサポートされていることを確認します。 DIMM が、そのサーバモデルの装着規則に従ってスロットに装着されていることを確認します。 DIMM がスロットにしっかりと装着されていることを確認します。アダプタが確実に接触するように装着し直し、POST を再度実行します。 DIMM を、正常に機能することがわかっているスロットに取り付けて、DIMM に問題があることを確認します。正常に機能することがわかっている DIMM をスロットに取り付けて、DIMM のスロットが損傷していないことを確認します。 BMC をリセットします。
DIMM が GUI または CLI で低下としてレポートされるか、または予期した速度よりも遅い。	BMC をリセットします。シャーシ内のサーバを装着し直します。
DIMM が過熱としてレポートされる。	DIMM がスロットにしっかりと装着されていることを確認します。アダプタが確実に接触するように装着し直し、POST を再度実行します。空気が設計どおりに流れるように、空の HDD ベイ、サーバスロット、電源装置ベイのすべてでブランキングカバーが使用されていることを確認します。空気が設計どおりに流れるように、サーバエアバッフルが取り付けられていることを確認します。空気が設計どおりに流れるように、必要な CPU エアブロッカが取り付けられていることを確認します。

CPU の問題

すべての Cisco UCS サーバは、1 ～ 2 基または 1 ～ 4 基の CPU をサポートしています。1 基の CPU に問題が発生すると、サーバのブート失敗、非常に低速な動作、または重大なデータ損失やデータ破損の原因となり得ます。CPU の問題が疑われる場合は、次の内容を検討します。

サーバ内のすべての CPU は、同じタイプである必要があり、同じ速度で動作し、同数および同じサイズの DIMM を使用している必要があります。
新しく CPU を交換またはアップグレードした場合は、その CPU がサーバに対して互換性があり、その CPU をサポートしている BIOS がインストールされていることを確認します。サポートされる Cisco モデルおよび製品 ID については、サーバのマニュアルを参照してください。シスコ提供の CPU のみを使用してください。BIOS バージョンの情報は、ソフトウェアリリースのリリースノートで確認できます。
CPU を交換する際は、ヒートシンクを確実に接着し、放熱を行ってください。CPU が加熱すると、Cisco UCS Manager で障害メッセージが表示されます。また、CPU の損傷を防ぐためにパフォーマンスが低下する場合があります。
CPU の過熱が疑われる場合は、シャーシ内のすべてのサーバのバッフルおよびエアフローを確認します。隣接サーバのエアフロー問題により、別のサーバの CPU 冷却が不十分になる可能性があります。
CPU 速度とメモリ速度は一致している必要があります。一致しない場合、サーバは 2 つの速度のうちの遅い方の速度で動作します。
1 基の CPU に障害が発生した場合、残りのアクティブな CPU は、障害が発生した CPU に割り当てられているメモリにはアクセスできません。

CLI を使用した CPU の問題のトラブルシューティング
GUI を使用した CPU の問題のトラブルシューティング
DIMM の問題に関する推奨される解決策
CPU CATERR_Nの詳細

CLI を使用した CPU の問題のトラブルシューティング

Cisco UCS Manager CLI を使用して CPU 情報を確認できます。

手順

	コマンドまたはアクション	目的
ステップ 1	UCS-A# scope server x/y	サーバモードを開始します。
ステップ 2	UCS-A# show cpu	サーバの CPU 情報が表示されます。
ステップ 3	UCS-A# show bios	サーバの BIOS 情報が表示されます。
ステップ 4	UCS-A# show cimc	サーバの CIMC 情報が表示されます。

次に、サーバ 1/5 の CPU、BIOS、および CIMC に関する情報を表示する例を示します。

jane-A# scope server 1/5
UCS-A /chassis/server # show cpu

CPU:
    ID  Presence             Architecture      Socket Cores       Speed (GHz)
    --- -------------------- ----------------- ------ ----------- -----------
      1 Equipped             Xeon              CPU1   6           3.333000
      2 Equipped             Xeon              CPU2   6           3.333000
UCS-A /chassis/server # show bios

Bios Firmware:

Server  Model      Vendor            Running-Vers Package-Vers
------- ---------- ----------------- ------------ ------------
1/5     N20-B6625-2 Cisco Systems, In S5500.1.3.1c.0.052020102031
UCS-A /chassis/server # show cimc

CIMC:
    PID              Serial (SN)      HW Revision
    ---------------- ---------------- -----------
    N20-B6625-2      QCI140200D4      0
UCS-A /chassis/server #

GUI を使用した CPU の問題のトラブルシューティング

Cisco UCS Manager GUI を使用して、発生している CPU エラーのタイプを判別できます。

手順

ステップ 1	ナビゲーションペインで、正しいシャーシを展開し、サーバを選択します。
ステップ 2	[Inventory] ウィンドウの [CPU]タブをクリックします。そのサーバの CPU エラーが表示されます。

DIMM の問題に関する推奨される解決策

次の表に、DIMM の問題のトラブルシューティングを行うためのガイドラインおよび推奨される解決策を示します。

表 3 DIMM の問題
問題	推奨される解決策
DIMM が認識されない。	DIMM が、アクティブ CPU をサポートするスロットに装着されていることを確認します。 DIMM が Cisco 製品であることを確認します。サードパーティ製のメモリは Cisco UCS ではサポートされていません。
DIMM がスロットに合わない。	DIMM がそのサーバモデルでサポートされていることを確認します。スロットに対して DIMM の向きが正しいことを確認します。DIMM とそのスロットにはキーが付いており、2 方向のうちのいずれか一方でのみ固定できます。
DIMM が SEL、POST、または LED で不良としてレポートされるか、または Cisco IMC で動作不能としてレポートされる。	DIMM がそのサーバモデルでサポートされていることを確認します。 DIMM が、そのサーバモデルの装着規則に従ってスロットに装着されていることを確認します。 DIMM がスロットにしっかりと装着されていることを確認します。アダプタが確実に接触するように装着し直し、POST を再度実行します。 DIMM を、正常に機能することがわかっているスロットに取り付けて、DIMM に問題があることを確認します。正常に機能することがわかっている DIMM をスロットに取り付けて、DIMM のスロットが損傷していないことを確認します。 BMC をリセットします。
DIMM が GUI または CLI で低下としてレポートされるか、または予期した速度よりも遅い。	BMC をリセットします。シャーシ内のサーバを装着し直します。
DIMM が過熱としてレポートされる。	DIMM がスロットにしっかりと装着されていることを確認します。アダプタが確実に接触するように装着し直し、POST を再度実行します。空気が設計どおりに流れるように、空の HDD ベイ、サーバスロット、電源装置ベイのすべてでブランキングカバーが使用されていることを確認します。空気が設計どおりに流れるように、サーバエアバッフルが取り付けられていることを確認します。空気が設計どおりに流れるように、必要な CPU エアブロッカが取り付けられていることを確認します。

CPU CATERR_Nの詳細

CATERR_N 信号は、1 つ以上のプロセッサに致命的なメモリエラーが発生したことを示します。これは、修正不可能なメモリエラーが発生したことを示しているか、QPI リンクのエラーを表しています。CATERR_N 信号は CATERR_N センサーによって監視されます。信号が通常の動作を示している場合またはエラーが発生した場合に、システムイベントログ（SEL）にイベントが生成されます。

CATERR_N センサーは 2 ビットを使用し、通常の動作であるか障害が発生したかを示すセンサーの読み取り値を表します。

ビット 0 は、Predictive Failure Deasserted を示します（センサーで障害は示されていません）。
ビット 1 は、Predictive Failure Asserted を示します（障害が発生したことを示します）。

センサーがセンサーのスキャンマネージャにより初期化されると、通常、システムイベントログ（SEL）に、障害がないことを示すビットが設定されたことを示すイベントが表示されます。これはビット 0 で、イベントは次のように表示されます。

| CIMC | Processor CATERR_N #0x8e | Predictive
Failure Deasserted | Asserted

これは、障害なしを示すビット、「Predictive Failure Deasserted」ビット（ビット 0）がアサートされたことを示します。これは肯定的な表示です。

システムに致命的なエラーが発生すると、センサーマネージャは CATERR_N センサーを Bit0 設定から Bit1 設定に移行します。これは「Predictive Failure Deasserted」ビット（ビット 0）をアサート停止し、「Predictive Failure Asserted」ビット（ビット 1）をアサートします。この状況が発生すると、システムイベントログ（SEL）に次のようにイベントが表示されます。

| CIMC | Processor CATERR_N #0x8e | Predictive
Failure Deasserted | Deasserted
 | CIMC | Processor CATERR_N #0x8e | Predictive
Failure Asserted | Asserted

ビット 0 は「オフ」、ビット 1 は現在「オン」を示します。一部のログでは「オフ」（アサート停止）のメッセージをフィルターで非表示にし、ログの 2 番目のイベントのみを表示することができます。センサーが通常状態に戻ると、次のように、fault ビット（ビット 1）がアサート停止され、no-fault ビット（ビット 0）がアサートされます。

 | CIMC | Processor CATERR_N #0x8e | Predictive
Failure Asserted | Deasserted
| CIMC | Processor CATERR_N #0x8e | Predictive
Failure Deasserted | Asserted

ここでも、ログファイルの「オン」になっているビット（Predictive Failure Deasserted | Asserted）のイベントのみを表示することができます。この場合は、non-fault ビット（ビット 0）のアサートが表示されます。

ディスクドライブと RAID に関する問題

ディスクドライブまたは RAID コントローラに問題が発生すると、サーバの起動に失敗したり、重大なデータ損失またはデータ破損が生じる可能性ががあります。ドライブの問題が疑われる場合は、次の内容を検討します。

OS ツールを定期的に使用して、ドライブの問題（不良セクターなど）を検出および修正します。Cisco UCS Manager では、サーバの OS と同じように効果的にドライブの問題を修正することはできません。
各ディスクドライブに装備されているアクティビティ LED により、ドライブに対する未処理の I/O 処理が示されます。また、ドライブに障害が検出されると、ヘルス LED がオレンジに点灯します。ドライブの障害は、BIOS POST で検出できます。SEL メッセージには、これらの問題を見つけるのに役立つ重要な情報が含まれている場合があります。
ディスクドライブは、システムシャーシからブレードを取り外さなくてもサーバから取り外すことができる唯一の主要コンポーネントです。
ディスクドライブには、さまざまな容量のものがあります。ドライブに空き容量がない、またはドライブに OS で解決できない問題が存在するためにディスクドライブのパフォーマンスが低下した場合、ドライブの内容をバックアップして、より大容量のハードドライブまたは新しいハードドライブを取り付ける必要があります。

RAID コントローラ
Quiet Boot のディセーブル化
ROM ベースのコントローラユーティリティへのアクセス
B200 M3 サーバ間での RAID クラスタの移動
RAID クラスタ内の障害の発生したドライブの交換
ローカルストレージの一貫性チェック操作が失敗する

RAID コントローラ

次の RAID コントローラオプション付きの B シリーズサーバを発注または設定できます。

Cisco UCS B200 および B250 サーバでは、LSI 1064E コントローラがマザーボードに搭載されています。このコントローラは、最大 2 台の SAS ドライブまたは SATA ドライブに対して RAID 0 および 1 をサポートします。このコントローラは、RAID を設定する前に Cisco UCS Manager でイネーブルにしておく必要があります。すべての RAID オプションを Cisco UCS Manager から設定できます。
Cisco UCS B440 サーバには、LSI MegaRAID コントローラ（サーバによってモデルは異なる）が搭載されています。インストールされたライセンスキーに応じて、これらのコントローラは、最大 4 台の SAS ドライブまたは SATA ドライブに対する RAID 0、1、5、6、および 10 のサポートを提供します。
Cisco B200 M3 サーバでは、LSI SAS 2004 RAID コントローラがマザーボードに搭載されています。このコントローラは、最大 2 台の SAS ドライブまたは SATA ドライブに対して RAID 0 および 1 をサポートします。

（注）

RAID クラスタをサーバ間で移動させる必要がある場合は、そのクラスタの新旧両方のサーバで同じ LSI コントローラが使用されている必要があります。たとえば、LSI 1064E を搭載したサーバから LSI MegaRAID を搭載したサーバへの移行はサポートされていません。

サーバで使用されているオプションについての記録がない場合は、Quiet Boot 機能をディセーブルにし、システムのブート時に表示されるメッセージから読み取ります。搭載されている RAID コントローラのモデルに関する情報は、冗長ブート機能の一部として表示されます。それらのコントローラの構成ユーティリティを起動するため、Ctrl を押した状態で H を押すように求めるプロンプトが表示されます。

Quiet Boot のディセーブル化

Quiet Boot 機能がディセーブルになっている場合、ブートアップ時にコントローラの情報と、オプションの ROM ベースの LSI ユーティリティのプロンプトが表示されます。この機能をディセーブルにするには、次の手順を実行します。

手順

ステップ 1	サーバをブートし、ブートプロセス中に `F2` キーの押下を求めるプロンプトが表示されるのを待ちます。
ステップ 2	BIOS セットアップユーティリティを起動するために、プロンプトが表示されたら F2`を押します。`
ステップ 3	BIOS セットアップユーティリティのメインページで、[Quiet Boot] をディセーブルに設定します。これにより、ブートアップ時にシスコのロゴ画面ではなく、デフォルトではないメッセージ、プロンプト、および POST メッセージが表示されるようになります。
ステップ 4	F10`を押して変更内容を保存し、ユーティリティを終了します。`

ROM ベースのコントローラユーティリティへのアクセス

ハードドライブの RAID 設定を変更するには、ホスト OS の上にインストールされたホストベースのユーティリティを使用します。また、サーバ上にインストールされている LSI オプションの ROM ベースのユーティリティを使用することもできます。

手順

ステップ 1

Quiet モードをディセーブルにしてサーバを起動します。（「Quiet Boot のディセーブル化」の項（P.6 ～ 11）を参照）。

LSI オプションの ROM ベースユーティリティを起動するためのキーの組み合わせを示すプロンプトと共に、コントローラに関する情報が表示されます。

ステップ 2

冗長ブートプロセス中に、目的のコントローラのプロンプトが表示されたら、次のいずれかの制御コマンドを入力します。

プロンプトが表示されたら、Ctrl+H（LSI 1064E コントローラの場合）、または Ctrl+C（LSI MegaRAID コントローラの場合）、または Ctrl+M（Intel ICH10R の場合）と入力して、コントローラカードユーティリティを入力します。

B200 M3 サーバ間での RAID クラスタの移動

別のサーバ上で作成された RAID クラスタを認識するようにサーバを設定できます。また、RAID クラスタ上のデータをサーバ間で移動させなければならなくなったときにも使用できます。

はじめる前に

移動元と移動先の両方のサーバのサービスプロファイルが、まったく同じローカルディスク設定ポリシーを持ち、正常に起動できることを確認します。

手順

ステップ 1	移動元サーバのオペレーティングシステムをそのオペレーティングシステム内からシャットダウンします。先に進む前に、OS が完全にシャットダウンし、自動で再起動していないことを確認します。
ステップ 2	B200M3 サーバに現在適用されているサービスプロファイルの関連付けを解除します。
ステップ 3	アレイ内のドライブを移動先のサーバに物理的に移します。サーバを変更する場合は、新しいサーバでも元のサーバと同じスロットにドライブを装着する必要があります。
ステップ 4	前に使用していたのと同じ論理ドライブ設定ポリシーが維持されるように、サービスプロファイルを新しいブレードに再関連付けします。
ステップ 5	各サーバの前面にある電源スイッチを押して、サーバの電源をオンにします。
ステップ 6	新しいサーバへの KVM 接続を開き、Storage Web BIOS Utility が起動するのを待ちます。
ステップ 7	この Web BIOS ユーティリティのプロンプトに従って、RAID LUN を「移行」します。

RAID クラスタ内の障害の発生したドライブの交換

RAID ボリュームを作成する際は、業界の標準的なプラクティスに従って、容量が同じドライブを使用することを推奨します。容量の異なるドライブを使用すると、最も容量の小さいドライブで使用可能な容量が、RAID ボリュームを編成するすべてのドライブで使用されることになります。

はじめる前に

障害の発生した HDD または SSD を、同じサイズ、モデル、メーカーのドライブと交換します。稼働中のシステムで HDD を交換する前に、UCS Manager でサービスプロファイルを確認し、新しいハードウェア設定が、サービスプロファイルで設定されているパラメータの範囲内になることを確認します。

手順

ステップ 1

[Navigation]ペインで [Equipment] をクリックします。

ステップ 2

[Equipment] > [Chassis] > [Chassis Number] > [Servers] の順に展開します。

ステップ 3

ローカルストレージコンポーネントのステータスを表示するサーバをクリックします。

ステップ 4

[Work]ペインの [Inventory] タブをクリックします。

ステップ 5

[Storage]サブタブをクリックして、RAID コントローラと FlexFlash コントローラのステータスを表示します。

ステップ 6

下矢印をクリックして[Local Disk Configuration Policy]、[Actual Disk Configurations]、[Disks]、[Firmware] バーの順に展開し、追加のステータス情報を表示します。

ステップ 7

障害の発生したドライブを物理的に交換します。

必要に応じて、お使いのサーバモデルのサービスノートを参照します。通常、ほとんどのモデルで同様の手順になります。

ステップ 8

サーバの前面にある電源スイッチを使用して、サーバを起動します。

必要ならば、Quiet Boot 機能をディセーブルにし、再起動します（Quiet Boot のディセーブル化を参照）。

ステップ 9

LSI Configuration Utility バナーが表示されるのを待ちます。

ステップ 10

LSI Configuration Utility を起動するために、Ctrl+Cを押します。

ステップ 11

[SAS Adapter List]画面から、サーバ内で使用される SAS アダプタを選択します。

使用されている RAID コントローラを確認するには、RAID コントローラを参照してください。

ステップ 12

[RAID Properties]を選択します。

[View Array]画面が表示されます。

ステップ 13

[Manage Array]を選択します。

[Manage Array]画面が表示されます。

ステップ 14

[Activate Array]を選択します。

アクティベーションが完了すると、RAID ステータスが [Optimal] に変化します。

ステップ 15

[Manage Array]画面で、[Synchronize Array] を選択します。

ステップ 16

ミラー同期化が完了するまで待ちます（表示されている経過表示バーを監視します）。

（注）

同期化が完了するまでの時間は、RAID アレイ内のディスクのサイズによって異なります。

ステップ 17

ミラー同期化が完了したら、Escキーを数回押して画面を順番に戻り（一度に 1 つ）、LSI Configuration Utility を終了します。

ステップ 18

[reboot] オプションを選択して、変更を完了します。

ローカルストレージの一貫性チェック操作が失敗する

問題：一貫性チェック操作が仮想ドライブで、次のエラーメッセージを表示して失敗します。

Adapter 0: Check Consistency is not possible on Virtual Drive at this time

原因：RAID 0 ボリュームでは、一貫性チェック操作はサポートされていません。

回避策：RAID 1 ボリュームとして構成された仮想ディスクで一貫性チェック操作を実行します。

アダプタの問題

イーサネットアダプタまたは FCoE アダプタでの問題によって、サーバがネットワークに接続できず、Cisco UCS Managerから到達不能になる場合があります。すべてのアダプタはシスコ独自の設計であり、シスコ以外のアダプタはサポートされていません。アダプタの問題が疑われる場合は、次のことを検討してください。

そのシスコのアダプタが正規品であるかどうかを確認します。
使用しているソフトウェアリリースで、そのアダプタタイプがサポートされているかどうかを確認します。Cisco UCS Managerのリリースノートにある内部的な依存性の表には、すべてのアダプタに対する、最小および推奨ソフトウェアバージョンが示されています。
アダプタに適したファームウェアがサーバにロードされているかどうかを確認します。リリースバージョン 1.0(1) ～ 2.0 では、Cisco UCS Managerのバージョンとアダプタファームウェアのバージョンが一致する必要があります。Cisco UCS ソフトウェアとファームウェアをアップデートするには、インストール環境に適した Cisco UCS のアップグレードのドキュメントを参照してください。
ソフトウェアバージョンのアップデートが完全でなく、ファームウェアバージョンが Cisco UCS Managerのバージョンに一致しなくなった場合は、インストール環境に適した Cisco UCS Manager の設定ガイドに従い、アダプタファームウェアをアップデートします。
2 枚の Cisco UCS M81KR 仮想インターフェイスカードを、ESX 4.0 を実行する Cisco UCS B250 拡張メモリブレードサーバに装着する場合、パッチ 5（ESX4.0u1p5）以降のリリースの ESX 4.0 にアップグレードする必要があります。
あるアダプタタイプから別のアダプタタイプに移行する場合は、新しいアダプタタイプのドライバを入手できることを確認します。新しいアダプタタイプに合わせてサービスプロファイルをアップデートします。そのアダプタタイプに適したサービスを設定します。

デュアルアダプタを使用する場合は、サポートされる組み合わせにいくつかの制限があることに注意してください。次の組み合わせがサポートされます。

サーバ	同一タイプのデュアルカード	混合タイプのデュアルカード
Cisco UCS B250	すべて（All）	M71KR-Q または -E + M81KR M72KR-Q または -E + M81KR
Cisco UCS B440	82598KR-CI を除くすべて	M72KR-Q または -E + M81KR

GUI を使用したアダプタエラーのトラブルシューティング
CLI を使用したアダプタエラーのトラブルシューティング
アダプタの問題に関する推奨される解決策

GUI を使用したアダプタエラーのトラブルシューティング

アダプタでネットワークリンクを 1 つも確立できなかった場合、サーバ正面のリンク LED がオフになります。1 つ以上のリンクがアクティブになっている場合は、緑色になります。アダプタエラーは、マザーボード上の LED で報告されます。「診断ボタンと LED」（P.6-1）を参照してください。

次の手順を使用して、発生しているアダプタエラーの種類を特定します。

手順

ステップ 1	ナビゲーションペインでシャーシを展開し、目的のサーバを選択します。
ステップ 2	[Inventory] ウィンドウで、[Interface Cards]タブを選択します。そのサーバのアダプタエラーが画面に表示されます。

CLI を使用したアダプタエラーのトラブルシューティング

アダプタでネットワークリンクを 1 つも確立できなかった場合、サーバ正面のリンク LED がオフになります。1 つ以上のリンクがアクティブになっている場合は、緑色になります。アダプタエラーは、マザーボード上の LED で報告されます。

次の手順を使用して、CLI でアダプタの状態情報を確認できます。

手順

	コマンドまたはアクション	目的
ステップ 1	UCS-A# scope serverchassis-id/server-id
ステップ 2	UCS-A /chassis/server #show adapter [detail]

次に、シャーシ ID 1、サーバ ID 5 のアダプタの詳細を表示する例を示します。

UCS-A# scope server 1/5
UCS-A /chassis/server # show adapter detail

Adapter:
    Id: 2
    Product Name: Cisco UCS 82598KR-CI
    PID: N20-AI0002
    VID: V01
    Vendor: Cisco Systems Inc
    Serial: QCI132300GG
    Revision: 0
    Mfg Date: 2009-06-13T00:00:00.000
    Slot: N/A
    Overall Status: Operable
    Conn Path: A,B
    Conn Status: Unknown
    Managing Instance: B
    Product Description: PCI Express Dual Port 10 Gigabit Ethernet Server Adapter
UCS-A /chassis/server #

アダプタの問題に関する推奨される解決策

次の表に、アダプタの問題のトラブルシューティングに役立つガイドラインおよび推奨される解決策を示します。

表 4 アダプタの問題
問題	推奨される解決策
アダプタが SEL、POST、または LED で不良としてレポートされるか、または Cisco UCS Manager で動作不能としてレポートされる。	アダプタがそのサーバモデルでサポートされていることを確認します。使用中の Cisco UCS Manager のバージョンで動作するのに必要なファームウェアバージョンが、アダプタに組み込まれていることを確認します。アダプタが、マザーボードのスロットおよびミッドプレーンの接点にしっかりと装着されていることを確認します。アダプタが確実に接触するように装着し直し、サーバを再度取り付けてから、POST を再度実行します。アダプタを、正常に機能することがわかっており、同じ種類のアダプタを使用しているサーバに取り付けて、アダプタに問題があることを確認します。
アダプタが GUI または CLI で低下としてレポートされる。	シャーシ内のブレードサーバを装着し直します。
アダプタが過熱としてレポートされる。	アダプタがスロットにしっかりと装着されていることを確認します。アダプタが確実に接触するように装着し直し、POST を再度実行します。空気が設計どおりに流れるように、空の HDD ベイ、サーバスロット、電源装置ベイのすべてでブランキングカバーが使用されていることを確認します。空気が設計どおりに流れるように、サーバエアバッフルが取り付けられていることを確認します。

電源の問題

サーバのオンボード電源システムの問題が原因で、警告なしでサーバがシャットダウンしたり、電源オンに失敗したり、検出プロセスに失敗したりする場合があります。

Cisco UCS B440 サーバの FET 障害のトラブルシューティング

Cisco UCS B440 サーバの FET 障害のトラブルシューティング

Cisco UCS B440 サーバの電源部における電界効果トランジスタ（FET）の障害によって、サーバのシャットダウン、電源投入の障害、または検出プロセスの障害が発生する場合があります。サーバによって障害が検出された場合は、前面パネルの電源ボタンを使用しても、サーバの電源をオンにできません。

FET 障害が発生しているかどうかを判断するには、次の手順を実行します。

手順

ステップ 1	「障害」の項（P.1 ～ 2）の手順を使用し、レポートされた障害で障害コード F0806、「Compute Board Power Fail.」の有無を確認します。この障害によって、サーバの全体的なステータスが [Inoperable] になります。
ステップ 2	システムイベントログ（SEL）で、この例に示すタイプの電源システム障害の有無を確認します。 58f \| 06/28/2011 22:00:19 \| BMC \| Power supply POWER_SYS_FLT #0xdb \| Predictive Failure deasserted \| Asserted
ステップ 3	ファブリックインターコネクトの CLI から、障害が発生したサーバの CIMC にアクセスし、connect cimc chassis/server と入力することによって、障害センサーを表示します。例：次の例では、シャーシ 1、サーバ 5 の CIMC に接続する方法を示します。 Fabric Interconnect-A# connect cimc 1/5 Trying 127.5.1.1... Connected to 127.5.1.1. Escape character is '^]'. CIMC Debug Firmware Utility Shell [ help ]# sensors fault HDD0_INFO \| 0x0 \| discrete \| 0x2181\| na \| na \| na \| na \| na \| na HDD1_INFO \| 0x0 \| discrete \| 0x2181\| na \| na \| na \| na \| na \| na . .[lines removed for readability] . LED_RTC_BATT_FLT \| 0x0 \| discrete \| 0x2180\| na \| na \| na \| na \| na \| na POWER_SYS_FLT \| 0x0 \| discrete \| 0x0280\| na \| na \| na \| na \| na \| na [ sensors fault]# POWER_SYS_FLT センサーで 0x0280 が示されている場合は、FET 障害があります。通常動作においては、このセンサーでは 0x0180 が示されます。
ステップ 4	FET 障害が発生したと判断した場合は、次の手順を実行します。 Cisco UCS Manager CLI で、次のコマンドの出力を収集します。 show tech-support ucsm detail show tech-support chassis chassis-id all detail Cisco Technical Assistance Center（TAC）に問い合わせて障害があることを確認してください。 Cisco UCS Manager で Recover Server アクションを使用して、交換するサーバを設置してください。

Cisco TAC に連絡するときに必要となる情報

問題を切り分けてコンポーネントを特定できない場合は、次の質問について検討してください。これらの質問は、Cisco Technical Assistance Center（TAC）に連絡するときに役立ちます。

問題が発生する前は、ブレードは動作していましたか。サービスプロファイルが関連付けられた状態でブレードが実行中に問題が発生しましたか。
これは新しく挿入したブレードですか。
このブレードは、現地で組み立てられたものですか。それともシスコから組み立てられた状態で到着したものですか。
メモリを装着し直しましたか。
ブレードの電源は切れていましたか、またはブレードをスロット間で移動しましたか。
Cisco UCS Manager を最近アップグレードしましたか。アップグレードした場合は、BIOS もアップグレードしましたか。

Cisco UCS の問題に関して Cisco TAC に連絡するときは、Cisco UCS Manager および問題が発生しているシャーシから tech-support 出力を取得することが重要です。詳細については、テクニカルサポートファイルを参照してください。

このドキュメントは役に立ちましたか?

フィードバック

シスコに問い合わせ

サポートケースをオープン
(シスコサービス契約が必要です。)

Cisco UCS Manager トラブルシューティング リファレンス ガイド

偏向のない言語

翻訳について

検索結果

章のタイトル： サーバのハードウェア問題のトラブルシューティング

サーバのハードウェア問題のトラブルシューティング

診断ボタンと LED

DIMM メモリの問題

DIMM エラーのタイプ

メモリの用語および略語

DIMM の正しい取り付け

Cisco UCS Manager CLI を使用した場合の DIMM エラーのトラブルシューティング

Cisco UCS Manager GUIを使用した DIMM エラーのトラブルシューティング

DIMM の低下エラーのトラブルシューティング

動作不能な DIMM エラーのトラブルシューティング

DIMM の問題に関する推奨される解決策

CPU の問題

CLI を使用した CPU の問題のトラブルシューティング

GUI を使用した CPU の問題のトラブルシューティング

DIMM の問題に関する推奨される解決策

CPU CATERR_Nの詳細

ディスク ドライブと RAID に関する問題

RAID コントローラ

Quiet Boot のディセーブル化

ROM ベースのコントローラ ユーティリティへのアクセス

B200 M3 サーバ間での RAID クラスタの移動

RAID クラスタ内の障害の発生したドライブの交換

ローカル ストレージの一貫性チェック操作が失敗する

アダプタの問題

GUI を使用したアダプタ エラーのトラブルシューティング

CLI を使用したアダプタ エラーのトラブルシューティング

アダプタの問題に関する推奨される解決策

電源の問題

Cisco UCS B440 サーバの FET 障害のトラブルシューティング

Cisco TAC に連絡するときに必要となる情報

このドキュメントは役に立ちましたか?

シスコに問い合わせ

Cisco UCS Manager トラブルシューティングリファレンスガイド

章のタイトル：サーバのハードウェア問題のトラブルシューティング

ディスクドライブと RAID に関する問題

ROM ベースのコントローラユーティリティへのアクセス

ローカルストレージの一貫性チェック操作が失敗する

GUI を使用したアダプタエラーのトラブルシューティング

CLI を使用したアダプタエラーのトラブルシューティング