概要
このドキュメントでは、B460 M4マザーボードの交換時に発生する可能性のある2つのディスカバリ障害とそれぞれのソリューションについて説明します。
前提条件
要件
このドキュメントでは、UCS B460 M4およびUCS Manager(UCSM)に関する知識を前提としています。
使用するコンポーネント
- B460 M4ブレードサーバ
- UCS マネージャ
- ファームウェア2.2(3b)
背景
B460 M4サーバは、2つのスケーラブルなM4ブレードモジュール(B260 M4)と、2つのブレードモジュールを相互接続し、単一のサーバとして機能するスケーラビリティコネクタで構成されています。下部のブレードモジュールは「マスター」、上部のブレードモジュールは「スレーブ」です。
検出の問題
検出が3 %で失敗する – ファームウェアの不一致
この障害シナリオでは、検出が3 %で失敗し、Remote Invocation Description集約ブレードのCIMCファームウェアのバージョンのミスマッチが発生します。次の図に示すように、両方のCIMCで同じファームウェアバージョンをアクティブ化します。これは、既存のB460 M4サーバとはファームウェアが異なる交換用マザーボードまたはブレードモジュールが原因で発生する可能性があります。
注:次の例は、CIMCファームウェアの不一致を示していますが、CIMC、BIOS、およびボードコントローラのファームウェアの不一致にも同じプロセスが適用されます。
次の図に示すように[Overall Status]は[Discovery Failed]になります。
不一致のファームウェアは、次に示すようにコマンドライン(CLI)から確認できます。次の出力では、最初のCIMCがマスターで、2番目のCIMCがスレーブです。
UCS-A# show system firmware expand detail
Server 7:
CIMC:
Running-Vers: 2.2(3b)
Package-Vers:
Update-Status: Ready
Activate-Status:
Startup-Vers:
Backup-Vers: 2.2(3a)
Bootloader-Vers: 2.2(3b).33
CIMC:
Running-Vers: 2.2(3a)
Package-Vers:
Update-Status: Ready
Activate-Status:
Startup-Vers:
Backup-Vers: 2.2(3b)
Bootloader-Vers: 2.2(3a).33
CIMC:
Running-Vers: 2.2(3b)
Package-Vers: 2.2(3b)B
Update-Status: Ready
Activate-Status: Ready
Startup-Vers: 2.2(3b)
Backup-Vers: 2.2(3b)
Bootloader-Vers: 2.2(3b).33
解決方法
この状態から回復するには、次の手順を実行します。
1) [Equipment] > [Chassis] > [Chassis #] > [Servers] > [Server #] > [Installed Firmware] タブに移動します。
2)更新が必要なコンポーネント(BIOS、CIMCコントローラなど)を右クリックし、[Update Firmware]を選択します。この例では、CIMCコントローラが2.2(3b)に更新されます。
3)正しいファームウェアを選択し、[Force]チェックボックスを選択して、[Apply]をクリックします。
ヒント:ドロップダウンから選択する必要があるバージョンが明確でない場合は、サーバ管理者が[Equipment] > [Firmware Management] > [Packages]に移動し、ucs-k9-bundle-b-series.VERSION.B.binを展開し、「ucs-EXM4」ををを探します。 次の3つのコンポーネントがあります。bios(BIOS)、brdprog(ボードコントローラ)、およびcimc(CIMCコントローラ)
ヒント:ボードコントローラのファームウェアはダウングレードできないため、ドメインに存在するブレードシリーズパッケージにないボードコントローラのファームウェアバージョンが交換用マザーボードに付属している場合、必要なボードコントローラのバージョンのファームウェアをダウンロードできます。必要なファームウェアが含まれているブレードシリーズパッケージを確認するには、Cisco UCS Managerのリリースバンドルの内容を参照してください。
4) Installed Firmwareタブを監視し、Update Status列とActivate Status列がReadyに変更Backup Version列が正しいファームウェアに変わるまで待ちます。
ヒント:サーバ管理者は、[Equipment] > [Chassis] > [Chassis #] > [Servers] > [Server #] > [Inventory tab] > [CIMC]タブ> [Update Status]タブから更新ステータスを監視できます
5)この同じコンポーネントを右クリックし、[Activate Firmware]を選択します。再度、正しいファームウェアを選択し、[Force]チェックボックスを選択して、[Apply]をクリックします。
6) [インストール済みファームウェア]タブの[アクティブ状態]列の状態が変わり、最終的に[準備完了]に戻ります。
7)サーバーの再起動時に、[全般]タブの[アクセス不可]に変更されます。次に、ディスカバリに変更し、ディスカバリプロセスを実行します。
検出が5 %で失敗:ボードコントローラのファームウェアの不一致
Notice:この障害シナリオでは、検出が5 %で失敗し、Remote Invocation DescriptionAggregateブレードボードコントローラのファームウェアのバージョンが一致しません。次の図に示すように、両方のボードコントローラで同じファームウェアバージョンをアクティブ化します。これは、既存のB460 M4サーバとはファームウェアが異なる交換用マザーボードまたはブレードモジュールが原因で発生する可能性があります。
不一致のファームウェアは、次に示すようにコマンドライン(CLI)から確認できます。次の出力では、最初のボードコントローラがマスターで、2番目のコントローラがスレーブです。
srini-2gfi-96-b-A /chassis/server # show firmware board controller detail
Server 2/7:
Board Controller:
Running-Vers: 2.0 <<<<
Package-Vers: 2.2(7.156)B
Activate-Status: Ready
Board Controller: ( Master)
Running-Vers: 2.0 <<<<
Package-Vers:
Activate-Status:
Board Controller: ( Slave)
Running-Vers: 1.0 <<<<
Package-Vers:
Activate-Status:
解決方法
回復するには、次の手順を実行します
手順 1 |
ナビゲーション ペインで Equipment タブをクリックします。 |
手順 2 |
[機器]タブで、[機器]ノードをクリックします。 |
手順 3 |
作業ペインでFirmware Managementタブをクリックします。 |
手順 4 |
Installed Firmwareタブで、Activate Firmwareをクリックします。 Cisco UCS Manager GUIで[Activate Firmware]ダイアログボックスが開き、Cisco UCSドメイン内のすべてのエンドポイントのファームウェアバージョンを確認します。シャーシとサーバの数によっては、この手順に数分かかることがあります |
手順 5 |
Activate FirmwareダイアログボックスのメニューバーにあるFilterドロップダウンリストから、Board Controllerを選択します。 Cisco UCS ManagerのGUIでは、[Activate Firmware]ダイアログボックスにボードコントローラを持つすべてのサーバが表示されます。 |
手順 6 |
更新するボードコントローラの場合は、[Startup Version]ドロップダウンリストから最大/最大バージョンを選択します。(注:ダウングレードはできません。常にアクティブにする最も高いバージョンを選択) |
ステップ7 |
[OK] をクリックします。 |
手順 8 |
(オプション)別のアーキテクチャでCPUをアップグレードする場合は、Force Board Controller Activationオプションを使用してファームウェアバージョンをアップデートすることもできます。たとえば、Sandy BridgeからIvy Bridge CPUにアップグレードする場合です。 |
検出が7 %で失敗する – CPUの不一致
この障害シナリオでは、検出が7 %で失敗し、Remote Invocation DescriptionPre-boot Hardware config failure - Look at POST/diagnostic results through 下の図に示すように表示されます。
[全般]タブの[全体の状態]は、[計算失敗]です。
POSTの結果は、[全般]タブの[操作]の下の[結果の表示]をクリックして確認できます。次の図は、CPUのミスマッチが問題の原因であることを示しています。
解決方法
2つのブレードモジュール間でハードウェアが一致する場合は、サーバのキャッシュ情報が原因である可能性があります。UCS Manager(UCSM)からキャッシュされた情報をクリアするための拡張要求(CSCuv27099)が存在します。 サーバ管理者は、Cisco Technical Assistance Center(TAC)に回避策を問い合わせることもできます。