オンライン診断について
オンライン診断機能を使用すると、デバイスをアクティブ ネットワークに接続したまま、デバイスのハードウェア機能をテストして確認できます。
オンライン診断機能には、さまざまなハードウェア コンポーネントを検査し、データ パスと制御信号を確認するテストが組み込まれています。中断を伴うオンライン診断テスト(破壊モードのループバック テストなど)、および中断を伴わないオンライン診断テスト(ASIC レジスタ検査など)は、起動時、ライン モジュールの活性挿抜(OIR)時、およびシステム リセット時に実行されます。中断を伴わないオンライン診断テストは、バックグラウンド ヘルス モニタリングの一部として実行され、これらのテストはオンデマンドで実行できます。
オンライン診断は、起動、ランタイムまたはヘルスモニタリング診断、およびオンデマンド診断に分類されます。起動診断は起動時に、ヘルスモニタリング テストはバックグラウンドで、オンデマンド診断はアクティブ ネットワークにデバイスが接続されたときに 1 回だけ、またはユーザが指定した間隔で実行されます。
ブートアップ診断
起動診断は起動中に実行され、Cisco NX-OS がモジュールをオンラインにする前に、障害ハードウェアが検出されます。たとえば、デバイスに障害モジュールを搭載した場合、起動診断でモジュールがテストされ、デバイスがそのモジュールをトラフィックの転送に使用しないうちに、モジュールがオフラインにされます。
起動診断では、スーパーバイザとモジュール ハードウェア間、およびすべての ASIC のデータ パスと制御パス間の接続も検査されます。次の表では、モジュールおよびスーパーバイザの起動診断テストについて説明します。
診断 |
説明 |
||
---|---|---|---|
OBFL |
オンボード障害ロギング フラッシュ(Cisco NX-OS)の整合性を確認します。 |
||
MacSecPortLoopback(Cisco Nexus 9736C-FX および 9736Q-FX ライン カードのみ) |
スーパーバイザから ASIC の各物理前面パネルポートへのパケット パス、各ポートの MACSEC 機能、および Cisco Nexus 9736C-FX および 9736Q-FX ライン カードの暗号化機能と復号化機能をテストします。 diagnostic bootup level が complete に設定されている場合、ブート時に MacSecPortLoopback テストが実行されます。 MacSecPortLoopback テストは、Cisco Nexus 9736C-FX および 9736Q-FX ライン カードの 36 個の前面ポートのすべてのポートで実行されます。MAC sec ハードウェアは、使用可能な 4 つの暗号スイート アルゴリズム(GCM-AES-128、GCM-AES-256、GCM-AES-XPN-128、およびGCM-AES-XPN-256)でテストされます。
|
||
USB |
中断を伴わないテスト。モジュールにおける USB コントローラの初期化を検査 |
||
ManagementPortLoopback |
中断を伴うテスト、非オンデマンド型テスト。モジュールの管理ポートでループバックをテスト |
||
EOBCPortLoopback |
中断を伴うテスト、非オンデマンド型テスト。イーサネット帯域外。 |
起動診断テストはエラーを Onboard Failure Logging(OBFL)および syslog に記録し、診断の LED 表示(オン、オフ、合格、失敗)を開始します。
起動診断テストをバイパスするようにデバイスを設定することも、またはすべての起動診断テストを実行するように設定することもできます。
ランタイムまたはヘルス モニタリング診断
ランタイム診断はヘルス モニタリング(HM)診断ともいいます。これらの診断テストによって、アクティブ デバイスの状態に関する情報が得られます。ランタイム ハードウェア エラー、メモリ エラー、ハードウェア モジュールの経時的劣化、ソフトウェア障害、およびリソース不足が検出されます。
アクティブ ネットワーク トラフィックを処理するデバイスの状態を確認するヘルス モニタリング診断テストは、中断を伴わず、バックグラウンドで実行されます。ヘルス モニタリング テストはイネーブルまたはディセーブルにできます。また、ランタイム インターバルの変更が可能です。
次の表に、モジュールおよびスーパーバイザのヘルス モニタリング診断とテスト ID を示します。
(注) |
モジュールの機能に応じて、テストが存在する場合と存在しない場合があります。モジュールで使用可能なテストのリストは、CLI コマンド、 show diagnostic content module <module> を使用して確認できます。 |
診断 |
デフォルトのインターバル | デフォルト設定 |
説明 |
改善処置 |
||||
---|---|---|---|---|---|---|---|---|
モジュール | ||||||||
ACT2 |
30 分 |
アクティブ |
モジュール上のセキュリティ デバイスの整合性を確認します。 |
GOLD "ACT2" テストに 20 回連続で失敗した場合は、CallHome を実行し、エラーを記録し、その後 HM テストをディセーブルにします。 |
||||
ASICRegisterCheck |
モジュラ スイッチ:1分 非モジュラ スイッチ:20 秒、最小設定のデフォルト シミュレーション間隔は 10 秒 |
アクティブ |
モジュール上の ASIC への読み取り/書き込みアクセスを検証します。 |
CallHome を実行し、エラーを記録し、GOLD "ASICRegisterCheck" テストに 20 回連続で失敗した場合は、その後その ASIC デバイスおよびインスタンスの HM テストをディセーブルにします。 |
||||
PrimaryBootROM |
24 時間 1 |
アクティブ |
モジュール上のプライマリ ブート デバイスの完全性を確認します。 |
CallHome を実行し、エラーを記録し、GOLD "PrimaryBootROM" テストに 20 回連続で失敗した場合は、その後 HM テストをディセーブルにします。 |
||||
SecondaryBootROM |
24 時間 1 |
アクティブ |
モジュール上のセカンダリ ブート デバイスの完全性を確認します。 |
CallHome を実行し、エラーを記録し、GOLD "SecondaryBootROM" テストに 20 回連続で失敗した場合は、その後 HM テストをディセーブルにします。 |
||||
BootupPortLoopback |
起動時のみ |
起動時のみ:アクティブ |
スーパーバイザから前面パネルのポート(および背面)パスが動作しているかどうかを確認します。すべてのフロント ポートについて、テストはアクティブ スーパーバイザでパケットを生成し、ターゲット ポートにパケットを送信し、フロント ポート内の内部ループバックを使用して、パケットをアクティブ スーパーバイザにリダイレクトします。 |
GOLD "BootupPortLoopback" テストに1 回連続で失敗した場合は、CallHome を実行し、影響があるポートのエラーを無効にして、影響を受けたポートでのエラー テストを記録します。 |
||||
PortLoopback |
30 分 |
アクティブ |
すべての管理ダウンポートでポート単位で診断をチェックします。 |
CallHome を実行し、Syslog、OBFL、または例外ログにエラーを記録し、GOLD "PortLoopback" テストに 10 回連続で失敗した場合は、その後影響を受けたポートでの HM テストをディセーブルにします。 |
||||
RewriteEngineLoopback |
1分 |
アクティブ |
1 エンジン ASIC デバイスまでのすべてのポートの無停止ループバックの整合性を確認します。 |
CallHome を実行し、Syslog、OBFL、または例外ログにエラーを記録し、GOLD "RewriteEngine" テストに 10 回連続で失敗した場合は、その後影響を受けたポートでの HM テストをディセーブルにします。 |
||||
AsicMemory |
起動時のみ |
起動時のみ:非アクティブ |
ASIC の Mbist ビットを使用して AsicMemory の整合性をチェックします。 |
GOLD "AsicMemory" テストに失敗した場合には、CallHome を実行し、エラーを記録します。テストの失敗の原因となる問題は一時的なものである可能性があるため、カーネルパニックによるリカバリ リロードを試行します。
|
||||
FpgaRegTest |
30 秒 |
ヘルス モニタリング テスト:30 秒ごと:アクティブ |
FPGA への読み取り/書き込みによって FPGA のステータスをテストします。 |
GOLD "FpgaRegTest" テストに 20 回連続で失敗した場合は、CallHome を実行し、エラーを記録し、その後 HM テストをディセーブルにします。テストの失敗の原因となる問題は一時的なものである可能性があるため、カーネルパニックによるリカバリ リロードを試行します。
|
||||
L2ACLRedirect |
1分 |
ヘルス モニタリング テスト:30 分:アクティブ |
アクティブ ノードが動作しているかどうかを確認します。テストでは、アクティブファブリックモジュールを介してアクティブスーパーバイザでパケットを生成します。次に、パケットを前面パネル ポート(ライン カード上の物理インターフェイス)に送信し、ACL エントリを使用して、パケットをアクティブ スーパーバイザにリダイレクトします。 |
L2ACLRedirect テストを 10 回連続で失敗した場合は、CallHome を実行し、エラーを記録し、その後 HM テストをディセーブルにします。テストの失敗の原因となる問題は一時的なものである可能性があるため、カーネルパニックによるリカバリ リロードを試行します。
|
||||
OBFL |
30 分 |
アクティブ |
オンボード障害ロギング(OBFL)フラッシュの整合性を確認し、デバイスの利用可能なストレージをモニタリングします。 |
|||||
FabricConnectivityTest |
1分 |
アクティブ |
ファブリック/ラインカードのリンク ステータスを確認します。 ファブリック リンクが機能していることを検証します。
|
|||||
FabricReachabilityTest |
1分 |
アクティブ |
ファブリック/ライン カードの到達可能性ステータスを確認します。 各ファブリック コンポーネントに、システム内の他のすべてのファブリック コンポーネントへの有効なパスがあることを検証します。
|
|||||
スーパーバイザ(Supervisor) | ||||||||
バックプレーン |
30 分 |
アクティブ |
バックプレーン SPROM デバイスの整合性を確認します。 |
|||||
NVRAM |
5 分 |
アクティブ |
スーパーバイザの NVRAM ブロックの健全性を確認します。 |
CallHome を実行し、エラーを記録し、GOLD "NVRAM" テストに 20 回連続で失敗した場合は、その後 HM テストをディセーブルにします。 |
||||
RealTimeClock |
5 分 |
アクティブ |
スーパーバイザ上のリアルタイム クロックが時を刻んでいるかどうかを確認します。 |
CallHome を実行し、エラーを記録し、GOLD "RealTimeClock" テストに 20 回連続で失敗した場合は、その後 HM テストをディセーブルにします。 |
||||
PrimaryBootROM |
30 分 |
アクティブ |
スーパーバイザ上のプライマリ ブート デバイスの完全性を確認します。 |
CallHome を実行し、エラーを記録し、GOLD "PrimaryBootROM" テストに 20 回連続で失敗した場合は、その後 HM テストをディセーブルにします。 |
||||
SecondaryBootROM |
30 分 |
アクティブ |
スーパーバイザ上のセカンダリ ブート デバイスの完全性を確認します。 |
CallHome を実行し、エラーを記録し、GOLD "SecondaryBootROM" テストに 20 回連続で失敗した場合は、その後 HM テストをディセーブルにします。 |
||||
ブートフラッシュ |
30 分 |
アクティブ |
ブートフラッシュ デバイスへのアクセスを確認します。 |
GOLD "CryptoDevice" テストに失敗したら、CallHome を実行し、エラーを記録します。 |
||||
USB |
30 分 |
アクティブ |
USB デバイスへのアクセスを確認します。 |
Call Home を実行し、GOLD "USB" テストに失敗するとエラーを記録します。 |
||||
SystemMgmtBus |
30 秒 |
アクティブ |
システム管理バスの使用可能性を確認します。 |
Call Home を実行し、エラーを記録し、GOLD "SystemMgmtBus" テストに 20 回連続で失敗した場合は、そのファンまたは電源の HM テストを無効にします。 |
||||
MCE |
30 分 |
ヘルス モニタリング テスト:30 分:アクティブ |
このテストは mcd_dameon を使用し、カーネルによって報告されたマシン チェック エラーを報告します。 |
GOLD "ACT2" テストに 20 回連続で失敗した場合は、CallHome を実行し、エラーを記録し、その後 HM テストをディセーブルにします。 |
||||
Pcie |
起動時のみ |
起動時のみ:非アクティブ |
PCIe ステータス レジスタを読み取り、PCIe デバイスのエラーをチェックします。 |
GOLD "Pcie" テストに失敗したら、CallHome を実行し、エラーを記録します。 |
||||
コンソール |
起動時のみ |
起動時のみ:非アクティブ |
これにより、起動時に管理ポートでポート ループバック テストが実行され、整合性が確認されます。 |
GOLD "Cosole" テストに 20 回連続で失敗した場合は、CallHome を実行し、エラーを記録し、その後 HM テストをディセーブルにします。 |
||||
FpgaRegTest |
30 秒 |
ヘルス モニタリング テスト:30 秒ごと:アクティブ |
FPGA への読み取り/書き込みによって FPGA のステータスをテストします。
|
GOLD "FpgaRegTest" テストに 20 回連続で失敗した場合は、CallHome を実行し、エラーを記録し、その後 HM テストをディセーブルにします。テストの失敗の原因となる問題は一時的なものである可能性があるため、カーネルパニックによるリカバリ リロードを試行します。
|
オンデマンド診断
オンデマンド テストは、障害の場所を特定するのに役立ちます。通常は、次のような状況で必要です。
-
障害の分離など、発生したイベントに対処する場合。
-
リソース使用限度の超過などのイベントの発生が予測される場合。
すべてのヘルス モニタリング テストをオンデマンドで実行できます。即時実行するオンデマンド診断テストをスケジューリングできます。
ヘルス モニタリング テストのデフォルト インターバルも変更可能です。
高可用性
ハイ アベイラビリティの重要な機能は、アクティブなネットワークでデバイスが稼働している状態のままハードウェア障害を検出して、対処することです。ハイ アベイラビリティのオンライン診断では、ハードウェア障害を検出して、スイッチオーバーを判断するためにハイ アベイラビリティ ソフトウェアにフィードバックします。
Cisco NX-OS は、オンライン診断のステートレス リスタートをサポートします。リブートまたはスーパーバイザ スイッチオーバーの後、Cisco NX-OS は実行コンフィギュレーションを適用します。
仮想化のサポート
オンライン診断機能は Virtual Routing and Forwarding(VRF)を認識します。特定の VRF を使用してオンライン診断 SMTP サーバに接続するようにオンライン診断機能を設定できます。