この製品のマニュアルセットは、偏向のない言語を使用するように配慮されています。このマニュアルセットでの偏向のない言語とは、年齢、障害、性別、人種的アイデンティティ、民族的アイデンティティ、性的指向、社会経済的地位、およびインターセクショナリティに基づく差別を意味しない言語として定義されています。製品ソフトウェアのユーザーインターフェイスにハードコードされている言語、RFP のドキュメントに基づいて使用されている言語、または参照されているサードパーティ製品で使用されている言語によりドキュメントに例外が存在する場合があります。シスコのインクルーシブランゲージに対する取り組みの詳細は、こちらをご覧ください。
このドキュメントは、米国シスコ発行ドキュメントの参考和訳です。リンク情報につきましては、日本語版掲載時点で、英語版にアップデートがあり、リンク先のページが移動/変更されている場合がありますことをご了承ください。あくまでも参考和訳となりますので、正式な内容については米国サイトのドキュメントを参照ください。
目次
この章は、次の項で構成されています。
Cisco NX-OS サービス再起動機能では、スーパーバイザを再起動せずに障害の発生したサービスを再起動することによって、プロセス レベルの障害がシステム レベルの障害に拡大するのを防ぐことができます。 サービスは、現在のエラー、障害状況、サービスのハイ アベイラビリティ ポリシーに基づいて再起動できます。 サービスの再起動には、ステートフルな再起動とステートレスな再起動があります。 Cisco NX-OS では、サービスが実行時の状態情報とメッセージを保存することで、ステートフルな再起動を実現しています。 ステートフルな再起動では、サービスが保存されていた状態情報を取り出して、直前のチェックポイント サービス状態から動作を再開します。 ステートレスな再起動では、サービスは、初めて起動するときのように、初期化および実行されます。
Cisco NX-OS は、ほとんどのプロセスおよびサービスでステートフル リスタートが可能です。 プラットフォーム内のプロセス、サービス、アプリケーションのバック エンド管理および調整は一連の高レベルのシステム コントロール サービスによって処理されます。
システム マネージャは、あらゆるシステム機能、システム管理、システム ヘルス モニタリングの実行を制御します。 システム マネージャは、サービスの起動、停止、モニタリング、再起動を担当します。
Cisco NX-OS サービスは、永続ストレージ サービス(PSS)を使用して、運用の実行時情報とプラットフォーム サービスの設定を保存および管理します。 PSS コンポーネントは、システム サービスを使用して、サービス再起動時に状態を回復します。 PSS は状態および実行時情報のデータベースとして機能します。これにより、各サービスは、必要なときにいつでも、サービス自体の状態情報のチェックポイントを作成できます。 サービスを再起動すると、障害が発生する直前の既知の動作状態を回復できるので、ステートフルな再起動が可能になります。
PSS を使用する各サービスは、保存された情報を次のいずれかとして定義できます:
サービスは次のいずれかに指定できます:
Message and Transaction Service(MTS; メッセージおよびトランザクション サービス)は、ハイ アベイラビリティ セマンティクスに特化した高パフォーマンス Interprocess Communication(IPC; プロセス間通信)メッセージ ブローカです。 MTS は、モジュール内とモジュール間、およびスーパーバイザ間でメッセージのルーティングとキューイングを行います。 また、イベント通知や同期などのメッセージ交換を容易にし、システム サービス間およびシステム コンポーネント間のメッセージ永続性を促進します。 MTS では、永続メッセージおよびログ メッセージをキュー内に保管できるため、サービスの再起動後もそれらのメッセージにアクセスできます。
Cisco NX-OS では、各サービスに、障害の発生したサービスの再起動方法を定義する一連の内部 HA ポリシーのセットを作成できます。 サービスごとに 4 つの定義済みポリシーを用意できます。つまり、スーパーバイザが 2 つの場合のプライマリ ポリシーとセカンダリ ポリシー、スーパーバイザが 1 つだけの場合のプライマリ ポリシーとセカンダリ ポリシーです。 HA ポリシーが定義されていないサービスでは、サービスの障害発生時に実行されるデフォルトの HA ポリシーは、スーパーバイザが 2 つの場合はスイッチオーバー、スーパーバイザが 1 つの場合はスーパーバイザのリセットとなります。
HA ポリシーには、次の 3 つのパラメータを指定します。
Cisco NX-OS のプロセスは、保護メモリ領域内で互いに独立して、またカーネルとも独立して動作します。 このようにプロセスが分離されているため、障害が閉じこめられ、迅速な再起動が可能になります。 プロセスの再起動性により、プロセスレベルの障害によってシステム全体に障害が及ぶのを防ぐことができます。 また、大半のサービスはステートフルな再起動を実行できます。 これにより、プラットフォーム内の他のサービス、およびネットワーク内の隣接デバイスへ透過的に、障害の発生したサービスを再起動し、動作を再開できます。
障害を起こしたサービスはサービスの HA の実装および HA ポリシーに応じて、異なる方法によって再起動されます。
次の表に、さまざまな障害発生時にシステム マネージャによって実行されるアクションを示します。
障害 |
アクション |
---|---|
サービス/プロセスの例外 |
サービスの再起動 |
サービス/プロセスのクラッシュ |
サービスの再起動 |
サービス/プロセスの応答がない |
サービスの再起動 |
サービスの障害が繰り返される |
スーパーバイザのリセット(シングル スーパーバイザの場合)またはスイッチオーバー(デュアル スーパーバイザの場合) |
システム マネージャからの応答がない |
スーパーバイザのリセット(シングル スーパーバイザの場合)またはスイッチオーバー(デュアル スーパーバイザの場合) |
カーネル障害 |
スーパーバイザのリセット(シングル スーパーバイザの場合)またはスイッチオーバー(デュアル スーパーバイザの場合) |
ウォッチドッグ タイムアウト |
スーパーバイザのリセット(シングル スーパーバイザの場合)またはスイッチオーバー(デュアル スーパーバイザの場合) |
再起動可能なサービスで障害が発生すると、サービスは同じスーパーバイザ上で再起動されます。 サービスの新しいインスタンスは、以前のインスタンスがオペレーティング システムによって異常終了させられたと判断した場合、永続コンテキストがあるかどうかを確認します。 新しいインスタンスは初期化時に永続コンテキストを読み込んで、実行時コンテキストを構築します。この結果、新しいインスタンスは障害発生前のインスタンスと同じ状態になります。 初期化が完了すると、サービスは、停止したときに実行していたタスクを再開します。 新しいインスタンスが再起動および初期化されている間、他のサービスは、そのような障害が発生していることを認識していません。 他のサービスから障害が発生したサービスに送信されたメッセージは、サービスが再開された時点で MTS から取得できます。
新しいインスタンスでステートフルな初期化を完了できるかどうかは、前のインスタンスの障害の原因に依存します。 サービスで再起動を数回実行できない場合、そのサービスの再起動は失敗したと見なされます。 その場合、システム マネージャは、再起動に失敗したサービスの HA ポリシーに指定されたアクション(ステートレスな再起動、再起動しない、スーパーバイザのスイッチオーバーまたはリセットのいずれか)を実行します。
ステートフルな再起動に成功した場合、システムが矛盾のない状態に到達するまでに遅延が発生することはありません。 ステートフルな再起動により、障害発生後の回復に要する時間が短縮されます。
ステートフルな再起動の前後および最中に発生するイベントは次のとおりです。
ステートフルな再起動が発生すると、Cisco NX-OS がレベル LOG_ERR の Syslog メッセージを送信します。 SNMP トラップがイネーブルになっている場合は、SNMP エージェントがトラップを送信します。
Cisco NX-OS インフラストラクチャ コンポーネントは、ステートレスな再起動を管理します。 ステートレスな再起動中、システム マネージャは、障害の発生したプロセスを特定し、新しいプロセスに置き換えます。 障害の発生したサービスは再起動時に実行時状態を保持していないため、実行コンフィギュレーションから実行時状態を構築するか、必要な場合は、他のサービスと情報を交換して実行時状態を構築します。
ステートレスな再起動が発生すると、Cisco NX-OS がレベル LOG_ERR の Syslog メッセージを送信します。 SNMP トラップがイネーブルになっている場合は、SNMP エージェントがトラップを送信します。
サービスで障害が発生すると、システムは障害の原因を判定するために使用できる情報を生成します。 次の情報ソースが使用可能です。