この製品のマニュアルセットは、偏向のない言語を使用するように配慮されています。このマニュアルセットでの偏向のない言語とは、年齢、障害、性別、人種的アイデンティティ、民族的アイデンティティ、性的指向、社会経済的地位、およびインターセクショナリティに基づく差別を意味しない言語として定義されています。製品ソフトウェアのユーザーインターフェイスにハードコードされている言語、RFP のドキュメントに基づいて使用されている言語、または参照されているサードパーティ製品で使用されている言語によりドキュメントに例外が存在する場合があります。シスコのインクルーシブランゲージに対する取り組みの詳細は、こちらをご覧ください。
このドキュメントは、米国シスコ発行ドキュメントの参考和訳です。リンク情報につきましては、日本語版掲載時点で、英語版にアップデートがあり、リンク先のページが移動/変更されている場合がありますことをご了承ください。あくまでも参考和訳となりますので、正式な内容については米国サイトのドキュメントを参照ください。
この章では、サービス レベル HA を実現する Cisco NX-OS サービスの再起動性について説明します。
• 「参考文献」
Cisco NX-OSサービス再起動機能では、スーパーバイザを再起動せずに障害の発生したサービスを再起動することによって、プロセス レベルの障害がシステム レベルの障害に拡大するのを防ぐことができます。サービスは、現在のエラー、障害状況、サービスのハイ アベイラビリティ ポリシーに基づいて再起動できます。サービスの再起動には、ステートフルな再起動とステートレスな再起動があります。Cisco NX-OS では、サービスが実行時の状態情報とメッセージを保存することで、ステートフルな再起動を実現しています。ステートフルな再起動では、サービスが保存されていた状態情報を取り出して、直前のチェックポイント サービス状態から動作を再開します。ステートレスな再起動では、サービスは、初めて起動するときのように、初期化および実行されます。
すべてのサービスがステートフルな再起動が可能なように設計されているわけではありません。たとえば、Cisco NX-OS は、3 層ルーティング プロトコル(OSPF や RIP など)の実行時の状態情報を保存しません。これらのプロトコルは、再起動のあとも設定は維持されますが、動作状態については隣接するルータから情報を取得して再構築するように設計されています。3 層プロトコルのハイ アベイラビリティ機能の詳細は、 第 4 章「ネットワーク レベル ハイ アベイラビリティの理解」 を参照してください。
仮想デバイス コンテキスト(VDC)におけるサービス レベル ハイ アベイラビリティの詳細は、「VDC 内サービスの再起動」を参照してください。
(注) VDC の詳細については、『Cisco NX-OS Virtual Device Context Configuration Guide』Release 4.0 を参照してください。
次の表に、サービス レベル ハイ アベイラビリティ機能のライセンス要件を示します。
|
|
---|---|
サービス レベル HA 機能にライセンスは必要ありません。ライセンス パッケージに含まれていない機能はすべて Cisco NX-OS システム イメージにバンドルされており、追加費用は一切発生しません。 |
|
NX-OS のライセンス スキームの詳細は、『 Cisco NX-OS Licensing Guide 』Release 4.0 を参照してください。 |
Cisco NX-OSでは、大部分のプロセスおよびサービスのステートフルな再起動が可能です。プラットフォーム内のプロセス、サービス、アプリケーションのバックエンドでの管理および調整は、このセクションで説明する一連の高レベルのシステム コントロール サービスによって実行されます。
システム マネージャは、あらゆるシステム機能、システム管理、システム ヘルス モニタリングの実行を制御し、ハイ アベイラビリティ ポリシーを実施します。システム マネージャは、サービスの起動、停止、モニタリング、再起動を担当し、サービス ステートとスーパーバイザ ステートの同期を管理および起動して SSO を実現します。
Cisco NX-OSサービスは、Persistent Storage Service(PSS; 永続ストレージ サービス)を使用して、運用の実行時情報とプラットフォーム サービスの設定を保存および管理します。PSS コンポーネントは、システム サービスを使用して、サービス再起動時にステートを回復します。PSS はステートおよび実行時情報のデータベースとして機能します。これにより、各サービスは、必要なときにいつでも、自身のステート情報のチェックポイントを作成できます。サービスを再起動すると、障害が発生する直前の既知の動作状態を回復できるので、ステートフルな再起動が可能になります。
PSS を使用する各サービスは、保存された情報をプライベート情報(当サービスのみ読み取り可能)または共有情報(他のサービスも読み取り可能)として定義できます。情報を共有する場合は、ローカル(同一スーパーバイザ上のサービスのみ読み取り可能)またはグローバル(スーパーバイザまたはモジュール上のサービスが読み取り可能)のどちらかを指定できます。たとえば、アクティブなスーパーバイザ上で実行されているサービスの PSS 情報を共有かつグローバルとして定義すると、他のモジュール上のサービスは、その PSS 情報と同期することができます。
Message and Transaction Service(MTS; メッセージおよびトランザクション サービス)は、ハイ アベイラビリティに特化した高パフォーマンス プロセス間通信メッセージ ブローカです。MTS は、モジュール内とモジュール間、およびスーパーバイザ間でメッセージのルーティングとキューイングを行います。また、イベント通知、同期などのメッセージ交換を容易にし、システム サービス間およびシステム コンポーネント間におけるメッセージ永続性を促進します。MTS では、永続メッセージおよびログ メッセージをキュー内に保管できるため、サービスの再起動後もそれらのメッセージにアクセスできます。
Cisco NX-OSでは、各サービスに、障害の発生したサービスの再起動方法を定義する一連の内部 HA ポリシーのセットを作成できます。サービスごとに 4 つの定義済みポリシーを用意できます。すなわち、スーパーバイザが 2 つの場合のプライマリ ポリシーとセカンダリ ポリシー、スーパーバイザが 1 つだけの場合のプライマリ ポリシーとセカンダリ ポリシーです。HA ポリシーが定義されていないサービスでは、障害発生時に実行されるデフォルトの HA ポリシーは、スーパーバイザが 2 つの場合はスイッチオーバー、スーパーバイザが 1 つの場合はスーパーバイザのリセットとなります。
• 最大再試行回数 ― システム マネージャによって実行される再起動試行回数を指定します。この回数だけ再試行を行ってもサービスが正常に再起動しない場合、その HA ポリシーは失敗したものとみなされ、定義されている次の HA ポリシーが使用されます。他の HA ポリシーが定義されていない場合はデフォルトのポリシーが適用されます。すなわち、スーパーバイザのスイッチオーバーまたは再起動が実行されます。
• 最小ライフタイム ― 再起動の試行のあとに、実行する必要のあるサービス時間を指定します。最小ライフタイムは最低でも 4 分です。
プロセスの再起動性により、データ プレーンやその他のサービスを中断せずに、障害の発生したサービスを回復し動作を再開することができます。システム マネージャは、サービスの HA ポリシー、前回の再起動の失敗、同じスーパーバイザ上で実行されているその他のサービスのヘルス状態に応じて、サービスの障害発生時に実行するアクションを決定します。
表2-1 に、さまざまな障害発生時にシステム マネージャによって実行されるアクションを示します。
|
|
---|---|
再起動可能なサービスで障害が発生すると、同じスーパーバイザ上で再起動されます。サービスの新しいインスタンスは前のインスタンスがオペレーティング システムによって異常終了させられたことを認識すると、永続コンテキストがあるかどうか確認します。新しいインスタンスは初期化時に永続コンテキストを読み込んで、実行時コンテキストを構築し、障害発生前のインスタンスと同じ状態にします。初期化が完了すると、サービスは、停止したときに実行していたタスクを再開します。新しいインスタンスが再起動および初期化されている間、他のサービスは、そのような障害が発生していることを認識していません。他のサービスから障害が発生したサービスに送信されたメッセージは、サービスが再開された時点で MTS から取得できます。
新しいインスタンスがステートフルな初期化を無事完了できるかどうかは、前のインスタンスの障害の原因によって決まります。サービスが数回で再起動の試みを成功できない場合、そのサービスの再起動は失敗したとみなされます。その場合、システム マネージャは、再起動に失敗したサービスの HA ポリシーに指定されたアクション(ステートレスな再起動、再起動しない、スーパーバイザのスイッチオーバーまたはリセットのいずれか)を実行します。
ステートフルな再起動に成功した場合、システムが矛盾のない状態に到達するまでに遅延が発生することはありません。ステートフルな再起動により、障害発生後の回復に要する時間が短縮されます。
ステートフルな再起動の前後および最中に発生するイベントは次のとおりです。
1. 実行中のサービスが、実行時状態情報のチェックポイントを PSS に作成します。
2. システム マネージャがハートビートを使用している実行中サービスのヘルス状態を監視します。
3. システム マネージャが、クラッシュまたはハングしたサービスを即座に再起動します。
4. 再起動のあとに、サービスは、PSS から状態情報を回復し、保留中のすべてのトランザクションを再開します。
5. 何度か再起動してもサービスが安定した動作を再開しない場合、システム マネージャはスーパーバイザのリセットまたはスイッチオーバーを起動します。
6. NX-OS はプロセス スタックとコアをデバッグ用に収集します。また、オプションでコア ファイルをリモートに転送します。
ステートフルな再起動が発生すると、NX-OS がレベル LOG_ERR の Syslog メッセージを送信します。SNMP トラップがイネーブルになっている場合は、SNMP エージェントがトラップを送信します。Smart Call Home サービスがイネーブルになっている場合は、サービスがイベント メッセージを送信します。
Cisco NX-OSインフラストラクチャ コンポーネントは、ステートレスな再起動を管理します。ステートレスな再起動中、システム マネージャは、障害の発生したプロセスを特定し、新しいプロセスに置き換えます。障害の発生したサービスは再起動時に実行時状態を保持していないため、実行中のコンフィギュレーションから実行時状態を構築するか、必要なら、他のサービスと情報を交換して実行時状態を構築します。
ステートフルな再起動が発生すると、NX-OS がレベル LOG_ERR の Syslog メッセージを送信します。SNMP トラップがイネーブルになっている場合は、SNMP エージェントがトラップを送信します。Smart Call Home サービスがイネーブルになっている場合は、サービスがイベント メッセージを送信します。
スタンバイ スーパーバイザが使用可能な場合で、複数の障害が同時に発生したときには、NX-OS は常に、スーパーバイザの再起動ではなくスーパーバイザのスイッチオーバーを実行します。こうしたケースは、同一スーパーバイザ上では回復不可能とみなされるからです。たとえば、複数の HA アプリケーションで障害が発生すると、回復不可能とみなされます。
スーパーバイザのスイッチオーバーおよびリセットの詳細については、 第 3 章「システム レベル ハイ アベイラビリティの理解」 を参照してください。
スタンバイ状態のスーパーバイザ上のサービスで障害が発生した場合、システム マネージャは HA ポリシーを適用せず、30 秒待ってからサービスを再起動します。30 秒待つことで、スタンバイ サービスの障害と同期化が繰り返されたとき、アクティブなスーパーバイザが対応しきれなくなるのを避けることができます。再起動されるサービスをアクティブなスーパーバイザ上のサービスと同期させる必要がある場合、スタンバイ スーパーバイザは、当該サービスの再起動と同期化が完了するまでホット スタンバイ モードから一時的に抜けます。再起動不可能なサービスで障害が発生すると、スタンバイ スーパーバイザがリセットされます。
スタンバイ サービスの再起動が発生すると、NX-OS はレベル LOG_ERR の Syslog メッセージを送信します。SNMP トラップがイネーブルになっている場合は、SNMP エージェントがトラップを送信します。Smart Call Home サービスがイネーブルになっている場合は、サービスがイベント メッセージを送信します。
スイッチング モジュールまたは別の非スーパーバイザ モジュール上でサービスの障害が発生した場合は、それらのサービスの HA ポリシーによって回復アクションが決まります。非スーパーバイザ モジュール上でサービスの障害が発生した場合は、スーパーバイザのスイッチオーバーは必要ないため、回復方法は、ステートフルな再起動、ステートレスな再起動、モジュールのリセットのいずれかになります。中断なしにアップグレード可能なモジュールは、中断なしに再起動可能です。
モジュール サービスの中断なしの再起動が発生すると、NX-OS はレベル LOG_ERR の Syslog メッセージを送信します。SNMP トラップがイネーブルになっている場合は、SNMP エージェントがトラップを送信します。Smart Call Home サービスがイネーブルになっている場合は、サービスがイベント メッセージを送信します。
サービスで障害が発生し、すべての HA ポリシーでサービスの再起動が失敗に終わった場合、次に実行されるアクションは、通常、スーパーバイザの再起動またはスイッチオーバーです。しかし、VDC 内で実行されているサービスの場合は、スーパーバイザの再起動またはスイッチオーバーを実行する前に VDC の再起動を試行するよう、VDC ポリシーに指定できます。
VDC の詳細については、『 Cisco NX-OS Virtual Device Context Configuration Guide 』Release 4.0 を参照してください。
サービスで障害が発生すると、システムは障害の原因を判定するときに使用できる情報を生成します。次の情報ソースが使用可能です。
• サービスの再起動によって、LOG_ERR レベルの Syslog メッセージが生成されます。
• Smart Call Home サービスがイネーブルになっている場合は、サービスの再起動によって Smart Call Home イベントが生成されます。
• SNMP トラップがイネーブルになっている場合は、サービスが再起動されると、SNMP エージェントがトラップを送信します。
• サービスの障害がローカル モジュール上で発生した場合は、そのモジュール内で
show processes log コマンドを入力することで、イベントのログを表示できます。プロセスのログは、スーパーバイザのスイッチオーバーまたはリセット後も残されています。
• サービスの障害が発生すると、システムのコア イメージ ファイルが生成されます。最新のコア イメージを表示するには、アクティブなスーパーバイザ上で show cores コマンドを入力します。コア ファイルはスーパーバイザのスイッチオーバーまたはリセット後は削除されますが、Trivial File Transfer Protocol(TFTP; 簡易ファイル転送プロトコル)などのファイル転送ユーティリティを使用してコア ファイルを外部サーバにエクスポートするようにシステムを設定することもできます。
• CISCO-SYSTEM-MIB には、コアのテーブルが含まれています(cseSwCoresTable)。
サービスの障害に関する情報を収集および使用についての詳細は、『 Cisco NX-OS Troubleshooting Guide 』Release 4.0 を参照してください。
サービス レベルの HA 機能の実装に関する詳細は、次の各セクションを参照してください。
• 「関連資料」
• 「標準」
• 「MIB」
• 「RFC」
• 「技術サポート」
|
|
---|---|
『 Cisco NX-OS Virtual Device Context Configuration Guide 』Release 4.0 |
|
|
|
---|---|
この機能によってサポートされるようになった新規の標準または変更された標準はありません。また、サポートされている既存の標準は、この機能でもサポートされます。 |
|
|
---|---|
• CISCO-SYSTEM-EXT-MIB:ciscoHaGroup、cseSwCoresTable、cseHaRestartNotify、cseShutDownNotify、cseFailSwCoreNotify、cseFailSwCoreNotifyExtended |
MIB を検索およびダウンロードするには、次の URL にアクセスしてください。 http://www.cisco.com/public/sw-center/netmgmt/cmtk/mibs.shtml |
|
|
---|---|
|
|
---|---|
TAC のホームページには、製品、テクノロジ、ソリューション、テクニカル ティップス、ツールへのリンクを含め、30,000 ページに及ぶ検索可能な技術コンテンツが含まれています。Cisco.com の登録済みユーザは、このページからログインして、さらに広範なコンテンツにアクセスできます。 |