システムとアプリケーションの正常性のモニター
Crosswork プラットフォームは、マイクロサービスで構成されるアーキテクチャ上に構築されます。これらのマイクロサービスの性質上、Crosswork システム内のさまざまなサービスには依存関係があります。すべてのサービスが稼働している場合、システムとアプリケーションは正常と見なされます。1 つ以上のサービスがダウンしている場合、正常性は [Degraded(低下)] と見なされます。すべてのサービスがダウンしている場合、正常性のステータスは [ダウン(Down)] です。
メインメニューから [Crosswork Manager] を選択して、[Crosswork の概要(Crosswork Summary)] ウィンドウと [Crosswork の正常性(Crosswork Health)] ウィンドウにアクセスします。各ウィンドウには、システムとアプリケーションの正常性をモニターするためのさまざまなビューがあります。また、このウィンドウには、Cisco Crosswork クラスタ、プラットフォーム インフラストラクチャ、およびインストールされているアプリケーションの問題を特定、診断、および修正するために使用できるツールと情報が、シスコ カスタマー エクスペリエンス アカウント チームからのサポートとガイダンスとともに表示されます。
両方のウィンドウで同じタイプの情報にアクセスできますが、各サマリーとビューの目的は異なります。
クラスタの正常性のモニター
[Crosswork の概要(Crosswork Summary)] ウィンドウ( )には、システム全体の正常性の概要が表示されます。[Crosswork の概要(Crosswork Summary)] ウィンドウの主な目的は、ハードウェアリソースと VM の観点から Crosswork クラスタの正常性を表示することです。たとえば、アプリケーションをインストールまたはアップグレードする前に、ハードウェアリソースが正常であり、VM が正常に動作しているかどうかを確認できます。[Crosswork クラスタ(Crosswork Cluster)] タイルをクリックすると、リソース使用率を視覚的に確認し、VM をドリルダウンして、VM またはクラスタ関連のアクティビティを実行できます。また、サービスが低下したり、ハードウェアリソースが過剰に使用されたりすることもあります。その時点で、ハードウェアの観点から、システム内の VM の数が不足していることがわかり、システムを拡張するためにさらに VM を追加するように求められることがあります。詳細については、「クラスタの正常性の確認」を参照してください。
Crosswork クラスタの正常性を表示するだけでなく、[Cisco Crosswork プラットフォーム インフラストラクチャ(Cisco Crosswork Platform Infrastructure)] タイルとアプリケーションタイルをクリックして、マイクロサービスやアラームなどの詳細を表示することもできます。
プラットフォーム インフラストラクチャとアプリケーション正常性のモニター
[Crosswork の正常性(Crosswork Health)] ウィンドウ( タブ)には、Cisco Crosswork プラットフォーム インフラストラクチャとインストールされているアプリケーションの正常性の概要と、マイクロサービスステータスの詳細が表示されます。
このウィンドウ内で、アプリケーションの行を展開して、マイクロサービスとアラームの情報を表示します。
[マイクロサービス(Microservices)] タブで、次の手順を実行します。
-
マイクロサービス名をクリックして、マイクロサービスのリストと、該当する場合は関連付けられているマイクロサービスのリストを表示します。
-
をクリックして再起動するか、マイクロサービスごとに Showtech データとログを取得します。
[アラーム(Alarms)] タブから、次の手順を実行します。
-
アラームの詳細をドリルダウンするには、アラームの説明をクリックします。
-
確認し、ステータスを変更し、アラームにメモを追加します。
また、Cisco Crosswork アプリケーションまたは Cisco Crosswork Platform Showtech サービスログをすべてダウンロードし、[アプリケーションの詳細(Application Details)] ウィンドウからインストール関連の操作を実行することもできます。 をクリックして、[アプリケーションの詳細(Application Details)] ウィンドウを開きます。
システム機能をリアルタイムで視覚的にモニター
[Crosswork Manager] ウィンドウからアクセスできる一連のモニタリングダッシュボードを使用すると、Cisco Crosswork の正常性とその機能をリアルタイムでモニターできます。
Cisco Crosswork は Grafana を使用してこれらのダッシュボードを作成します。データベースで収集されたメトリックを使用して、製品のインフラストラクチャをグラフィカルに表示します。これらのダッシュボードを使用して、個々の Cisco Crosswork アプリケーションまたはその基盤となっているサービスで発生する可能性がある問題を診断できます。
複数のモニターダッシュボードがあり、モニターする機能のタイプとそれらが提供するメトリックによって分類されます。次の表に、インストールされている Cisco Crosswork アプリケーションに応じて使用可能なカテゴリを示します。
このダッシュボードカテゴリ... |
モニターの対象 |
---|---|
Change Automation |
プレイブックの機能。メトリックには、実行された MOP ジョブの数、応答遅延、API コール、データベースアクティビティなどが含まれます。 |
Optima |
機能パック、トラフィック、および SR-PCE ディスパッチャ機能。 |
収集 - マネージャ(Collection - Manager) |
デバイスデータ収集機能。メトリックには、テレメトリ収集遅延、収集操作合計、テレメトリに関連するメモリおよびデータベースアクティビティ、遅延収集などが含まれます。 |
Health Insights |
重要業績評価指標。メトリックには、KPI アラート、API コールなどの数が含まれます。 |
Infra |
システム インフラストラクチャ メッセージングとデータベースアクティビティ。 |
インベントリ(Inventory) |
インベントリマネージャ機能。これらのメトリックには、インベントリ変更アクティビティの合計数が含まれます。 |
プラットフォーム(Platform) |
システムハードウェアおよび通信の使用状況とパフォーマンス。メトリックには、ディスクと CPU の使用率、データベースサイズ、ネットワークとディスクの動作、およびクライアント/サーバー通信が含まれます。 |
ZTP |
ゼロタッチプロビジョニング機能。 |
ディスク容量を節約するために、Cisco Crosswork は最大 24 時間の収集されたメトリックデータを保持します。
Grafana は、オープンソースの可視化ツールです。次に、Grafana の Cisco Crosswork 実装の使用方法に関する一般的な情報を示します。Grafana 自体の詳細については、https://grafana.com と http://docs.grafana.org を参照してください
手順
ステップ 1 |
メインメニューから、 を選択します。 |
||||||||||||||||
ステップ 2 |
右上にある [その他の可視化の表示(View more Visualizations)] をクリックします。 Grafana のユーザーインターフェイスが表示されます。 |
||||||||||||||||
ステップ 3 |
Grafana のユーザーインターフェイスで、[ホーム(Home)] をクリックします。Grafana には、次の例に示すように、モニタリングダッシュボードとそのカテゴリのリストが表示されます。 |
||||||||||||||||
ステップ 4 |
表示するダッシュボードをクリックします。たとえば、[プラットフォーム:概要(Platform - Summary)] ダ ッシュボードをクリックすると、次の図のいずれかのようなビューが表示されます。 |
||||||||||||||||
ステップ 5 |
必要に応じてダッシュボードをスクロールし、ダッシュボードが提供するすべてのメトリックを表示するか、または次の表に示す機能のいずれかを選択します。
|
システムおよびネットワークアラームの表示
アラームを表示するには、次のいずれかに移動します。
-
メインの [Crosswork] ウィンドウで、 をクリックします。
-
メインメニューから、
を選択します。 -
アプリケーション固有のアラームの場合は、 タブを選択します。
タブを選択します。いずれかのアプリケーションを展開し、[アラーム(Alarms)]
[アラーム(Alarms)] ウィンドウから次の手順を実行します。
-
アラームの詳細をドリルダウンするには、アラームの説明をクリックします。
-
確認し、ステータスを変更し、アラームにメモを追加します。
システム イベント
オペレータが問題をトラブルシューティングできるように、Crosswork インフラストラクチャには、システム関連のイベントを外部サーバに転送する Syslog 機能があります(「Syslog サーバーの設定」を参照)。Crosswork プラットフォームに関連するすべてのイベントは、3 つのカテゴリ(Day 0、Day 1、Day 2)に大きく分類されます。次の表に、イベントカテゴリと、そのカテゴリ内のイベントまたはアクションの例を示します。
イベント分類 |
イベントとアクションの例 |
---|---|
Day 0:Crosswork インフラストラクチャのインストールのみに関連するイベント。 |
|
Day 1:Crosswork アプリケーションのインストールに関連するイベント。 |
|
Day 2:システムの運用とメンテナンスに関連するイベント。 |
|
Day 0、Day 1、Day 2 のイベント例
次の表に、機能システムでの Day 0、Day 1、Day 2 のさまざまなイベントに関連する情報を示します。
Day 0 イベント
これらのチェックは、システムが正常かどうかを判断するのに役立ちます。
重大度 |
[メジャー(Major)] |
説明 |
VM ノードが追加されました。このイベントは、K8 クラスタがノードを検出したときに発生します。 |
アラームの例 |
なし |
syslog メッセージの例 |
|
推奨 |
VM ノードをモニターし、正常なことを示すステータスで UI に表示されていることを確認します。 |
重大度 |
[クリティカル(Critical)] |
説明 |
このイベントは、インフラストラクチャ Capp の展開に 1.5 分以上かかった場合か、または Docker プッシュの完了に 2 分以上かかった場合に発生します。 このメッセージは、firstboot.log ファイルで確認できます。 |
アラームの例 |
N/A |
syslog メッセージの例 |
N/A |
推奨 |
この問題は、システムでさらに操作を行う前に対処する必要があります。次の手順を実行します。
|
Day 1 イベント
重大度 |
[メジャー(Major)] |
説明 |
このイベントは、VMノードが消去されると発生します。 |
アラームの例 |
なし |
syslog メッセージの例 |
|
推奨 |
VM ノードをモニターし、UI に表示されなくなっていることを確認します。消去操作が失敗した場合は、ノードの消去を再試行します。 |
重大度 |
情報(Information) |
説明 |
このイベントは、アプリケーションが正常に追加されると発生します。 |
アラーム |
|
syslog メッセージ |
|
推奨 |
なし |
重大度 |
情報(Information) |
説明 |
このイベントは、アプリケーションを追加できない場合に発生します。 |
アラームの例 |
|
syslog メッセージの例 |
なし |
推奨 |
エラーを修正した後、アプリケーションの追加を再試行します。 |
重大度 |
情報(Information) |
説明 |
このイベントは、アプリケーションが正常にアクティブ化された後に発生します。 |
アラームの例 |
なし |
syslog メッセージ |
|
推奨 |
アプリケーションとライセンスをアクティブ化します。 |
重大度 |
[クリティカル(Critical)] |
説明 |
このイベントは、アプリケーションをアクティブ化できない場合に発生します。マイクロサービスまたはポッドが時間内に起動しないため、アクティブ化が失敗する可能性があります。 |
アラームの例 |
なし |
syslog メッセージ |
なし |
推奨 |
次の手順を実行します。
|
重大度 |
[メジャー(Major)] |
説明 |
このイベントは、アプリケーションが正常にアクティブ化されたが、アプリケーションがアクティブになってから 3 分経過してもコンポーネントが正常な状態を維持しない場合に発生します。 |
アラームの例 |
なし |
syslog メッセージの例 |
なし |
推奨 |
しばらく待ち、正常な状態になった場合はアラームをクリアします。しばらく経っても正常な状態にならない場合は、Cisco TAC にお問い合わせください。 |
Day 2 イベント
重大度 |
情報(Information) |
説明 |
ノードのドレインは、VM ノードを消去するか、またはノードが 5 分以上応答しない場合に発生します。ドレイン操作時に、ノードで実行されているポッドが移動されます(クラスタ化されたポッドは移動または保留状態になることがあり、単一インスタンスポッドは別のノードに移動します)。 |
アラームの例 |
|
syslog メッセージ |
|
推奨 |
操作をモニターします。ドレインが削除の結果である場合は、それぞれのノードを消去し、新しいノードを挿入します。 |
重大度 |
[メジャー(Major)] |
説明 |
ノードのドレインは、VM ノードを消去するか、またはノードが 5 分以上応答しない場合に発生します。このイベントは、ノードのドレイン操作が失敗した場合に発生します。 |
アラームの例 |
なし |
syslog メッセージの例 |
|
推奨 |
ノードを再度消去します。 |
重大度 |
[クリティカル(Critical)] |
説明 |
このシナリオでは、ハイブリッドノードの 1 つに障害が発生したと想定しています。 このイベントは、ノードが 5 分以上ダウンし、自動的にサービス停止になった場合に発生します。 このイベントは、誰かが Cisco Crosswork を使用せずに VM を停止または削除した場合か、またはそのノードへのネットワークの停止が発生した場合にトリガーされることがあります。k8s はそのノードでポッドの削除を自動的に開始します(ドレイン削除操作)。正常にクリーンアップされている間、VM ノードはダウンとマークされます。 |
アラームの例 |
|
syslog メッセージ |
なし |
推奨 |
障害が発生したノードを消去し、新しい VM を挿入します。 |
重大度 |
[クリティカル(Critical)] |
説明 |
このイベントは、ドレイン削除が失敗すると発生します。ノードが 5 分以上ダウンしていると、k8s はそのノードのポッドの削除を自動的に開始します。 |
アラームの例 |
なし |
syslog メッセージの例 |
なし |
推奨 |
ノードを消去し、別のクリーンアップ操作を試行します。 |
重大度 |
[クリティカル(Critical)] |
説明 |
このイベントは、クラスタノードリソースの使用率が高く、リソースフットプリントが不足している場合に発生します。 |
アラームの例 |
なし |
syslog メッセージの例 |
なし |
推奨 |
新しいワーカーノードを追加します。 |
重大度 |
[マイナー(Minor)] |
説明 |
このイベントは、アプリケーションが非アクティブ化されると発生します。 |
アラームの例 |
なし |
syslog メッセージの例 |
|
推奨 |
なし |
重大度 |
[クリティカル(Critical)] |
説明 |
このイベントは、アプリケーションを非アクティブ化できない場合に発生します。これは、マイクロサービスまたはポッドがまだ実行中の場合に発生する可能性があります。 |
アラームの例 |
なし |
syslog メッセージ |
なし |
推奨 |
次の手順を実行します。
|
重大度 |
[クリティカル(Critical)] |
説明 |
このイベントは、インフラストラクチャ Capp の展開に 1.5 分以上かかった場合か、または Docker プッシュの完了に 2 分以上かかった場合に発生します。 このメッセージは、firstboot.log ファイルで確認できます。 |
アラームの例 |
N/A |
syslog メッセージの例 |
N/A |
推奨 |
この問題は、システムでさらに操作を行う前に対処する必要があります。次の手順を実行します。
|
重大度 |
情報(Information) |
説明 |
このイベントは、誰かが VM ノードを消去し、ETCD クリーンメンバーシップのクリーンアップ操作が開始された場合に発生します。 |
アラームの例 |
ETCD のクリーンアップが失敗した場合:
|
syslog メッセージ |
なし |
推奨 |
モニター操作。 |
重大度 |
[メジャー(Major)] |
説明 |
このイベントは、ETCD クリーンアップ操作が失敗した場合に発生します。 |
アラームの例 |
なし |
syslog メッセージの例 |
なし |
推奨 |
ノードを再度消去します。 |
重大度 |
警告(Warning) |
説明 |
このイベントは、誰かがマイクロサービスまたはポッドを再起動し、操作が失敗したときに発生します。 |
アラームの例 |
なし |
syslog メッセージの例 |
なし |
推奨 |
マイクロサービスまたはポッドを再起動します。回復するかどうかを確認するために、これを数回行う必要がある場合があります。 |
システム正常性の確認の例
この例では、さまざまなウィンドウや、正常な Crosswork システムで確認すべき領域を検討します。
手順
ステップ 1 |
システム全体の正常性を確認します。 |
ステップ 2 |
Crosswork プラットフォーム インフラストラクチャの一部として実行されているマイクロサービスに関する詳細情報を確認および表示します。 |
ステップ 3 |
マイクロサービスに関連するアラームを確認および表示します。 |
ステップ 4 |
インストールされている Crosswork アプリケーションを表示します。 |
ステップ 5 |
ジョブのステータスを表示します。
|