予防的モニタリング:テナントおよびファブリックのポリシー
予防的モニタリングは、ネットワーク管理者の仕事の中でも重要なものですが、通常はネットワーク内の問題の解決が優先されるため、多くの場合は無視されています。しかし、Application Policy Infrastructure Controller (APIC) では統計情報の収集や分析の実行が非常に簡単に行えるため、ネットワーク管理者の時間もフラストレーションも抑えられます。統計情報は自動的に収集され、ポリシーが使用されるとともに、他の場所でも再利用できるため、人為的なミスや手間は最小限に留まります。
統計情報の収集はこれまでACME にとっては、手作業のリソース集中型でさえあるプロセスでした。レイヤ 1 から 7 のデバイスに関する情報を収集するツールを使用していたとしても、監視すべきデバイスや監視する方法を手動で指定する必要がありました。たとえば、SNMP やサード パーティのツールを使用してスイッチの CPU やポート上の帯域幅の使用率を監視していても、デバイスごとの正確な SNMP 情報の入力に苦労したり、ネットワーク管理システム(NMS)に新しいデバイスを追加し忘れることも頻繁にありました。 Cisco Application Centric Infrastructure (ACI) は、統計情報の収集をすべて行う APIC を提供し、サード パーティのモニタリング ツールを維持するすべての手間を省いて、環境全体を予防的に監視する機能を提供します。
GUI、CLI、または API のいずれかからアクセスしたとしても、APICを使用してコンポーネントまでドリルダウンして、オンデマンドで統計情報を表示する [Stats] タブをクリックすることができますが、それよりも、永続データを環境内のトレンドを分析するとともに、発生する可能性がある問題をトラブルシューティングまたは予測するために保持するようにポリシーを設定できることが重要です。レガシー システムから ACI インフラストラクチャへのアプリケーションの移動を計画する場合は、実稼働に直接進む前にテストから開始するほうが賢明です。APIC に関連付けられている DVS または AVS のいずれかのポート グループにテスト用の VM を追加し、リーフ スイッチの VPC に物理的なテスト用サーバを追加します。また、これは、実稼働環境から完全に分離されているテスト テナントにもなり得ます。この時点で、APIC はすでに VMM ドメインと物理デバイスの統計情報を収集しています。次のステップでは、トレンド分析用のポリシーを構成します。
統計情報の収集には、共通またはファブリック全体、ファブリック、テナント、アクセスの 4 つの異なる範囲があります。ファブリック全体のポリシーは、すべてのテナントに適用されるデフォルトのポリシーとして作成されます。ただし、特定のテナントのそのポリシーをオーバーライドすると、テナントのポリシーがファブリック ポリシーをオーバーライドすることになります。次のテスト例では、統計情報を収集するために、テナント ポリシーが作成されます。このテナントが他のアプリケーション、顧客、テスト ケースと共有されているとしても、実稼働環境でアプリケーションがどのように動作するかの実際の例を提供します。
テナント モニタリング ポリシーの作成
テナント モニタリング ポリシーを作成方法:
-
メニュー バーで、[Tenants] > [ALL TENANTS] の順に選択します。
-
作業ウィンドウで、 [Tenant_Name] を選択します。
-
[Navigation] ペインで、 [Tenant_Name] > [Monitoring Policies] の順に選択します。
-
[Work] ペインで、[Actions] > [Create Monitoring Policy] の順に選択します。
-
[Create Monitoring Policies] ダイアログボックスで、次の操作を実行します。
-
[Name] フィールドにモニタリング ポリシーの名前を入力します。
-
[Submit] をクリックします。`
-
-
[Navigation] ペインで、 [Tenant_Name] > [Monitoring Policies] > [Policy_Name] を選択し、次の情報を表示します。
-
統計情報収集ポリシー
-
統計情報のエクスポート ポリシー
-
Callhome、SNMP、および syslog
-
イベントの重大度の割り当てポリシー
-
フォールトの重大度の割り当てポリシー
-
フォールトライフサイクル ポリシー
-
統計情報収集ポリシー
[Stats Collection Policies] をクリックすると、すべての監視対象オブジェクトのデフォルトの保持期間と管理状態(Enabled/Disabled)が表示されます。ほとんどの場合は、デフォルトが保持されますが、それらをダブルクリックすると管理状態や保持期間が変更されます。たとえば、5 分ごとにコンポーネントをポーリングさせ、2 時間保持するには、5 分の粒度を指定するポリシーをクリックし、保持期間を 2 時間に変更します。同様に、特定のモニタリング オブジェクトのポリシーを変更することもできます。モニタリング オブジェクトは、統計情報を収集するコンポーネントを APIC に通知します。たとえば、ブリッジ ドメインについて収集される情報を変更するには、ブリッジ ドメイン(infra.RSOInfraBD)モニタリング オブジェクトを使用します。
モニタリング オブジェクトを追加する方法:
-
メニュー バーで、[Tenants] > [ALL TENANTS] の順に選択します。
-
作業ウィンドウで、 [Tenant_Name] を選択します。
-
ナビゲーション ウィンドウで、[Tenant_Name] > [Monitoring Policies] > [Monitoring Policy_Name] > [Stats Collection Policies] の順に選択します。
-
鉛筆のアイコンをクリックし、モニタリング オブジェクトを編集します。
-
含めるモニタリング オブジェクトの横にチェックマークを入れ、そのまま残すモニタリング オブジェクトのチェックマークはすべて外します。
-
[Submit] をクリックします。`
-
この例では、テナント、VXLAN プール、リーフ ポート、またはタブーコントラクトのモニタリング オブジェクトのポリシーに変更が加えられる場合があります。複数のオプションがあります。また、環境内で何をモニタリングすることが重要なのかによってすべて異なります。プルダウン メニューをクリックし、モニタリング オブジェクトを選択して、それに保持ポリシーを追加します。
モニタリング オブジェクトにポリシーを追加する方法:
-
メニュー バーで、[Tenants] > [ALL TENANTS] の順に選択します。
-
作業ウィンドウで、 [Tenant_Name] を選択します。
-
[Navigation] ペインで、[Monitoring Policies] > [Monitoring Policy_Name] > [Stats Collection Policies] の順に選択します。
-
[Work] ペインの [Stats Collection Policy] ダイアログボックスで、次の操作を実行します。
-
[Monitoring Object] を選択します。
-
[+] をクリックしてポリシーを追加します。
-
ポーリングする頻度を選択します。
-
状態を継承されたままにして [ALL] に設定されるようにデフォルトを維持するか、[enabled] または [disabled] を明示的に選択します。
-
保持ポリシーは継承するか、明示的に有効または無効に指定することもできます。
-
[更新(Update)] をクリックします。
-
統計情報のエクスポート ポリシー
これらの継続的な統計情報を収集するとともに、このデータが時間の経過とともにどのように動作するかを確認することが推奨されています。モニタリング ポリシーの下にある左側のナビゲーション ペインの [Stats Export Policies] オプションを使用します。統計情報収集ポリシーと同様に、すべてのモニタ オブジェクトのポリシーを作成するか、特定のモニタリング オブジェクトを選択してこの情報の保存場所を指定することができます。
統計情報のエクスポート ポリシーの作成方法:
-
メニュー バーで、[Tenants] > [ALL TENANTS] の順に選択します。
-
作業ウィンドウで、 [Tenant_Name] を選択します。
-
[Navigation] ペインで、 [Tenant_Name] > [Monitoring Policies] > [Monitoring Policy_Name] > [Stats Export Policies] の順に選択します。
-
[Work] ペインの [Stats Export Policy] ダイアログボックスで、次の操作を実行します。
-
ドロップダウンリストから [ALL] を選択するか、特定のモニタリング オブジェクトを指定します。
-
[+] をクリックしてポリシーを追加します。
-
[Stats Export Policy] をウィザードで定義します。
-
形式として [JSON] か [XML] のいずれかを選択します。形式が異なるだけで内容に違いはありません。また、読み取りに使用するツールによってどちらの形式を使用したほうが良いか異なります。
-
GZIP を使用して圧縮するか、圧縮せずにそのままにするかを選択します。
-
[Export Destinations] の下にある [+] をクリックし、この情報を収集するサーバを指定します。このサーバへの接続に使用するプロトコルと認証情報を指定する別のウィザードがポップアップします。
-
[OK] をクリックします。
-
-
[送信(Submit)] をクリックします。
GUI を使用した診断ポリシー
診断のポリシーは、左側の [Navigation] ペインにあります。この機能により、統計情報収集ポリシーに指定したモニタリング オブジェクトの診断テストを設定することができます。モニタリング オブジェクトの横にある 鉛筆アイコンで、診断ポリシーを使用して構成するモニタリング オブジェクトを選択します。ブートアップ診断と動作時診断の 2 種類のポリシーを構成できます。
診断ポリシーの構成方法:
-
メニュー バーで、[Fabric] > [Fabric Policies] の順に選択します。
-
ナビゲーション ウィンドウで、 [Tenant_Name] > [Monitoring Policies] > [Diagnostics Policies] を選択します。
-
[Work] ペインの [Diagnostic Policies] ダイアログボックスで、次の操作を実行します。
鉛筆アイコンをクリックし、診断テストを追加するモニタリング オブジェクトの横にあるチェックボックスをオンにします。
-
モニタリング オブジェクトのいずれかを選択します。
-
[+] をクリックしてオブジェクトを追加します。
-
[Boot-Up] または [Ongoing] のいずれかを選択します。
-
[Boot-Up] はデバイスがブートされている間にテストを実行し、[Ongoing] はウィザード内で指定した頻度でテストを実行します。
-
ウィザードで名前を付け、管理状態を選択します。
-
ASIC、CPU、内部接続、周辺機器、システム メモリの 5 種類の診断テストが使用できます。それぞれをダブルクリックして、テストなし、完全テスト、または推奨テストを指定するオプションを取得します。
-
[送信(Submit)] をクリックします。
-
-
ここにある診断は、環境内で大きな問題となる前に、フォールトが発生したコンポーネントを検出するのに役に立つ可能性があります。
Call Home/SNMP/syslog
通知またはアラート ポリシーを設定する方法はいくつかあります。Call Home/SNMP/syslog ポリシーは、アラートを柔軟に構成することができます。Cisco Call Home は、シスコの数多くの製品に備わっている機能で、クリティカルなイベントを電子メールや Web ベースの通知アラートを複数の異なる形式で提供します。これにより、機能停止に陥る前に管理者は問題を解決できます。SNMP ポリシーまたは syslog ポリシーは、現在の通知システムとの併用が可能です。アラートを「受け取る」モニタリング オブジェクトに指定された通知やアラートのレベルには、異なるロギング レベルを選択できます。
イベントの重大度とフォールトの重大度の割り当て
モニタリング オブジェクトによって発生したイベントに関するイベントの重大度とフォールトの重大度は変更できます。ほとんどの場合、イベントおよびフォールトに対するデフォルトの重大度の割り当てが使用されますが、ACI 管理者によってはイベントの重大度またはフォールトの重大度がデフォルトの値よりも高い、または低いと判断するかもしれません。たとえば、クリティカルなフォールトだけを通知する場合でも、即刻通知して欲しいメジャーなフォールトがある場合は、その特定のフォールトコードの重大度を変更できます。
-
メニュー バーで、[Tenants] > [ALL TENANTS] の順に選択します。
-
作業ウィンドウで、 [Tenant_Name] を選択します。
-
ナビゲーション ウィンドウで、 [Tenant_Name] > [Monitoring Policies] > [Monitoring_Policy] > [Fault Lifecycle Policies] を選択します。
-
[Work] ペインの [Fault Severity Assignment Policies] ダイアログボックスで、次の操作を実行します。
-
フォールトの重大度を変更するフォールトコードを決定するモニタリング オブジェクトを選択します。
-
[+] をクリックしてオブジェクトを追加します。
-
重大度を変更する特定のフォールトコードを選択します。
-
[Cleared]、[Critical]、[Major]、[Minor]、[Squelched]、[Inherit]、[Warning]、[Info] から重大度を選択します。
[Squelched] の重みは 0 % です。つまり、ヘルス スコアには影響しません。
-
-
[Update] をクリックします。
イベントの重大度の割り当てポリシーは、同様に設定できます。
フォールトライフサイクル ポリシー
フォールトのライフサイクルは、フォールトを検知してから復旧するまでを説明するためにシスコが使用している用語です。フォールトが検出されると、そのフォールトは「ソーキング」状態になります。「ソーキング間隔」と呼ばれる一定時間後に、「発生」状態になります。「発生」とは、ソーキング間隔後にもフォールトが存在することを意味します。そのフォールトがクリアされると、「発生クリア中」と呼ばれる状態になります。この状態にあるのは短時間で、「クリア期間」状態に移行します。「クリア間隔」に指定した時間は「クリア期間」状態のままになります。最後に、「保持」状態に移行しますが、「保持間隔」が終了するまで、フォールトは削除されません。
フォールトのライフサイクル間隔を変更する方法:
-
メニュー バーで、[Tenants] > [ALL TENANTS] の順に選択します。
-
作業ウィンドウで、 [Tenant_Name] を選択します。
-
ナビゲーション ウィンドウで、 [Tenant_Name] > [Monitoring Policies] > [Monitoring_Policy] > [Fault Lifecycle Policies] を選択します。
-
[Work] ペインの [Fault Lifecycle Policies] ダイアログボックスで、次の操作を実行します。
-
デフォルトの間隔を変更するフォールトコードを決定するモニタリング オブジェクトを選択します。
-
[+] をクリックします。
-
[Clearing Interval]、[Retention Interval]、[Soaking Interval] に時間を指定します(すべて秒単位)。
注:デフォルトでは、[Clearing Interval] は 120 秒、[Retention Interval] は 3600 秒、[Soaking Interval] は 120 秒です。
-
この時点で、十分に機能するテナントのモニタリング ポリシーになります。以降の項で概要を示すように、ACME は、他にもファブリックでポリシーを設定できます。
TCAM ポリシーの使用
ポリシー設定を保存するために使用しているTernary Content-Addressable Memory(TCAM)は、高額なスイッチ ハードウェアのコンポーネントです。そのため、ポリシーの拡張性に影響を与えたり、ハードウェア コストを上昇させたりする傾向があります。Cisco Application Centric Infrastructure (Cisco ACI) ファブリック内では、エンドポイント自体ではなく、EPG に基づいてポリシーが適用されます。このポリシーの規模は、n*m*f と表すことができます。ここで、n は送信元の数、m は宛先の数、f はポリシー フィルタの数です。Cisco ACI ファブリック内では、送信元と宛先が所定の EPG の唯一のエントリとなるため、必要なエントリの総数が低減します。
TCAM は、監視対象にすべきファブリック リソースです。使用可能な TCAM リソースが確認できるシステム全体のビューがあります。メニュー バーで、TCAM リソースを表示するためには、Work ペインには、すべてのノード用の容量を要約したテーブルが表示されます。
を選択します。TCAM は、Cisco ACI ファブリック内の重要なシステム リソースであり、使用率を監視する必要があります。アーキテクチャ/設計チームは、TCAM 使用率がどのように使用されるか想定しておく必要があります。通常の運用パラメータの予測に役立つファブリック リソース計算ツールが Github(https://github.com/datacenter/FabricResourceCalculation)にあります。
一般に、デフォルトのモニタリング ポリシーは、リソース不足を報告し、ファブリック全体のヘルススコアを下げます。大きく値が変更されるような使用環境にある、または常にオーバーサブスクライブになると懸念される場合は、違うしきい値を設定できます
TCAM ポリシー モニタの作成
-
メニュー バーで、[Fabric] > [Fabric Policies] の順に選択します。
-
ナビゲーション ウィンドウで、[Monitor Policies] > [default] > [Stats Collection Policies] の順に選択します。
-
[Work] ペインの [Stats Collection Policies] ダイアログボックスで、次の操作を実行します。
-
モニタリング オブジェクトの [Equipment Capacity Entity](eqptcapacity.Entity)を選択します。
-
[Stats Type Policy Entry] を選択します。
-
[Config Thresholds] の下にある [+] をクリックします。
-
[Thresholds For Collection 5 Minute] ウィンドウで、ポリシー CAM エントリ使用率の現在値の横にある青色の鉛筆アイコンを選択します。
-
TCAM プレフィックスの使用量
この手順で、TCAM プレフィックスの使用量を管理します。
-
メニュー バーで、[Fabric] > [Fabric Policies] の順に選択します。
-
[Navigation] ペインで、[Monitor Policies] > [default] > [Stats Collection Policies] の順に選択します。
-
[Work] ペインの [Stats Collection Policies] ダイアログボックスで、次の操作を実行します。
-
モニタリング オブジェクトの [Equipment Capacity Entity](eqptcapacity.Entity)を選択します。
-
統計情報 [TypeLayer3 Entry] を選択します。
-
[Config Thresholds] の下にある [+] をクリックします。
-
[Thresholds For Collection 5 Minute] ウィンドウで、ポリシー CAM エントリ使用率の現在値の横にある青色の鉛筆アイコンを選択します。
-
ヘルススコアの評価ポリシー
-
メニュー バーで、[Fabric] > [Fabric Policies] の順に選択します。
-
[Navigation] ペインで、[Monitor Policies] > [Common Policies] > [Health Score Evaluation Policy] > [Health Score Evaluation Policy] の順に選択します。
-
[Work] ペインの [Properties] ダイアログボックスで、次の操作を実行します。
-
[Penalty of fault severity critical] ドロップダウン メニューで、必要な % を選択します。
-
[Penalty of fault severity major] ドロップダウン メニューで、必要な % を選択します。
-
[Penalty of fault severity minor] ドロップダウン メニューで、必要な % を選択します。
-
[Penalty of fault severity warning] ドロップダウン メニューで、必要な % を選択します。
-
-
[送信(Submit)] をクリックします。
通信ポリシー
-
メニュー バーで、[Fabric] > [Fabric Policies] の順に選択します。
-
[Navigation] ペインで、[Pod Policies] > [Policies] > [Communication] を展開します。
-
[Work] ペインで、[Actions] > [Create Communication Policy] の順に選択します。
-
[Create Communication Policy] ダイアログボックスで、次の操作を実行します。
-
[Communication Policy Name] に入力します。
-
[HTTP Admin State] ドロップダウン メニューから、必要な状態を選択します。
-
[HTTP Port] ドロップダウン メニューから必要なポートを選択します。
-
必要な HTTP リダイレクト状態を選択します。
-
[HTTPS Admin State] ドロップダウン メニューから、必要な状態を選択します。
-
[HTTPS Port] ドロップダウン メニューから必要なポートを選択します。
-
必要な HTTPS リダイレクト状態を選択します。
-
[SSH Admin State] ドロップダウン メニューから、必要な状態を選択します。
-
[Telnet Admin State] ドロップダウン メニューから、必要な状態を選択します。
-
[Telnet Port] ドロップダウン メニューから必要なポートを選択します。
-
-
[送信(Submit)] をクリックします。