はじめに
このドキュメントでは、5G導入シナリオにおけるクラウドベースのソフトウェア定義型ネットワークでのクローズドループの自動化について説明します。
背景説明
クラウドは、テクノロジーが従来の世界で機能する方法に革命をもたらしています。5Gの出現により、サービスプロバイダー環境でのパラダイムは変化しています。ネットワークを操作する手動および従来の方法のほとんどは、完全な自動化に道を譲り、ネットワークに予防的なエッジを与え、自己修復ルートに取り組んでいます。このドキュメントでは、シスコのエコシステムのさまざまな製品を組み合わせてリアルタイムの分析、可視化、および修復を実現するSDNベースのクローズドループ自動化構造について説明します。これらはすべて、クラウドに導入されたソリューションと連動します。
5Gはモバイルテクノロジーを変革するだけでなく、さまざまな業界に大きなチャンスを生み出し、大規模な混乱の舞台を作っています。
5Gは、より高速で、より広い帯域幅、超低遅延により、日々の業務とエクスペリエンスを大幅に向上させます。
5Gは、モバイルの世界だけでなく、あらゆる形態の通信サービスに対応するためにモバイル通信を超えて拡張されています。実際、あらゆる種類のサービスを可能にし、あらゆる分野の経済的変化を促進し、多様なテクノロジー(WIFI、4G、無線テクノロジー)を利用することで、デジタル世界の未来を真にサポートしています。
このドキュメントでは、導入フェーズについては詳しく説明しません。5Gの自動化とオーケストレーションアーキテクチャに重点を置き、エンドツーエンドの機能性と観察可能性を実現します。
自動化の必要性
この段階では、5Gは主にテストと導入の初期段階にありますが、関連する課題を理解する必要があります。すべてのドメインで5Gネットワークを実行するために必要なネットワーク要素の数は膨大です。ほとんどの5Gネットワークの導入では、すべてのコンポーネントをシームレスに運用し、コスト効率と効率に優れた実装を実現するための自動化が必要です。
自動化された導入シナリオでは、事前に計画を立てておく手間のかかる手作業の大半を排除できます。
人工知能(AI)システムは、機械学習(ML)に基づいて、通常および高負荷条件下でのネットワーク機能の動作方法をモデル化できます。
システムは、実行時のパフォーマンスデータを使用して、必要に応じて新しい要素を自動的に導入できます。継続的な最適化とサービス保証のために、システムはあらゆるタイプの機器フィードを収集して分析し、そのパフォーマンスを調査して、サービスプロバイダーが必要とし、期待するパラメータに一致するかどうかを判断できます。
自動化を成功させるために重要なコンポーネントは3つあります。
- 可視性 – パフォーマンスの低下を検出できず、ネットワークの状況をリアルタイムで1秒ごとに把握できないとサービス品質に影響が及ぶ場合は、パフォーマンスの低下を自動化できません。
- Insight:ネットワーク分析と関連データの関連付けにより、異常の検出に役立つ洞察が生成されます。
- アクション:このフェーズでは、実行された変更が適切な影響を与えていることを確認するために、ループを閉じるアクションを実行します。
基本は保証を持つことであり、次に機械学習です。これは、ネットワークが何を達成しようとしているかを予測でき、クローズドループ自動化の基盤につながります。
ソリューションの概要
ご提案するソリューションは、次のような業界最先端の自動化および保証機能を提供するソフトウェアソリューションです。
- ゼロタッチプロビジョニング:新しいデバイスのアクティベーション、設定の生成、およびネットワークプロビジョニングを自動化します。
- CI/CDワークフロー:構成管理、デバイスバックアップ、およびリストア監査履歴。
- リアルタイムの可視化:パフォーマンス統計情報と主要業績評価指標(KPI)のダッシュボードとレポート。
- 障害分析:イベントの重複除外、ノイズの削減、イベントの相関、障害管理、根本原因の分析を行います。
- トレンド分析と予測 – AI/MLパターン認識、異常検出、統計的傾向、予測。
1.ソリューションの機能と利点
- ゼロタッチプロビジョニング:大規模な導入が可能
- ゼロタッチオンボーディング – 市場投入までの時間の短縮
- 自動ワークフロー(CICD) – 制御の強化、エラーの削減
- 観察可能性(障害管理、パフォーマンス管理、トポロジ) – 効果的な管理とキャパシティプランニング
- イベント相関とノイズリダクション:クローズドループ修復と自己修復ネットワーク
2.ソリューション要素
- マトリックス(パフォーマンス管理)
- ヴィトリア(故障管理・保証)
- CNC:Crosswork Network Controller(収集、保証、トポロジ)
- Kafka – メッセージバス
- ゼロタッチプロビジョニング(ZTP)サービス保証コンポーネント
- テスト自動化フレームワーク(TAF)
- 統合ポータル
Vitriaは最良のソリューションに対してもパフォーマンス管理を行うことができますが、MatrixとVitriaの両方が提案されたソリューションの一部であり、Matrixはツールとしてのパフォーマンス管理に最適であり、Vitriaはその障害管理機能に最適です。
3.ソリューションのコンポーネントの詳細
3.1マトリックス:パフォーマンス管理
Matrixは、シスコが開発した一般的な分析フレームワークで、さまざまな種類のデータソースに簡単に適応でき、ソリューションにアプリケーション分析機能を組み込むことができます。Matrixには、要件に応じてユースケースを構築またはカスタマイズできる主な機能があります。
3.2.ヴィトリア:障害管理と保証
仮想および物理インフラストラクチャ、内部およびパブリックネットワーク、相互依存するアプリケーションで構成される相互接続されたシステムが複雑に絡み合う状況では、障害管理が常に課題となります。
従来の障害管理は、それぞれがテクノロジースタック内の個別のレイヤに対応する、サイロ化された監視ツールに依存しています。各モニタリングシステムは、大量のアラームを生成します。サービス信頼性エンジニア(SRE)はアラームを確認し、チケットをオープンする必要があるかどうかを判断します。
システム間で相互に関連する問題が発生すると、複数のチケットがオープンされ、真の根本原因に対処できない可能性のあるアクションを別のチームが実行するため、時間とリソースが無駄になります。一見独立しているように見える問題が関連していると最終的に判断されると、真の根本原因を特定し、問題を解決するために適切な修正エージェントまたはタスクを関与させるために、部門の枠を超えたチームが形成されます。この従来の障害管理プロセスが功を奏する一方で、お客様の不満は高まっています。この時間がかかり、多大な労力を要するプロセスは、もはや効果を発揮しません。時間とコストがかかりすぎる。
問題の検出に要する時間の短縮、解決の迅速化、コストの削減を実現するには、IT要素からネットワークやアプリケーションに至るまで、運用環境全体にわたる信号を取り込み、関連付け、分析する必要があります。効果的な障害管理には、サービスレイヤ全体にわたるノイズの削減、人間の介入レベルを低減するための自動化、および既存のプロセスや管理システムとの統合が必要です。
3.3. Crosswork Network Controller(CNC):収集、アシュアランス、トポロジ
ネットワーキングの世界における新たな潮流は、セグメントルーティングの出現でした。これは、マルチプロトコルラベルスイッチング(MPLS)などの従来の方法を置き換えることで運用を簡素化しました。セグメントルーティングは、プロトコルのホストを排除することで運用の複雑さを軽減し、全体的な運用コストを大幅に削減しました。
シスコの新しいソリューションであるCNCは、セグメントルーティングネットワーク用のSDNコントローラです。ネットワークでSRが有効になると、CNCは、ネットワークの視覚化、サービス、ポリシーの導入、およびその他の機能のホストに役立つ一連のソリューションを使用して全体像を把握します。
Cisco CNCにより、お客様は共通のGUIとAPIを使用して、マルチベンダーネットワーク環境におけるインテントベースのネットワークサービスのプロビジョニング、監視、最適化を簡素化および自動化できます。
このソリューションは、インテント・ベースのネットワーク自動化を組み合わせることで、ネットワークの最適化、サービス・パスの計算、デバイスの導入と管理、異常検出、自動修復機能など、サービスのオーケストレーションとフルフィルメントに必要な機能を提供します。
完全に統合されたソリューションは、Cisco Network Services Orchestrator(NSO)、Cisco Segment Routing Path Computation Element(SR-PCE)、Cisco Crosswork Data Gateway(CDG)、Cisco Crossworkおよびアプリケーションスイートのインフラストラクチャなど、業界をリードする複数の革新的な製品のコア機能を組み合わせています。統合されたユーザインターフェイスにより、ネットワークトポロジとサービス、およびサービスとトランスポートのプロビジョニングを、1つの画面でリアルタイムに可視化できます。
Crossworkの原則は、自動化の3つの原則に要約できます。
- 可視性
- 考察
- アクション
CNCとその強力なソリューションスイートは、ネットワークの全体的な制御のための包括的なメカニズムを提供します。ソリューションはスペクトルによって異なり、前述の3つの原則を満たす幅広い機能を提供します。
1.アクティブなトポロジ
従来のネットワーキングには、導入後にネットワークを視覚化するコンポーネントがありませんでした。オペレータは、ルータに物理的にログインしてさまざまなチェックを行う必要がありました。CrossworkのActive Topologyを使用すると、オペレータはネットワーク全体のリアルタイムの可視化に加え、リンク、使用率、トラフィックレート、ノードとリンクのヘルスステータス、セグメントルーティング(SR)、およびRSVPポリシーステータスをパスの可視化とともに取得できます。オペレータは、直感的なGUIにログインして、ネットワークを手元に置くだけで済みます。
2.クロスワーク最適化エンジン(COE)
ネットワークの最適化をリアルタイムで行うソリューションで、オペレータがネットワークの使用率を効率的に管理できるようにします。COEの最終的な目標は、多くの手動による介入なしに自己修復ネットワークを実現することです。
3. Crosswork Data Gateway(CDG)
膨大なデータを生成する数千のデバイスを持つ巨大なネットワークを想像してみてください。CDGは新しいオイルであるデータを使用して、Crosswork自体が活用できるデバイスから、または分析やその他の変換のために他の多くのサードパーティアプリケーションに送信できるデバイスから、すべてのデータを収集するためのメカニズムを提供します。CDGは、SNMP、CLI、gRPCネットワーク管理インターフェイス(GNMI)、MDT、syslogなどの複数のプロトコルを介したデータ収集をサポートしています。
4. Crosswork Health Insights(HI)
ネットワークが稼働している状態では、特定のネットワークイベントが経過した後に、従来の方法で事後対応型のアクションを実行していました。これは多くの場合、お客様にとって大きなコストとなります。HIでは、ライブKPIモニタリング、アラートの生成、およびトラブルシューティングを自動的に実行できます。ユーザは独自のロジックを定義でき、HIはそのモニタリングに基づいてアラートを生成します。これにより、ネットワークの状態を自動的に把握できます。
5.クロスワーク変更の自動化
構成変更の適用、新しいバージョンのソフトウェアのインストール、アップグレードなどの日常的な手動操作は、変更の自動化を使用して自動化し、高速化できます。これは、に組み込まれているAnsibleプレイブックを使用し、Cisco NSOを活用して設定の変更をデバイスにプッシュします。
6. Crosswork Zero Touch Provisioning(ZTP)
お客様は、導入と運用のスケジュールを短縮することに常に賛成しています。ミスや時間のかかる通常の手動プロセスの代わりに、ネットワークに導入される数万もの新しいデバイスがある場合、Crosswork ZTPは、プロビジョニングと新しいCisco IOS® XRデバイスのオンボーディングのための完全に自動化されたソリューションによってプロセス全体を強化します。デバイスは0日目の設定で起動し、CNCデバイスインベントリにすばやく追加できます。その後、これらのデバイスの監視と管理が簡単になります。
目標を達成するためにCNCと連携する製品の他のいくつかのスレッドがあります。その中で最も重要なのが、Segment Routing Path Computation Element(SR-PCE)です。これは、SRとRSVPの両方をサポートするCisco IOS XR PCEです。実際には、BGP-LSプロトコルを介してトポロジの収集を容易にし、CNCをコントローラとして機能させるためにパスを計算するのはSR-PCEです。
CNCはNSOと連携することもでき、これによりネットワークの目的をデバイス固有の設定に変換できます。CNCをNSOと組み合わせて使用すると、力乗数になります。
3.4. Kafka:メッセージバス
Kafkaモニタリングは、Burrowツールを使用して有効になります。 BurrowはApache Kafkaの監視コンパニオンで、しきい値を指定する必要のないサービスとしてコンシューマのラグチェックを提供します。
すべてのコンシューマのコミットされたオフセットを監視し、それらのコンシューマのステータスをオンデマンドで計算します。オンデマンドでステータスを要求し、他のKafkaクラスタ情報を提供するために、HTTPエンドポイントが提供されます。これらのAPIは、Performance Monitoring(PM)ツールによってポーリングされ、コンシューマラグモニタリングを生成し、Kafkaクラスタ情報を提供します。
KafkaノードのCPU使用率、ストレージ使用率、およびメモリ使用率はMatrixでも確認できます。Matrixでは、しきい値を超えた場合や異常が検出された場合にアラームを送信します。
3.5. ZTP:デバイスのアクティブ化とネットワークプロビジョニング
これは、自動化された新しいデバイスのアクティベーション、設定の生成、およびネットワークプロビジョニングのプロセスです。
3.6.TAF:テスト自動化フレームワーク
高度なテスト自動化フレームワーク(TAF)は、テストスイートを数千のデバイスに対して同時に並行して実行する方法を提供するため、手動で検証する必要がなくなります。大規模なネットワーク導入では、手動の検証だけでは拡張できません。このような自動化されたフレームワークは、デバイス構成やその他のチェックを最も効率的かつ期限付きの方法で検証するのに役立ちます。
オペレータは、ボタンを1回クリックするだけで、何千ものデバイスに対して何百ものテストを開始できます。テストスイートは、設定されたすべてのテストを実行し、データを検証し、合否基準を使用して結果全体を詳細なWebベースのレポートに表示します。このレポートに基づいて、オペレータは他の自動化ソリューションを使用してデバイスのエラーを軽減するために、さらに踏み込んだ措置を講じることができます。
3.7.ユニファイドポータル:共通ダッシュボード
これは、アプリケーションやアイコンを開発せずに柔軟に追加、削除、変更できる、すべてのアプリケーション用のオープンUIです。
これにより、LDAP認証のサポートと製品ドキュメントへのアクセスが提供されます。
ソリューションの調整
5G自動化の目標を達成するには、ネットワークを構成する異なるドメイン間の部分を接続するためのクロスドメインオーケストレーションが必要です。
トランスポートデバイスがネットワークに設定されると、従来の方法でデバイスを手動で管理する代わりに、ドメイン間のオーケストレーションを資本化して、シンプルさ、俊敏性、および効率性を高めることができます。
ネットワークアクティブデバイスは、CDGがデバイスからデータを収集できるプロトコルを指定してCNCにオンボーディングできます。デバイスがCNCにオンボーディングされると、L2およびL3ネットワーク全体のリアルタイム可視化が容易になります。デバイスのモニタリングは、デバイスの状態のさまざまな側面に関連するGUIの表示によって容易になります。デバイスからのデータの収集は所定の間隔で開始され、このデータは豊富な分析値です。データは、前述したように、SNMP、SSH、MDT、テレメトリ、およびその他のさまざまなモードで収集されます。
このデータは、エコシステム内の他のアプリケーションに渡すことができます。CNCは、収集したデータをKafkaバスを介してマトリックスシステムに送信することを可能にします。コレクションはKafkaトピックにサブスクライブされ、CDGは収集したデータをこのトピック(エンドポイントはMatrix)に配信し続けます。
Matrixには、このデータを視覚化できる直観的なダッシュボードが複数あり、複数の分析操作を実行することもできます。このデータは、Cisco Vitria AIOpsソリューションによって一括して処理され、障害モニタリングを行うことができます。障害や異常が検出されると、Vitriaツールは予防的にアラームを生成し、必要な修正を取り込み、大規模な障害を回避します。
Crossworkスイート内では、一部のアプリケーションがトランスポートネットワーク内のトラフィックを事前にオーケストレーションできるため、ピーク負荷時の大幅なダウンタイムが軽減されます。このようなシナリオでは、Local Congestion Mitigation(LCM)やBandwidth on Demand(BWoD)などのCOEの機能パックが役立ちます。
LCMは、ネットワーク内の輻輳を緩和し、代替パスを使用して過負荷のインターフェイスを解放するポリシーを推進するための非常に便利なツールです。これらはすべて、輻輳がすでに発生した後にユーザが輻輳を検出しなくても、自動的に発生します。LCMは、この値を超えると輻輳していると見なされる設定可能なしきい値を使用します。
インターフェイスの使用率がこのしきい値を超えると、LCMはローカルインターフェイスレベルでの輻輳を緩和するための推奨事項を提供します。このソリューションでは、しきい値未満で輻輳が発生するトラフィックのうち、必要な量だけを適切に制御します。この利点は、インターフェイスのトラフィック全体が転送されないことです。ユーザは一連の推奨事項を分析し、最適な推奨事項を選択できます。したがって、トラフィックを戦略的に操作して作成されたポリシーは、リアルタイムで輻輳を自動的にクリアするのに役立つSR-PCEコンポーネントの助けを借りてLCMによって開始されます。
BWoDソリューションは、LCMと連携して動作できます。音声またはビデオトラフィックを伝送する高優先度のインターフェイスがある場合、オペレータはパスに常に指定された量の使用可能な帯域幅があることを確認する必要があります。COEを使用すると、ユーザはBWoDポリシーパスを作成できます。BWoDにしきい値も設定されている場合、モニタリングは1秒ごとに開始されます。インターフェイスのしきい値を超えるとすぐに、BWoDは新しいSRポリシーを作成したり、割り当てられた帯域幅を維持するための既存のパスを最適化したりするためにジャンプします。
これらは、トランスポートパスを最適化し、トランスポートの自動化を容易にする複数のシナリオです。CNCは他のソリューションと一緒に使用してデータを処理および分析できますが、CNCの内部コンポーネントは、ネットワークの可用性と信頼性を拡大するハイエンドの自動化を備えたトランスポートネットワークの育成にも大きな役割を果たします。
クローズループ自動化(CLA)の使用例
CLAを使用する場合、基本的な手順は次のとおりです。
- デバイスまたは送信元からのデータ収集とメッセージバスへの転送。
- 特定のプロセスの異常を検出するために、取り込みロジック(パーサー)を実装し、処理パイプラインを強化し、KPIしきい値を定義するパフォーマンス管理システム。
- Fault Management Systemsは、検出された異常を取り込み、API呼び出しを呼び出してアクションを実行するまで待機します。
- 修復が完了すると、Performance Management System(PMS)検出フローの異常により、clear状態の異常アラートが送信されます。
- Fault Management Systems(FMS;障害管理システム)を使用して、アラートを取り込み、異常をクリアし、インシデントを閉じます。
このシスコソリューションのフローを次に示します。
デバイスのメモリリークの事例では、クロスドメインのシスココンポーネントを活用したクローズドループ自動化の仕組みを具体的に示しています。コマンドshow processes memory detailは、ルータ内のすべてのプロセスのメモリ消費の詳細を提供します。
CLI収集ジョブをCNCで作成して、CDGがユーザ指定の間隔でルータにログインし、コマンドを実行できるようにすることができshow processes memory detailます。CDGはこのコマンドの出力を取得し、データをKafkaバスに転送します。MatrixはこのデータをKafkaバスから読み取り、解析して変換し、ダッシュボードにメモリ情報を表示します。
メモリ使用量がルータに設定されたしきい値を超えると、Matrixはアラームを生成し、異常をKafkaバスに転送します。Vitria AIOpsは、Kafkaバスから異常を読み取ってダッシュボードにインシデントを生成します。これはAIOpsダッシュボードに表示され、メモリ使用率が安全制限を超えたデバイスのホスト名が表示されます。
AIOps GUIから、デバイスをリセットするNetwork Service Orchestrator(NSO)(構成管理システム)デバイスリセットAPIを統合することで、このアラームに対するアクションを実行できます。
ビトリアでもクーリングが行われ、事件は長期間にわたり未解決のままである。この期間内に、Matrixによって同じデバイスで再びリークが報告されない場合、インシデントは自動的に終了します。そうでない場合は、同じプロセスでデバイスをリセットします。このプロセスでは、単一の手動介入は必要ありません。修復全体は、ループ全体がどのように自動化され、最も一貫した方法でリアルタイムに予防的に解決されるのかを示す証拠として機能するクロスドメインコンポーネント自体によって処理されます。
課題
1.クラウドへの移行
クラウドでのアプリケーションのホスティングには、次のような課題があります。
- 新しい運用管理およびセキュリティソリューションが必要
- クラウドエッジの背後にあるユースケースとビジネスモデルを見つける
- クラウドは必要な高スループットをサポートする必要がある
- 運用、プロセス、セキュリティ、可用性は、SPとその顧客の期待に応える必要があります
- クラウドプロバイダーは、サービスをクラウドに移行する設計を容易にするためにソリューションを提供しますが、この設計は適応が困難なことがあります
2.自動化をためらう
- 自動化の必要性を予測できない
- プロバイダーネットワークの複雑さ
要約
5Gネットワークの自動化とオーケストレーションは、ネットワーク設計の初期段階から適切に計画および実装する必要がある複雑なタスクです。
複雑な5Gネットワークでは、タスクを簡素化し、計画、実装、および運用中のエラーの可能性を最小限に抑えるために、自動化とオーケストレーションが必要です。
関連情報