簡介
本文檔介紹在5G部署方案中,閉環自動化如何在基於雲的軟體定義網路中工作。
背景資訊
雲正在顛覆傳統世界中技術的運行方式。隨著5G的出現,服務提供商環境中的模式發生了變化。大多數手動和舊式網路操作方法都致力於實現完全自動化,為網路提供主動邊緣,使其具有自我修復的路由。該文檔提供了一個基於SDN的閉環自動化結構,該結構將思科生態系統的不同產品組合在一起,以便提供即時分析、視覺化和補救,所有這一切都通過雲上部署的解決方案來實現。
5G不僅正在改變移動技術,還為眾多行業創造了巨大的機遇,並為大規模顛覆創造了條件。
5G以更快的速度、更高的頻寬和超低的延遲,顯著增強了日常工作和體驗。
不僅僅是移動世界,5G也超越了行動通訊的範疇,包括了各種形式的通訊服務;事實上,它通過支援所有型別的服務、促進所有部門的經濟變化並利用各種技術(WIFI、4G和無線電技術)來支援數位世界的未來。
本文檔不關注部署階段。重點是5G自動化和端到端可觀察性方面的協調架構。
自動化的必要性
在此階段,5G大多處於測試和部署的初始階段,但需要瞭解相關挑戰。在所有域中運行5G網路所需的網路元素數量非常龐大。大多數5G網路的部署要求實現自動化,以確保實施具有成本效益且效率高並且涉及的所有元件都能無縫操作。
在自動部署方案中,可以消除大部分繁重的預先規劃手動工作。
人工智慧(AI)系統基於機器學習(ML),可以模擬網路在正常和高負載條件下如何運行。
使用運行時效能資料,系統可以確保根據需要自動部署新元素。為了持續最佳化和服務保證,系統可以收集和分析所有型別的裝置饋送並檢查它們的效能,確定它們是否與服務提供商要求和預期的引數匹配。
成功實現自動化有三個關鍵元件。
- 可視性 — 如果無法檢測到效能下降(影響服務品質),而又無法即時瞭解網路中正在發生的事情,那麼便無法對其進行自動化。
- Insight — 網路分析和相關資料的關聯生成了見解,以幫助檢測異常。
- Action — 此階段採取措施來結束循環,以便知道所做的更改具有正確的影響。
其根本是要有保證,其次就是機器學習,它能預測網路要達到的目標,為閉環自動化奠定了基礎。
解決方案概述
推薦的解決方案是一種軟體解決方案,提供行業領先的自動化和保證功能,包括:
- 零接觸調配 — 自動化新裝置啟用、配置生成和網路調配。
- CI/CD工作流 — 配置管理、裝置備份和還原稽核歷史記錄。
- 即時可視性 — 效能統計資料和關鍵效能指數(KPI)的控制面板和報告。
- 故障分析 — 事件重複資料消除、噪音減少、事件關聯、故障管理和根本原因分析。
- 趨勢和預測 — AI/ML模式識別、異常檢測、統計趨勢和預測。
1.解決方案功能和優勢
- 零接觸調配 — 實現大規模部署
- 零接觸自註冊 — 更快的上市時間
- 自動化工作流程(CICD) — 更多的控制,更少的錯誤
- 可觀察性(故障管理、效能管理、拓撲) — 有效的管理和容量規劃
- 事件關聯和降噪 — 閉環補救和自修復網路
2.解決方案元件
- 矩陣(績效管理)
- Vitria(故障管理和保證)
- CNC - Crosswork網路控制器(收集、保證、拓撲)
- 卡夫卡 — 消息匯流排
- 零接觸布建(ZTP)服務保證元件
- 測試自動化架構(TAF)
- 整合入口網站
即使Vitria可以同時執行效能管理和最佳解決方案,Matrix和Vitria都是建議解決方案的一部分,其中Matrix作為工具最適合效能管理,Vitria最適合其故障管理功能。
3.詳細解決方案元件
3.1.矩陣:業績管理
Matrix是由思科開發的一個通用分析框架,它可以輕鬆適應不同型別的資料來源,並允許在解決方案中內建應用分析功能。Matrix的這些關鍵功能允許您根據需要構建或定製使用案例。
3.2. Vitria:故障管理和保證
由於複雜的互連網路是由虛擬和物理基礎架構、內部和公共網路以及相互依賴的應用程式組成的系統,故障管理是一項持續的挑戰。
傳統的故障管理依賴於各自為政的監控工具,這些工具將技術堆疊中的每一層作為單獨的層來處理。每個監控系統生成大量警報。服務可靠性工程師(SRE)檢查警報並確定是否必須開啟票證。
跨系統相互關聯的問題會導致開啟多個票證,並且不同的團隊會採取可能無法解決真正根本原因的行動,從而浪費時間和資源。當最終確定看似獨立的問題可能相關時,會組成跨職能團隊,以確定真正的根本原因,並委託適當的修復代理或任務來解決問題。當這種傳統的故障管理流程發揮作用時,客戶的不滿情緒會攀升。這一緩慢的勞動密集型過程不再有效。它非常耗時且成本高昂。
為了縮短檢測問題的時間、加快解決速度並降低成本,必須攝取、關聯和分析從IT元素到網路和應用程式的整個操作環境中的訊號。有效的故障管理要求跨服務層降低噪音、自動化以降低人工干預水準,以及與現有流程和管理系統的整合。
3.3. Crosswork網路控制器(CNC):收集、保證、拓撲
網路領域的一個新轉折是分段路由的出現,它取代了傳統方式(例如多協定標籤交換(MPLS)),簡化了操作。分段路由通過消除大量協定降低了操作的複雜性,並顯著降低了總體運營成本。
思科的新解決方案系列稱為CNC,是分段路由網路的SDN控制器。一旦網路啟用SR,CNC就會藉助一系列解決方案進入人們的視野,這些解決方案可以幫助人們直觀地顯示網路、部署服務和策略,以及實現許多其他功能。
Cisco CNC使客戶能夠通過通用的GUI和API在多供應商網路環境中簡化和自動化基於意圖的網路服務調配、監控和最佳化。
該解決方案將基於意圖的網路自動化結合起來,以提供用於服務協調和實施的關鍵功能,包括網路最佳化、服務路徑計算、裝置部署和管理,以及通過自動補救進行異常檢測。
完全整合的解決方案結合了多種行業領先創新產品的核心功能,這些產品包括Cisco Network Services Orchestrator(NSO)、Cisco Segment Routing Path Computation Element(SR-PCE)、Cisco Crosswork Data Gateway(CDG)以及Cisco Crosswork的基礎架構和一套應用。其統一的使用者介面允許通過單一平台即時顯示網路拓撲和服務,以及服務和傳輸調配。
Crosswork的原理可以概括為三條自動化原理:
- 可視性
- 深入分析
- 動作
CNC以其強大的解決方案套件為網路的整體控制提供了綜合機制。這些解決方案因頻譜而異,並提供廣泛的功能,滿足前面提到的三個原則。
1.活動拓撲
傳統網路沒有部署後提供網路視覺化的元件。操作員必須物理登入到路由器以檢查各種內容。使用Crosswork的主動拓撲,操作人員可以即時/即時地檢視整個網路的狀態,以及鏈路、利用率、通訊速率、節點和鏈路健康狀態、分段路由(SR)和RSVP策略狀態以及路徑視覺化。操作員現在必須做的就是登入直觀GUI,並隨時掌握網路。
2. Crosswork最佳化引擎(COE)
一種提供網路即時最佳化的解決方案,可幫助運營商高效地管理其網路的利用率。COE的最終目標是實現自我修復網路,無需大量手動干預。
3. Crosswork資料閘道(CDG)
想象一下,擁有成千上萬台可生成大量資料的裝置的龐大網路。由於資料是新的石油,CDG提供了一種從裝置中收集所有此類資料的機制,這些裝置可由Crosswork本身利用,甚至可傳送至其他許多第三方應用程式以進行分析和其他轉換。CDG支援通過SNMP、CLI、gRPC網路管理介面(GNMI)、MDT、系統日誌等多個協定收集資料。
4. Crosswork健康狀況洞察(HI)
隨著網路的運行,傳統模式是在特定的網路事件過後採取被動的操作。這常常給客戶帶來巨大的成本。HI可實現即時KPI監控、生成警報和故障排除的自動效能。使用者可以定義自己的邏輯,然後HI根據它的監控來發出警報。這樣就可以自動洞察網路運行狀況。
5. Crosswork變更自動化
日常手動操作(如應用配置更改、安裝新版本的軟件、升級等)可以自動進行,並使用Change Automation來加速它。這利用了內嵌的Ansible手冊,然後利用Cisco NSO將配置更改推送到裝置。
6. Crosswork零接觸布建(ZTP)
客戶始終支援縮短部署和運營時間表。當您有數萬到數千台新裝置要部署到網路時,Crosswork ZTP會通過完全自動化的調配解決方案來提升整個流程,並加入新的Cisco IOS® XR裝置,而不是通常的手動流程,因為手動流程可能充斥著錯誤和耗時的內容。這些裝置可以設定為第0天配置,然後快速新增到CNC裝置清單,之後這些裝置的監控和管理變得更為容易。
還有一些其他型別的產品與數控系統配合工作,以實現目標。其中一個主要功能是分段路由路徑計算元件(SR-PCE),這是支援SR和RSVP的Cisco IOS XR PCE。事實上,SR-PCE通過BGP-LS協定方便了拓撲的收集,並計算路徑以使CNC能夠充當控制器。
CNC還可以與NSO介面,這有助於將網路意圖轉換為特定於裝置的配置。當與NSO一起使用時,CNC成為力倍增器。
3.4.卡夫卡:資訊匯流排
Kafka監控在Burrow工具的幫助下啟用。 Burrow是Apache Kafka的監控夥伴,它提供消費者延遲檢查服務,無需指定閾值。
它監控所有消費者的已承諾偏移量,並根據需要計算這些消費者的狀態。提供HTTP端點以請求按需狀態以及提供其他Kafka群集資訊。這些API由效能監控(PM)工具輪詢,以便生成使用者延遲監控並提供Kafka群集資訊。
Matrix中還提供Kafka節點的CPU利用率、儲存利用率和記憶體利用率 — 如果超過閾值或檢測到異常,則會傳送警報。
3.5. ZTP:裝置啟用和網路調配
這是自動化新裝置啟用、配置生成和網路調配的過程。
3.6.TAF:測試自動化框架
高級測試自動化框架(TAF)提供了一種在數千台裝置上同時並行運行測試套件的方法,因此無需手動驗證。僅憑手動驗證是無法進行大規模網路部署的,而像這樣的自動化框架可幫助以最有效和受時間限制的方式驗證裝置配置和其他檢查。
操作員只需按一下一個按鈕,便可在數千台裝置上開始數百次測試。測試套件會執行所有已配置的測試,驗證資料,然後在詳細的網路報告中顯示具有「通過/失敗」標準的全部結果。根據報告,操作員可以採取進一步的步驟,藉助其他自動化解決方案來緩解裝置中的這些錯誤。
3.7.統一門戶:通用控制面板
這是一個開放的UI,適用於所有應用程式,因此可以靈活新增、刪除和修改應用程式和圖示,而無需進行開發。
這提供了LDAP身份驗證支援和產品文檔訪問。
協調解決方案
為了實現5G自動化的目標,需要跨域協調來連線組成網路的不同域之間的部件。
一旦傳輸裝置在網路中配置並啟動,就可以利用跨域協調來簡化操作、提高靈活性和效率,而不是採用傳統的手工管理裝置的方法。
網路活動裝置可以按照協定規範連線到CNC,CDG可以通過協定從裝置收集資料。一旦裝置接入CNC,整個L2和L3網路的即時視覺化就變得非常容易。GUI上的顯示與裝置健康狀況的許多方面相關,因此可以輕鬆監控裝置。從裝置收集的資料以預定間隔開始,並且此資料具有豐富的分析值。資料通過SNMP、SSH、MDT、遙測和前面介紹的各種其他模式收集。
然後,此資料可以傳遞到生態系統內的其他應用程式。CNC使得收集的資料可以通過Kafka匯流排傳送到Matrix系統。該集合訂閱了Kafka主題,CDG不斷將其收集的資料分發到此主題,該主題的終點為Matrix。
Matrix有若干個直觀的控制面板,可從這些控制面板直觀地顯示這些資料,還可以執行幾個分析操作。然後,可以通過Cisco Vitria AIOps解決方案將這些資料合併在一起,以進行故障監控。每當檢測到任何故障或異常時,Vitria工具都會主動生成警報,以便進行必要的補救,從而避免重大故障。
在crosswork套件中,某些應用可主動協調傳輸網路中的流量,因此可縮短峰值負載時間中的顯著停機時間。在此類情況下,COE的功能包(如本地擁塞緩解(LCM)和按需頻寬(BWoD))可派上用場。
LCM是一個非常方便的工具,用於緩解網路內的擁塞,並驅動採用備用路徑來釋放過載介面的策略。所有這一切都是自動發生的,使用者不會嘗試在擁塞發生後檢測擁塞。LCM使用可配置的閾值,超過該閾值即被視為擁塞。
一旦介面利用率超過此閾值,LCM就會提供緩解本地介面級別擁塞的建議。該解決方案只注意引導剛剛將擁塞控制在閾值以下的必要流量。這樣做的好處是,介面中的整個流量不會進行分流。使用者可以分析推薦集合,然後選擇最適合的推薦集合。因此,LCM在幫助自動即時清除擁塞的SR-PCE元件的幫助下,啟動戰術性流量設計策略。
BWoD解決方案可與LCM配合使用。如果有傳送語音或影片流量的高優先順序介面,運營商希望確保該路徑始終具有指定的可用頻寬。COE允許使用者建立BWoD策略路徑,並且當BWoD也配置了閾值時,監控每秒啟動一次。一旦突破介面閾值,BWoD就會跳入以建立新的SR策略或重新最佳化現有路徑,以儘量保持分配的頻寬。
以下是最佳化傳輸路徑並簡化傳輸自動化的幾種方案。雖然數控系統可以和其他解決方案結合使用,對資料進行處理和分析,但數控系統的內部元件也可以在高端自動化的運輸網路的培育中發揮重要作用,從而提升網路的可用性和可靠性。
閉環自動化(CLA)使用案例
在任何CLA使用情形中,基本步驟包括:
- 從裝置或源收集資料並將其轉發到消息匯流排。
- 效能管理系統用於實施接收邏輯(分析器)、增強處理流水線,並定義KPI閾值以便檢測特定進程的異常。
- Fault Management Systems(故障管理系統)可以接收檢測到的異常並等待任何事件來呼叫API呼叫以採取措施。
- 修復完成後,效能管理系統檢測流的異常會傳送具有清晰狀態的異常警報。
- 故障管理系統接收警報、清除異常並關閉事件。
以下是此思科解決方案中的流程說明:
關於閉環自動化如何利用跨域Cisco元件發揮作用的實際示例,在裝置記憶體洩漏的情況中得到了最佳說明。此命令show processes memory detail提供路由器中所有進程的記憶體消耗的詳細資訊。
可以在CNC中建立CLI收集作業,以使CDG以使用者指定的順序登入路由器並運行命令show processes memory detail。CDG獲取此命令的輸出,並將資料轉發到Kafka匯流排。Matrix從Kafka匯流排讀取此資料,並對資料進行分析並轉換以在儀表板上顯示記憶體資訊。
當記憶體消耗超過路由器的設定閾值時,Matrix會生成警報並將異常轉發到Kafka匯流排。然後,維特里亞AIOps通過讀取卡夫卡巴士的異常點在其儀表盤上生成事件。這可以在AIOps控制面板中直觀顯示,該控制面板顯示記憶體利用率已超出安全限制的裝置主機名。
在AIOps GUI中,可以通過整合重置裝置的網路服務協調器(NSO)(配置管理系統)裝置重置API對此警報執行操作。
在維特里亞也有冷卻期,事件會持續一段時間。在這段時間內,如果Matrix在同一裝置上再次沒有任何洩漏報告,則事件會自動關閉。如果沒有,則重複重置裝置的相同過程。在此過程中,不需要單一的人工干預,整個補救由跨域元件本身來處理,這些元件可以作為整個環路如何即時自動化和以最一致的方式主動解決問題的證明。
挑戰
1.遷移到雲
在雲中託管應用程式伴隨著挑戰:
- 需要新的運營管理和安全解決方案
- 在雲邊緣尋找使用案例和業務模式
- 雲必須支援所需的高吞吐量
- 運營、流程、安全性和可用性必須滿足SP及其客戶的期望
- 雲提供商提供其解決方案,以簡化將服務遷移到有時難以適應的雲的設計
2.對自動化的猶豫
摘要
5G網路的自動化和協調是一項複雜的任務,必須從網路設計一開始就正確規劃和實施。
5G網路的複雜性要求實現自動化和協調,以簡化任務並在規劃、實施和操作過程中將出錯機率降至最低。
相關資訊