简介
本文档介绍在5G部署方案中,闭环自动化如何在基于云的软件定义网络中工作。
背景信息
云颠覆了传统世界中技术的运行方式。随着5G的出现,服务提供商环境中的模式发生了变化。大部分手动和传统网络操作方法都用于实现完全自动化,为网络提供主动边缘,使其处于自我修复的路由上。该文档提供基于SDN的闭环自动化结构,该结构将思科生态系统的不同产品组合在一起,以便提供实时分析、可视化和补救,所有这些都与在云上部署的解决方案本身结合使用。
5G不仅正在改变移动技术,而且还在为众多行业创造巨大机遇,并为大规模颠覆创造了条件。
5G以更快的速度、更高的带宽和超低的延迟,显着增强了日常工作和体验。
不仅是移动世界,5G还超越了移动通信的范畴,涉及所有形式的通信服务;事实上,它通过支持所有类型的服务、促进所有部门的经济变化并利用各种技术(WIFI、4G和无线电技术)真正支持了数字世界的未来。
本文档不重点介绍部署阶段。重点是5G自动化和协调架构,包括功能和端到端的可观察性。
自动化的必要性
在此阶段,5G大多处于测试和部署的初始阶段,但需要了解相关的挑战。在所有域中运行5G网络所需的网络元素数量非常庞大。大多数5G网络的部署要求实现自动化,以确保实施具有成本效益且效率高且相关组件无缝运行。
在自动部署场景中,可以消除大部分繁重的预先规划手动工作。
人工智能(AI)系统基于机器学习(ML),可以模拟网络在正常和高负载条件下如何运行。
使用运行时性能数据,系统可以确保根据需要自动部署新元素。为了持续优化和服务保证,系统可以收集和分析所有类型的设备馈送并检查它们的性能,确定它们是否与服务提供商要求和预期的参数匹配。
成功实现自动化有三个关键组件。
- 可视性 — 如果无法检测到性能下降(影响服务质量),并且无法实时了解网络中每秒钟发生的情况,则您无法自动执行它。
- 洞察力 — 网络分析和相关数据关联生成的洞察力有助于检测异常。
- 操作 — 此阶段会采取措施来结束环路,以便知道所做的更改产生了正确的影响。
其根本是要有保障,其次是可以预测网络试图实现什么的机器学习,为闭环自动化奠定了基础。
解决方案概述
推荐的解决方案是一种软件解决方案,提供行业领先的自动化和保证功能,包括:
- 零接触调配 — 自动化新设备激活、配置生成和网络调配。
- CI/CD工作流程 — 配置管理、设备备份和还原审核历史记录。
- 实时可视性 — 性能统计数据和关键性能指数(KPI)的控制面板和报告。
- 故障分析 — 事件重复数据消除、噪音减少、事件关联、故障管理和根本原因分析。
- 趋势和预测 — AI/ML模式识别、异常检测、统计趋势和预测。
1.解决方案功能和优势
- 零接触调配 — 实现大规模部署
- 零接触自注册 — 更快的上市时间
- 自动化工作流程(CICD) — 更多控制,更少的错误
- 可观察性(故障管理、性能管理、拓扑) — 有效的管理和容量规划
- 事件关联和降噪 — 闭环补救和自修复网络
2.解决方案组件
- 矩阵(绩效管理)
- Vitria(故障管理和保证)
- CNC-Crosswork网络控制器(收集、保证、拓扑)
- Kafka — 消息总线
- 零接触调配(ZTP)服务保证组件
- 测试自动化框架(TAF)
- 统一门户
即使Vitria可以同时执行性能管理和最佳解决方案,Matrix和Vitria都是推荐解决方案的一部分,其中Matrix作为工具最适合性能管理,而Vitria则最适合其故障管理功能。
3.详细解决方案组件
3.1.矩阵:绩效管理
Matrix是由思科开发的一个通用分析框架,可轻松适应各种数据源,并在解决方案中内置应用分析功能。Matrix具备这些关键功能,您可以根据需要构建或自定义使用案例。
3.2. Vitria:故障管理和保证
由于复杂的网络由虚拟和物理基础设施、内部和公共网络以及相互依赖的应用程序组成的互连系统组成,因此故障管理是一项持续的挑战。
传统的故障管理依赖于各自为政的监控工具,这些工具分别处理技术堆栈中的独立层。每个监控系统生成大量警报。服务可靠性工程师(SRE)检查警报并确定是否必须打开票证。
跨系统相互关联的问题会导致打开多个故障单,并且不同的团队会采取可能无法解决真正根本原因的行动,从而浪费时间和资源。当最终确定看似独立的问题可能相关时,会形成一个跨职能团队,以确定真正的根本原因,并委托适当的修复代理或任务来解决问题。当这种传统的故障管理流程发挥作用时,客户的不满情绪会攀升。这一缓慢、劳动密集型的过程已不再有效。它非常耗时且昂贵。
为了缩短检测问题所需的时间、加快解决速度并降低成本,必须摄取、关联和分析从IT元素到网络和应用程序的整个操作环境中的信号。有效的故障管理要求跨服务层降低噪音、自动化以降低人工干预水平,以及与现有流程和管理系统的集成。
3.3. Crosswork Network Controller(CNC):收集、保证、拓扑
网络世界的新转折是分段路由的出现,它通过取代传统方式(如多协议标签交换[MPLS])简化了操作。分段路由通过消除大量协议降低了操作的复杂性,并显着降低了整体运营成本。
思科的新解决方案系列称为CNC,是分段路由网络的SDN控制器。网络启用了SR后,CNC将借助一系列解决方案进入人们的视野,这些解决方案有助于人们直观地了解网络、部署服务和策略,以及大量其他功能。
Cisco CNC使客户能够通过通用的GUI和API,在多供应商网络环境中简化并自动执行基于意图的网络服务调配、监控和优化。
该解决方案将基于意图的网络自动化结合起来,以提供用于服务协调和实施的关键功能,包括网络优化、服务路径计算、设备部署和管理,以及具有自动补救功能的异常检测。
完全集成的解决方案结合了多种行业领先创新产品的核心功能,包括思科网络服务协调器(NSO)、思科分段路由路径计算元素(SR-PCE)、思科交叉工作数据网关(CDG)和思科交叉工作基础设施,以及一套应用。其统一的用户界面允许通过单一管理平台实时显示网络拓扑和服务,以及服务和传输调配。
Crosswork的原理可以概括为三个自动化原则:
- 可视性
- 见解
- 操作
CNC及其强大的解决方案套件为网络的整体控制提供了全面的机制。这些解决方案因频谱而异,提供广泛的功能,满足前面提到的三个原则。
1.活动拓扑
传统网络没有部署后提供网络可视化的组件。操作员必须物理登录到路由器才能检查各种内容。借助交叉工作的活动拓扑,运营商可以实时/实时地查看整个网络以及链路、利用率、流量速率、节点和链路健康状态、分段路由(SR)和RSVP策略状态以及路径可视化。操作员现在必须做的就是登录直观的GUI,并掌握网络。
2. Crosswork优化引擎(COE)
一种提供网络实时优化的解决方案,可帮助运营商有效地管理其网络的利用率。COE的最终目标是实现自我修复网络,无需大量人工干预。
3. Crosswork数据网关(CDG)
想象一下,拥有包含成千上万台设备的庞大网络,这些设备会生成大量数据。由于数据是新机油,CDG提供了一种从设备中收集所有这些数据的机制,这些设备可供Crosswork本身利用,甚至可发送至其他许多第三方应用程序以供分析和其他转换。CDG支持通过SNMP、CLI、gRPC网络管理接口(GNMI)、MDT、系统日志等多个协议收集数据。
4. Crosswork Health Insights
在网络运行的情况下,传统模式是在特定网络事件过后采取被动操作。这通常会给客户带来巨大的成本。HI支持实时KPI监控、警报生成和故障排除的自动性能。用户可以定义自己的逻辑,然后HI根据其监控发出警报。这样可以自动洞察网络运行状况。
5.交互工作变更自动化
日常的手动操作(如应用配置更改、安装新版本的软件、升级等)可以自动化,并随着变更自动化的使用而加速。这利用了内嵌的Ansible手册,然后利用Cisco NSO将配置更改推送到设备。
6. Crosswork零接触调配(ZTP)
客户始终支持缩短部署和运营时间表。当您有数万到数千台新设备要部署到网络时,Crosswork ZTP会通过完全自动化的调配解决方案加速整个过程,并加入新的Cisco IOS® XR设备,而不是通常的手动过程,因为手动过程可能会出错且耗时。这些设备可以启用第0天配置,然后快速添加到CNC设备清单,之后这些设备的监控和管理变得更加轻松。
还有一些其他系列的产品与CNC配合工作以实现目标。其中主要是Segment Routing Path Computation Element(SR-PCE),它是支持SR和RSVP的Cisco IOS XR PCE。事实上,SR-PCE通过BGP-LS协议简化了拓扑的收集,并计算路径以使CNC能够充当控制器。
CNC还可以与NSO交互,这有助于将网络意图转换为特定于设备的配置。当与NSO一起使用时,CNC成为力倍增器。
3.4. Kafka:信息总线
Kafka监控在Burrow工具的帮助下启用。 Burrow是Apache Kafka的监控伴侣,它将消费者滞后检查作为一项服务提供,无需指定阈值。
它监控所有消费者的已承诺偏移量,并根据需要计算这些消费者的状态。提供HTTP终端以请求按需状态以及提供其他Kafka集群信息。这些API由性能监控(PM)工具轮询,以生成消费者延迟监控并提供Kafka集群信息。
Kafka节点的CPU利用率、存储利用率和内存利用率在Matrix中也是可用的 — 如果超过阈值或检测到异常,则会发送警报。
3.5. ZTP:设备激活和网络调配
这是自动化新设备激活、配置生成和网络调配的过程。
3.6.TAF:测试自动化框架
高级测试自动化框架(TAF)提供了一种在数千台设备上同时并行运行测试套件的方法,因此无需手动验证。仅凭手动验证是无法扩展大型网络部署的,而像这样的自动化框架可帮助以最有效和受时间限制的方式验证设备配置和其他检查。
操作员只需单击一个按钮,便可在数千台设备上开始数百次测试。该测试套件会执行所有已配置的测试,验证数据,然后在详细的网络报告中显示具有PASS/FAIL标准的全部结果。根据报告,操作员可以采取进一步措施,在其他自动化解决方案的帮助下缓解设备中的这些错误。
3.7.统一门户:通用控制面板
这是适用于所有应用程序的开放用户界面,可以灵活地添加、删除和修改应用程序和图标,而无需进行开发。
这可以提供LDAP身份验证支持和产品文档访问。
协调解决方案
为了实现5G自动化的目标,需要跨域协调来连接组成网络的不同域之间的各个部分。
一旦传输设备在网络中配置并启动,就可以利用跨域协调来简化操作、提高灵活性和效率,而不是采用传统的手动设备管理方式。
网络活动设备可以按照协议规范连接到CNC,CDG可以通过协议从设备收集数据。一旦设备接入CNC,整个L2和L3网络的实时可视化就变得非常简单。GUI上与设备运行状况的许多方面相关的显示可简化对设备的监控。从设备收集的数据以预定的时间间隔开始,该数据具有丰富的分析值。数据通过SNMP、SSH、MDT、遥测和之前介绍的各种其他模式收集。
然后,这些数据可以传递到生态系统中的其他应用。CNC使收集的数据通过Kafka总线发送到矩阵系统成为可能。该集合订阅了Kafka主题,并且CDG不断将其收集的数据分发到此主题,该主题的终端为Matrix。
Matrix有多个直观的控制面板,可以从这些控制面板直观地查看数据,还可以执行多个分析操作。然后,可通过Cisco Vitria AIOps解决方案将这些数据整合在一起,以进行故障监控。每当检测到任何故障或异常时,Vitria工具都会主动生成警报,以便进行必要的补救,从而避免重大故障。
在crosswork套件中,某些应用可以主动协调传输网络中的流量,从而缓解高峰负载时间中的显着停机时间。COE的功能包(如本地拥塞缓解(LCM)和按需带宽(BWoD))在此类场景下会得到补救。
LCM是一个非常方便的工具,可以缓解网络内的拥塞,并驱动采用备用路径来释放过载接口的策略。所有这一切都会自动发生,用户无需在拥塞发生后尝试检测拥塞。LCM使用可配置的阈值,超过该阈值即被视为拥塞。
一旦接口利用率超过此阈值,LCM就会提供缓解本地接口级别拥塞的建议。该解决方案只关注将拥塞控制在阈值以下所需的流量。这样做的好处是接口中的整个流量不会被转移。用户可以分析推荐集合,然后选择最适合的推荐集合。因此,LCM借助SR-PCE组件启动战术流量工程策略,帮助实时自动清除拥塞。
BWoD解决方案可与LCM配合使用。如果有传送语音或视频流量的高优先级接口,运营商希望确保该路径始终具有指定数量的可用带宽。COE使用户能够创建BWoD策略路径,当BWoD也配置了阈值时,监控每秒启动一次。一旦超过接口阈值,BWoD就会跳入以创建新的SR策略或重新优化现有路径,以尽量保持分配的带宽。
以下是优化传输路径并简化传输自动化的几种方案。CNC可以与其他解决方案结合使用,对数据进行处理和分析,而CNC的内部组件也可以通过高端自动化在运输网络的培育中发挥很大作用,从而提升网络的可用性和可靠性。
闭环自动化(CLA)使用案例
在任何CLA使用案例中,基本步骤包括:
- 从设备或源收集数据并将其转发到消息总线。
- 性能管理系统用于实施摄取逻辑(解析器)、增强处理管道,并定义KPI阈值以便检测特定进程的异常。
- Fault Management Systems可接收检测到的异常并等待任何事件以调用API调用以采取行动。
- 完成补救后,性能管理系统检测流的异常会发送具有清晰状态的异常警报。
- 故障管理系统接收警报、清除异常并关闭事件。
下面是此思科解决方案中流量的描述:
在设备内存泄漏的情况下,最能说明闭环自动化如何利用跨域思科组件进行工作。该命令show processes memory detail,提供路由器中所有进程的内存消耗的详细信息。
可以在CNC中创建CLI收集作业,以使CDG以用户指定的顺序登录路由器并运行命令show processes memory detail。CDG获取此命令的输出并将数据转发到Kafka总线。Matrix从Kafka总线读取此数据,然后对其进行解析和转换,以在控制面板上显示内存信息。
当内存消耗超过路由器的设置阈值时,Matrix会生成警报并将异常转发到Kafka总线。然后,Vitria AIOps通过读取Kafka公交车的异常生成了仪表盘上的事件。这可在AIOps控制面板中直观显示,该控制面板显示内存利用率已超过安全限制的设备的主机名。
从AIOps GUI中,可以通过集成网络服务协调器(NSO)(配置管理系统)设备重置API(用于重置设备)对此警报执行操作。
在维特里亚,还有一个凉爽的时期,这个事件仍会持续一段时间。在这段时间内,如果Matrix未报告同一设备上再次出现任何泄漏,则事件会自动关闭。否则,重复重置设备的相同过程。在此过程中,不需要单一的人工干预,整个补救由跨域组件本身来处理,这些组件可以证明如何实时地以最一致的方式自动化和主动解决整个环路。
挑战
1.迁移到云
在云中托管应用伴随着以下挑战:
- 需要新的运营管理和安全解决方案
- 在云边缘后寻找使用案例和业务模式
- 云必须支持所需的高吞吐量
- 运营、流程、安全性和可用性必须满足SP及其客户的期望
- 云提供商提供其解决方案,以简化将服务迁移到有时难以适应的云的设计
2.对自动化的犹豫不决
摘要
5G网络的自动化和协调是一项复杂的任务,必须从网络设计之初就正确规划和实施。
5G网络的复杂性要求实现自动化和协调,以简化任务并在规划、实施和操作过程中将出错几率降至最低。
相关信息