思科领先实践是一组规范化的文档,为思科产品和解决方案的网络运营提供相关且可靠的指导。这些领先实践由屡获殊荣的Cisco TAC和高级服务工程师开发和支持,可用于帮助创建您自己的一套领先实践以进行仿真。思科客户已在其网络环境中应用这些领先实践,以获得网络性能和可用性。
强烈建议使用思科及其合作伙伴提供的服务来补充这些领先实践。有关如何优化网络性能和可用性的详细信息,请联系您的服务销售代表,了解思科高级服务网站并了解有关网络优化支持-重点工程支持、网络可用性改进支持(NAIS)、软件管理流程评估(SMPA)和NAIS-SMPA实施的详细信息。
围绕软件管理的运营流程有助于降低网络复杂性,减少被动式支持问题,并缩短解决问题的时间。本文档提供总体管理Cisco IOS®软件(Cisco IOS)的策略、工具建议和最佳实践。
本文档的创建Cisco IOS管理操作策略和遵循最佳实践Cisco IOS管理操作过程部分讨论了入门的推荐方法,并列出了用于操作阶段的最佳工具。运营阶段包括以下方面的最佳实践流程:
Process | 描述 |
---|---|
软件版本控制 | 跟踪、验证和改进已确定的软件“跟踪”内的软件一致性。 |
故障管理 | 主动监控并根据Cisco IOS生成的更高优先级的SNMP和Syslog消息采取行动。 |
问题管理 | 快速高效地收集与软件相关问题的关键问题信息,以帮助防止将来再次发生此类问题。 |
配置标准化 | “标准化”配置以降低在生产中执行未经测试的代码的可能性,并标准化网络协议和功能行为。 |
可用性管理 | 根据度量标准、改进目标和改进项目提高可用性 |
本文档假定您已为Cisco IOS的规划、设计和实施实施了以下最佳实践流程:
根据平台、模块、功能、协议和拓扑要求确定环境中的可管理软件区域(软件路径)。
根据软件路径选择、认证并传达思科IOS版本。
在每个软件路径中一致地实施标准Cisco IOS版本。
本部分帮助您管理和维护所定义的路径内的标准化Cisco IOS版本。您将学习如何:
开发软件版本控制流程,确保所识别软件路径内的软件版本一致性。
根据设备故障管理消息和警报(SNMP/Syslog)监控、通知和解决流程,帮助主动解决潜在的软件和故障问题。
有效收集软件的关键问题信息,帮助缩短软件相关问题的解决时间。
对设备配置进行标准化,以帮助确保环境的协议、功能、访问和安全一致性。
本文档适用于具有技术指导并负责网络日常运营的个人和经理。本文档介绍如何建立运营流程,通过构建网络一致性和改进主动故障管理功能,帮助您降低网络复杂性、减少被动支持问题并缩短解决问题的时间。
参与Cisco IOS管理操作的人员应具备网络基础设施设计和管理的扎实知识,特别是思科设备,并且必须能够访问目标网络的拓扑、设备配置、活动配置文件、应用使用以及资源利用策略的详细信息。还需要访问Cisco Connection Online (CCO)上提供的信息工具,并体验。如果您尚未向CCO注册,我们建议您这样做,以便访问本文档中介绍的工具。
有许多质量策略和工具可以帮助管理Cisco IOS环境。本章重点介绍在高可用性环境中管理Cisco IOS操作的三个主要策略,并包括一系列特别有助于管理Cisco IOS和Cisco IOS问题的关键操作工具。
第一个关键策略是尽可能保持环境简单,尽可能避免配置和Cisco IOS版本发生变化。Cisco IOS认证已经讨论过,但配置一致性是另一个关键领域。架构/工程组应负责创建配置标准。然后,实施和操作组负责通过Cisco IOS版本控制和Cisco IOS配置标准/控制来配置标准和维护标准。
第二个关键策略是能够识别和快速解决网络故障。运营小组一般应在用户报告网络问题之前发现问题,并且应在没有进一步影响或改变环境的情况下尽快解决问题。此领域的两个关键最佳做法是问题管理和故障管理(本文档稍后将介绍这两种做法)。
注意:Cisco IOS堆栈解码器工具可用于帮助快速诊断Cisco IOS软件崩溃。
第三项关键战略是“不断改进”。主要流程是改进基于质量的可用性改进计划。通过对所有问题(包括与Cisco IOS相关的问题)执行根本原因分析,组织可以提高测试覆盖率、缩短问题解决时间,并改进消除或减少中断影响的流程。组织还可以查看常见问题并构建流程来更快地解决这些问题。
Cisco IOS软件管理操作流程的交付内容包括:
软件版本控制流程和工具
故障管理监控和流程
问题管理流程
设备配置标准和审核流程
网络可用性方法、报告和审核流程
衡量标准应作为运营计划的一部分定义,并用于确定工具和流程能否产生预期结果。以下是一些有用的Cisco IOS软件管理指标的示例:
网络可用性(由于软件问题)
符合标准的Cisco IOS版本百分比(基于每个路径)
%设备配置一致性(基于标准)
问题管理指标(MTTR、故障单数量、关闭代码)
确定、确认并组建一个跨职能部门的经理和/或来自网络架构、网络工程和实施/运营部门的销售线索,帮助确保IOS升级项目的规划、设计、实施和运营阶段取得成功。
组建一个跨职能部门的经理小组和/或来自网络管理、网络工程、实施和运营小组的销售线索,帮助完成Cisco IOS管理项目的运营阶段。
网络管理器:
经理姓名、部门和联系信息
主要备份名称、部门、联系人信息
备用名、部门、联系信息(如果需要)
网络架构师:
架构师姓名、部门和联系信息
主要备份名称、部门、联系人信息
备用名、部门、联系信息(如果需要)
网络工程师:
工程师姓名、部门和联系信息
主要备份名称、部门、联系人信息
备用名、部门、联系信息(如果需要)
网络运营(NOC)工程师:
工程师姓名、部门和联系信息
主要备份名称、部门、联系人信息
备用名、部门、联系信息(如果需要)
网络管理员负责:
维护项目计划
分配/重新分配资源
管理变更控制
管理进度
管理预算报告
网络架构师负责:
分析网络标准和版本警告
维护软件升级表
维护候选管理矩阵
维护内存要求表
网络(NOC)工程师负责:
实施并确保遵守网络标准
确定软件问题和根本原因
建议纠正措施
监控网络
应在业务阶段确定资源需求,以支持本组织的软件管理战略。这将包括支持软件策略所需的人员时间和资本支出。
在许多情况下,可以根据停机时间的成本和可用性要求生成软件管理实践的投资回报(ROI)或预算计划。如果组织可以确定因软件问题造成的停机时间,则可以通过确定的软件管理最佳实践来抵消此成本中的大部分。如果无法完全抵消成本,则组织应考虑更基本的软件管理策略,通过防止因软件问题而产生额外返工,来帮助提高工作效率。
遵循Cisco IOS管理操作流程的最佳实践包括:
最佳实践 | 详细信息 |
---|---|
软件版本控制 | 仅实施标准化的软件版本并监控网络,以验证或可能由于不合规版本而更改软件。 |
故障管理 | SNMP和Syslog消息收集、监控和分析是推荐的故障管理流程,用于解决更难通过其他方式识别或无法识别的Cisco IOS特定网络问题。 |
问题管理 | 详细的问题管理流程,用于定义问题识别、信息收集和经过充分分析的解决方案路径。此数据用于确定根本原因。 |
配置标准化 | 配置标准代表创建和维护标准“全局”配置参数的实践,这些参数跨越诸如设备和服务,从而实现企业范围的全局配置一致性。 |
可用性管理 | 使用网络可用性作为质量改进指标的质量改进。 |
软件版本控制是仅实施标准化软件版本并监控网络以验证或可能由于不合规软件而更改软件的过程。一般而言,软件版本控制是通过使用认证流程和标准控制来实现的。许多组织在中央Web服务器上发布版本标准。此外,还会培训实施人员,让他们检查正在运行的版本,并在版本不符合标准时进行更新。一些组织制定了质量门程序,通过审计完成二级验证,以确保在实施过程中遵循该标准。
在网络运行期间,网络中经常会看到非标准软件版本,尤其是当网络规模大、运行人员多时。这可能是由于以下原因之一:
未经培训的新员工
错误配置的引导命令
未检查的实施
建议使用可按Cisco IOS版本对所有设备排序的工具(例如CiscoWorks2000 Resource Manager Essentials (RME))定期验证软件版本标准。当识别出非标准版本时,应立即标记该版本,并启动故障通知单或更改通知单,以便将该版本变为已识别的标准。
可用工具
CiscoWorks2000 RME库存管理器通过基于网络的报告工具(根据软件版本、设备平台和设备名称对设备进行报告和排序)极大地简化了Cisco路由器和交换机的Cisco IOS版本管理。
故障管理是收集、监控和分析SNMP和Syslog消息以解决更多难以或无法通过任何其他方式识别的Cisco IOS特定网络问题的过程。
SNMP陷阱收集
SNMP陷阱收集和通知是故障管理中的基本过程,用于识别软件或硬件事件和/或崩溃,而不产生SNMP轮询开销或轮询间隔延迟。陷阱消息直接从网络设备生成到提供通知服务的网络管理系统。收集并通知这些陷阱对于快速解决许多网络事件至关重要,包括不影响用户的事件,如主设备或冗余环境中的链路丢失。
为了收集和监控这些陷阱,必须在设备和网络管理系统上正确配置陷阱。收到陷阱后,网络管理系统应通知网络操作组。在NOC环境中,通知可以以分页、电子邮件或事件屏幕的形式出现。
无论数据如何显示,网络运营和/或网络支持人员都必须定期(最好每天)分析和审查这些故障实例或异常。应调查发现的所有异常的原因。某些记录的异常可能并不重要,不足以立即在网络运行中心发出警报。主动审查、调查和解决次要异常可以帮助网络支持团队减少或防止网络中断。
系统日志消息收集
设备将系统日志消息发送到收集服务器。这些消息可能是硬件或软件错误,也可能是信息性的(例如当有人正在设备上配置终端时)。
系统日志监控需要网络管理系统(NMS)工具支持或脚本来帮助分析和报告系统日志数据。其中包括按日期或时间段、设备、系统日志消息类型或消息频率对系统日志消息进行排序的功能。在大型网络中,可以实施工具或脚本来解析系统日志数据,并向事件管理系统或运营和工程人员发送警报或通知。如果未使用针对各种系统日志数据的警报,组织应至少每天查看更高优先级的系统日志数据,并创建潜在问题的故障单。为了主动检测通过正常监控可能无法发现的网络问题,应定期查看和分析系统日志历史数据,以检测可能并不表示当前问题,但可能是在问题变得影响服务之前提供问题的指示的情况。
可用工具
一些比较常用的SNMP陷阱接收器工具包括:
惠普的HP OpenView Network Node Manager,网址为openview.hp.com
Aprisma提供的频谱完整性,请访问www.aprisma.com
IBM Tivoli提供的NetView,网址为www.tivoli.com
CiscoWorks2000 RME系统日志管理器是最常用的Cisco IOS管理系统日志工具。其他可用工具包括SL4NT、www.netal.com的共享软件程序(留下cisco.com)和OpenSystems的专用I(www.opensystems.com)
问题管理是故障管理的一个方面,它是指从问题发生时到识别、故障排除、解决和关闭时管理问题的规则。
许多客户会因缺乏问题管理流程而经历额外的停机时间。当网络管理员尝试使用影响服务的命令或配置更改组合快速解决问题,而不是将时间花费在问题识别、信息收集和经过充分分析的解决方案路径上时,就会发生额外的停机时间。此区域中观察到的行为包括重新加载设备或在调查问题及其根本原因之前清除IP路由表。在某些情况下,这是由第一级支持问题解决目标导致的。所有软件相关问题的目标都应该是快速收集恢复连接或服务之前进行根本原因分析所需的必要信息。
建议使用问题管理流程,在将问题升级到第二级支持之前,该流程应包含一定程度的默认问题描述和适当的“show”命令集合。第一级支持绝不能包括清除路由或重新加载设备。理想情况下,第一级支持组织应快速收集信息,然后将问题上报给第二级支持。在第一级支持中,花费更多的时间找出并描述问题,这样更有可能发现根本原因,从而提供解决方法、实验室识别和漏洞报告。第二级支持应精通思科可能需要诊断问题或提交漏洞报告的信息类型,包括:
内存转储
路由信息输出
Device show命令输出
全球设备配置标准代表一种实践,即维护跨设备和服务的标准“全局”配置参数,从而实现企业范围的全局配置一致性。全局配置命令是应用于整个设备(而不是单个端口、协议或接口)的命令,通常会影响设备访问、常规设备行为和设备安全。在Cisco IOS中,这包括以下命令:
服务
IP
VTY
控制台端口
日志记录
AAA/TACACS+
SNMP
横幅
在全局设备配置标准中,另一个重要的问题是适当的设备命名约定,允许管理员根据设备的DNS名称确定设备、设备类型和设备位置。全局配置一致性对网络环境的整体可支持性和可靠性非常重要,因为它有助于降低网络复杂性并增强网络可支持性。由于设备行为不正确或不一致、SNMP访问和常规设备安全,通常会在没有配置标准化时遇到支持困难。
维护全局设备配置标准通常由内部工程或运营团队来完成,该团队会为类似网络设备创建并维护全局配置参数。在TFTP目录中提供全局配置文件的副本也是一种好的做法,这样最初就可以将它们下载到所有新调配的设备上。此外,可通过Web访问的文件也非常有用,它可为标准配置文件提供每个配置参数的说明。某些组织会定期配置所有类似设备,以帮助确保全局配置一致性,或定期检查设备是否符合正确的全局配置标准。
接口或协议配置标准代表维护接口和协议配置标准的做法,通过降低网络复杂性、提供预期的设备和协议行为以及提高网络可支持性来提高网络可用性。接口或协议配置不一致可能导致意外的设备行为、流量路由问题、连接问题增加和反应性支持时间延长。
接口配置标准可能包括:
CDP(思科发现协议)
接口描述符
缓存配置
其他协议特定标准
特定于协议的配置标准可能包括:
IP路由配置
DLSW配置
访问列表配置
ATM配置
帧中继配置
生成树配置
VLAN分配和配置
VTP(虚拟中继协议)
HSRP(热备份路由协议)
其他取决于网络中的配置
IP标准的示例可能包括子网大小、使用的IP地址空间、使用的路由协议和路由协议配置。
维护协议和接口配置标准通常由网络工程和实施组负责。工程小组应负责识别、测试、验证和记录标准。然后,实施小组负责使用工程文档或配置模板调配新服务。工程小组应创建所需标准所有方面的文档,以确保一致性。还应创建配置模板,以帮助实施配置标准。操作组还应接受有关标准的培训,并能够识别非标准配置问题。在测试、验证和认证阶段,配置一致性非常有帮助。如果没有标准化的配置模板,则几乎不可能充分测试、验证或认证适用于中等规模网络的Cisco IOS版本。
可用性管理是使用网络可用性作为质量改进度量的质量改进过程。许多组织现在都在测量可用性和中断类型。中断类型可能包括:
Hardware
软件
链路/运营商
电源/环境
设计
用户错误/进程
通过在恢复后立即确定故障并执行根本原因分析,组织可以确定提高可用性的方法。几乎所有实现高可用性的网络都实施了某种质量改进过程。
步骤 2: 评估Cisco IOS软件管理实践的当前状态(仅限注册客户)
第4步:制定软件管理项目计划(仅限注册客户)
为了帮助客户获取其他有价值的Cisco IOS相关信息,我们创建了一个附录,例如:Cisco IOS基础知识、Cisco internal Cisco IOS软件流程、软件可靠性分析、Cisco internal quality program、Cisco internal testing methods,以及一个显示当前行业惯例和Cisco IOS软件总体客户体验的现场分析
Cisco IOS管理:有关Cisco IOS管理和最佳实践的更多信息,请参阅以下网站的“Cisco IOS高可用性网络管理”白皮书:http://www.cisco.com/en/US/tech/tk869/tk769/technologies_white_paper09186a00800a998b.shtml
有关如何运行网络探针、要使用哪些CLI命令、如何分析和解释网络流量数据以及如何建立应用程序使用策略的具体信息,请访问http://www.cisco.com。此网站提供全面的支持、培训、技术参考和咨询解决方案。
Cisco IOS具有此处定义的特定命名约定:http://www.cisco.com/en/US/products/sw/iosswrel/ps1818/products_tech_note09186a0080101cda.shtml
有关Cisco IOS版本可用性的信息如下:http://www.cisco.com/en/US/products/sw/iosswrel/products_ios_cisco_ios_software_releases.html
Cisco IOS版本最终会从CCO中删除,并且无法再订购。请务必根据客户期望进行设置。
Cisco IOS产品公告用于向客户发布Cisco IOS版本。它们包含有关发布内容的简短信息。请查看此处,了解新的Cisco IOS版本http://www.cisco.com/en/US/products/sw/iosswrel/products_ios_cisco_ios_software_releases.html的可用性
产品安全事件响应团队处理思科产品的安全事务。任何与Cisco IOS安全相关的问题都应提交给该团队。思科公开发布其安全漏洞。http://tools.cisco.com/security/center/publicationListing
Cisco IOS缺陷:严重的Cisco IOS缺陷应建议延期。任何思科员工均可作出推荐。
有关Cisco IOS的现场问题可通过Cisco IOS公告通知客户。http://www.cisco.com/en/US/products/products_security_advisory09186a0080b20ee1.shtml
Cisco IOS功能:借助功能导航器工具,客户可以查找支持特定功能的版本,反之亦然。http://tools.cisco.com/ITDIT/CFN/jsp/index.jsp
Cisco Software Advisor使客户能够找到功能的软件支持或硬件的软件支持。http://tools.cisco.com/Support/Fusion/FusionHome.do(仅限注册客户)