简介
本文档介绍几个与路由和平台相关的问题,以及从IOS和IOS-XE路由器收集相关数据、调试或show命令的步骤。在技术支持中心(TAC)服务请求(SR)上提前提供此信息,可帮助您顺利解决问题。
前提条件
要求
Cisco 建议您了解以下主题:
- 基本了解IOS和IOS-XE路由器上的传统路由功能
- 用户必须拥有命令行界面(CLI)访问权限或对IOS和IOS-XE路由器的操作权限
使用的组件
本文档中的信息基于以下平台:
- ASR1000
- ISR4000
- ISR1000
- CSR1000v
- 传统IOS平台(ISRG1/G2)
请求的基本信息
- 问题从何时开始?
- 问题是由什么引发的?
- 记录问题出现之前所做的任何最新更改。
- 注意可能已发生并触发问题的任何特定操作或事件。
- 问题的发生频率是多少?
- 这是一次性事件吗?
- 如果不是,问题发生的频率是多少?
- 这是否与任何其他网络事件或操作相对应?
- 有多少用户受到影响/业务影响?
- 您自己是否执行了任何故障排除(解释步骤)?
- 相关设备的拓扑结构是什么/如何?
路由器和IOS-XE架构
下面是IOS和IOS-XE路由器上报告的一些常见问题,以及每个路由器的有用输出,除“Show Tech”外,还应收集这些输出。
这些输出有助于我们确保在出现问题时收集相关数据。如果问题不是持久性的,则情况尤其如此,这意味着问题可能会在TAC投入使用时消失。
IOS-XE意外重新加载
问题报告:设备上出现意外重新加载或崩溃。除了对“要求的基本信息”部分的反馈外,我们还需要以下信息:
- 收集“show tech”
- 检查Bootflash/硬盘,并收集任何崩溃或核心文件(如果生成):
Router#show bootflash: |崩溃
Router#show bootflash: |核心
- 将tracelogs存档到bootflash并收集它。跟踪文件用于存储跟踪数据。可能需要几分钟才能完成收集。
Router#request platform software trace rotate all
Router#request platform software trace slot rp active archive target bootflash:
- 问题期间的外部系统日志数据。
我们还可以选择收集在发现崩溃(16.11.x及更高版本)后在bootflash中自动创建的System-report包。系统报告捆绑包将收集更多信息,如下所示(位于tar文件中):
- 跟踪日志
- 栗色统计信息
- 核心/崩溃文件
- RP/青色日志
注意: 随着16.11及更高版本的进一步可维护性增强,一旦在设备上发生崩溃,它会自动收集“系统报告”捆绑包。
Router#sh bootflash: |在sys中
12 2020年10月20日45 05:08:05.0000000000 +00:00 /bootflash/core/system-report_20201020-050805-UTC.tar.gz <<<
IOS-XE引导故障
问题报告:在设备中观察到任何组件的启动故障。有时,可能是RP(路由处理器)陷入启动循环,从而不允许登录设备。
- 如果您能够登录设备,请收集“show tech”命令
- 连接到控制台并收集“控制台日志”。
- 提供LED状态信息。
注意:如果我们无法登录设备,这一点至关重要
- 如果可以访问站点,请尝试重新安装模块(例如RP、ESP或SIP/SPA)并收集控制台日志。
- 如果除RP外的任何其他模块出现启动故障,请登录设备并使用以下命令尝试软件日志并收集“show logging”
Router#hw-module slot <slot-num> reload
Router#hw-module subslot <slot-num/subslot num> reload
IOS-XE软件版本选择帮助
问题报告:需要升级设备上的IOS,您需要帮助选择一个IOS。
- 在这些情况下,我们需要登录CCO页面并检查特定平台的Suggested(Star Marked)版本。
- 或者,如果我们查找IOS-XE路由器的建议,您可以使用以下链接:
- 在需要从3.x升级到16.x版本的IOS帮助的情况下,您可以参考以下链接:
IOS-XE内存泄漏
问题报告:设备上存在内存相关问题。有时,我们可能会遇到与特定组件上的高内存利用率相关的错误。本部分结合了在排除内存泄漏故障或监控IOS-XE路由器上的内存时最有用的命令。
有关使用IOS-XE内存的一般情况,请参阅:
通过近期的一些可维护性工作,我们可以收集16.9.x版及更高版本的“Show Tech Memory”。
- 如果您能够登录设备,请收集“Show tech”命令。
- show platform software status control-processor brief
- show platform software process list rp active sort memory
- show platform software process memory rp active all sort
- show platform software process slot rp active monitor cycles 2
- show platform software process list fp active summary
- show platform software process slot fp active monitor cycles 2
- show platform hardware qfp active infrastructure exmem statistics
- show platform hardware qfp active infrastructure exmem statistics user
- show platform hardware qfp active tcam resource-manager usage
- show platform hardware qfp active classification feature tcam-usage
- show platform hardware qfp active classification class-group-manager class-group all
16.2及以下更高版本中引入的最近可维护性是可以收集的新cli:
- show platform resources
- show memory platform
- show process memory platform sorted
- show process cpu platform monitor cycles 2
- show process memory platform sorted location fp active
注意:我们说“循环2”,因为第一组值将不准确
IOS-XE ISSU升级
问题报告:ISSU代表系统从一个版本到另一个版本的完整或部分软件升级,转发平面上的中断最少(数据包丢失最少),控制平面上没有中断。本节重点介绍如何帮助您进一步升级ISSU:
IOS-XE设备许可
问题报告:设备上的许可存在问题。最常见的问题包括“许可证未安装”、许可证文件未被视为永久等。本部分将重点介绍我们解决许可证问题可能需要的最低限度输出:
- show tech-support licenses
注意:此命令通过后期代码的可维护性引入(对于ASR1K :16.9.x和适用于ISR4K:16.12.x)。
- show license all
- show license version
- show license summary
- 显示许可证状态
- show license usage
- show license udi
路由协议问题
下面是IOS和IOS-XE路由器上报告的一些常见问题,以及每台路由器的有用输出,除“Show Tech”外,还应收集这些输出。
这些输出有助于我们确保在出现问题时收集相关数据。如果问题不是持久性的,则情况尤其如此,这意味着问题可能会在TAC投入使用时消失。
BGP/EIGRP/OSPF/静态路由
问题报告:对于路由协议的故障排除,主要取决于我们要调查的问题类型,以及应重点关注在“请求的基本信息”一节之后提供尽可能多的数据。与其和“Show tech”一起,我们可以收集协议特定输出,如下所示:
调试输出中显示“BGP |
Show tech-support bgp |
EIGRP |
Show ip eigrp events Show ip eigrp interfaces Show ip eigrp neighbors Show ip eigrp topology Show ip eigrp traffic |
OSPF |
Show tech-support ospf |
静态路由 |
Show tech-support |
注意:“show tech bgp”已引入某些较新版本,因此如果此命令未在正在运行的IOS上运行,请通过“Base Information Requested”部分提供同样多的信息。
我们还可以选择使用以下内容为一些常见场景执行基于流的BGP故障排除:
EIGRP邻居抖动问题:
问题报告:这是EIGRP最常见的问题之一,其中存在邻居抖动问题。我们可以利用EEM脚本在发现问题时准确收集输出和调试:
路由器上的NAT/PAT(网络/端口地址转换)
在IOS-XE平台上,NAT配置由IOS NAT子系统接收和处理,并通过转发管理器(FMAN)和客户端组件下载到QFP。NAT会话创建和管理在QFP以及任何报头和负载转换上独占完成。IOS-XE路由器上的NAT转换不会传送数据包。QFP还生成了发送回IOS的状态,例如ipalias、静态路由和wlan会话信息。
问题报告:设备上存在NAT/PAT相关问题。例如,NAT不会触发,或者我们看不到从内部传输到外部的转换和流量,反之亦然。由于数据包的硬件转发,IOS-XE上的NAT/PAT问题有时可能有点棘手。本节将综合了排除IOS-XE路由器上的NAT问题时最有用的命令。
- show tech-support nat
注意:此输出最近通过16.9.x版本及更高版本中的可维护性引入。
独立于平台的Show命令
- show ip nat statistics
- show ip nat translation
我们还可以选择使用“show ip nat translation”运行某些过滤器,如下所示:
- show ip nat translation udp total
- show ip nat translation inside
- show ip aliases
平台相关的Show命令
- show platform hardware qfp active statistics drop | exc _0 <<<检查是否有任何与NAT相关的丢弃
- show platform hardware qfp active feature nat datapath map
- show platform hardware qfp active feature nat datapath port
- show platform hardware qfp active feature nat datapath pool
- show platform hardware qfp active feature nat datapath stat
- show platform hardware qfp active feature nat datapath base
- show platform hardware qfp active infrastructure exmem statistics user
- show platform hardware qfp active infrastructure exmem stat
- show platform hardware qfp active feature nat datapath gatein
- show platform hardware qfp active feature nat datapath gateout
IWAN
iWAN是一个复杂的解决方案,故障排除可能会变得更加复杂。iWAN中涉及许多组件,例如DMVPN、IPSEC、传输(MPLS/INET)、PFR、EIGRP SAF。有关iWAN的不同问题可能与任何一个或多个组件有关。在iWAN网络中,所有设备都充当“主控制器”(MC)或“边界路由器”(BR)的角色,为了解决iWAN问题,我们需要从这两台路由器捕获详细信息。
问题报告:如果iWAN存在以下任何问题,请捕获各自设备发出的命令列表。
- 站点前缀/服务路由分配不正确
- 未建立EIGRP SAF对等
- 未创建流量通道
- 检测到频繁的TCA日志
- 流量不是从特定传输流出
以下是需要捕获的命令列表。
MC — 主控制器
- show tech-support
- show domain IWAN master discovered-sites
- show domain IWAN master site-capability
- show domain IWAN master status
- show domain IWAN master site-prefix
- show domain IWAN master policy
- show domain IWAN master peering
- show domain IWAN master traffic-classes summary
- show platform hardware qfp active feature pfrv3 datapath global
- show eigrp service-family ipv4 neighbors
- show eigrp service-family ipv4 subscriptions detail
- show eigrp service-family ipv4 topology
- show eigrp service-family ipv4 traffic
- show derived-config | sec router eigrp
BR — 边界路由器
- show tech-support
- show domain IWAN border site-capability
- show domain IWAN master site-capability
- show domain IWAN border parent-route
- show domain IWAN border channels dscp default
- show domain IWAN border channels
- show domain IWAN border traffic-classes summary
- show domain IWAN master status
- show domain IWAN master policy
- show domain IWAN border peering
- show domain IWAN border status
- show domain IWAN border pmi
- show performance monitor cache monitor
- show platform hardware qfp active feature pfrv3 datapath global
- show eigrp service-family ipv4 neighbors
- show eigrp service-family ipv4 subscriptions detail
- show eigrp service-family ipv4 topology
- show eigrp service-family ipv4 traffic
- show derived-config | sec router eigrp
其他错误日志
下面是IOS和IOS-XE路由器上报告的一些常见日志,以及每个路由器的有用输出,这些日志应与“Show Tech”一起收集。
这些输出有助于我们确保在出现问题时收集相关数据。如果问题不是持久性的,则情况尤其如此,这意味着问题可能会在TAC投入使用时消失。
与%FMFP-3-OBJ_DWNLD_TO_DP_STUCK相关的错误
- 从日志消息中获取对象ID:
示例:
%FMFP-3-OBJ_DWNLD_TO_DP_STUCK:R0/0:fman_fp_image:obj[20] type[215]的AOM下载pending-issue Req-create Issued-noneSSLMGR:辅助初始化数据平面停滞超过1800秒
- 此示例中的对象ID为obj[20],将用作20
- 使用步骤2中获得的数字捕获替换“<object_id>”字段的命令:
- show platform software object-manager f0 object <object_id>
- show platform software object-manager f0 object <object_id> parents
- show platform software object-manager f0 object <object_id> children
- show platform software object-manager f0 object <object_id> downlinks
- 捕获以下不需要对象ID的命令:
- show platform software object-manager f0 statistics
- show platform software object-manager f0 pending-issue-update
- show platform software object-manager f0 pending-ack-update
- show platform software object-manager f0 object-type-count
- show platform software object-manager f0 error-object
- show platform software object-manager f0 resolve-object
- show platform software object-manager f0 stale-object
- show platform software object-manager f0 paused-object-type