简介
本文档介绍如何对 Catalyst 9200/9200L 和 9300/9300L 的 Stackwise 部署中的常见故障场景进行故障排除。
先决条件
使用的组件
此部分指定Catalyst 9000系列上与Stackwise相关的产品ID (PID)和相关组件。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
Stackwise平台
振铃速度取决于PID。这些PID支持Stackwise:
- Cisco Catalyst 9200 - StackWise-160
- Cisco Catalyst 9200L - StackWise-80
- Cisco Catalyst 9300 - StackWise-480
- Cisco Catalyst 9300L - StackWise-320
- Cisco Catalyst 9300X - StackWise-1T
Stackwise硬件
C9200/C9200L和C9300L PID堆栈套件包含一个堆栈适配器(可容纳在机箱中)和一个连接到适配器的电缆。C9300/9300X PID堆栈套件只需要电缆。
背景信息
本文适用于Catalyst 9200/9200L、9300/9300L和9300X交换机。
StackWise架构允许在一个环形拓扑中最多包含8台交换机的堆叠实现高密度的堆叠带宽。堆叠架构可扩展交换机的外形规格、吞吐量、端口密度和冗余,并提供单一的控制和管理平面。它可以简化管理,并提供更强的恢复能力和可扩展性。
故障排除和验证Stackwise
已建立堆叠中的操作问题通常与一个或所有成员设备的静默重新加载有关,因为堆叠合并是常见的重新加载原因。 本节介绍堆叠环不稳定如何导致重新加载和其他问题,以及如何验证堆叠环并排除相关问题。
Stackwise操作
使用相关的Stackwise堆栈套件连接两台或多台(最多8台)交换机以形成数据堆栈。堆叠环提供主用/备用交换机和成员交换机之间的互联。环可以在半容量或满容量时运行。
连接到堆栈拓扑的交换机使用堆栈发现协议(SDP)进行邻居发现和角色选举。 启动后,在交换机软件完全加载之前,会有一个120秒的选举窗口,在此窗口中会发现成员,并确定活动和备用角色。
活动选举由最高优先级和最低MAC地址决定。当选择活动且发现所有成员时,选择备用设备时会采用相同的条件-次高优先级或次低MAC。 以下是要考虑的其他要点:
添加或替换成员
当您实施新堆栈或向已建立的堆栈添加成员时,必须考虑几个因素。 重要的是,切勿将通电的交换机连接到通电的堆叠。关闭电源时连接新成员以避免堆栈合并。 以下是需要考虑的其他几点:
添加新交换机时,可以使用auto-upgrade功能解决这些冲突问题。它使用以下命令实现:
C9300-Stack#config t
Enter configuration commands, one per line. End with CNTL/Z.
C9300-Stack(config)#software auto-upgrade enable
C9300-Stack(config)#end
C9300-Stack#
注意:自动升级功能仅在安装模式下可用。捆绑包模式不支持自动升级。 捆绑包模式需要手动干预以解决版本许可证不匹配错误。
解决与Stackwise相关的操作问题
如果主用/备用和成员之间的通信中断,则会重新加载。 长期不稳定可能导致堆叠分离和合并的情况。
大多数与堆叠相关的不稳定源自物理堆叠介质(堆叠电缆和/或堆叠适配器)的对齐错误。如果堆叠成员长期不稳定,请重新安装堆叠硬件,并确保手动拧紧电缆拇指螺钉。 使用本文档稍后提供的验证命令确定哪些成员受到最大影响。
问题-一个或多个成员的意外重新加载
活动和备用交换控制彼此之间以及与成员设备之间的流量。 如果堆叠成员与备用/主用设备之间的通信中断,则会进行重新加载。
上次重新加载原因可在show version命令的输出中看到:
C9300-Stack#show version
Cisco IOS XE Software, Version 16.12.05b
Cisco IOS Software [Gibraltar], Catalyst L3 Switch Software (CAT9K_IOSXE), Version 16.12.5b, RELEASE SOFTWARE (fc3)
Technical Support: http://www.cisco.com/techsupport
Copyright (c) 1986-2021 by Cisco Systems, Inc.
Compiled Thu 25-Mar-21 13:21 by mcpre
<snip>
C9300-Stack uptime is 2 days, 1 hour, 18 minutes
Uptime for this control processor is 2 days, 1 hour, 20 minutes
System returned to ROM by Reload Command
System image file is "flash:packages.conf"
Last reload reason: stack merge
以下是堆栈不稳定发挥作用时常见的重新加载原因:
使用命令show logging onboard switch <number> uptime detail查看堆叠中特定交换机的正常运行时间历史记录:
C9300-Stack#show logging onboard switch 3 uptime detail
--------------------------------------------------------------------------------
UPTIME SUMMARY INFORMATION
--------------------------------------------------------------------------------
First customer power on : 06/23/2020 04:08:31
Total uptime : 1 years 0 weeks 6 days 23 hours 49 minutes
Total downtime : 0 years 12 weeks 6 days 11 hours 51 minutes
Number of resets : 84
Number of slot changes : 5
Current reset reason : Reload Command
Current reset timestamp : 09/26/2021 14:49:07
Current slot : 3
Chassis type : 22
Current uptime : 0 years 0 weeks 2 days 1 hours 0 minutes
--------------------------------------------------------------------------------
--------------------------------------------------------------------------------
UPTIME CONTINUOUS INFORMATION
--------------------------------------------------------------------------------
Time Stamp | Reset | Uptime
MM/DD/YYYY HH:MM:SS | Reason | years weeks days hours minutes
--------------------------------------------------------------------------------
<snip>
09/06/2021 21:47:16 stack merge 0 0 0 14 0
09/06/2021 21:52:42 stack merge 0 0 0 0 0
09/06/2021 22:06:01 stack merge 0 0 0 0 10
<snip>
09/20/2021 15:48:38 Reload Command 0 0 0 0 25
09/20/2021 16:11:59 Reload Command 0 0 0 0 20
09/26/2021 14:49:07 stack merge 0 0 5 22 0
--------------------------------------------------------------------------------
大多数与堆叠不稳定相关的重新加载可通过重新安装堆叠硬件来解决。 使用验证命令确定哪些交换机不稳定以及重新加载的频率,并重新安装与此成员关联的堆栈硬件。
show switch stack-ports summary命令可用于快速确定哪些设备不稳定:
C9300-Stack#show switch stack-ports summary
Sw#/Port# Port Status Neighbor Cable Length Link OK Link Active Sync OK #Changes to LinkOK In Loopback
-------------------------------------------------------------------------------------------------------------------
1/1 OK 2 50cm Yes Yes Yes 1 No
1/2 OK 3 50cm Yes Yes Yes 6 No
2/1 OK 3 50cm Yes Yes Yes 8 No
2/2 OK 1 50cm Yes Yes Yes 6 No
3/1 OK 1 50cm Yes Yes Yes 6 No
3/2 OK 2 50cm Yes Yes Yes 1 No
在本例中,交换机2经历长期重新加载。您可以看到,此交换机上的两个堆栈端口显示链路状态的许多更改。 交换机1和3也可以,但这些值可能与交换机2的重新加载有关。重新拔插将交换机1连接到交换机2的堆叠硬件以及连接交换机2和3的硬件。交换机1和3之间的连接没有抖动。
在堆栈运行时,可以重新拔插堆栈连接,但请确保一次仅重新拔插一个链路。 成员交换机的完全断开会导致重新引入时堆栈合并。
与Stackwise相关的早期代码版本中存在已知软件缺陷。如果在重新安装堆栈硬件后问题仍然存在,请升级到推荐版本和/或联系TAC。
相关漏洞ID:
还有一个已知问题会影响Stackwise平台的堆栈硬件,该问题表现为身份验证失败。下面是来自C9200L的错误消息示例:
Stack Adapter Auth Fail : SIF_SERDES_CABLE_EASTBOUND
*** Stack adapter authentication failed on stack port 1 on switch 1
Error-2:
*** Stack adapter authentication failed on stack port 2 on switch 1
Stack Adapter Auth Fail : SIF_SERDES_CABLE_WESTBOUND
相关漏洞ID:
如果遇到这种情况并在重新加载后继续存在,则组件本身可能会受到影响。请联系技术支持中心(TAC)寻求帮助。
问题-无法将成员添加/替换到堆栈
如果某个成员未加入,则表明尚未满足Stackwise的先决条件,或者新成员与堆栈的其余部分之间的连接存在问题。
确保满足Stackwise的先决条件:
- 新成员的软件版本必须与堆叠的软件版本匹配。
- 许可证级别必须匹配。.
- 操作模式(安装与捆绑包)必须匹配
- 不支持混合PID开关堆叠(请参阅产品手册了解特定详细信息)。
确保正确安装堆栈套件。C9200L和C9300L需要堆栈适配器。手动拧紧指旋螺钉,正确调整硬件方向。注意不要过度拧紧螺钉。
Stackwise-80堆叠套件(C9200L)
使用C9300堆叠套件STACK-T1-XXCM,电缆的制造方式使其可以倒置插入机箱中。确保思科徽标朝上,并且您能够完全固定指旋螺钉,以避免错误安装。
Stackwise-480电缆连接
注意:金属中镶嵌着一个思科徽标。确保此徽标正面朝上,而不是正面朝下,以便正确安装。
如果满足前提条件且硬件安装正确,请验证有问题的交换机是否能够识别堆栈硬件。此输出特定于C9200L:
Switch#show inventory
NAME: "c92xxL Stack", DESCR: "c92xxL Stack"
PID: C9200L-24P-4X , VID: V01 , SN: JAE2332006G
NAME: "Switch 1", DESCR: "C9200L-24P-4X" <<<---- This entry represents the chassis
PID: C9200L-24P-4X , VID: V01 , SN: JAE2332006G
NAME: "StackPort1/1", DESCR: "StackPort1/1" <<<--- This entry represents the 50CM cable connected in Stackport 1/1
PID: STACK-T4-50CM , VID: V01 , SN: LCC2325G3XW
NAME: "StackPort1/2", DESCR: "StackPort1/2" <<<--- This entry represents the 50CM cable connected in Stackport 1/2
PID: STACK-T4-50CM , VID: V01 , SN: LCC2325G410
NAME: "StackAdapter1/1", DESCR: "StackAdapter1/1"
PID: C9200-STACK , VID: V01 , SN: JAE2332133J <<<--- This entry represents the stack adapter in Stackport 1/1
NAME: "StackAdapter1/2", DESCR: "StackAdapter1/2"
PID: C9200-STACK , VID: V01 , SN: JAE23321DDK <<<--- This entry represents the stack adapter in Stackport 2/2
如果交换机无法识别堆栈工具包的一个或多个组件,需要进一步调查。 请与TAC联系以获取帮助。
问题- C9300X混合堆叠拆分为子环/堆叠速度不匹配
C9300X引入了高速(1TB)。支持混合堆叠C9300X和非高速堆叠,但在此情况下,整个堆叠的堆叠环速度与最慢成员的速度匹配。
堆叠接口速度不匹配会导致堆叠拆分。使用show switch stack-ring speed确认堆叠环速度。
Device#show switch stack-ring speed
Stack Ring Speed : 1000G
Stack Ring Configuration: Full
Stack Ring Protocol : StackWise
Stack Ring Next-boot Speed: 1000G
使用switch stack-speed [high | low]。
Device# switch stack-speed high
验证和验证Stackwise
本节提供用于验证和验证Stackwise的命令,以确保正确设置堆栈并按预期运行。
命令show switch detail 提供有关堆叠硬件、端口状态和邻居详细信息的信息。它还标识了当前的主用和备用交换机以及任何成员交换机。
C9300-Stack#show switch detail
Switch/Stack Mac Address : 9077.ee4a.6b00 - Local Mac Address
Mac persistency wait time: Indefinite
H/W Current
Switch# Role Mac Address Priority Version State
-------------------------------------------------------------------------------------
*1 Active 9077.ee4a.6b00 15 V03 Ready
2 Standby 7cad.4f5f.e000 1 V03 Ready
3 Member 9077.ee4a.6e00 1 V03 Ready
Stack Port Status Neighbors
Switch# Port 1 Port 2 Port 1 Port 2
--------------------------------------------------------
1 OK OK 2 3
2 OK OK 3 1
3 OK OK 1 2
命令show switch stack-ports summary提供有关堆叠环特性的详细信息。
提示:请注意#Changes to Link OK,此列中大于1的值表示不稳定。
C9300-Stack#show switch stack-ports summary
Sw#/Port# Port Status Neighbor Cable Length Link OK Link Active Sync OK #Changes to LinkOK In Loopback
-------------------------------------------------------------------------------------------------------------------
1/1 OK 2 50cm Yes Yes Yes 1 No
1/2 OK 3 50cm Yes Yes Yes 1 No
2/1 OK 3 50cm Yes Yes Yes 1 No
2/2 OK 1 50cm Yes Yes Yes 1 No
3/1 OK 1 50cm Yes Yes Yes 1 No
3/2 OK 2 50cm Yes Yes Yes 1 No
命令show switch stack-bandwidth可以快速确定交换机是正在以半容量还是满容量运行。
C9300-Stack#show switch stack-bandwidth
Stack Current
Switch# Role Bandwidth State
------------------------------------------------------------
*1 Active 480G Ready
2 Standby 480G Ready
3 Member 480G Ready
联系 TAC
如果尝试补救后问题仍然存在,请与TAC联系。确保您的TAC案例已提交相关数据,以防延迟。有用的数据集包括:
输出- show technical-support
该实用程序提供一组相关show命令的输出。输出是详细的,因此在运行该实用程序时请记住这一点。将输出重定向到文件,或以文本格式保存输出并上传到TAC案例。
C9300-Stack#show tech-support
存档文件-二进制tracelog存档
此实用程序利用平台的持久跟踪功能。使用这些命令生成存档,将其保存到本地闪存介质中。
C9300-Stack#request platform software trace slot switch 1 r0 archive
Creating archive file [flash:C9300-Stack_1_RP_0_trace_archive-20210929-151348.tar.gz]
Done with creation of the archive file: [flash:C9300-Stack_1_RP_0_trace_archive-20210929-151348.tar.gz]
C9300-Stack#request platform software trace slot switch 2 r0 archive
Creating archive file [flash-2:RP_0_trace_archive-20210929-151358.tar.gz]
Done with creation of the archive file: [flash-2:RP_0_trace_archive-20210929-151358.tar.gz]
C9300-Stack#request platform software trace slot switch 3 r0 archive
Creating archive file [flash-3:RP_0_trace_archive-20210929-151450.tar.gz]
Done with creation of the archive file: [flash-3:RP_0_trace_archive-20210929-151450.tar.gz]
该实用程序针对每个成员运行。文件名和位置在实用程序的输出中指定。文件将写入运行该实用程序的交换机的本地闪存介质。将文件附加到TAC支持请求。
在意外重新加载之前,通常会向本地介质发送二进制跟踪转储。这些存档非常有用,它们表示在手动创建的存档中可能会丢失的数据。
在每个成员的flash/crashinfo内进行检查,查看是否已写入相关文件。查找在系统恢复之前直接写入的文件。
使用命令show version或show logging onboard switch <number> detail确定系统重新启动的时间。
C9300-Stack#show version
Cisco IOS XE Software, Version 16.12.01
Cisco IOS Software [Gibraltar], Catalyst L3 Switch Software (CAT9K_IOSXE), Version 16.12.1, RELEASE SOFTWARE (fc4)
Technical Support: http://www.cisco.com/techsupport
Copyright (c) 1986-2019 by Cisco Systems, Inc.
Compiled Tue 30-Jul-19 19:26 by mcpre
<snip>
<snip>
C9300-Stack uptime is 5 hours, 5 minutes
Uptime for this control processor is 4 hours, 50 minutes
System returned to ROM by SSO Switchover
System restarted at 14:04:40 EST Sun Feb 14 2021
System image file is "flash:packages.conf"
Last reload reason: stack merge
C9300-Stack#show logging onboard switch 2 uptime detail
--------------------------------------------------------------------------------
UPTIME SUMMARY INFORMATION
--------------------------------------------------------------------------------
First customer power on : 02/12/2020 00:56:09
Total uptime : 0 years 0 weeks 5 days 0 hours 28 minutes
Total downtime : 0 years 13 weeks 0 days 18 hours 31 minutes
Number of resets : 22
Number of slot changes : 1
Current reset reason : stack merge
Current reset timestamp : 02/14/2021 14:04:40
Current slot : 2
Chassis type : 52
Current uptime : 0 years 0 weeks 0 days 8 hours 0 minutes
--------------------------------------------------------------------------------
<snip>
查找在系统重新加载时写入的存档文件,或直接在加载前写入的存档文件。包括system-report的文件名通常包含TAC可用于调查的可行信息。
TAC可以识别其他相关的存档。
C9300-Stack#dir crashinfo:
-#- --length-- ---------date/time--------- path
2 16384 Feb 14 2021 18:51:37.0000000000 +00:00 tracelogs
3 1623 Feb 14 2021 14:02:08.0000000000 +00:00 tracelogs/flashutil_R0-0.7398_0.20210214190148.bin.gz
4 358 Feb 14 2021 14:02:08.0000000000 +00:00 tracelogs/binos_R0-0.6831_0.20210214190148.bin.gz
5 63823 Feb 12 2021 06:45:15.0000000000 +00:00 tracelogs/dmesg
6 10 Feb 12 2021 06:45:15.0000000000 +00:00 tracelogs/timestamp
7 935 Feb 14 2021 14:02:08.0000000000 +00:00 tracelogs/install_engine_R0-0.3330_0.20210214190144.bin.gz
8 730 Feb 14 2021 14:02:08.0000000000 +00:00 tracelogs/tdl_boottime_R0-0.6801_0.20210214190148.bin.gz
9 1149 Feb 14 2021 14:02:08.0000000000 +00:00 tracelogs/issu_boottime_R0-0.6809_0.20210214190148.bin.gz
<snip>
271 2509408 Feb 14 2021 13:41:46.0000000000 +00:00 system-report_2_20210214-134145-EST.tar.gz
272 1813204 Feb 14 2021 14:00:24.0000000000 +00:00 system-report_2_20210214-140023-EST.tar.gz
摘要
通过重新安装堆栈套件,立即解决长期不稳定问题,即一台或多台交换机每天重新加载多次。
对于一个或多个成员意外重新加载的与堆叠相关的重新加载,请确定哪些成员不稳定,并确保这些交换机正确连接到堆叠。如果问题仍然存在,请确保您的交换机运行推荐的代码并与TAC联系。
相关信息
Catalyst 9200系列交换机上的Cisco StackWise架构白皮书
Catalyst 9300 Stackwise系统架构白皮书
堆叠和高可用性配置指南,Cisco IOS XE Amsterdam 17.3.x(Catalyst 9200交换机)
堆叠和高可用性配置指南,Cisco IOS XE Bengaluru 17.5.x(Catalyst 9300交换机)
技术支持和文档 - Cisco Systems