此产品的文档集力求使用非歧视性语言。在本文档集中,非歧视性语言是指不隐含针对年龄、残障、性别、种族身份、族群身份、性取向、社会经济地位和交叉性的歧视的语言。由于产品软件的用户界面中使用的硬编码语言、基于 RFP 文档使用的语言或引用的第三方产品使用的语言,文档中可能无法确保完全使用非歧视性语言。 深入了解思科如何使用包容性语言。
思科采用人工翻译与机器翻译相结合的方式将此文档翻译成不同语言,希望全球的用户都能通过各自的语言得到支持性的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 Cisco Systems, Inc. 对于翻译的准确性不承担任何责任,并建议您总是参考英文原始文档(已提供链接)。
本文档讨论如何对 Cisco Catalyst 6000/6500 系列交换机 Supervisor 引擎交换处理器 (SP) 和多层交换机特性卡 (MSFC) 路由处理器 (RP) 进行故障排除。
本文档没有任何特定的要求。
本文档中的信息基于 Cisco Catalyst 6000/6500 系列交换机 Supervisor 和 MSFC 模块。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。
有关文档规则的详细信息,请参阅 Cisco 技术提示规则。
具有允许中断(例如 0x2)的 SP 配置寄存器的 Catalyst 6500/6000 在收到控制台中断信号时将进入 ROMmon 诊断模式。系统似乎崩溃了。
此示例交换机输出表明交换机根据交换处理器控制台中断信号进入 ROMmon 诊断模式。
注意:RP 配置寄存器为 0x2102。
6500_IOS#show version Cisco Internetwork Operating System Software IOS (tm) c6sup2_rp Software (c6sup2_rp-PS-M), Version 12.1(13)E14, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) Technical Support: http://www.cisco.com/techsupport Copyright (c) 1986-2004 by Cisco Systems, Inc. Compiled Tue 30-Mar-04 01:56 by pwade Image text-base: 0x40008C00, data-base: 0x417A6000 ROM: System Bootstrap, Version 12.1(4r)E, RELEASE SOFTWARE (fc1) BOOTLDR: c6sup2_rp Software (c6sup2_rp-PS-M), Version 12.1(13)E14, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) 6500_IOS uptime is 31 minutes Time since 6500_IOS switched to active is 31 minutes System returned to ROM by power-on (SP by abort at PC 0x601061A8) System image file is "slot0:c6sup12-ps-mz.121-13.E14" cisco Catalyst 6000 (R7000) processor with 227328K/34816K bytes of memory. Processor board ID SAD053701CF R7000 CPU at 300Mhz, Implementation 39, Rev 2.1, 256KB L2, 1024KB L3 Cache Last reset from power-on X.25 software, Version 3.0.0. Bridging software. 1 Virtual Ethernet/IEEE 802.3 interface(s) 192 FastEthernet/IEEE 802.3 interface(s) 18 Gigabit Ethernet/IEEE 802.3 interface(s) 381K bytes of non-volatile configuration memory. 16384K bytes of Flash internal SIMM (Sector size 512K). Configuration register is 0x2102
解决方案是重新配置配置寄存器并重新加载系统。请完成以下步骤:
6500_IOS#config terminal
Enter configuration commands, one per line. End with CNTL/Z.
6500_IOS(config)#config-register 0x2102
6500_IOS(config)#end
6500_IOS#show bootvar BOOT variable = slot0:c6sup12-ps-mz.121-13.E14,1 CONFIG_FILE variable = BOOTLDR variable = Configuration register is 0x2102
6500_IOS#remote command switch show bootvar
6500_IOS-sp#
BOOT variable = slot0:c6sup12-ps-mz.121-13.E14,1
CONFIG_FILE variable =
BOOTLDR variable =
Configuration register is 0x2 (will be 0x2102 at next reload)
6500_IOS#reload
注意:此时还可以发出 copy running-config startup-config 命令以保存配置。但是,由于配置寄存器设置不是启动或运行配置的一部分,因此并非必须执行此步骤。
执行 Supervisor 引擎 720 上的口令恢复过程时,交换机在您中断以访问 RP 的控制台时可能会发生故障。
*** System received a Software forced crash *** signal= 0x17, code= 0x24, context= 0x4269f6f4 PC = 0x401370d8, Cause = 0x3020, Status Reg = 0x34008002
执行口令恢复时,请使用下面这个口令恢复解决方法过程以防止 Supervisor 发生故障:
00:00:03: %OIR-6-CONSOLE: Changing console ownership to route processor
Cisco Catalyst 6000/6500 交换机可能因未知原因意外地重新启动。show version 命令的输出显示一条错误消息,类似于此:
System returned to ROM by unknown reload cause - suspect boot_data[BOOT_COUNT] 0x0, BOOT_COUNT 0, BOOTDATA 19 (SP by power-on)
此问题记录在Cisco Bug ID CSCef80423(仅限注册客户)中。 将交换机升级到不受 bug 影响的最新 Cisco IOS 软件版本以解决此问题。
此消息表示指定模块的固件已检测到奇偶校验错误。系统自动重置模块以从该错误中恢复。此模块上还会出现 crashinfo 文件。错误消息可以归因于暂时或硬件故障。如果错误消息只出现一次,则它是暂时问题。系统可自动恢复这种问题。CPO_ECC 可标识缓存中奇偶校验的症状。代表奇偶校验错误的 ECC 已由系统自身修正。
以下是这两种奇偶校验错误:
Mar 9 12:12:24.427 GMT: %PM_SCP-SP-1-LCP_FW_ERR: Module 6 is experiencing the following error: Pinnacle #0 PB parity error. Tx path. Status=0x0042研究显示,暂时性奇偶校验错误的出现频率比硬奇偶校验错误高出10到100倍。因此,Cisco 强烈建议您等待确认是硬件奇偶校验错误后再更换任何零部件。这样将大大减小对网络的影响。
此消息表明系统控制器已检测到错误。重新启动设备。如果再次出现此消息,请更换有故障的内存或 MSFC 卡。
%SYSTEM_CONTROLLER-3-FATAL: An unrecoverable error has been detected. The system is being reset. %Software-forced reload
当风扇托盘失灵或电源关闭时,运行 Cisco IOS 软件 12.1(19)E1 版的 Cisco Catalyst 交换机可能会使 Supervisor 模块发生故障。此问题记录在Cisco Bug ID CSCeb51698(仅限注册的客户)中(仅限注册客户)。 将交换机升级到不受此缺陷影响的 Cisco IOS 版本。
如果怀疑交换机已由自身重置,请发出 show version 命令以验证交换机的正常运行时间,即上次重置起经过的时间。发出 show log 命令以查看重新引导历史记录,如本例所示。查看此命令输出以了解是否记录了任何异常。
sup2a> (enable)show version WS-C6506 Software, Version NmpSW: 6.3(10) !--- Output is suppressed. Uptime is 7 days, 4 hours, 27 minutes
sup2a> (enable)show log Network Management Processor (ACTIVE NMP) Log: Reset count: 1 Re-boot History: Jan 06 2003 10:35:56 0 Bootrom Checksum Failures: 0 UART Failures: 0 Flash Checksum Failures: 0 Flash Program Failures: 0 Power Supply 1 Failures: 0 Power Supply 2 Failures: 0 Swapped to CLKA: 0 Swapped to CLKB: 0 Swapped to Processor 1: 0 Swapped to Processor 2: 0 DRAM Failures: 0 Exceptions: 0 Loaded NMP version: 6.3(10) Software version: slot0:cat6000-sup2.6-3-10.bin Reload same NMP version count: 1 Last software reset by user: 1/6/2003,10:35:35 EOBC Exceptions/Hang: 0 Heap Memory Log: Corrupted Block = none
此 show log 命令输出未显示任何软件异常。交换机上次重新引导的时间为 Jan 06 2003。重新引导时间与 Last software reset 字段相符。
此 show log 命令输出显示在上次重新引导时记录了异常。
esc-cat5500-b (enable)show log Network Management Processor (STANDBY NMP) Log: Reset count: 38 Re-boot History: Oct 14 2001 05:48:53 0, Jul 30 2001 06:51:38 0 Jul 28 2001 20:31:40 0, May 16 2001 21:15:39 0 May 02 2001 01:02:53 0, Apr 26 2001 21:42:24 0 Apr 07 2001 05:23:42 0, Mar 25 2001 02:48:03 0 Jan 05 2001 00:21:39 0, Jan 04 2001 4:54:52 0 Bootrom Checksum Failures: 0 UART Failures: 0 Flash Checksum Failures: 0 Flash Program Failures: 0 Power Supply 1 Failures: 4 Power Supply 2 Failures: 0 Swapped to CLKA: 0 Swapped to CLKB: 0 Swapped to Processor 1: 3 Swapped to Processor 2: 0 DRAM Failures: 0 Exceptions: 1 Loaded NMP version: 5.5(7) Reload same NMP version count: 3 Last software reset by user: 7/28/2001,20:30:38 Last Exception occurred on Oct 14 2001 05:47:29 ... Software version = 5.5(7) Error Msg: PID = 86 telnet87 EPC: 80269C44 !--- Output is suppressed.
如果交换机显示此类软件异常,请发出 dir bootflash: 命令,显示 MSFC(路由处理器 [RP])bootflash 设备,并发出 dir slavebootflash:命令,检查是否发生了软件崩溃。此部分中的输出显示已在 RP bootflash 中记录了 crashinfo。确保所查看的 crashinfo 涉及最近的故障。
cat6knative#dir bootflash: Directory of bootflash:/ 1 -rw- 1693168 Jul 24 2002 15:48:22 c6msfc2-boot-mz.121-8a.EX 2 -rw- 183086 Aug 29 2002 11:23:40 crashinfo_20020829-112340 3 -rw- 20174748 Jan 30 2003 11:59:18 c6sup22-jsv-mz.121-8b.E9 4 -rw- 7146 Feb 03 2003 06:50:39 test.cfg 5 -rw- 31288 Feb 03 2003 07:36:36 01_config.txt 6 -rw- 30963 Feb 03 2003 07:36:44 02_config.txt 31981568 bytes total (9860396 bytes free)
dir sup-bootflash:命令显示 Supervisor 引擎 bootflash 设备。也可以发出 dir slavesup-bootflash:命令以显示备用的 Supervisor 引擎 bootflash 设备。此输出显示 Supervisor 引擎 bootflash 设备中记录的 crashinfo。
cat6knative11#dir sup-bootflash: Directory of sup-bootflash:/ 1 -rw- 14849280 May 23 2001 12:35:09 c6sup12-jsv-mz.121-5c.E10 2 -rw- 20176 Aug 02 2001 18:42:05 crashinfo_20010802-234205 !--- Output is suppressed.
如果命令输出表明在您怀疑交换机重新引导发生了软件崩溃,请与 Cisco 技术支持联系。提供 show tech-support 命令和 show logging 命令的输出以及 crashinfo 文件的输出。
如果配备分布式转发卡(DFC)的模块在用户重新加载的情况下自行重置,则可以检查DFC卡的bootflash,以查看其是否崩溃。如果提供了故障信息文件,则可以找出故障的原因。发出 dir dfc#module#-bootflash:命令以验证是否有故障信息文件以及写入文件的时间。如果DFC重置与crashinfo时间戳匹配,请发出more dfc# module#-bootflash:filename命令。或者,发出copy dfc# module #-bootflash:filename tftp命令,以便通过TFTP将文件传输到TFTP服务器。
cat6knative#dir dfc#6-bootflash: Directory of dfc#6-bootflash:/ -#- ED ----type---- --crc--- -seek-- nlen -length- -----date/time------ name 1 .. crashinfo 2B745A9A C24D0 25 271437 Jan 27 2003 20:39:43 crashinfo_ 20030127-203943
有了可用的 crashinfo 文件之后,收集 show logging 命令和 show tech 命令的输出,并与 Cisco 技术支持联系以获得进一步的帮助。
从设备表中未列出的设备引导时,可能会使 Supervisor 模块产生故障。请将交换机升级到 Cisco IOS 软件 12.2(18r)SX05 版或更高版本。
错误消息:
%CONST_DIAG-2-HM_SUP_CRSH: Supervisor crashed due to unrecoverable errors, Reason: Failed TestSPRPInbandPing %CONST_DIAG-2-HM_SUP_CRSH: Standby supervisor crashed due to unrecoverable errors, Reason: Failed TestSPRPInbandPing
原因和解决方法:
在启动过程中,Cisco Catalyst 6500/6000 交换机可能意外地重新启动。故障日志可能显示类似于以下内容的系统消息:
活动的 Supervisor 模块中:
%SYS-SP-2-MALLOCFAIL: Memory allocation of 320000 bytes failed from 0x40BCF26C, alignment 8 Pool: Processor Free: 75448 Cause: Not enough free memory Alternate Pool: None Free: 0 Cause: No Alternate pool -Process= "CEF process", ipl= 0, pid= 240 -Traceback= 40280AB4 40288058 40BCF274 40BE5660 40BE5730 4029A764 4029A750 %L2-SP-4-NOMEM: Malloc failed: L2-API Purge/Search failed. size req. 512 SP: EARL Driver:lyra_purge_search:process_push_event_list failed %SCHED-SP-2-SEMNOTLOCKED: L2 bad entry (7fff/0) purge proc attempted to unlock an unlocked semaphore -Traceback= 402C202C 4058775C 4058511C 40587CB8
备用的 Supervisor 模块中:
%SYS-SP-STDBY-2-MALLOCFAIL: Memory allocation of 2920 bytes failed from 0x40174088, alignment 8 Pool: Processor Free: 9544 Cause: Memory fragmentation Alternate Pool: None Free: 0 Cause: No Alternate pool -Process= "DiagCard2/-1", ipl= 0, pid= 154 -Traceback= 4016F7CC 40172984 40174090 4063601C 40636584 4062D194 4062ABD8 4062A9EC 4017E0B0 4017E09C %L2-SP-STDBY-4-NOMEM: Malloc failed: L2-API Purge/Search failed. size req. 512 %SCHED-SP-STDBY-2-SEMNOTLOCKED: L2 bad entry (7fff/0) purge proc attempted to unlock an unlocked semaphore -Traceback= 4018A300 403F0400 403EDD7C 403F0A48 SP-STDBY: EARL Driver:lyra_purge_search:process_push_event_list failed %SYS-SP-STDBY-2-MALLOCFAIL: Memory allocation of 1400 bytes failed from 0x409928B4, alignment 8 Pool: Processor Free: 7544 Cause: Memory fragmentation Alternate Pool: None Free: 0 Cause: No Alternate pool -Process= "CEF LC Stats", ipl= 0, pid= 138 -Traceback= 4016F7CC 40172984 409928BC 409C5EEC 4098A5EC
从 Cisco IOS 软件 12.2(17d)SXB 版起,Supervisor 引擎 2 最少需要 256MB 的 DRAM。如果 Supervisor 模块的 DRAM 为 128MB,则要解决此问题,请将内存升级到 256MB 或更多。有关详细信息,请参阅 Supervisor 引擎 720、Supervisor 引擎 32 和 Supervisor 引擎 2 上 Cisco IOS 12.2SX 版的发行版本注释。
Cisco Catalyst 6000/6500 交换机可能因意外异常而意外地重新启动。
01:22:25: %SNMP-3-AUTHFAIL: Authentication failure for SNMP req from host 10.1.2.2 01:23:25: %SNMP-3-AUTHFAIL: Authentication failure for SNMP req from host 10.1.2.2 01:23:40: ROMMON image upgrade in progress 01:23:40: Erasing flash Unexpected exception, CPU signal 5, PC = 0x402F3DC4
当正在进行 ROMMon 升级时,如果系统收到 SNMP 查询,可能会使交换机重新启动。
执行以下过程,以避免交换机在您执行 ROMMon 升级时发生故障:
no snmp-server
redundancy force-switchover
此消息显示为 show stacks 命令输出的一部分(也显示为 show tech-support 命令输出的一部分)。 完整的消息类似于以下内容:
*************************************************** ******* Information of Last System Crash ********** *************************************************** Using bootflash:crashinfo. %Error opening bootflash:crashinfo (File not found) *************************************************** ****** Information of Last System Crash - SP ****** *************************************************** The last crashinfo failed to be written. Please verify the exception crashinfo configuration the filesytem devices, and the free space on the filesystem devices. Using crashinfo_FAILED. %Error opening crashinfo_FAILED (File not found)
在两种情况下会显示这种消息:
MSFC 可能因总线错误异常而发生故障,也可能由软件或硬件问题造成故障。这些错误消息可能显示如下:
*** System received a Bus Error exception *** signal= 0xa, code= 0x10, context= 0x60ef02f0 PC = 0x601d22f8, Cause = 0x2420, Status Reg = 0x34008002
!--- Output is suppressed. System was restarted by bus error at PC 0x0, address 0x0 at 15:31:54 EST Wed Mar 29 2000 !--- Output is suppressed.
如果指示的地址是内存范围之外的无效地址,则这是软件 bug。如果该地址在有效范围内,则问题的原因很可能是处理器内存的硬件故障。
有关这些类型的总线错误故障的详细信息,请参阅排除总线错误故障。有关详细信息,请参阅Cisco Bug ID CSCdx92013(仅限注册客户)。
MSFC 没有 ECC 内存保护功能。因此,MSFC 在检测到奇偶校验错误时发生故障。以下是在发生这种情况时所能看到的一些错误:
*** System received a Cache Parity Exception *** signal= 0x14, code= 0xa405c428, context= 0x60dd1ee0 PC = 0x6025b2a8, Cause = 0x6420, Status Reg = 0x34008002
!--- Output is suppressed. System returned to ROM by processor memory parity error at PC 0x6020F4D0, address 0x0 at 18:18:31 UTC Wed Aug 22 2001 !--- Output is suppressed.
在 bootflash 中或控制台上记录的 crashinfo 文件中看到:
Error: primary data cache, fields: data, SysAD virtual addr 0x4B288202, physical addr(21:3) 0x288200, vAddr(14:12) 0x0000 virtual address corresponds to pcimem, cache word 0 Address: 0x4B288200 not in L1 Cache Address: 0x4B288202 Can not be loaded into L1 Cache
如果错误多次出现,则必须更换 MSFC。如果错误只出现一次,则可能已经历了单事件翻转。在这种情况下,监控 MSFC。有关奇偶校验错误的详细信息,请参阅处理器内存奇偶校验错误(PMPE)。
MSFC2 具有 ECC 内存保护功能。但是,有一些内存位置,虽然从中检查奇偶校验,但无法修复单位错误。以下是在 crashinfo 文件中能看到的指示奇偶校验错误的某些错误消息:
如果将这些错误消息只记录了一次,则您可能已经历了单事件翻转。监控MSFC2。如果错误更频繁,请更换MSFC2。有关奇偶校验错误的详细信息,请参阅处理器内存奇偶校验错误(PMPE)。
如果MSFC2崩溃,并且您的bootflash设备中有crashinfo文件,请发出more bootflash:crashinfo_filename命令。此命令显示 crashinfo 文件中的信息。如果在 crashinfo 日志的初始日志部分中看到 MISTRAL-3-ERROR 消息,请参阅 MSFC2 发生故障后在 Crashinfo 文件中有 Mistral-3-Error 消息以确定是否遇到了某种常见原因。
show system sanity 命令对可能具有某些系统状态组合的配置运行一组预先确定的检查,以编制警告条件的列表。这些检查旨在查找任何可能不恰当的配置和系统状态。这些检查旨在帮助您保持期望和正确的系统配置和功能。CatOS 8.3x 版或更高版本中支持此命令。
要了解所执行的检查的列表并查看命令的示例输出,请参阅进行健全性检查以了解配置问题和系统运行状况。
要恢复含 Supervisor 引擎 1 或 2 的 Cisco Catalyst 6000/6500,请参阅恢复含 Supervisor 引擎 I 或 II 的 Cisco Catalyst 6000/6500。
要恢复含 Supervisor 引擎 720 或 Supervisor 引擎 32 的 Cisco Catalyst 6000/6500,请参阅恢复含 Supervisor 引擎 720 或 Supervisor 引擎 32 的 Cisco Catalyst 6000/6500。
crashinfo 文件包含有关当前崩溃的许多有用信息,这些信息保存在 bootflash 或 flash 存储器中。因数据或堆栈损坏使路由器发生故障时,调试此类型故障与来自正常 show stacks 命令的输出相比,需要更多的重载信息。
crashinfo 文件包含以下这些信息:
有关详细信息以及检索crashinfo文件的过程,请参阅从Crashinfo文件检索信息。
有关从设备收集核心转储的详细信息和步骤,请参阅创建核心转储。
对于运行本地 IOS 的 Cisco Catalyst 6000/6500 交换机,请参阅运行 Cisco IOS 软件的 Catalyst 6500/6000 系列交换机上常见的错误消息。如果看到的错误消息不在常见的错误消息内,请参阅:
对于运行混合 OS 的 Cisco Catalyst 6000/6500 交换机,请参阅 Catalyst 6500/6000 系列交换机上常见的 CatOS 错误消息。如果您看到错误消息不在其中一个常见错误消息中,请参阅消息和恢复过程 — Catalyst 6500系列系统消息指南, 8.4。
使用Cisco CLI Analyzer(仅注册客户)接收即时故障排除分析以及使用收集的show命令输出对路由器、交换机或PIX设备执行的操作过程。