本產品的文件集力求使用無偏見用語。針對本文件集的目的,無偏見係定義為未根據年齡、身心障礙、性別、種族身分、民族身分、性別傾向、社會經濟地位及交織性表示歧視的用語。由於本產品軟體使用者介面中硬式編碼的語言、根據 RFP 文件使用的語言,或引用第三方產品的語言,因此本文件中可能會出現例外狀況。深入瞭解思科如何使用包容性用語。
思科已使用電腦和人工技術翻譯本文件,讓全世界的使用者能夠以自己的語言理解支援內容。請注意,即使是最佳機器翻譯,也不如專業譯者翻譯的內容準確。Cisco Systems, Inc. 對這些翻譯的準確度概不負責,並建議一律查看原始英文文件(提供連結)。
本文探討如何疑難排解Cisco Catalyst 6000/6500系列交換器監督器引擎交換處理器(SP)和多層交換器功能卡(MSFC)路由處理器(RP)崩潰問題。
本文件沒有特定需求。
本檔案中的資訊是根據Cisco Catalyst 6000/6500系列交換器監督器和MSFC模組。
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路正在作用,請確保您已瞭解任何指令可能造成的影響。
如需文件慣例的詳細資訊,請參閱思科技術提示慣例。
帶有SP配置暫存器且允許中斷(例如0x2)和接收控制檯中斷訊號的Catalyst 6500/6000進入ROMmon診斷模式。系統似乎崩潰。
此交換機輸出示例表示交換機從交換機處理器控制檯中斷訊號進入ROMmon診斷模式。
附註:RP配置暫存器為0x2102。
6500_IOS#show version Cisco Internetwork Operating System Software IOS (tm) c6sup2_rp Software (c6sup2_rp-PS-M), Version 12.1(13)E14, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) Technical Support: http://www.cisco.com/techsupport Copyright (c) 1986-2004 by Cisco Systems, Inc. Compiled Tue 30-Mar-04 01:56 by pwade Image text-base: 0x40008C00, data-base: 0x417A6000 ROM: System Bootstrap, Version 12.1(4r)E, RELEASE SOFTWARE (fc1) BOOTLDR: c6sup2_rp Software (c6sup2_rp-PS-M), Version 12.1(13)E14, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) 6500_IOS uptime is 31 minutes Time since 6500_IOS switched to active is 31 minutes System returned to ROM by power-on (SP by abort at PC 0x601061A8) System image file is "slot0:c6sup12-ps-mz.121-13.E14" cisco Catalyst 6000 (R7000) processor with 227328K/34816K bytes of memory. Processor board ID SAD053701CF R7000 CPU at 300Mhz, Implementation 39, Rev 2.1, 256KB L2, 1024KB L3 Cache Last reset from power-on X.25 software, Version 3.0.0. Bridging software. 1 Virtual Ethernet/IEEE 802.3 interface(s) 192 FastEthernet/IEEE 802.3 interface(s) 18 Gigabit Ethernet/IEEE 802.3 interface(s) 381K bytes of non-volatile configuration memory. 16384K bytes of Flash internal SIMM (Sector size 512K). Configuration register is 0x2102
解決方案是重新配置配置暫存器並重新載入系統。請完成以下步驟:
6500_IOS#config terminal
Enter configuration commands, one per line. End with CNTL/Z.
6500_IOS(config)#config-register 0x2102
6500_IOS(config)#end
6500_IOS#show bootvar BOOT variable = slot0:c6sup12-ps-mz.121-13.E14,1 CONFIG_FILE variable = BOOTLDR variable = Configuration register is 0x2102
6500_IOS#remote command switch show bootvar
6500_IOS-sp#
BOOT variable = slot0:c6sup12-ps-mz.121-13.E14,1
CONFIG_FILE variable =
BOOTLDR variable =
Configuration register is 0x2 (will be 0x2102 at next reload)
6500_IOS#reload
附註:此時,可以發出copy running-config startup-config命令以儲存配置。但是,由於配置暫存器設定不是啟動配置或運行配置的一部分,因此不需要執行此步驟。
在Supervisor Engine 720上執行密碼復原程式時,交換器可能會在您中斷時崩潰,以便獲得對RP控制檯的存取許可權。
*** System received a Software forced crash *** signal= 0x17, code= 0x24, context= 0x4269f6f4 PC = 0x401370d8, Cause = 0x3020, Status Reg = 0x34008002
使用此密碼恢復解決方法過程可以防止執行密碼恢復時Supervisor崩潰:
00:00:03: %OIR-6-CONSOLE: Changing console ownership to route processor
提示:請參閱密碼復原期間的標準Break按鍵順序組合以瞭解按鍵組合。
此問題已記錄在Cisco錯誤ID CSCec36997中(僅限註冊客戶)。
由於未知原因,Cisco Catalyst 6000/6500交換器可能會意外重新載入。show version命令的輸出顯示類似的錯誤消息:
System returned to ROM by unknown reload cause - suspect boot_data[BOOT_COUNT] 0x0, BOOT_COUNT 0, BOOTDATA 19 (SP by power-on)
此問題已記錄在Cisco錯誤ID CSCef80423中(僅限註冊客戶)。 將交換器升級為未受錯誤影響的最新Cisco IOS軟體版本,以解決此問題。
此消息表示指定模組的韌體檢測到奇偶校驗錯誤。系統會自動重置模組以便從錯誤中恢復。此模組上還會出現crashinfo檔案。該錯誤消息可能是由於暫時性或硬體故障所致。如果錯誤消息出現一次,則是一個暫時問題。系統會自動恢復該資料。奇偶校驗的症狀可以通過快取記憶體中的CPO_ECC來識別。表示奇偶校驗錯誤的ECC已由系統本身修正。
以下是兩種奇偶校驗錯誤:
Mar 9 12:12:24.427 GMT: %PM_SCP-SP-1-LCP_FW_ERR: Module 6 is experiencing the following error: Pinnacle #0 PB parity error. Tx path. Status=0x0042研究表明,軟奇偶校驗錯誤的頻率是硬奇偶校驗錯誤的10到100倍。因此,思科強烈建議您在替換任何內容之前等待硬奇偶校驗錯誤。這大大降低了網路的影響。
該消息表示系統控制器檢測到錯誤。重新載入裝置。如果此消息再次出現,請更換故障記憶體或MSFC卡。
%SYSTEM_CONTROLLER-3-FATAL: An unrecoverable error has been detected. The system is being reset. %Software-forced reload
當風扇托架出現故障或電源關閉時,運行Cisco IOS軟體版本12.1(19)E1的Cisco Catalyst交換機可能會使Supervisor模組崩潰。此問題已記錄在Cisco錯誤ID CSCeb51698中(僅限註冊客戶)。 將交換器升級至不受此缺陷影響的Cisco IOS版本。
如果您懷疑交換器已自行重設,請發出show version 指令以驗證交換器正常運作時間,即上次重設後的時間。發出show log命令以檢視重新啟動歷史記錄,如以下範例所示。檢視此命令輸出,以便檢視是否有記錄的任何異常。
sup2a> (enable)show version WS-C6506 Software, Version NmpSW: 6.3(10) !--- Output is suppressed. Uptime is 7 days, 4 hours, 27 minutes
sup2a> (enable)show log Network Management Processor (ACTIVE NMP) Log: Reset count: 1 Re-boot History: Jan 06 2003 10:35:56 0 Bootrom Checksum Failures: 0 UART Failures: 0 Flash Checksum Failures: 0 Flash Program Failures: 0 Power Supply 1 Failures: 0 Power Supply 2 Failures: 0 Swapped to CLKA: 0 Swapped to CLKB: 0 Swapped to Processor 1: 0 Swapped to Processor 2: 0 DRAM Failures: 0 Exceptions: 0 Loaded NMP version: 6.3(10) Software version: slot0:cat6000-sup2.6-3-10.bin Reload same NMP version count: 1 Last software reset by user: 1/6/2003,10:35:35 EOBC Exceptions/Hang: 0 Heap Memory Log: Corrupted Block = none
此show log命令輸出不會顯示任何軟體例外狀況。最後一次重新啟動交換機是2003年1月06日。重新開機時間與Last software reset欄位中的時間相符。
此show log命令輸出會顯示上次重新啟動時錄製的例外狀況。
esc-cat5500-b (enable)show log Network Management Processor (STANDBY NMP) Log: Reset count: 38 Re-boot History: Oct 14 2001 05:48:53 0, Jul 30 2001 06:51:38 0 Jul 28 2001 20:31:40 0, May 16 2001 21:15:39 0 May 02 2001 01:02:53 0, Apr 26 2001 21:42:24 0 Apr 07 2001 05:23:42 0, Mar 25 2001 02:48:03 0 Jan 05 2001 00:21:39 0, Jan 04 2001 4:54:52 0 Bootrom Checksum Failures: 0 UART Failures: 0 Flash Checksum Failures: 0 Flash Program Failures: 0 Power Supply 1 Failures: 4 Power Supply 2 Failures: 0 Swapped to CLKA: 0 Swapped to CLKB: 0 Swapped to Processor 1: 3 Swapped to Processor 2: 0 DRAM Failures: 0 Exceptions: 1 Loaded NMP version: 5.5(7) Reload same NMP version count: 3 Last software reset by user: 7/28/2001,20:30:38 Last Exception occurred on Oct 14 2001 05:47:29 ... Software version = 5.5(7) Error Msg: PID = 86 telnet87 EPC: 80269C44 !--- Output is suppressed.
如果交換器顯示此類軟體例外狀況,請發出dir bootflash: 命令,顯示MSFC(路由處理器[RP])bootflash裝置和dir slavebootflash:命令檢查是否存在軟體崩潰。本節中的輸出顯示crashinfo已記錄在RP bootflash中。確保您檢視的crashinfo是最近的崩潰事件。
cat6knative#dir bootflash: Directory of bootflash:/ 1 -rw- 1693168 Jul 24 2002 15:48:22 c6msfc2-boot-mz.121-8a.EX 2 -rw- 183086 Aug 29 2002 11:23:40 crashinfo_20020829-112340 3 -rw- 20174748 Jan 30 2003 11:59:18 c6sup22-jsv-mz.121-8b.E9 4 -rw- 7146 Feb 03 2003 06:50:39 test.cfg 5 -rw- 31288 Feb 03 2003 07:36:36 01_config.txt 6 -rw- 30963 Feb 03 2003 07:36:44 02_config.txt 31981568 bytes total (9860396 bytes free)
dir sup-bootflash:命令顯示Supervisor Engine bootflash裝置。您也可以發出dir slavesup-bootflash:命令以顯示待命Supervisor Engine bootflash裝置。此輸出顯示記錄在Supervisor引擎bootflash裝置中的crashinfo。
cat6knative11#dir sup-bootflash: Directory of sup-bootflash:/ 1 -rw- 14849280 May 23 2001 12:35:09 c6sup12-jsv-mz.121-5c.E10 2 -rw- 20176 Aug 02 2001 18:42:05 crashinfo_20010802-234205 !--- Output is suppressed.
如果命令輸出表明您懷疑交換機重新啟動時發生了軟體崩潰,請聯絡Cisco技術支援。提供show tech-support命令和show logging命令的輸出,以及crashinfo檔案的輸出。
如果安裝了分散式轉送卡(DFC)的模組已自行重設而無需使用者重新載入,您可以檢查DFC卡的bootflash以檢視其是否崩潰。如果崩潰資訊檔案可用,則可以查詢崩潰的原因。發出dir dfc#module#-bootflash:命令驗證是否存在崩潰資訊檔案以及該檔案寫入的時間。如果DFC重置與crashinfo時間戳匹配,請發出more dfc#module#-bootflash:filename命令。或者,發出copy dfc#module#-bootflash:filename tftp命令,以便通過TFTP將檔案傳輸到TFTP伺服器。
cat6knative#dir dfc#6-bootflash: Directory of dfc#6-bootflash:/ -#- ED ----type---- --crc--- -seek-- nlen -length- -----date/time------ name 1 .. crashinfo 2B745A9A C24D0 25 271437 Jan 27 2003 20:39:43 crashinfo_ 20030127-203943
提供crashinfo檔案後,收集show logging命令和show tech命令的輸出,並與Cisco技術支援聯絡以獲得進一步幫助。
從裝置表中未列出的裝置啟動時,會導致Supervisor模組崩潰。將交換機升級到Cisco IOS軟體版本12.2(18r)SX05或更高版本。
錯誤消息:
%CONST_DIAG-2-HM_SUP_CRSH: Supervisor crashed due to unrecoverable errors, Reason: Failed TestSPRPInbandPing %CONST_DIAG-2-HM_SUP_CRSH: Standby supervisor crashed due to unrecoverable errors, Reason: Failed TestSPRPInbandPing
原因和解決方案:
在啟動過程中,Cisco Catalyst 6500/6000交換器可能會意外重新載入。故障日誌可以顯示類似於以下內容的系統消息:
從活動Supervisor模組:
%SYS-SP-2-MALLOCFAIL: Memory allocation of 320000 bytes failed from 0x40BCF26C, alignment 8 Pool: Processor Free: 75448 Cause: Not enough free memory Alternate Pool: None Free: 0 Cause: No Alternate pool -Process= "CEF process", ipl= 0, pid= 240 -Traceback= 40280AB4 40288058 40BCF274 40BE5660 40BE5730 4029A764 4029A750 %L2-SP-4-NOMEM: Malloc failed: L2-API Purge/Search failed. size req. 512 SP: EARL Driver:lyra_purge_search:process_push_event_list failed %SCHED-SP-2-SEMNOTLOCKED: L2 bad entry (7fff/0) purge proc attempted to unlock an unlocked semaphore -Traceback= 402C202C 4058775C 4058511C 40587CB8
從備用管理引擎模組:
%SYS-SP-STDBY-2-MALLOCFAIL: Memory allocation of 2920 bytes failed from 0x40174088, alignment 8 Pool: Processor Free: 9544 Cause: Memory fragmentation Alternate Pool: None Free: 0 Cause: No Alternate pool -Process= "DiagCard2/-1", ipl= 0, pid= 154 -Traceback= 4016F7CC 40172984 40174090 4063601C 40636584 4062D194 4062ABD8 4062A9EC 4017E0B0 4017E09C %L2-SP-STDBY-4-NOMEM: Malloc failed: L2-API Purge/Search failed. size req. 512 %SCHED-SP-STDBY-2-SEMNOTLOCKED: L2 bad entry (7fff/0) purge proc attempted to unlock an unlocked semaphore -Traceback= 4018A300 403F0400 403EDD7C 403F0A48 SP-STDBY: EARL Driver:lyra_purge_search:process_push_event_list failed %SYS-SP-STDBY-2-MALLOCFAIL: Memory allocation of 1400 bytes failed from 0x409928B4, alignment 8 Pool: Processor Free: 7544 Cause: Memory fragmentation Alternate Pool: None Free: 0 Cause: No Alternate pool -Process= "CEF LC Stats", ipl= 0, pid= 138 -Traceback= 4016F7CC 40172984 409928BC 409C5EEC 4098A5EC
自Cisco IOS軟體版本12.2(17d)SXB起,Supervisor引擎2需要最低256MB的DRAM。如果Supervisor模組的DRAM為128MB,則為了解決此問題,請將記憶體升級到256MB或更多。如需詳細資訊,請參閱Supervisor Engine 720、Supervisor Engine 32和Supervisor Engine 2上的Cisco IOS版本12.2SX的版本說明。
由於出現意外異常,Cisco Catalyst 6000/6500交換器可能會意外重新載入。
01:22:25: %SNMP-3-AUTHFAIL: Authentication failure for SNMP req from host 10.1.2.2 01:23:25: %SNMP-3-AUTHFAIL: Authentication failure for SNMP req from host 10.1.2.2 01:23:40: ROMMON image upgrade in progress 01:23:40: Erasing flash Unexpected exception, CPU signal 5, PC = 0x402F3DC4
進行ROMMon升級時,如果系統收到SNMP查詢,可能會導致交換機重新載入。
完成以下步驟可避免執行ROMon升級時交換器崩潰:
no snmp-server
redundancy force-switchover
此訊息顯示為show stacks指令(也是show tech-support指令的一部分)輸出的連線埠。 完整訊息如下所示:
*************************************************** ******* Information of Last System Crash ********** *************************************************** Using bootflash:crashinfo. %Error opening bootflash:crashinfo (File not found) *************************************************** ****** Information of Last System Crash - SP ****** *************************************************** The last crashinfo failed to be written. Please verify the exception crashinfo configuration the filesytem devices, and the free space on the filesystem devices. Using crashinfo_FAILED. %Error opening crashinfo_FAILED (File not found)
顯示此類消息有兩個條件:
MSFC可能會因匯流排錯誤異常而崩潰,這可能是由於軟體或硬體問題導致的。可能會顯示以下錯誤消息:
*** System received a Bus Error exception *** signal= 0xa, code= 0x10, context= 0x60ef02f0 PC = 0x601d22f8, Cause = 0x2420, Status Reg = 0x34008002
!--- Output is suppressed. System was restarted by bus error at PC 0x0, address 0x0 at 15:31:54 EST Wed Mar 29 2000 !--- Output is suppressed.
如果指示的地址是記憶體範圍之外的無效地址,則是一個軟體錯誤。如果地址在有效範圍內,則問題的原因可能是處理器記憶體的硬體故障。
有關這些型別的匯流排錯誤崩潰的詳細資訊,請參閱匯流排錯誤崩潰故障排除。如需詳細資訊,請參閱Cisco錯誤ID CSCdx92013(僅限註冊客戶)。
MSFC不包含ECC記憶體保護。因此,在檢測到奇偶校驗錯誤時,MSFC崩潰。發生這種情況時,您可以看到以下錯誤:
*** System received a Cache Parity Exception *** signal= 0x14, code= 0xa405c428, context= 0x60dd1ee0 PC = 0x6025b2a8, Cause = 0x6420, Status Reg = 0x34008002
!--- Output is suppressed. System returned to ROM by processor memory parity error at PC 0x6020F4D0, address 0x0 at 18:18:31 UTC Wed Aug 22 2001 !--- Output is suppressed.
在bootflash或控制檯中記錄的crashinfo檔案中,您會看到:
Error: primary data cache, fields: data, SysAD virtual addr 0x4B288202, physical addr(21:3) 0x288200, vAddr(14:12) 0x0000 virtual address corresponds to pcimem, cache word 0 Address: 0x4B288200 not in L1 Cache Address: 0x4B288202 Can not be loaded into L1 Cache
如果錯誤出現多次,則必須更換MSFC。如果錯誤僅出現一次,則可能已經歷了單事件翻轉。在這種情況下,監控MSFC。有關奇偶校驗錯誤的詳細資訊,請參閱處理器記憶體奇偶校驗錯誤(PMPE)。
MSFC2包含ECC記憶體保護。但是,有些記憶體位置會檢查奇偶校驗,但單位元錯誤無法糾正。以下是一些錯誤消息,可以在crashinfo檔案中看到,這些消息指示奇偶校驗錯誤:
如果這些錯誤消息只記錄一次,則您可能經歷過單事件翻轉。監視MSFC2。如果錯誤更頻繁發生,則更換MSFC2。有關奇偶校驗錯誤的詳細資訊,請參閱處理器記憶體奇偶校驗錯誤(PMPE)。
如果MSFC2崩潰,並且bootflash裝置中有crashinfo檔案,請發出more bootflash:crashinfo_filename 命令。命令顯示crashinfo檔案中的資訊。如果您在crashinfo日誌的初始日誌部分中看到MISTRAL-3-ERROR消息,請參閱MSFC2 Crashes with Mistral-3-Error Messages in the Crashinfo File,以確定您是否遇到了常見原因之一。
show system sanity命令會對某些系統狀態的可能組合運行一組預先確定的配置檢查,以便編譯警告條件清單。這些支票是為了尋找任何似乎不合時宜的東西而設計的。這些檢查旨在幫助您維護所需且正確的系統配置和功能。CatOS 8.3x版或更高版本支援此命令。
請參閱配置問題和系統健康狀況的健全性檢查,以瞭解已執行的檢查清單並檢視命令的示例輸出。
請參閱使用Supervisor Engine I或II復原Catalyst 6500/6000,以復原使用Supervisor Engine 1或2的Cisco Catalyst 6000/6500。
請參閱使用Supervisor Engine 720或Supervisor Engine 32復原Catalyst 6500/6000,以復原使用Supervisor Engine 720或32的Cisco Catalyst 6000/6500。
crashinfo檔案是儲存在bootflash或Flash記憶體中與當前崩潰相關的有用資訊的集合。當路由器由於資料或堆疊損壞而崩潰時,調試此類崩潰需要更多的重新載入資訊,而不僅僅是普通show stacks命令的輸出。
crashinfo檔案包含以下資訊:
有關詳細資訊以及檢索crashinfo檔案的過程,請參閱從Crashinfo檔案檢索資訊。
請參閱建立核心轉儲,瞭解更多資訊以及從裝置收集核心轉儲的過程。
如需執行原生IOS的Cisco Catalyst 6000/6500交換器,請參閱執行Cisco IOS軟體的Catalyst 6500/6000系列交換器上的常見錯誤訊息。如果您看到一條不出現在常見錯誤消息中的錯誤消息,請參閱:
如需執行混合作業系統的Cisco Catalyst 6000/6500交換器,請參閱Catalyst 6500/6000系列交換器上的常見CatOS錯誤訊息。如果您看到不在其中一個常見錯誤消息中的錯誤消息,請參閱消息和恢復過程 — Catalyst 6500系列系統消息指南8.4。
使用Cisco CLI Analyzer(僅供已註冊客戶使用)以使用收集的show命令輸出接收路由器、交換機或PIX裝置的即時故障排除分析和操作過程。