簡介
本文提供如何對Cisco 12000系列Internet路由器上的線卡崩潰進行故障排除的資訊。
必要條件
需求
本文件沒有特定需求。
採用元件
本文中的資訊係根據以下軟體和硬體版本:
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路正在作用,請確保您已瞭解任何指令可能造成的影響。
慣例
如需文件慣例的詳細資訊,請參閱思科技術提示慣例。
背景資訊
本節提供有關如何識別線卡崩潰的背景資訊。
識別線路卡故障
為了快速識別線卡崩潰,請使用show context summary 命令:
Router#show context summary
CRASH INFO SUMMARY
Slot 0 : 0 crashes
Slot 1 : 0 crashes
Slot 2 : 0 crashes
Slot 3 : 0 crashes
Slot 4 : 1 crashes
1 - crash at 04:28:56 EDT Tue Apr 20 1999
Slot 5 : 0 crashes
Slot 6 : 0 crashes
Slot 7 : 0 crashes
Slot 8 : 0 crashes
Slot 9 : 0 crashes
Slot 10: 0 crashes
Slot 11: 0 crashes
如果崩潰會影響路由器本身(而不僅僅是線卡),請參閱路由器崩潰故障排除 。
收集崩潰相關資訊
為了收集崩潰的相關資料,請使用表1 中顯示的命令。
表1 — 用於收集崩潰相關資料的命令
指令
說明
顯示版本
提供有關系統硬體和軟體配置的一般資訊。
show logging
顯示路由器的常規日誌。
show diag [slot # ]
提供有關特定插槽的特定資訊:引擎型別、硬體版本、記憶體配置等。
show context slot [slot # ]
提供有關最近崩潰的上下文資訊。這通常是對線路卡崩潰進行故障排除的最有用的命令。
核心傾印
線卡的核心轉儲是崩潰時其記憶體的全部內容。初始故障排除通常不需要此資料。如果後來發現問題為新的軟體錯誤,則可能需要此程式。在這種情況下,請參閱在GSR線卡上配置核心轉儲 。
如果您有思科裝置的show tech-support (從啟用模式)指令輸出,可以使用 顯示潛在問題和修複方法。為了使用 您必須是註冊 客戶,必須登入並啟用JavaScript。
可以使用輸出直譯器顯示潛在的問題和解決方法。要使用Output Interpreter,您必須是
註冊 客戶,必須登入並啟用JavaScript。
分析收集的資料
檢查show context slot [slot# ]輸出中sig=欄位的值:
Router#show context slot 4
CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999
VERSION:
GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE
SOFTWARE (fc1)
Compiled Mon 28-Dec-98 14:53 by tamb
Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL
System exception: SIG=20 , code=0xA414EF5A, context=0x40337424
Traceback Using RA
STACK TRACE:
traceback 4014CFC0 40141AB8 40143944 4014607C 4014A7EC 401499D4 40149BB4
40149FD4 40080118 40080104
CONTEXT:
$0 : 00000000, AT : 40330000, v0 : 00000000, v1 : 00000038
a0 : 4094EF58, a1 : 00000120, a2 : 00000002, a3 : 00000001
t0 : 00000010, t1 : 3400BF01, t2 : 34008D00, t3 : FFFF00FF
t4 : 400A1410, t5 : 00000002, t6 : 00000000, t7 : 4041783C
s0 : 4093F980, s1 : 4093F980, s2 : 4094EEF0, s3 : 4094EF00
s4 : 00000000, s5 : 00000001, s6 : 00000000, s7 : 00000000
t8 : 34008000, t9 : 00000000, k0 : 404D1860, k1 : 400A2F68
gp : 402F3070, sp : 4082BFB0, s8 : 00000000, ra : 400826FC
EPC : 0x40098824, SREG : 0x3400BF04, Cause : 0x00000000
ErrorEPC : 0x4015B7E4
請參閱表2 以查詢與您記錄的SIG值相匹配的錯誤原因。
表2 — 查詢與SIG值匹配的錯誤
SIG值
SIG名稱
錯誤原因
2
SIGINT
意外的硬體中斷。
3
SIGQUIT
由於Break鍵而中止。
4
西吉爾
非法操作代碼異常。
5
SIGTRAP
由於中斷點或算術異常而中止。
8
SIGFPE
浮點單元(FPU)異常。
9
SIGKILL
保留異常。
10
SIGBUS
匯流排錯誤異常。
11
SIGSEGV
SegV異常。
20
SIGCACHE
快取奇偶校驗異常。
21
SIGWBERR
寫入匯流排錯誤中斷。
22
SIGERROR
致命硬體錯誤。
23
SIGRELOAD
軟體強制崩潰。
注意: 快取記憶體奇偶校驗異常(SIG=20)、匯流排錯誤異常(SIG=10)和軟體強制崩潰(SIG=23)佔線卡崩潰的95%以上。
diag Exec命令
思科12000系列支援diag [slot# ]命令來測試不同的主機板元件。此命令對於排除硬體相關崩潰以及識別有故障的主機板非常有用。
verbose 選項使路由器在執行測試時顯示測試清單。否則,它只顯示「通過」或「失敗」消息。
註:執 行此診斷程式會在測試期間(通常大約五分鐘)停止線卡的所有活動。
從Cisco IOS軟體版本12.0(22)S開始,思科已將Cisco 12000系列網際網路路由器現場診斷線卡映像從Cisco IOS軟體映像中解包。在早期版本中,可以從命令列啟動診斷程式,並啟動嵌入的映像。為了適應使用20 MB快閃記憶體卡的客戶,線卡現場診斷現在作為單獨的映像進行儲存和維護,必須在使用現場診斷命令之前,在快閃記憶體卡或簡單式檔案傳輸協定(TFTP)引導伺服器上提供該診斷程式。路由器處理器和交換機交換矩陣欄位診斷繼續捆綁在一起,無需從單獨的映像啟動。如需詳細資訊,請參閱Cisco 12000系列Internet路由器的現場診斷 。
以下是diag [slot# ]命令輸出的範例:
Router#diag 3 verbose
Running DIAG config check
Running Diags will halt ALL activity on the requested slot.
[confirm]
CR1.LND10#
Launching a Field Diagnostic for slot 3
Downloading diagnostic tests to slot 3 (timeout set to 400 sec.)
Field Diag download COMPLETE for slot 3
FD 3> *****************************************************
FD 3> GSR Field Diagnostics V3.0
FD 3> Compiled by award on Tue Aug 3 15:58:13 PDT 1999
FD 3> view: award-bfr_112.FieldDiagRelease
FD 3> *****************************************************
FD 3> BFR_CARD_TYPE_OC48_1P_POS testing...
FD 3> running in slot 3 (128 tests)
Executing all diagnostic tests in slot 3
(total/indiv. timeout set to 600/200 sec.)
FD 3> Verbosity now (0x00000001) TESTSDISP
FDIAG_STAT_IN_PROGRESS: test #1 R5K Internal Cache
FDIAG_STAT_IN_PROGRESS: test #2 Burst Operations
FDIAG_STAT_IN_PROGRESS: test #3 Subblock Ordering
FDIAG_STAT_IN_PROGRESS: test #4 Dram Marching Pattern
FDIAG_STAT_DONE_FAIL test_num 4, error_code 6
Field Diagnostic: ****TEST FAILURE**** slot 3: last test run 4,
Dram Marching Pattern, error 6
Field Diag eeprom values: run 2 fail mode 1 (TEST FAILURE) slot 3
last test failed was 4, error code 6
Shutting down diags in slot 3
slot 3 done, will not reload automatically
根據遇到的錯誤,插槽可能會自動重新載入,也可能不會自動重新載入。如果沒有,則它可能處於停滯或不一致狀態(請用show diag [slot # ]命令檢查),直到手動重新載入。這是正常的。若要手動重新載入卡,請使用hw-module slot [slot# ] reload 指令。
快取奇偶校驗異常
您可以在show context [slot # ]輸出中通過SIG=20 識別快取奇偶校驗異常。
如果您有思科裝置的show tech-support (從啟用模式)指令輸出,可以使用 顯示潛在問題和修複方法。為了使用 您必須是註冊 客戶,必須登入並啟用JavaScript。
可以使用輸出直譯器顯示潛在的問題和解決方法。要使用Output Interpreter,您必須是
註冊 客戶,必須登入並啟用JavaScript。
存在兩種不同型別的奇偶校驗錯誤:
軟奇偶校驗錯誤 — 當晶片內的能量級別(例如,一個或零)改變時會發生這種錯誤。在軟奇偶校驗錯誤的情況下,無需交換主機板或任何元件。
硬奇偶校驗錯誤 — 當晶片或主機板發生故障導致資料損壞時,會發生此錯誤。在這種情況下,應重新安裝或更換受影響的元件,通常是更換記憶體晶片或主機板。在同一地址出現多個奇偶校驗錯誤時,出現硬奇偶校驗錯誤。還有更複雜的情況,這些情況更難以識別,但是一般來說,如果在相對較短的時間內(幾週到幾個月)特定儲存器區域出現多個奇偶校驗錯誤,則可以將其視為硬奇偶校驗錯誤。
研究表明,軟奇偶校驗錯誤的頻率是硬奇偶校驗錯誤的10到100倍。
為了排除這些錯誤,請查詢維護視窗以對該插槽運行diag 命令。
匯流排錯誤異常
您可以在show context [slot # ]輸出中通過SIG=10 識別匯流排錯誤異常。
如果您有思科裝置的show tech-support (從啟用模式)指令輸出,可以使用 顯示潛在問題和修複方法。為了使用 您必須是註冊 客戶,必須登入並啟用JavaScript。
可以使用輸出直譯器顯示潛在的問題和解決方法。要使用Output Interpreter,您必須是
註冊 客戶,必須登入並啟用JavaScript。
此類崩潰通常與軟體相關,但如果由於某種原因(例如,它是全新的卡,或者崩潰在斷電後開始),您認為問題可能與硬體相關,請對該插槽運行diag 命令。
註: 雖然硬體沒有問題,但已知某些軟體錯誤會導致diag 命令報告錯誤。如果已更換過卡,但在診斷程式的相同測試中仍失敗,則您可能會受到此問題的影響。在這種情況下,請將崩潰視為軟體問題。
升級至最新版本的Cisco IOS軟體版本系列可消除所有導致線卡匯流排錯誤的固定錯誤。如果升級後崩潰仍然存在,請收集相關資訊(請參閱收集崩潰資訊 )、show tech-support 以及您認為可能有用的任何資訊(例如最近的拓撲更改或最近實施的新功能),然後與您的思科支援代表聯絡。
軟體強制崩潰
您可以在show context [slot # ]輸出中通過SIG=23 識別軟體強制崩潰。儘管名稱正確,但這些崩潰並不總是與軟體相關。
如果您有思科裝置的show tech-support (從啟用模式)指令輸出,可以使用 顯示潛在問題和修複方法。為了使用 您必須是註冊 客戶,必須登入並啟用JavaScript。
可以使用輸出直譯器顯示潛在的問題和解決方法。要使用Output Interpreter,您必須是
註冊 客戶,必須登入並啟用JavaScript。
軟體強制崩潰的最常見原因是「交換矩陣Ping超時」。在正常路由器操作期間,路由處理器(RP)會不斷對線卡執行ping操作。如果線卡沒有應答,路由處理器決定重置該線卡。這會導致受影響的線卡發生軟體強制崩潰(SIG=23),您應該在路由器的日誌中看到以下錯誤:
Mar 12 00:42:48: %GRP-3-FABRIC_UNI:
Unicast send timed out (4)
Mar 12 00:42:50: %GRP-3-COREDUMP: Core dump incident on slot 4, error: Fabric ping failure
為了排查交換矩陣ping超時問題,您需要找出線卡未對ping作出響應的原因。可能有多重原因:
線卡遇到高CPU使用率 — 這可使用execute-on slot [slot # ] show proc cpu命令進行驗 證。如果CPU使用率確實很高(超過95%),請參閱排除Cisco路由器上的CPU使用率過高 。
進程間通訊(IPC)中存在軟體錯誤,或線卡耗盡IPC緩衝區。大多數情況下,這些軟體強制重新載入是由軟體錯誤所導致。
升級到最新版本的Cisco IOS軟體版本系列可消除導致交換矩陣ping超時的所有已修復錯誤。如果升級後崩潰仍然存在,請收集相關資訊(請參閱獲取崩潰資訊 )、show tech-support 、show ipc status 以及您認為可能有用的任何資訊(例如最近的拓撲更改或最近實施的新功能),並與您的思科支援代表聯絡。
硬體故障 — 如果卡長時間運行正常,且最近未發生拓撲、軟體或功能更改,或者如果移動或電源中斷後開始出現問題,則可能是硬體故障所致。在受影響的線卡上運行diag 命令。如果發生故障,請更換線卡。如果多個線卡受到影響或診斷正常,請更換交換矩陣。
%GSRSPA-6-ERRORRECOVER:子插槽0上出現硬體或軟體錯誤。原因驚奇: TXECCERR自動錯誤恢復啟動
TXECCERR/RXECCERR錯誤發生於MAC中的RxFIFO或TxFIFO不可恢復的ECC錯誤中斷大於時間間隔內的閾值時。不可恢復的ECC錯誤不能由ECC邏輯糾正。當RxFIFO讀取期間發生不可恢復的錯誤時,資料所屬的資料包在SPI4接收介面上標籤為EOP/Abort,並被上層丟棄。
這是由於硬體造成的,重新載入SIP/SPA後會糾正此問題。永久性的解決方案是更換SIP/SPA以避免錯誤。
其他崩潰
到目前為止,其他型別的崩潰比上述兩種型別更少見。在大多數情況下,diag 命令應指明卡是否需要更換。如果卡正確通過診斷測試,請考慮升級軟體。
開啟TAC服務請求時要收集的資訊
如果您在完成上述故障排除步驟後仍然需要幫助,並且希望向Cisco TAC提交服務請求 (僅限註冊客戶),請確保包括以下資訊:
在開啟服務請求之前執行的故障排除。
show technical-support output(如果可能處於啟用模式)。
show log輸出 或控制檯捕獲(如果可用)。
execute-on slot [slot # ] show tech for the slot that experience the line card crash。
將收集的資料以非壓縮的純文字檔案格式(.txt)附加到您的服務請求。您可以使用TAC服務請求工具 (僅限註冊客戶)將資訊上傳到服務請求(僅限註冊客戶)。如果您無法訪問Service Request工具,可以將電子郵件附件中的資訊傳送到attach@cisco.com ,並將您的服務請求編號包含在郵件主題行中。 註:除非需要對 Cisco 12000系列Internet路由器上的線卡崩潰進行故障排除,否則不要在收集上述資訊之前手動重新載入或重新啟動路由器,因為這樣可能會導致確定問題根本原因所需的重要資訊丟失。
相關資訊