本文檔介紹如何解決Cisco Nexus 7000平台中報告的交換矩陣錯誤。交換矩陣循環冗餘校驗和(CRC)的故障排除包括收集數據、資料分析和排除過程,以便隔離問題元件。本文檔介紹最常見的交換矩陣CRC錯誤型別。
以下是具有M1線卡的Nexus 7018交換矩陣模組的高級圖:
上圖概述了資料包穿越交換矩陣模組時涉及的元件。階段1(S1)、階段2(S2)和階段3(S3)是Nexus 7000交換矩陣的三個階段,章魚是隊列引擎,Santa Cruz(SC)是交換矩陣ASIC,例項1和例項2是XBAR上的兩個SC例項。本檔案僅考慮一個XBAR。請記住,大多數Nexus 7000系列交換機都安裝了三個或多個XBAR。
假設存在從模組1(M1)到模組2(M2)的單向流,M1上的入口Octopus-1對它從南部收到的資料包執行錯誤檢查,M2上的出口Octopus-1則從北部接收。如果在S3中檢測到CRC,則在S1或S2中可能也發生了問題,因為在這些階段不執行CRC檢查。因此,路徑中涉及的裝置是入口章魚、機箱、交叉開關交換矩陣和出口章魚。
在M1/Fab1架構中,只在輸出線路卡(S3)上檢測到CRC。
以下是錯誤訊息範例:
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
CRC error from MOD 15 through XBAR slot 1/inst 1
M1報告了此問題,表示它通過XBAR slot 1/instance 1從模組15(M15)接收到具有錯誤CRC的資料包。
本節介紹四種最常見的交換矩陣CRC錯誤型別。
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with這表示插槽1中的模組從M15到XBAR slot 1/instance 1檢測到CRC錯誤。引起CRC錯誤的模組稱為入口模組(本例中為M15),報告問題的模組是出口模組(M1)。XBAR 1是接收資料包的交叉欄。每個XBAR有兩個例項。在本例中,M1從M15到XBAR slot 1 instance 1檢測到CRC錯誤。
CRC error from MOD 15 through XBAR slot 1/inst 1
%OC_USD-SLOT4-2-RF_CRC: OC2 received packets with在此消息中,模組4(M4)報告來自M1的CRC錯誤。請注意,XBAR資訊丟失。系統無法確定封包所經過的XBAR。原因有很多,但最常見的是:資料包的交換矩陣報頭中的資訊可能已損壞,因此無法確定源模組;由於錯誤增加,已遍歷的XBAR將從系統中刪除。因此,每小時系統日誌消息中不會報告此情況。
CRC error from MOD 1
%OC_USD-2-RF_CRC: OC1 received packets with在本例中,裝置檢測到從模組16(M16)通過XBAR 1的CRC。但是沒有接收器模組。當Supervisor(SUP)檢測到來自交換矩陣模組的CRC時,不會記錄插槽資訊。如果未看到插槽資訊,則SUP檢測到問題。這並不是說SUP不好。正如模組報告問題一樣,有多個元件可能已導致問題:M16、機箱(不太可能)、XBAR 1或SUP。
CRC error from MOD 16 through XBAR slot 1/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with來源模組是從源自錯誤封包的輸入Octopus收集而來。引發中斷以記錄此錯誤消息的驅動程式並不總是知道發出錯誤資料包的入口章魚。這是因為未使用某些用來表示入口章魚的位元。如果系統確定多個模組已啟用這些未使用的位,則系統必須假設其中任何一個模組可能是源,這會導致錯誤消息包括所有模組。 系統發現模組13(M13)不能有此衝突,因為這些位未被使用;因此,它不會被記錄為潛在來源。
CRC error from MOD 11 or 12 or 14 or 15 or 16 or 17 or 18
新線卡(M2)和交換矩陣模組2(FAB2)檢測S1、S2或S3中的CRC。當您詳細調查並發現故障和日誌消息中的模式時,它有助於隔離故障元件。
以下是一些要問的問題:
這些問題的答案允許您從更可能導致更快解決率的角度來瞭解故障排除過程。
本節建立用於解決這些問題的通用框架。
本節提供了如何解決類似問題的示例。
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
幾個小時後,僅在來自模組7(M7)的M1和模組3(M3)上出現CRC錯誤。
XBAR損壞或位置錯誤,導致發往M7的資料包損壞,或者M7損壞或位置錯誤。
如果您安裝了三個XBAR,則系統會提供N+1冗餘。因此,您一次可以關閉一個系統(在任何給定時間切勿關閉多個系統),且影響極小,以便檢視問題是否已解決。輸入以下命令可完成此程式:
N7K(config)# poweroff xbar 1
<monitor>
N7K(config)# no poweroff xbar 1
N7K(config)# poweroff xbar 2
<monitor>
N7K(config)# no poweroff xbar 2
N7K(config)# poweroff xbar 3
N7K(config)# no poweroff xbar 3
在此特定案例研究中,XBAR關閉時未解決問題。
由於有兩個模組報告CRC錯誤,因此不太可能是這兩個模組(M1和M3)的原因。下一步是重新拔插M7(入口模組),因為最有可能的是故障元件。插錯線卡可能會導致此問題,建議在更換前重新拔插模組。
在本案例研究中,重新拔插M7後,交換矩陣模組上的CRC錯誤繼續增加。 此時(或在此之前)與思科技術支援中心(TAC)聯絡以更換M7,因為重新拔插不能解決問題。
在本案例研究中,替換M7停止了交換矩陣CRC錯誤消息,並解決了資料包丟失問題。
%OC_USD-SLOT11-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT12-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT13-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT15-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT2-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT4-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT5-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT7-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT8-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
多個模組報告通過XBAR 3的模組12(M12)的CRC錯誤。
XBAR 3損壞或安裝錯誤,或者M12安裝錯誤或故障。
在此案例中,XBAR 3用上述步驟(第一個案例研究中)關閉,並監測進一步的錯誤。發現XBAR 3關閉時錯誤停止。此時,已重新拔插XBAR 3,並注意確保中間背板沒有彎曲針腳以及模組已正確插入。重新啟用XBAR 3後,問題再也不會發生。此問題歸因於XBAR模組安裝錯誤。
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 7 or 13 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with CRC error from
MOD 1 or 2 or 3 or 7 or 15 or 17 through XBAR
slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 5 or 7 or 16 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
模組6(M6)報告從多個線卡和XBAR接收的CRC錯誤資料包。
M6安裝錯誤或損壞。
M6最有可能是導致此問題的原因,因為它是所有錯誤消息中一個常見的模組。在錯誤消息中列出的所有模組中,最一致顯示的是M6。因此,嘗試重新拔插M6,以便在更換之前檢視問題是否已解決。
在此例中,已重新安裝M6,但錯誤仍然存在。因此,您必須開啟思科TAC案例才能更換M6。更換M6後,不報告錯誤。
以下是用於進行疑難排解/偵錯的命令清單:
修訂 | 發佈日期 | 意見 |
---|---|---|
1.0 |
13-Aug-2013 |
初始版本 |