Catalyst 4000/4500交換器系列在交換器架構中使用末節ASIC設計。交換機通過內部管理控制協定管理這些線卡末節ASIC(Astro/Leman/NiceR)。當這些內部管理請求和響應丟失或延遲時,將生成控制檯和系統日誌消息。由於這些通訊丟失的原因各不相同,因此這些錯誤消息根本原因不明顯。
本文檔旨在幫助理解Cat4000平台上生成的Astro/Leman/Nicer Timeout消息,並在思科TAC的幫助下解決這些消息。未來版本的CatOS和Cisco IOS®將改進錯誤訊息,如果可能,還能找出問題的根本原因。
當存根ASIC(Astro/Lemans/Nicer)發生超時時,會在基於CatOS的Catalyst 4000/4500交換機上報告與以下類似的消息:
%SYS-4-P2_WARN: 1/Astro(4/3) - timeout occurred %SYS-4-P2_WARN: 1/Astro(4/3) - timeout is persisting
請注意,根據軟體版本,錯誤消息的措辭可能有所不同。Astro、Lemans和Nicer指的是不同型別的殘根ASIC。本檔案的背景理論一節將介紹更多詳細資訊。
對於基於Cisco IOS的管理引擎(Supervisor II+、III和IV),錯誤消息顯示如下:
%C4K_LINECARDMGMTPROTOCOL-4-INITIALTIMEOUTWARNING: Astro 5-2(Fa5/9-16) - management request timed out. %C4K_LINECARDMGMTPROTOCOL-4-ONGOINGTIMEOUTWARNING: Astro 5-2(Fa5/9-16) - consecutive management requests timed out.
註:本文主要介紹對基於CatOS的管理引擎或交換機進行故障排除的問題。某些資訊在註明時適用於基於Cisco IOS的Supervisor。
註:本文檔還介紹了Astro stub ASIC,但大多數部分適用於其他型別的末節ASIC(Lemans和Nicer)線卡,因此將在相應部分中說明。
閱讀此文檔後,讀者將瞭解以下內容:
Catalyst 4000/4500中末節ASIC的功能。
可能導致內部管理資料包超時消息的條件。
排除此情況時,為Cisco TAC要採取的步驟和要收集的命令。
Astro超時和故障排除部分提供每個問題的背景和詳細說明。或者,您可以直接跳至本文檔的簡單故障排除方法部分。
如需文件慣例的詳細資訊,請參閱思科技術提示慣例。
本文件沒有特定先決條件。
本檔案是專用於Catalyst 4000/4500 Supervisor或使用虛設常式ASIC的線路卡。
Astro stub ASIC指的是10/100末節ASIC控制一組八個相鄰的10/100埠,這些埠通過連線到背板的千兆頻寬連線與Supervisor通訊,如下圖所示。
Supervisor通過SERDES(SERealizer-DESerializer)元件與線卡末節ASIC通訊。Supervisor端有一個SERDES元件連線到底板,線卡上還有一個SERDES元件用於連線到底板的每個末節ASIC。
通常可以使用上述圖排除不同型別線卡的故障。超時消息中引用的末節ASIC會因線卡的型別而異。有關ASIC名稱及其說明的清單,請參見下表。
末節ASIC | 說明 | 範例 |
---|---|---|
阿斯特羅 | 8埠10/100控制器末節ASIC | X4148-RJ45V |
NiceR | 4埠1000控制器末節ASIC | X4418-GB(埠3-18) |
萊曼斯 | 8埠10/100/1000控制器末節ASIC | X4448-GB-RJ |
內部管理流量與正常資料流量一起通過SERDES元件。內部管理流量用於讀/寫存根ASIC和Phy暫存器。最常見的操作包括讀取連結狀態和統計資訊。
以下各節解釋%SYS-4-P2_WARN的含義和可能的原因:1/(Stub)(module_number/)Stub_reference - Catalyst 4000/4500上發生超時錯誤消息。
Astro(stub)逾時訊息新增至軟體版本(從6.2.3和6.3.1開始,6.4.4(CSCea73908)的增強版,以表示Supervisor在與10/100線路卡上的Astro stub ASIC通訊時已遺失內部管理控制封包。通訊中斷的原因有多種,詳見下文的故障排除部分。
以下故障排除流程圖提供了一種快速簡便的方法,可以將問題隔離在可能的根本原因之間:
**不同的根本原因可能表現出類似的症狀。如需進一步的疑難排解,請聯絡TAC。
當Supervisor軟體未從線卡末節ASIC收到多個內部管理響應時,會報告Astro/Lemans/Nicer超時。如果出現以下情況,則可能發生這種情況:
管理請求丟失或延遲
管理響應丟失或延遲
在等待管理資料包響應時,一旦軟體連續超時10次,就會顯示「超時……」消息。隨後出現的超時導致列印「連續管理……」 或「……timeout persisting..」 ,取決於軟體的版本。
此日誌消息的速率限製為每10分鐘一次。發生超時時,向受影響的末節ASIC轉發的資料包會繼續。但是,由於軟體未收到管理資料包響應,因此不會看到對鏈路/自動速度/雙工的任何更改。此外,發生超時時,更新介面組的流量統計資訊的過程也會受到影響。
出現Astro/Lemans/Nicer超時消息的原因有很多。下文逐一介紹各項。
以下情況可能導致存根超時條件:
網路問題
配置問題
鄰居元素
Catalyst交換機以外的其他因素
導致高流量負載的第2層環路或廣播風暴可能會導致內部管理控制資料包丟失。出現這種情況通常是由於CPU正忙(CPU佔用)且無法處理其隊列。
內部管理控制流量與來自Astro(或任何其他末節晶片)的正常資料流量採用相同的資料路徑到達Supervisor。 因此,控制資料包可能會因擁塞而丟失。
修正思科錯誤ID CSCea73908(僅供註冊客戶使用)後,CatOS版本6.4(4)和更新版本能更佳地處理內部管理要求逾時期。此增強功能可防止由於CPU忙碌而導致許多瞬態控制資料包超時。
Action:第2層環路故障排除;或更改配置以解決流量模式。
因應措施:將交換機管理介面(sc0)移到基於CatOS的交換機上的非使用者流量VLAN。使用set interface sc0 <vlan-id>命令移動介面sc0的vlan。
注意:從Cisco IOS 12.1(20)EW開始,基於Cisco IOS的管理引擎引入了CPU對內部管理資料包處理機制的增強處理。此增強功能有助於防止由於無意中低優先順序流量佔用CPU而導致內部管理控制資料包丟失。
解決方案:請參閱上面的解決方法。
前面板使用者埠配置為半雙工。傳出流量與存根ASIC上的傳入流量的衝突可能會導致存根緩衝區非常緩慢地耗盡。這可能會導致管理引擎上的tx隊列被填滿,新的內部管理請求可能被丟棄,從而導致超時錯誤消息。
使用1A類電纜的網路也可能導致此問題。當連線到帶有RJ-45補丁的Type1A Baluns的工作站斷開連線時,Balun會在內部回圈,導致傳出流量返回。這種情況模擬在前面板埠上連線外部環回。在連線埠進入封鎖狀態之前,傳出流量會回送到交換器。這可能會造成存根緩衝區溢位,具體取決於流量的速率。
Action:請參見解決方法。
因應措施:避免半雙工配置。對於Type1A佈線,請避免將RJ-45跳線從Type 1A Balun中拔出,以避免在Balun中形成內部環回。
解決方案:請參見解決方法。
如果錯誤僅出現在一個模組的一個Astro(或其他末節ASIC)上,並且沒有發生第2層環路,則問題很可能是Supervisor或線卡上的SERDES元件出現故障。例如,如果錯誤消息總是出現在模組3的Astro 4上,如下所示,則模組3上的SERDES元件或Supervisor上的SERDES元件出現故障。
%SYS-4-P2_WARN: 1/Astro(3/4) – timeout occurred
在上述錯誤消息中,括弧中的數字「4」是指Astro #,而不是實際埠3/4。此數字引用一組八個埠(3/33-3/40),因為它是模組3上的第四個Astro。
有故障的SERDES元件可能會導致控制流量和資料流量間歇連線到Astro/Lemans/NiceR,從而導致超時。但是,通常情況下,如果SERDES出現故障,錯誤消息將會持續顯示。
Action:要確定哪個(Supervisor或線卡)SERDES損壞,請執行以下步驟:
將線卡移至機箱或其他機箱中的備用插槽。如果有可用插槽,則換用已知工作模組的插槽。
如果您在新插槽中繼續獲得同一Astro/Lemans/Nicer上的Astro/Lemans/Nicer超時,則線路卡上的SERDES或Astro/Lemans/Nicer很有可能已經失敗,需要更換線路卡
註:通過將模組重新插入備用插槽,線上卡上執行線上診斷。如果發現故障SERDES或Astro/Lemans/Nicer,則交換器會將連線埠標籤為故障。
如果原始線卡Astro/Lemans/Nicer上不再發生超時,則可能是Supervisor SERDES出現故障。若要驗證這一點,請將已知良好的模組插入原始插槽,並檢視新模組是否超時。
如果正常工作,則可能是SERDES位於Supervisor上。請參閱Catalyst WS-X4013 Supervisor出現部分連線丟失欄位通知,瞭解包含故障的SERDES元件的受影響序列號清單。
因應措施:無
解決方案:聯絡TAC進行進一步的故障排除。
連線到帶有Supervisor I或II、III或IV引擎或Catalyst 2948G、Cat2980G的Catalyst 4000的裝置可能會出現部分或完全的網路連線丟失。部分或全部埠可能受到影響。伴隨這些症狀的,將是基於CatOS的Supervisor和末節ASIC超時錯誤消息上的無效CRC丟棄資料包數量迅速增加。
此問題是由封包緩衝區記憶體(SRAM)失敗所導致的,它可以是硬型別,也可以是臨時型別。
Action:根據以下兩個瞬態資料包緩衝區記憶體故障特徵碼中的哪一個,選擇操作過程:
適用於SUP I、SUP II、2948G、2980G的即時封包緩衝區記憶體失敗簽名
以下是此問題的症狀:
InvalidPktBufferCRC快速遞增,顯示類似以下的消息
%SYS-4-P2_WARN: 1/Invalid crc, dropped packet, count = xxxx
使用reset命令進行軟重置將導致Supervisor無法開機自檢。
如果執行硬重置(電源重啟),Supervisor將通過POST並且不再遇到故障。
註:如果Supervisor I、II、2948G和2980G的硬資料包緩衝區記憶體出現故障,硬重置無法解決問題,而Supervisor或交換機仍會導致POST失敗。
有關此問題的詳細資訊,請參考Supervisor II的思科錯誤ID CSCdy46288(僅限註冊客戶)、Supervisor I/2948G/2980G的思科錯誤ID CSCeb5626(僅限註冊客戶)和WS-C298的思科錯誤ID CSCeb56325(僅限註冊客戶) 0G-A。
適用於SUP III、SUP IV的即時封包緩衝區記憶體失敗簽名
以下是此問題的症狀:
VlanZeroBadCrc計數器快速遞增,顯示在以下命令輸出中:
show platform cpuport all (prior to 12.1(11b)EW1 ) or show platform cpu packet statistics all (Since 12.1(11b)EW1) depending upon the software version. Starting from 12.1(19)EW, you should also see the following error message rapidly incrementing errors: %C4K_SWITCHINGENGINEMAN-2-PACKETMEMORYERROR3: Persistent Errors in Packet Memory xxxx
軟重置將導致Supervisor無法開機自檢。使用show diagnostics power-on命令驗證故障。
硬重置(電源循環)將恢復Supervisor,它將通過POST。
注意:如果管理引擎III/IV發生硬SRAM故障,硬重置將無法恢復Supervisor,而且仍會導致POST失敗。
有關supervisor III/IV上此問題的詳細說明,請參閱Cisco錯誤ID CSCdz57255(僅限註冊客戶)
因應措施:在瞬時SRAM出現問題時重新通電或硬重置交換機。硬SRAM問題沒有解決方法。
解決方案:聯絡TAC進行進一步的故障排除。
如果看到Astro/Lemans/NiceR超時錯誤消息涉及多個模組編號或多個Astro/Lemans/Nicer,則這可能表示Supervisor上可能存在時鐘故障。通常,時鐘故障伴隨Astro/Lemans/Nicer超時錯誤消息以及BlockTXQueue和BlockedGigaport錯誤消息,如下所示:
%SYS-4-P2_WARN: 1/Blocked queue on gigaport ...
Action:請聯絡TAC以取得進一步的疑難排解,並參閱Cisco錯誤ID CSCdp89537(僅限註冊客戶)和CSCdp93187(僅限註冊客戶)。
因應措施:無
解決方案:聯絡TAC進行進一步的故障排除。
帶有Supervisor II的Catalyst 4000系列交換機(WS-X4013)可能會進入Supervisor和線卡無法正確通訊的狀態。當交換機進入此狀態時,模組狀態LED將呈紅色(不閃爍),並且/或者埠LED將依次閃爍,與模組或交換機重置相似。這將伴隨Astro/Lemans/NiceR超時消息。
此問題是由交換機的電源臨時中斷(小於500毫秒)引起的。 臨時電力中斷可能由於生產環境中的不穩定電力饋送所致。
Action:請參閱下面的解決方法。
因應措施:重設交換器(軟或硬(重新通電))。
解決方案:升級至軟體映像,其中包含思科錯誤ID CSCea14710(僅限註冊客戶)或更新版本的修補程式。