瞭解和疑難排解Catalyst 4000/4500系列交換器上的Astro/Lemans/NiceR逾時

下載選項

PDF (204.0 KB)
在多種裝置上使用 Adobe Reader 檢視
ePub (150.6 KB)
在 iPhone、iPad、Android、Sony Reader 或 Windows Phone 上的各種應用程式中檢視
Mobi (Kindle) (179.9 KB)
在 Kindle 裝置或多部裝置的 Kindle 應用程式上檢視

已更新: 2007 年 11 月 17 日

文件 ID:45640

無偏見用語

本產品的文件集力求使用無偏見用語。針對本文件集的目的，無偏見係定義為未根據年齡、身心障礙、性別、種族身分、民族身分、性別傾向、社會經濟地位及交織性表示歧視的用語。由於本產品軟體使用者介面中硬式編碼的語言、根據 RFP 文件使用的語言，或引用第三方產品的語言，因此本文件中可能會出現例外狀況。深入瞭解思科如何使用包容性用語。

關於此翻譯

思科已使用電腦和人工技術翻譯本文件，讓全世界的使用者能夠以自己的語言理解支援內容。請注意，即使是最佳機器翻譯，也不如專業譯者翻譯的內容準確。Cisco Systems, Inc. 對這些翻譯的準確度概不負責，並建議一律查看原始英文文件（提供連結）。

簡介

Catalyst 4000/4500交換器系列在交換器架構中使用末節ASIC設計。交換機通過內部管理控制協定管理這些線卡末節ASIC(Astro/Leman/NiceR)。當這些內部管理請求和響應丟失或延遲時，將生成控制檯和系統日誌消息。由於這些通訊丟失的原因各不相同，因此這些錯誤消息根本原因不明顯。

本文檔旨在幫助理解Cat4000平台上生成的Astro/Leman/Nicer Timeout消息，並在思科TAC的幫助下解決這些消息。未來版本的CatOS和Cisco IOS®將改進錯誤訊息，如果可能，還能找出問題的根本原因。

當存根ASIC(Astro/Lemans/Nicer)發生超時時，會在基於CatOS的Catalyst 4000/4500交換機上報告與以下類似的消息：

%SYS-4-P2_WARN: 1/Astro(4/3) - timeout occurred
%SYS-4-P2_WARN: 1/Astro(4/3) - timeout is persisting

請注意，根據軟體版本，錯誤消息的措辭可能有所不同。Astro、Lemans和Nicer指的是不同型別的殘根ASIC。本檔案的背景理論一節將介紹更多詳細資訊。

對於基於Cisco IOS的管理引擎（Supervisor II+、III和IV），錯誤消息顯示如下：

%C4K_LINECARDMGMTPROTOCOL-4-INITIALTIMEOUTWARNING: Astro 5-2(Fa5/9-16) - management 
request timed out. 
%C4K_LINECARDMGMTPROTOCOL-4-ONGOINGTIMEOUTWARNING: Astro 5-2(Fa5/9-16) - consecutive 
management requests timed out.

註：本文主要介紹對基於CatOS的管理引擎或交換機進行故障排除的問題。某些資訊在註明時適用於基於Cisco IOS的Supervisor。

註：本文檔還介紹了Astro stub ASIC，但大多數部分適用於其他型別的末節ASIC（Lemans和Nicer）線卡，因此將在相應部分中說明。

閱讀此文檔後，讀者將瞭解以下內容：

Catalyst 4000/4500中末節ASIC的功能。
可能導致內部管理資料包超時消息的條件。
排除此情況時，為Cisco TAC要採取的步驟和要收集的命令。

Astro超時和故障排除部分提供每個問題的背景和詳細說明。或者，您可以直接跳至本文檔的簡單故障排除方法部分。

開始之前

慣例

如需文件慣例的詳細資訊，請參閱思科技術提示慣例。

必要條件

本文件沒有特定先決條件。

採用元件

本檔案是專用於Catalyst 4000/4500 Supervisor或使用虛設常式ASIC的線路卡。

背景理論

Astro stub ASIC指的是10/100末節ASIC控制一組八個相鄰的10/100埠，這些埠通過連線到背板的千兆頻寬連線與Supervisor通訊，如下圖所示。

Supervisor通過SERDES(SERealizer-DESerializer)元件與線卡末節ASIC通訊。Supervisor端有一個SERDES元件連線到底板，線卡上還有一個SERDES元件用於連線到底板的每個末節ASIC。

通常可以使用上述圖排除不同型別線卡的故障。超時消息中引用的末節ASIC會因線卡的型別而異。有關ASIC名稱及其說明的清單，請參見下表。

末節ASIC	說明	範例
阿斯特羅	8埠10/100控制器末節ASIC	X4148-RJ45V
NiceR	4埠1000控制器末節ASIC	X4418-GB（埠3-18）
萊曼斯	8埠10/100/1000控制器末節ASIC	X4448-GB-RJ

內部管理流量與正常資料流量一起通過SERDES元件。內部管理流量用於讀/寫存根ASIC和Phy暫存器。最常見的操作包括讀取連結狀態和統計資訊。

故障排除的簡單方法

以下各節解釋%SYS-4-P2_WARN的含義和可能的原因：1/(Stub)(module_number/)Stub_reference - Catalyst 4000/4500上發生超時錯誤消息。

Astro(stub)逾時訊息新增至軟體版本(從6.2.3和6.3.1開始，6.4.4(CSCea73908)的增強版，以表示Supervisor在與10/100線路卡上的Astro stub ASIC通訊時已遺失內部管理控制封包。通訊中斷的原因有多種，詳見下文的故障排除部分。

以下故障排除流程圖提供了一種快速簡便的方法，可以將問題隔離在可能的根本原因之間：

**不同的根本原因可能表現出類似的症狀。如需進一步的疑難排解，請聯絡TAC。

存根(Astro/Lemans/NiceR)ASIC超時

當Supervisor軟體未從線卡末節ASIC收到多個內部管理響應時，會報告Astro/Lemans/Nicer超時。如果出現以下情況，則可能發生這種情況：

管理請求丟失或延遲
管理響應丟失或延遲

在等待管理資料包響應時，一旦軟體連續超時10次，就會顯示「超時……」消息。隨後出現的超時導致列印「連續管理……」或「……timeout persisting..」，取決於軟體的版本。

此日誌消息的速率限製為每10分鐘一次。發生超時時，向受影響的末節ASIC轉發的資料包會繼續。但是，由於軟體未收到管理資料包響應，因此不會看到對鏈路/自動速度/雙工的任何更改。此外，發生超時時，更新介面組的流量統計資訊的過程也會受到影響。

疑難排解

出現Astro/Lemans/Nicer超時消息的原因有很多。下文逐一介紹各項。

原因1:向CPU的流量負載高、第2層環路或網路流量過多

以下情況可能導致存根超時條件：

網路問題
配置問題
鄰居元素
Catalyst交換機以外的其他因素

導致高流量負載的第2層環路或廣播風暴可能會導致內部管理控制資料包丟失。出現這種情況通常是由於CPU正忙（CPU佔用）且無法處理其隊列。

內部管理控制流量與來自Astro（或任何其他末節晶片）的正常資料流量採用相同的資料路徑到達Supervisor。因此，控制資料包可能會因擁塞而丟失。

修正思科錯誤ID CSCea73908(僅供註冊客戶使用)後，CatOS版本6.4(4)和更新版本能更佳地處理內部管理要求逾時期。此增強功能可防止由於CPU忙碌而導致許多瞬態控制資料包超時。

Action:第2層環路故障排除；或更改配置以解決流量模式。

因應措施：將交換機管理介面(sc0)移到基於CatOS的交換機上的非使用者流量VLAN。使用set interface sc0 <vlan-id>命令移動介面sc0的vlan。

注意：從Cisco IOS 12.1(20)EW開始，基於Cisco IOS的管理引擎引入了CPU對內部管理資料包處理機制的增強處理。此增強功能有助於防止由於無意中低優先順序流量佔用CPU而導致內部管理控制資料包丟失。

解決方案：請參閱上面的解決方法。

原因二：半雙工/1A型電纜

前面板使用者埠配置為半雙工。傳出流量與存根ASIC上的傳入流量的衝突可能會導致存根緩衝區非常緩慢地耗盡。這可能會導致管理引擎上的tx隊列被填滿，新的內部管理請求可能被丟棄，從而導致超時錯誤消息。

使用1A類電纜的網路也可能導致此問題。當連線到帶有RJ-45補丁的Type1A Baluns的工作站斷開連線時，Balun會在內部回圈，導致傳出流量返回。這種情況模擬在前面板埠上連線外部環回。在連線埠進入封鎖狀態之前，傳出流量會回送到交換器。這可能會造成存根緩衝區溢位，具體取決於流量的速率。

Action:請參見解決方法。

因應措施：避免半雙工配置。對於Type1A佈線，請避免將RJ-45跳線從Type 1A Balun中拔出，以避免在Balun中形成內部環回。

解決方案：請參見解決方法。

原因三：SERDES元件故障

如果錯誤僅出現在一個模組的一個Astro（或其他末節ASIC）上，並且沒有發生第2層環路，則問題很可能是Supervisor或線卡上的SERDES元件出現故障。例如，如果錯誤消息總是出現在模組3的Astro 4上，如下所示，則模組3上的SERDES元件或Supervisor上的SERDES元件出現故障。

%SYS-4-P2_WARN: 1/Astro(3/4) – timeout occurred

在上述錯誤消息中，括弧中的數字「4」是指Astro #，而不是實際埠3/4。此數字引用一組八個埠(3/33-3/40)，因為它是模組3上的第四個Astro。

有故障的SERDES元件可能會導致控制流量和資料流量間歇連線到Astro/Lemans/NiceR，從而導致超時。但是，通常情況下，如果SERDES出現故障，錯誤消息將會持續顯示。

Action:要確定哪個（Supervisor或線卡）SERDES損壞，請執行以下步驟：

將線卡移至機箱或其他機箱中的備用插槽。如果有可用插槽，則換用已知工作模組的插槽。
如果您在新插槽中繼續獲得同一Astro/Lemans/Nicer上的Astro/Lemans/Nicer超時，則線路卡上的SERDES或Astro/Lemans/Nicer很有可能已經失敗，需要更換線路卡

註：通過將模組重新插入備用插槽，線上卡上執行線上診斷。如果發現故障SERDES或Astro/Lemans/Nicer，則交換器會將連線埠標籤為故障。
如果原始線卡Astro/Lemans/Nicer上不再發生超時，則可能是Supervisor SERDES出現故障。若要驗證這一點，請將已知良好的模組插入原始插槽，並檢視新模組是否超時。

如果正常工作，則可能是SERDES位於Supervisor上。請參閱Catalyst WS-X4013 Supervisor出現部分連線丟失欄位通知，瞭解包含故障的SERDES元件的受影響序列號清單。

因應措施：無

解決方案：聯絡TAC進行進一步的故障排除。

原因四：瞬時/硬SRAM故障

連線到帶有Supervisor I或II、III或IV引擎或Catalyst 2948G、Cat2980G的Catalyst 4000的裝置可能會出現部分或完全的網路連線丟失。部分或全部埠可能受到影響。伴隨這些症狀的，將是基於CatOS的Supervisor和末節ASIC超時錯誤消息上的無效CRC丟棄資料包數量迅速增加。

此問題是由封包緩衝區記憶體(SRAM)失敗所導致的，它可以是硬型別，也可以是臨時型別。

Action:根據以下兩個瞬態資料包緩衝區記憶體故障特徵碼中的哪一個，選擇操作過程：

適用於SUP I、SUP II、2948G、2980G的即時封包緩衝區記憶體失敗簽名

以下是此問題的症狀：
- InvalidPktBufferCRC快速遞增，顯示類似以下的消息
```
%SYS-4-P2_WARN: 1/Invalid crc, dropped packet, count = xxxx
```
- 使用reset命令進行軟重置將導致Supervisor無法開機自檢。
- 如果執行硬重置（電源重啟），Supervisor將通過POST並且不再遇到故障。
註：如果Supervisor I、II、2948G和2980G的硬資料包緩衝區記憶體出現故障，硬重置無法解決問題，而Supervisor或交換機仍會導致POST失敗。

有關此問題的詳細資訊，請參考Supervisor II的思科錯誤ID CSCdy46288(僅限註冊客戶)、Supervisor I/2948G/2980G的思科錯誤ID CSCeb5626(僅限註冊客戶)和WS-C298的思科錯誤ID CSCeb56325(僅限註冊客戶) 0G-A。
適用於SUP III、SUP IV的即時封包緩衝區記憶體失敗簽名

以下是此問題的症狀：
- VlanZeroBadCrc計數器快速遞增，顯示在以下命令輸出中：
```
show platform cpuport all (prior to 12.1(11b)EW1 ) 
or  show platform cpu packet statistics all (Since 12.1(11b)EW1) 
depending upon the software version. Starting from 12.1(19)EW, 
you should also see the following error message rapidly incrementing errors: 

%C4K_SWITCHINGENGINEMAN-2-PACKETMEMORYERROR3: Persistent Errors in 
Packet Memory xxxx
```
- 軟重置將導致Supervisor無法開機自檢。使用show diagnostics power-on命令驗證故障。
- 硬重置（電源循環）將恢復Supervisor，它將通過POST。
注意：如果管理引擎III/IV發生硬SRAM故障，硬重置將無法恢復Supervisor，而且仍會導致POST失敗。

有關supervisor III/IV上此問題的詳細說明，請參閱Cisco錯誤ID CSCdz57255(僅限註冊客戶)

因應措施：在瞬時SRAM出現問題時重新通電或硬重置交換機。硬SRAM問題沒有解決方法。

解決方案：聯絡TAC進行進一步的故障排除。

原因五：管理引擎時鐘故障

如果看到Astro/Lemans/NiceR超時錯誤消息涉及多個模組編號或多個Astro/Lemans/Nicer，則這可能表示Supervisor上可能存在時鐘故障。通常，時鐘故障伴隨Astro/Lemans/Nicer超時錯誤消息以及BlockTXQueue和BlockedGigaport錯誤消息，如下所示：

%SYS-4-P2_WARN: 1/Blocked queue on gigaport ...

Action:請聯絡TAC以取得進一步的疑難排解，並參閱Cisco錯誤ID CSCdp89537(僅限註冊客戶)和CSCdp93187(僅限註冊客戶)。

因應措施：無

解決方案：聯絡TAC進行進一步的故障排除。

原因六：短電源中斷

帶有Supervisor II的Catalyst 4000系列交換機(WS-X4013)可能會進入Supervisor和線卡無法正確通訊的狀態。當交換機進入此狀態時，模組狀態LED將呈紅色（不閃爍），並且/或者埠LED將依次閃爍，與模組或交換機重置相似。這將伴隨Astro/Lemans/NiceR超時消息。

此問題是由交換機的電源臨時中斷（小於500毫秒）引起的。臨時電力中斷可能由於生產環境中的不穩定電力饋送所致。

Action:請參閱下面的解決方法。

因應措施：重設交換器(軟或硬（重新通電）)。

解決方案：升級至軟體映像，其中包含思科錯誤ID CSCea14710(僅限註冊客戶)或更新版本的修補程式。

瞭解和疑難排解Catalyst 4000/4500系列交換器上的Astro/Lemans/NiceR逾時

下載選項

無偏見用語

關於此翻譯

目錄

簡介

開始之前

慣例

必要條件

採用元件

背景理論

故障排除的簡單方法

存根(Astro/Lemans/NiceR)ASIC超時

疑難排解

原因1:向CPU的流量負載高、第2層環路或網路流量過多

原因二：半雙工/1A型電纜

原因三：SERDES元件故障

原因四：瞬時/硬SRAM故障

原因五：管理引擎時鐘故障

原因六：短電源中斷

相關資訊

這份文件是否有所幫助？

讓思科協助您

本文件適用於這些產品