簡介
本檔案將說明在「ThreshFabricEGQDiscards」SNMP陷阱時,如何對交換矩陣和儲存卡(FSC)卡進行故障排除。
必要條件
需求
思科建議您瞭解以下主題:
採用元件
本文件所述內容不限於特定軟體和硬體版本。
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
問題
當ASR5500機箱中一個FSC卡上的交換矩陣邊緣(FE)晶片集上的單事件翻轉(SEU)時,會發現錯誤「ThreshFabricEGQDiscards」。由於FE表中的這種位翻轉,FE晶片開始損壞結構中的資料包(單元),導致出口隊列丟棄,從而導致卡之間的心跳故障。
使用命令列介面(CLI)命令show snmp trap history verbose可以看到此問題的示例。
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 2 threshold 50 measured value 2430 interval 30
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 1 threshold 50 measured value 2096 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 4 threshold 50 measured value 481 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 2 threshold 50 measured value 3761 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 1 threshold 50 measured value 3660 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 2 threshold 50 measured value 173 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 1 threshold 50 measured value 133 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 2 threshold 50 measured value 2977 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 1 threshold 50 measured value 4310 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 1 threshold 50 measured value 4499 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 2 threshold 50 measured value 4091 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 1 threshold 50 measured value 2796 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 2 threshold 50 measured value 5418 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 2 threshold 50 measured value 4747 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 1 threshold 50 measured value 5243 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 2 threshold 50 measured value 4644 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 1 threshold 50 measured value 5017 interval 30
多卡cpu控制檯下會顯示此行:
附註:debug console card is hidden/test指令。當show support details命令在StarOs節點上運行時,也會每次為ASR5500上的所有卡收集此命令。
******** debug console card 1 cpu 0 tail 10000 only *******
Saturday January 02 05:45:38 EST 2016
[...]
2016-Jan-02+03:59:47.479 card 1-cpu0: afio [1/0/2701] [2862193.674] afio/afio_petrab_egress.c:121: #1: petrab=1=1/1, PetraB EGQ Egress drop threshold exceeded, drop count=5243, interval=30 secs, threshold=50
疑難排解
檢查出口丟棄是否在增加。
附註:如果交換矩陣錯誤在增加,並且您在19.0版或更高版本上運行StarOs節點,則繼續本文的解決方案部分。
附註:如果交換矩陣錯誤增加,並且您運行的StarOs節點版本低於版本19.0,請向TAC提出服務請求。
步驟1.進入測試模式,以下是如何在StarOs節點上啟用該模式的文檔。
cli test-commands [encrypted] password password
步驟2.檢查交換矩陣運行狀況。
show fabric health | grep -i -E "^Petra-B|EGQ"
不存在問題的輸出示例:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ" Petra-B 1=1/1
Petra-B 2=1/2
Petra-B 3=2/1
Petra-B 4=2/2
Petra-B 5=3/1
Petra-B 6=3/2
[...]
EGQ Discard Packets中顯示的增量輸出示例:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1143278
EGQ.EhpDiscardPacketCounter 1143278
EGQ.PqpDiscardUnicastPacketCounter 1143278
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1068491
EGQ.EhpDiscardPacketCounter 1068491
EGQ.PqpDiscardUnicastPacketCounter 1068491
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1346022 <<<
EGQ.EhpDiscardPacketCounter 1346022 <<<
EGQ.PqpDiscardUnicastPacketCounter 1346022 <<<
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1271360 <<<
EGQ.EhpDiscardPacketCounter 1271360 <<<
EGQ.PqpDiscardUnicastPacketCounter 1271360 <<<
解決方案
自動復原機制
行為更改型別:
新的CLI命令,用於在檢測到過多的交換矩陣輸出丟棄時啟用FSC自動恢復/重置過程
推出版本:
19.0
舊行為:
手動恢復過程重置FSC。
新行為:
新的CLI配置命令,請檢查文檔:
fabric fsc auto-recovery enable max-attempts <X>可啟用此功能。
max-attempts是重置每個FSC的次數。預設情況下,最大嘗試次數不受限制。
fabric fsc auto-recovery disable停用此功能。
show afctrl fsc-auto-recovery顯示有關FSC自動恢復的詳細信息,包括尚未重置的裝置、重置計數、最大嘗試次數、輸出捨棄閾值狀態和FSC自動恢復歷史記錄。
注意:對客戶的影響:FSC FE裝置已重置,所有正在傳輸的資料包都將丟失。
附註:當MIO故障切換時,會複製除歷史記錄之外的所有值。