概要
このドキュメントでは、「ThreshFabricEGQDiscards」SNMPトラップが発生した場合のファブリックおよびストレージカード(FSC)カードのトラブルシューティング方法について説明します。
前提条件
要件
次の項目に関する知識があることが推奨されます。
使用するコンポーネント
このドキュメントの内容は、特定のソフトウェアやハードウェアのバージョンに限定されるものではありません。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、初期(デフォルト)設定の状態から起動しています。本稼働中のネットワークでは、各コマンドによって起こる可能性がある影響を十分確認してください。
問題
エラー「ThreshFabricEGQDiscards」は、ASR5500シャーシの1つのFSCカードのファブリックエッジ(FE)チップセットのSingle Event Upset(SEU)で発生すると発生します。このFEテーブルのビットフリップにより、FEチップはファブリック内のパケット(セル)を破損し始め、出力キュー廃棄が発生し、カード間のハートビート障害が発生します。
この問題の例は、コマンドラインインターフェイス(CLI)コマンドshow snmp trap history verboseを使用して確認できます。
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 2 threshold 50 measured value 2430 interval 30
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 1 threshold 50 measured value 2096 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 4 threshold 50 measured value 481 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 2 threshold 50 measured value 3761 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 1 threshold 50 measured value 3660 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 2 threshold 50 measured value 173 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 1 threshold 50 measured value 133 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 2 threshold 50 measured value 2977 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 1 threshold 50 measured value 4310 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 1 threshold 50 measured value 4499 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 2 threshold 50 measured value 4091 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 1 threshold 50 measured value 2796 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 2 threshold 50 measured value 5418 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 2 threshold 50 measured value 4747 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 1 threshold 50 measured value 5243 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 2 threshold 50 measured value 4644 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 1 threshold 50 measured value 5017 interval 30
この行は、複数のカードのcpuコンソールで表示されます。
注:コマンドdebug console cardはhidden/testコマンド。このコマンドは、show support detailsコマンドがStarOsノードで実行されている場合に、ASR5500上のすべてのカードに対して毎回収集されます。
******** debug console card 1 cpu 0 tail 10000 only *******
Saturday January 02 05:45:38 EST 2016
[...]
2016-Jan-02+03:59:47.479 card 1-cpu0: afio [1/0/2701] [2862193.674] afio/afio_petrab_egress.c:121: #1: petrab=1=1/1, PetraB EGQ Egress drop threshold exceeded, drop count=5243, interval=30 secs, threshold=50
トラブルシュート
出力ドロップが増加しているかどうかを確認します。
注:ファブリックエラーが増加しており、バージョン19.0以降でStarOsノードを実行している場合は、この記事の「ソリューション」セクションに進んでください。
注:ファブリックエラーが増加しており、バージョン19.0より前のStarOsノードバージョンを実行している場合は、TACに対してサービス要求を引き上げてください。
ステップ1:テストモードに入ります。StarOsノードで有効にする方法は次のとおりです。
cli test-commands [encrypted] password password
ステップ2:ファブリックの状態を確認します。
show fabric health | grep -i -E "^Petra-B|EGQ"
問題がない場合の出力例:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ" Petra-B 1=1/1
Petra-B 2=1/2
Petra-B 3=2/1
Petra-B 4=2/2
Petra-B 5=3/1
Petra-B 6=3/2
[...]
EGQ Discard Packetsが増加している出力例:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1143278
EGQ.EhpDiscardPacketCounter 1143278
EGQ.PqpDiscardUnicastPacketCounter 1143278
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1068491
EGQ.EhpDiscardPacketCounter 1068491
EGQ.PqpDiscardUnicastPacketCounter 1068491
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1346022 <<<
EGQ.EhpDiscardPacketCounter 1346022 <<<
EGQ.PqpDiscardUnicastPacketCounter 1346022 <<<
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1271360 <<<
EGQ.EhpDiscardPacketCounter 1271360 <<<
EGQ.PqpDiscardUnicastPacketCounter 1271360 <<<
解決方法
自動回復機構
動作の変更の種類:
ファブリックの過剰な出力廃棄を検出した場合にFSC自動復旧/リセット手順を有効にする新しいCLIコマンド
導入リリース:
19.0
古い動作:
FSCをリセットするための手動リカバリプロセス。
新しい動作:
新しいCLI設定コマンドについては、次のドキュメントを確認してください。
fabric fsc auto-recovery enable max-attempts <X>この機能を有効にします。
max-attemptsは、各FSCをリセットする回数です。デフォルトでは、max-attemptsは無制限です。
fabric fsc auto-recovery disable:この機能を無効にします。
show afctrl fsc-auto-recoveryは、リセットされていないデバイス、リセット回数、最大試行回数、出力ドロップしきい値の状態、およびFSC自動回復履歴を含む、FSC自動回復機能の詳細を表示します。
注意:お客様への影響:FSC FEデバイスがリセットされ、実行中のパケットがすべて失われます。
注:MIOがフェールオーバーすると、履歴以外のすべての値が複製されます。