このドキュメントでは、Cisco Nexus 7000 プラットフォームで報告されるファブリック エラーの解決方法について説明します。ファブリックの Cyclic Redundancy Checksum(CRC)のトラブルシューティングには、問題のあるコンポーネントを分離するための、データの収集、データの分析、および除外プロセスを伴います。このドキュメントでは、最も一般的なタイプのファブリック CRC エラーについて説明します。
以下は、M1 ラインカードが搭載された Nexus 7018 ファブリック モジュールのハイレベルの構成図です。
前述のイメージは、パケットがファブリック モジュールを通過する際に関与するコンポーネントの概要を示しています。ステージ 1(S1)、ステージ 2(S2)、およびステージ 3(S3)は、Nexus 7000 ファブリックの 3 つのステージであり、Octopus はキュー エンジン、Santa Cruz(SC)はファブリック ASIC、インスタンス 1 と 2 は XBAR 上の 2 つの SC インスタンスです。このドキュメントでは、XBAR が 1 つの場合についてのみ説明していますが、ほとんどの Nexus 7000 シリーズ スイッチには、3 つ以上の XBAR がインストールされています。
モジュール 1(M1)からモジュール 2(M2)への単方向フローが存在すると仮定すると、M1 上の入力 Octopus-1 は、南側から受け取るパケットのエラー チェックを実行し、M2 上の出力 Octopus-1 は北側から受け取るパケットのエラー チェックを実行します。S3 で CRC が検出された場合、S1 および S2 ステージでは CRC チェックが実行されていないため、S1 または S2 で問題が発生している可能性があります。したがって、そのパスに関係するデバイスは、入力 Octopus、シャーシ、クロスバー ファブリック、および出力 Octopus です。
M1/Fab1 アーキテクチャでは、CRC は出力ラインカード(S3)でのみ検出されます。
次にエラー メッセージのサンプルを示します。
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
CRC error from MOD 15 through XBAR slot 1/inst 1
これは M1 から報告されたエラーであり、XBAR スロット 1/インスタンス 1 経由で、モジュール 15(M15)から誤った CRC 付きのパケットを受信したことを示しています。
この項では、ファブリック CRC エラーの最も一般的な 4 つのタイプについて説明します。
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets withこれは、スロット 1 のモジュールが、XBAR スロット 1/インスタンス 1 経由で、M15 からの CRC エラーを検出したことを意味しています。CRC エラーが発生したモジュールは入力モジュール(このケースでは M15)、問題を報告したモジュールは出力モジュール(M1)です。XBAR 1 はパケットを受信したクロス バーであり、XBAR ごとに 2 つのインスタンスがあります。このケースでは、M1 は XBAR スロット 1/インスタンス 1 経由で M15 からの CRC エラーを検出しています。
CRC error from MOD 15 through XBAR slot 1/inst 1
%OC_USD-SLOT4-2-RF_CRC: OC2 received packets withこのメッセージでは、モジュール 4(M4)は、M1 から CRC エラーの報告を受けています。XBAR の情報がない点に注意してください。システムは、パケットが通過した XBAR を確認することができません。多くの理由がありますが、最も一般的な理由は次のとおりです。パケットのファブリックヘッダー内の情報が破損している可能性があるため、ソースモジュールを特定できません。エラーが増加したため、通過したXBARがシステムから削除されます。1 時間ごとの syslog メッセージに報告されていない。
CRC error from MOD 1
%OC_USD-2-RF_CRC: OC1 received packets withこの場合、デバイスは XBAR 1 経由でモジュール 16(M16)からの CRC を検出しています。ただし、受信側のモジュールはありません。スーパバイザ(SUP)がファブリック モジュールからの CRC を検出した場合、スロット情報はログに記録されません。スロット情報が表示されない場合は、SUP によって問題が検出されています。これは、SUP の不良を意味するものではありません。モジュールが問題を報告したときと同様に、問題を引き起こした可能性のあるコンポーネントが複数あります。M16、シャーシ(可能性は低い)、XBAR 1、またはSUPです。
CRC error from MOD 16 through XBAR slot 1/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets withソース モジュールは、不良パケットの発生元である入力 Octopus から情報を収集しています。このエラー メッセージを記録するために割り込みを行うドライバは、不良パケットの発生元である入力 Octopus を常に認識しているわけではありません。これは、入力 Octopus を表すために使用されているビットの一部が使用されていないためです。システムは、複数のモジュールでそれらの未使用ビットがオンになっていると判断すると、それらのモジュールのいずれかが、すべての該当モジュールにエラー メッセージが含まれる原因となったソースであると見なします。 モジュール13(M13)では、これらのビットが使用されていないため、この競合が発生しないことがシステムで検出されたため、潜在的な送信元としてログに記録されません。
CRC error from MOD 11 or 12 or 14 or 15 or 16 or 17 or 18
新しいラインカード(M2)およびファブリック モジュール 2(FAB2)で、S1、S2、または S3 内の CRC が検出された場合、詳細に調査し、障害とログ メッセージのパターンを見つけると、障害のあるコンポーネントの分離に役立ちます。
次に、検討すべき質問を示します。
これらの質問に回答することで、迅速な解決につながる可能性が高い観点から、トラブルシューティング手順にアプローチすることができます。
この項では、問題のトラブルシューティングに使用する一般的な枠組みを定めます。
この項は、同様の問題に対するトラブルシューティング方法の例を紹介します。
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
数時間にわたり、M1 およびモジュール 3(M3)で CRC エラーが確認されており、モジュール 7(M7)でのみエラーが発生している。
不良または装着不良の XBAR により M7 に送信されるパケットを破損されているか、または M7 が不良または装着不良である。
3 つの XBAR をインストールしている場合は、N+1 冗長性を得られるため、影響を最小限に抑えながら、一度に 1 つずつ XBAR をシャットダウンして(一度に 2 つ以上シャットダウンしないでください)、問題が解決したかどうか確認できます。以下のコマンドを入力して、このプロセスを完了させます。
N7K(config)# poweroff xbar 1
<monitor>
N7K(config)# no poweroff xbar 1
N7K(config)# poweroff xbar 2
<monitor>
N7K(config)# no poweroff xbar 2
N7K(config)# poweroff xbar 3
N7K(config)# no poweroff xbar 3
このケース スタディでは、XBAR をシャットダウンしても問題は解決していません。
CRC エラーを報告しているモジュールが 2 つあるため、その 2 つのモジュール(M1 と M3)が原因である可能性は低いです。次のステップでは、障害のあるコンポーネントである可能性が最も高い M7(入力モジュール)を再装着します。装着不良のラインカードがこの問題の原因であることもあるため、モジュールを交換する前に再装着することを推奨します。
このケース スタディでは、M7 の再装着の後も、ファブリック モジュールの CRC エラーは増え続けています。 M7 を再装着しても問題を解決できないので、この時点で(またはこの時点より前に)Cisco Technical Assistance Center(TAC)に連絡して、M7 を交換してください。
このケース スタディでは、M7 を交換することで、ファブリックの CRC エラー メッセージが表示されなくなり、パケット損失が解決されました。
%OC_USD-SLOT11-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT12-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT13-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT15-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT2-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT4-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT5-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT7-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT8-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
複数のモジュールで、XBAR 3 を経由するモジュール 12(M12)からの CRC エラーが報告される。
XBAR 3 が不良または装着不良であるか、あるいは M12 が装着不良または不良である。
このケースでは、(最初のケース スタディの)前述の手順を使用して XBAR 3 がシャットダウンされ、さらなるエラーがモニタされています。XBAR 3 をシャットダウンすると、エラーが停止することがわかりました。この時点で、XBAR 3 が再装着され、ミッドプレーン上のピンが曲がっていないこと、およびモジュールが正しく挿入されていることが注意深く確認されています。XBAR 3 が再度有効になってからは、問題は発生していません。この問題の原因は、装着不良の XBAR モジュールにあります。
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 7 or 13 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with CRC error from
MOD 1 or 2 or 3 or 7 or 15 or 17 through XBAR
slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 5 or 7 or 16 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
モジュール 6(M6)から、複数のラインカードと XBAR から受信した CRC エラーがあるパケットが報告される。
M6 が装着不良または不良である。
M6 はすべてのエラー メッセージに含まれている 1 つの共通モジュールであるため、この問題の原因である可能性が高いです。エラー メッセージに表示されているすべてのモジュールの中で、常に表示されているのは M6 なので、M6 を交換する前に、M6 を再装着して問題が解決するかどうか確認します。
このケースでは、M6 を再装着しても、エラーが続いているため、Cisco TAC ケースを開始して、M6 を交換する必要があります。M6 の交換後は、エラーは報告されていません。
以下は、トラブルシューティングまたはデバッグに使用されるコマンドの一覧です。
改定 | 発行日 | コメント |
---|---|---|
1.0 |
13-Aug-2013 |
初版 |