このドキュメントでは、Cisco Nexus 7000 シリーズ スイッチでクロスバー(Xbar)の同期が失敗したためにモジュールがダウンした場合に、障害のある Xbar を識別する方法について説明します。この問題のトラブルシューティング手順では、問題のコンポーネントを分離するために、データ収集、データ分析、および除外プロセスが実施されます。
Nexus オペレーティング システム(NX-OS)CLI に関する知識があることが推奨されます。
このドキュメントの情報は、NX-OS バージョン 6.1(2) を実行している Cisco Nexus 7000 シリーズ スイッチに基づきますが、すべての NX-OS バージョンに適用されます。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、初期(デフォルト)設定の状態から起動しています。対象のネットワークが実稼働中である場合には、どのようなコマンドについても、その潜在的な影響について確実に理解しておく必要があります。
モジュールの起動時の Xbar の同期の失敗が原因で、N7K-F248XP-25E モジュールがダウンしています。モジュールがシャーシのスロット 1 に挿入されると、電源がダウンします。この問題は次のいずれかの理由によって発生する可能性があります。
N7K-F248XP-25E モジュール上でハードウェア障害の疑いがある場合は、障害の理由がモジュールの故障か、または Xbar の同期の失敗のいずれであるかを判断するためにログを確認する必要があります。
この例で、問題をさらに分離するために、モジュールが別のスロットに挿入され、予想どおりアクティブになりました。これにより、モジュールが故障してるわけではなく、Xbar ファブリックまたはシャーシのいずれかに問題があることが分かります。
スロット 1 でモジュールの電源がダウンすると、次の例外ログが表示されます。
show module internal exceptionlog module 1
********* Exception info for module 1 ********
exception information --- exception instance 1 ----
Module Slot Number: 1
Device Id : 88
Device Name : XbarComplex
Device Errorcode : 0x00000008
Device ID : 00 (0x00)
Device Instance : 00 (0x00)
Dev Type (HW/SW) : 00 (0x00)
ErrNum (devInfo) : 08 (0x08)
System Errorcode : 0x40240012 xbar sync failed during module bringup
(DevErr is LinkNum)
Error Type : Informational
PhyPortLayer : Unknown
Port(s) Affected : none
DSAP : 0 (0x0)
UUID : 0 (0x0)
Time : Thu Mar 20 15:55:19 2014
(Ticks: 532B0F67 jiffies)
exception information --- exception instance 2 ----
Module Slot Number: 1
Device Id : 88
Device Name : XbarComplex
Device Errorcode : 0x00000008
Device ID : 00 (0x00)
Device Instance : 00 (0x00)
Dev Type (HW/SW) : 00 (0x00)
ErrNum (devInfo) : 08 (0x08)
System Errorcode : 0x40240012 xbar sync failed during module bringup
(DevErr is LinkNum)
Error Type : Informational
PhyPortLayer : Unknown
Port(s) Affected : none
DSAP : 0 (0x0)
UUID : 0 (0x0)
Time : Thu Mar 20 15:53:12 2014
(Ticks: 532B0EE8 jiffies)
これらの例外ログにより、問題が Xbar かスロット 1 のシャーシかが明らかになります。
問題をさらに分離するために、スロット 1 のモジュールの電源を問題なくオンにできるようになるまでモジュールを監視しながら、各 Xbar を 1 つずつ取り外します。これにより、特定の Xbar ファブリック モジュールに問題があることが確認できます。問題を確認できた場合、障害のあるハードウェアに対して返品許可(RMA)手順に進みます。
ただし、これは長い手順であり、長期にわたるメンテナンス時間枠を確保する必要があります。モジュールとの同期の問題を引き起こしている Xbar ファブリック スロットを厳密に特定するには、次の手順を実行してください。
show system internal xbar event-history errors
-----------------------------------------------------
7) Event:E_DEBUG, length:67, at 384460 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_perform_error_action(1413): MTS_OPC_LC_INSERTED error 0x1
8) Event:E_DEBUG, length:104, at 384347 usecs after Thu Mar 20 15:55:19 2014
[102] send_exception_log_msg_to_lcm(1101): module 1 DevId 88 dev_err 0x8 sys
_err 0x40240012 err_type 0x4
9) Event:E_DEBUG, length:59, at 384343 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_mod_ac_error(221): Sync fail for module 1 link 8
10) Event:E_DEBUG, length:66, at 384341 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_mod_ac_error(210): Error for Slot 0 error_code 0x877660c
11) Event:E_DEBUG, length:62, at 384298 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_sync_seq_failed(1169): Sync fail for module 1 link 8
これらのログには、 Sync fail for module 1 link 8 メッセージが表示されます。その後、リンク 8 が関連付けられているファブリック スロットを特定する必要があります。これを特定するには、show system internal xbar sw コマンドの出力内容を確認する必要があります。
show system internal xbar sw
Module in slot 1 (present = 0)
Dedicated X-link 255
rid 0x2000000 type 0 state 0 sub_type 0 node_id 0x0
sw_card_id 0x0 lc_node_addr 0x0 feature_bits 0x0
timer: hdl 0x86fcc20 rid 0x2000000 ev_id 0xffff timer_id 0x41a tim_type 0x2
Link_Info:: Num Links 10 max Edp 10
Link_num 0
is_synced 0 is_edp 0 num_sync_try 0
Link_num 1
is_synced 0 is_edp 0 num_sync_try 0
Link_num 2
is_synced 0 is_edp 0 num_sync_try 0
Link_num 3
is_synced 0 is_edp 0 num_sync_try 0
Link_num 4
is_synced 0 is_edp 0 num_sync_try 0
Link_num 5
is_synced 0 is_edp 0 num_sync_try 0
Link_num 6
is_synced 0 is_edp 0 num_sync_try 0
Link_num 7
is_synced 0 is_edp 0 num_sync_try 0
Link_num 8
is_synced 0 is_edp 0 num_sync_try 3
Link_num 9
is_synced 0 is_edp 0 num_sync_try 0
Link_Map:: Num Links 10 max Edp 10
Link_num 0
connected to fab [10.0] active_lnk 1
fi_to_mon 0 fi_to_use 0
Link_num 1
connected to fab [10.0] active_lnk 1
fi_to_mon 0 fi_to_use 0
Link_num 2
connected to fab [11.0] active_lnk 1
fi_to_mon 1 fi_to_use 1
Link_num 3
connected to fab [11.0] active_lnk 1
fi_to_mon 1 fi_to_use 1
Link_num 4
connected to fab [12.0] active_lnk 1
fi_to_mon 2 fi_to_use 2
Link_num 5
connected to fab [12.0] active_lnk 1
fi_to_mon 2 fi_to_use 2
Link_num 6
connected to fab [13.0] active_lnk 1
fi_to_mon 3 fi_to_use 3
Link_num 7
connected to fab [13.0] active_lnk 1
fi_to_mon 3 fi_to_use 3
Link_num 8
connected to fab [14.0] active_lnk 1
fi_to_mon 4 fi_to_use 4
Link_num 9
connected to fab [14.0] active_lnk 1
fi_to_mon 4 fi_to_use 4
出力内容からは、Link_num 8 (リンク 8)が Xbar 5 である fab [14.0] (ファブリック スロット 14)に接続されていることが分かります。
fab [14.0] (スロット 5 内のファブリック)を特定するには、show module コマンドを入力します。
show module
Xbar Ports Module-Type Model Status
--- ----- -------------------------------- ----------------- ------
4 0 Fabric Module 2 N7K-C7010-FAB-2 ok
Xbar MAC-Address(es) Serial-Num
--- -------------------------------------- ----------
1 NA JAF1739AQTP
2 NA JAF1739AJAA
3 NA JAF1739AQDG
4 NA JAF1739ATHG
5 NA JAF1739AQEF
show module コマンドの出力からは、スロット 5 内の Xbar ファブリック モジュールを確認できます。
これで、スロット1のモジュールに同期の失敗を引き起こしたファブリックを正しく識別できました。この例では、ファブリックはスロット5から取り外され、スロット1にあったモジュールはエラーなく起動しました。これで、障害のある Xbar を交換できます。
改定 | 発行日 | コメント |
---|---|---|
1.0 |
17-Jun-2015 |
初版 |