概要
このドキュメントでは、Cisco 12000 シリーズ インターネット ルータのラインカード クラッシュをトラブルシューティングする方法を示します。
前提条件
要件
このドキュメントに特有の要件はありません。
使用するコンポーネント
このドキュメントの情報は、次のソフトウェアとハードウェアのバージョンに基づいています。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、初期(デフォルト)設定の状態から起動しています。対象のネットワークが実稼働中である場合には、どのようなコマンドについても、その潜在的な影響について確実に理解しておく必要があります。
表記法
ドキュメント表記の詳細は、『シスコ テクニカル ティップスの表記法』を参照してください。
背景説明
このセクションでは、ラインカードのクラッシュを特定する方法の背景説明を示します。
ラインカードのクラッシュの特定
ラインカードのクラッシュをすばやく特定するには、show context summaryコマンドを使用 します。
Router#show context summary
CRASH INFO SUMMARY
Slot 0 : 0 crashes
Slot 1 : 0 crashes
Slot 2 : 0 crashes
Slot 3 : 0 crashes
Slot 4 : 1 crashes
1 - crash at 04:28:56 EDT Tue Apr 20 1999
Slot 5 : 0 crashes
Slot 6 : 0 crashes
Slot 7 : 0 crashes
Slot 8 : 0 crashes
Slot 9 : 0 crashes
Slot 10: 0 crashes
Slot 11: 0 crashes
クラッシュがルータ自体に影響を及ぼす場合(ラインカードだけに影響しない場合)は、『トラブルシューティング:ルータのクラッシュ』を参照してください 。
クラッシュに関する情報の収集
クラッシュに関する関連データを収集するには、表1に示すコマンドを使用します 。
表1 – クラッシュに関するデータを収集するために使用するコマンド
コマンド
説明
show version
システムのハードウェアおよびソフトウェア設定に関する一般的な情報を提供します。
show logging
ルータの一般的なログを表示します。
show diag [slot # ]
特定のスロットに関する具体的な情報を提供します。エンジンのタイプ、ハードウェアリビジョン、メモリ設定など。
show context slot [slot # ]
最近のクラッシュに関するコンテキスト情報を提供します。 これは、多くの場合、ラインカードのクラッシュのトラブルシューティングに最も役立つコマンドです。
コア ダンプ
ラインカードのコアダンプは、クラッシュ時のメモリの完全な内容です。通常、このデータは初期トラブルシューティングには必要ありません。問題が新しいソフトウェアバグであることが判明した場合は、後で必要になる場合があります。この場合は、『GSRラインカードでのコアダンプの設定 』を参照してください。
ご使用のシスコデバイスのshow tech-support (イネーブルモードから)コマンドの出力データがあれば、 表示します。使用するために 登録ユーザとしてログインし 、JavaScriptを有効にしている必要があります。
アウトプットインタープリタを使用すると、潜在的な問題とその解決方法を表示できます。アウトプット インタープリタを使用するには、
ユーザ登録し、ログインして、JavaScript を有効にする必要があります。
収集データの分析
show context slot [slot#] 出力の、sig= field の値をチェックします。
Router#show context slot 4
CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999
VERSION:
GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE
SOFTWARE (fc1)
Compiled Mon 28-Dec-98 14:53 by tamb
Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL
System exception: SIG=20 , code=0xA414EF5A, context=0x40337424
Traceback Using RA
STACK TRACE:
traceback 4014CFC0 40141AB8 40143944 4014607C 4014A7EC 401499D4 40149BB4
40149FD4 40080118 40080104
CONTEXT:
$0 : 00000000, AT : 40330000, v0 : 00000000, v1 : 00000038
a0 : 4094EF58, a1 : 00000120, a2 : 00000002, a3 : 00000001
t0 : 00000010, t1 : 3400BF01, t2 : 34008D00, t3 : FFFF00FF
t4 : 400A1410, t5 : 00000002, t6 : 00000000, t7 : 4041783C
s0 : 4093F980, s1 : 4093F980, s2 : 4094EEF0, s3 : 4094EF00
s4 : 00000000, s5 : 00000001, s6 : 00000000, s7 : 00000000
t8 : 34008000, t9 : 00000000, k0 : 404D1860, k1 : 400A2F68
gp : 402F3070, sp : 4082BFB0, s8 : 00000000, ra : 400826FC
EPC : 0x40098824, SREG : 0x3400BF04, Cause : 0x00000000
ErrorEPC : 0x4015B7E4
記録したSIG値と一致するエラーの理由を調べるには、表2を参照してください。
表2:SIG値に一致するエラーの検索
SIG 値
SIG名
エラーの理由
0
SIGINT
予期しないハードウェア割り込み.
3
SIGQUIT
Break キーによる中断.
4
シギル
不正な opcode 例外.
5
SIGTRAP
ブレーク ポイントまたは算術例外による中断.
8
SIGFPE
Floating Point Unit(FPU; 浮動小数点演算ユニット)の例外.
9 ミリ秒
SIGKILL
予約例外.
10
SIGBUS
バス エラー例外.
11
SIGSEGV
SegV 例外.
20
SIGCACHE
キャッシュ パリティ例外.
21
SIGWBERR
書き込みバス エラー割り込み.
22
SIGERROR
重大なハードウェア エラー.
23
SIGRELOAD
ソフトウェア強制クラッシュ.
注: キャッシュパリティ例外(SIG=20)、バスエラー例外(SIG=10)、およびソフトウェア強制クラッシュ(SIG=23)は、ラインカードのクラッシュの95 %以上を占めています。
diag 実行 コマンド
Cisco 12000シリーズでは、diag [slot# ]コマンドを使用 して、さまざまなボードコンポーネントをテストできます。このコマンドは、ハードウェア関連のクラッシュのトラブルシューティングや、障害のあるボードの特定に役立ちます。
verbose オプションを使用すると、実行中のテストのリストがルータに表示されます。それ以外の場合は、「PASSED」または「FAILURE」メッセージが表示されます。
注:この 診断を実行すると、テスト中にラインカードのすべてのアクティビティが停止します(通常5分ほど)。
Cisco IOSソフトウェアリリース12.0(22)S以降、シスコはCisco IOSソフトウェアイメージからCisco 12000シリーズインターネットルータのフィールド診断ラインカードのイメージをバンドル解除しました。以前のバージョンでは、コマンドラインから診断を起動でき、埋め込まれたイメージが起動されます。20 MBのフラッシュメモリカードを使用するお客様に対応するため、ラインカードのフィールド診断は、フィールド診断コマンドを使用する前に、フラッシュメモリカードまたはTrivial File Transfer Protocol(TFTP)ブートサーバで使用できる必要がある別のイメージとして保存されます。ルータプロセッサとスイッチファブリックのフィールド診断は引き続きバンドルされ、別のイメージから起動する必要はありません。詳細については、『Cisco 12000シリーズインターネットルータのフィールド診断 』を参照してください。
diag [slot# ]コマンドの出力の例を次に示します。
Router#diag 3 verbose
Running DIAG config check
Running Diags will halt ALL activity on the requested slot.
[confirm]
CR1.LND10#
Launching a Field Diagnostic for slot 3
Downloading diagnostic tests to slot 3 (timeout set to 400 sec.)
Field Diag download COMPLETE for slot 3
FD 3> *****************************************************
FD 3> GSR Field Diagnostics V3.0
FD 3> Compiled by award on Tue Aug 3 15:58:13 PDT 1999
FD 3> view: award-bfr_112.FieldDiagRelease
FD 3> *****************************************************
FD 3> BFR_CARD_TYPE_OC48_1P_POS testing...
FD 3> running in slot 3 (128 tests)
Executing all diagnostic tests in slot 3
(total/indiv. timeout set to 600/200 sec.)
FD 3> Verbosity now (0x00000001) TESTSDISP
FDIAG_STAT_IN_PROGRESS: test #1 R5K Internal Cache
FDIAG_STAT_IN_PROGRESS: test #2 Burst Operations
FDIAG_STAT_IN_PROGRESS: test #3 Subblock Ordering
FDIAG_STAT_IN_PROGRESS: test #4 Dram Marching Pattern
FDIAG_STAT_DONE_FAIL test_num 4, error_code 6
Field Diagnostic: ****TEST FAILURE**** slot 3: last test run 4,
Dram Marching Pattern, error 6
Field Diag eeprom values: run 2 fail mode 1 (TEST FAILURE) slot 3
last test failed was 4, error code 6
Shutting down diags in slot 3
slot 3 done, will not reload automatically
発生したエラーに応じて、スロットが自動的にリロードされる場合とリロードされない場合があります。そうでない場合は、手動でリロードするまで、スタック状態または不整合ステートである可能性があります(show diag [slot # ]コマンドを確認 します)。これは正常な動作です。手動でカードをリロードするには、hw-module slot [slot#] reloadコマンドを 使用し ます 。
キャッシュ パリティ例外
キャッシュパリティ例外は、show context [slot # ]の出力でSIG=20 で識別できま す。
ご使用のシスコデバイスのshow tech-support (イネーブルモードから)コマンドの出力データがあれば、 表示します。使用するために 登録ユーザとしてログインし 、JavaScriptを有効にしている必要があります。
アウトプットインタープリタを使用すると、潜在的な問題とその解決方法を表示できます。アウトプット インタープリタを使用するには、
ユーザ登録し、ログインして、JavaScript を有効にする必要があります。
パリティ エラーには次の 2 種類があります。
ソフトパリティエラー:チップ内のエネルギーレベル(たとえば、1または0)が変化すると発生します。ソフト パリティ エラーの場合は、ボードやコンポーネントを交換する必要はありません。
ハードパリティエラー:チップまたはボードの障害によりデータが破損した場合に発生します。この場合、該当するコンポーネント(通常はメモリチップの交換またはボードの交換)を装着し直すか、交換する必要があります。同じアドレスで複数のパリティエラーが発生すると、ハードパリティエラーが発生します。識別が困難な複雑なケースもありますが、一般に、比較的短い期間(数週間から数ヵ月)で特定のメモリ領域に複数のパリティエラーが発生した場合は、ハードパリティエラーと考えられます。
研究によれば、ソフト パリティ エラーはハード パリティ エラーの 10~100 倍の頻度で発生します。
これらのエラーのトラブルシューティングを行うには、メンテナンスウィンドウを見つけて、そのスロットに対してdiagコ マンドを実行します。
バス エラー例外
バスエラーの例外は、show context [slot # ]の出力でSIG=10 を使用して確認 できます。
ご使用のシスコデバイスのshow tech-support (イネーブルモードから)コマンドの出力データがあれば、 表示します。使用するために 登録ユーザとしてログインし 、JavaScriptを有効にしている必要があります。
アウトプットインタープリタを使用すると、潜在的な問題とその解決方法を表示できます。アウトプット インタープリタを使用するには、
ユーザ登録し、ログインして、JavaScript を有効にする必要があります。
このタイプのクラッシュは、通常はソフトウェアに関連していますが、何らかの理由(新しいカードの場合や、停電後にクラッシュが発生する場合など)で、ハードウェアに関連する問題があると考えられる場合は、そのスロットに対してdiagコマンドを実行します。
注:ハードウ ェアに問題がない場合でも、diagコマンドでエラーが報告され るソフトウェアのバグがいくつか確認されています。カードがすでに交換されていても、診断で同じテストで失敗する場合は、この問題に該当する可能性があります。この場合、クラッシュはソフトウェアの問題として扱います。
Cisco IOSソフトウェアリリーストレインの最新バージョンにアップグレードすると、ラインカードのバスエラーを引き起こす修正済みのバグがすべて解消されます。アップグレード後もクラッシュが発生する場合は、関連する情報(クラッシュに関する情報の収集を参照してください)とshow tech-support 、および有用と思われる情報(最近のトポロジ変更や最近実装された新機能など)を収集し、シスコの担当者にに連絡します。
ソフトウェアによるクラッシュ
ソフトウェア強制クラッシュは、show context [slot # ]の出力のSIG=23 で識別できま す。名前にもかかわらず、これらのクラッシュは必ずしもソフトウェアに関連しているわけではありません。
ご使用のシスコデバイスのshow tech-support (イネーブルモードから)コマンドの出力データがあれば、 表示します。使用するために 登録ユーザとしてログインし 、JavaScriptを有効にしている必要があります。
アウトプットインタープリタを使用すると、潜在的な問題とその解決方法を表示できます。アウトプット インタープリタを使用するには、
ユーザ登録し、ログインして、JavaScript を有効にする必要があります。
ソフトウェア強制クラッシュの最も一般的な原因は、「ファブリックPingタイムアウト」です。 通常のルータの動作中は、ルートプロセッサ(RP)がラインカードに対して継続的にpingを実行します。ラインカードが応答しない場合、ルートプロセッサはラインカードのリセットを決定します。これにより、該当するラインカードのソフトウェア強制クラッシュ(SIG=23)が発生し、ルータのログに次のエラーが表示されます。
Mar 12 00:42:48: %GRP-3-FABRIC_UNI:
Unicast send timed out (4)
Mar 12 00:42:50: %GRP-3-COREDUMP: Core dump incident on slot 4, error: Fabric ping failure
ファブリックpingタイムアウトをトラブルシューティングするには、ラインカードがpingに応答しなかった理由を調べる必要があります。複数の原因が考えられます。
ラインカードでCPU使用率が高くなっています。これは、execute-on slot [slot # ] show proc cpuコマンドを使用して確認でき ます 。CPUの使用率が実際に高い(95 %を超える)場合は、『CiscoルータのCPU使用率が高い場合のトラブルシューティング 』を参照してください。
Inter Process Communication(IPC;プロセス間通信)にソフトウェアの不具合があるか、ラインカードでIPCバッファが使い果たされています。ほとんどの場合、ソフトウェア強制リロードはソフトウェアのバグが原因です。
Cisco IOSソフトウェアリリーストレインの最新バージョンにアップグレードすると、ファブリックpingのタイムアウトを引き起こす修正済みのバグがすべて解消されます。アップグレード後もクラッシュが発生する場合は、関連する情報(クラッシュに関する情報の取得を参照)とshow tech-support 、show ipc status 、および役立つと思われる情報(最近のトポロジの変更や最近実装された新機能など)を収集し、シスコサポート担当者にに連絡します。
ハードウェア障害:カードが長時間正常に動作していて、トポロジ、ソフトウェア、または機能の変更が行われていない場合、または移動または停電後に問題が発生した場合は、ハードウェアの欠陥が原因である可能性があります。該当するラインカードでdiag コマンドを実行します。障害が発生した場合は、ラインカードを交換します。複数のラインカードが影響を受けるか、またはdiagが正常な場合は、ファブリックを交換します。
%GSRSPA-6-ERRORRECOVER:サブスロット0でハードウェアまたはソフトウェアのエラーが発生しました。理由Marvel:TXECCERR自動エラー回復の開始
TXECCERR/RXECCERRエラーは、RxFIFOまたはTxFIFOの回復不能なECCエラー割り込みが、その時間内のしきい値を超えてMACで発生したときに発生します。回復不能なECCエラーは、ECCロジックでは修正できません。RxFIFO読み取り中に回復不能なエラーが発生すると、データが属するパケットはSPI4受信インターフェイスでEOP/Abortとマークされ、上位層によって廃棄されます。
これはハードウェアに起因するもので、SIP/SPAをリロードすると修正されます。永続的なソリューションは、エラーを回避するためにSIP/SPAを交換することです。
その他のクラッシュ
その他のクラッシュタイプは、上記の2つよりも一般的ではありません。ほとんどの場合、diag コマンドは、カードを交換する必要があるかどうかを示す必要があります。カードが診断テストに正しく合格している場合は、ソフトウェアのアップグレードを検討してください。
TAC のサービスリクエストをオープンする場合に収集すべき情報
関連情報