この製品のドキュメントセットは、偏向のない言語を使用するように配慮されています。このドキュメントセットでの偏向のない言語とは、年齢、障害、性別、人種的アイデンティティ、民族的アイデンティティ、性的指向、社会経済的地位、およびインターセクショナリティに基づく差別を意味しない言語として定義されています。製品ソフトウェアのユーザインターフェイスにハードコードされている言語、RFP のドキュメントに基づいて使用されている言語、または参照されているサードパーティ製品で使用されている言語によりドキュメントに例外が存在する場合があります。シスコのインクルーシブ ランゲージの取り組みの詳細は、こちらをご覧ください。
シスコは世界中のユーザにそれぞれの言語でサポート コンテンツを提供するために、機械と人による翻訳を組み合わせて、本ドキュメントを翻訳しています。ただし、最高度の機械翻訳であっても、専門家による翻訳のような正確性は確保されません。シスコは、これら翻訳の正確性について法的責任を負いません。原典である英語版(リンクからアクセス可能)もあわせて参照することを推奨します。
このドキュメントでは、Cisco アグリゲーション サービス ルータ(ASR)9000 シリーズの動作中に表示されるパント ファブリック データ パス障害メッセージについて説明します。
メッセージは次の形式で表示されます。
RP/0/RP0/CPU0:Oct 28 12:46:58.459 IST: pfm_node_rp[349]: %PLATFORM-DIAGS-3-PUNT_FABRIC_DATA_PATH_FAILED :
Set|online_diag_rsp[24790]|System Punt/Fabric/data Path Test(0x2000004)|failure threshold is 3,
(slot, NP) failed: (0/9/CPU0, 1) (0/9/CPU0, 3)
この問題は、前述の0/9/CPU0のNP1とNP3で発生します。
このドキュメントは、エラーメッセージと、問題が発生した場合に実行する必要があるアクションを理解したいと考えている人を対象としています。
Tomahawkベースのラインカード(LC)は、サービスエッジ最適化(拡張QoS)LCまたはパケット転送最適化(基本QoS)LCとして使用できます。
4ポートおよび8ポートの100ギガビットイーサネットLCには、LAN/WAN/OTN Unified PHY CPAKポートまたはLAN PHYのみのCPAKポートをサポートする2つのタイプがあります。
次のLCはTomahawkベースです。
注:A99-Xで始まるTomahawkベースのLC部品番号は、Cisco ASR 9904、ASR 9906、ASR 9910、ASR 9912、およびASR 9922シャーシと互換性があります。それらは、Cisco ASR 9006 および ASR 9010 ルータとは互換性がありません。
LightspeedベースのLCは、サービスエッジ最適化(拡張QoS)LCまたはパケット転送最適化(基本QoS)LCとして使用できます。TomahawkベースのLCとは異なり、すべてのLCモデルが – SEと – TRの両方のタイプで使用できるわけではありません。
次のLCはLightspeedベースです。
Lightspeed-Plus(LSP)ベースのLCは、サービスエッジ最適化(拡張QoS)LCまたはパケット転送最適化(基本QoS)LCとして使用できます。
これらのLCはLSPベースです。
LCに4つのNPがあると仮定すると、オンライン診断はすべてのNPを実行する必要があります(これらが正常であることを確認するために、ファブリックパスが必要です)。これで、各NPは20個のVQIを持つことができます(0 ~ 19、20 ~ 39、40 ~ 59、60 ~ 79)。
最初の1分で、オンライン診断は各NPに1つのパケットを送信します。
1 min : against VQI 0, 20, 40, 60 (to all 4 NPs)
2 min:""""""""
3 min: """""""
4 min : """""
5th min : against VQI 1, 21, 41, 61..
6 min : """"""""
すべてのVQIが終了すると、この動作が1回のサイクルで繰り返されます。
RP/0/RP1/CPU0:AG2-2#show pfm location 0/RP1/CPU0
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Apr 7 01:04:04 2022PFM TOTAL: 1 EMERGENCY/ALERT(E/A): 0 CRITICAL(CR): 0 ERROR(ER): 1
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Apr 7 00:54:52 2022|0 |PUNT_FABRIC_DATA_PATH_FAILED |ER |10042 >>ID |System Punt/Fa|0x2000004
PFMアラームに関するすべての情報を収集するには、次のコマンド出力をキャプチャします。
show pfm location all
show pfm trace location all
特定のプロセスによって発生するアラームの詳細を表示するには、次のコマンドを使用できます。
show pfm process name <process_name> location <location> >>> location where the PFM alarm is observed
各ルートスイッチプロセッサ/スイッチプロセッサ(RSP/RP)には2つのファブリックチップがあり、両方とも1つの共通アービタで制御されます(デュアルRSP/RPはシャーシごとの復元力のあるアービタを意味します)。アクティブなRSP/RP上のアービターだけが、4つのファブリックチップすべてを制御します(デュアルRSPを想定)。ただし、RSP/RP間のフェールオーバーが瞬時に行われるように、両方のアービターがファブリックアクセス要求を受信し、システム全体の状態をいつでも把握しています。アービタ間にはキープアライブはありませんが、RSP/RPにはComplex Programmable Logic Device(CPLD)ASIC(FPGAに類似)が搭載されており、その機能の1つは、低レベルのキープアライブによって他のRSP/RPの状態を追跡し、アクティブなアービタを確立することです。
すべてのファブリックインターコネクトASICにはVQIのセットがあります。これは、システム内の100Gエンティティ(Tomahawk用)を表すキューのセットです。すべての100Gエンティティ(1つの出力NP上の1x100Gポートは、入力NP内の1つの100G VQIで表されます)には、複数のプライオリティクラスがあります。
各VQIには、異なるパケットプライオリティ用の4つの仮想出力キュー(VOQ)のセットがあり、そのうち3つがASR 9000転送アーキテクチャで使用されます。これらは、入力QoSポリシーのプライオリティレベル1、2およびデフォルトに対応します。2つの完全優先キューと1つの通常キューがあります(4番目のキューはマルチキャスト用で、ユニキャスト転送には使用されません)。
通常、出力NP VQIからのバックプレッシャーの間、デフォルトキューは最初にパケットの廃棄を開始します。出力ネットワーク処理ユニット(NPU)が過負荷状態(回線で処理できる量を超えるBpsまたはPPSを処理する)になった場合にのみ、入力LC/NPにバックプレッシャーがかかります。これは、その入力LC上のファブリックインターフェイスASIC(FIA)でのVQIフローの停滞によって表されます。
以下に例を挙げます。
RP/0/RP0/CPU0:AG3_1#show controllers np ports all location 0/0/CPU0 >>> LC0 is installed in slot 2
Node: 0/0/CPU0:
----------------------------------------------------------------
NP Bridge Fia Ports
-- ------ --- ---------------------------------------------------
0 -- 0 TenGigE0/0/0/0/0 - TenGigE0/0/0/0/9, TenGigE0/0/0/1/0 - TenGigE0/0/0/1/9
1 -- 1 TenGigE0/0/0/2/0 - TenGigE0/0/0/2/9, HundredGigE0/0/0/3
2 -- 2 HundredGigE0/0/0/4 - HundredGigE0/0/0/5 >>>Below is the VQI assignment
3 -- 3 HundredGigE0/0/0/6 - HundredGigE0/0/0/7
RP/0/RP0/CPU0:AG3_1#sh controller fabric vqi assignment slot 2
slot = 2
fia_inst = 2 >>>FIA 2
VQI = 40 SPEED_100G
VQI = 41 SPEED_100G
VQI = 42 SPEED_100G
VQI = 43 SPEED_100G
VQI = 44 SPEED_100G
VQI = 45 SPEED_100G
VQI = 46 SPEED_100G
VQI = 47 SPEED_100G
VQI = 56 SPEED_100G
VQI = 57 SPEED_100G
VQI = 58 SPEED_100G
VQI = 59 SPEED_100G
VQI = 60 SPEED_100G
VQI = 61 SPEED_100G
VQI = 62 SPEED_100G
VQI = 63 SPEED_100G
入力LCが特定のパケットを特定の出力NPUに送信することを決定すると、入力LCの変更(MDF)ステージはファブリック宛先ヘッダーでパケットをカプセル化します。FIAはその「アドレス」を参照すると、特定の出力NPU/宛先/LCのVOQをチェックし、十分な帯域幅が使用可能かどうかを確認します。そのLCにパケットをデキューする準備が整うと、入力FIAは、その宛先LCに対するファブリック(アービター)からの認可を要求します。調停アルゴリズムはQoSに対応しており、P1クラスパケットがP2クラスよりも優先されるようになります。アービタは、入力FIAからの許可要求を出力FIAにリレーします。
入力FIAは、同じ出力LCに向かう複数のパケットをスーパーフレームと呼ばれるフレームにグループ化できます。これは、スイッチファブリックリンクを通過するネイティブフレーム/パケットではなく、スーパーフレームであることを意味します。定数100 ppsのテストでは、CLIは50 ppsのみを報告するファブリックカウンタを表示できるため、注意が必要です。これはパケット損失ではなく、単にスイッチファブリックを介して送信される各スーパーフレームに2つのパケットがあることを意味します。スーパーフレームにはシーケンス情報が含まれ、宛先FIAはリオーダーをサポートします(パケットは複数のファブリックリンクに「スプレー」できます)。ユニキャストパケットだけがスーパーフレームに配置され、マルチキャストには配置されません。
パケットが出力LCで受信されると、認可はアービタに返されます。アービターのVOQあたりのトークン数には限りがあります。アービタが入力FIAに特定のVOQへの(スーパー)フレームの送信を許可すると、出力FIAがフレームを出力NPに配信するときにだけ、そのトークンがプールに返されます。出力NPが出力FIAにバックプレッシャ信号を送出した場合、トークンは占有されたままになります。これが、入力FIAのVOQに対するトークンが最終的にアービターで枯渇する仕組みです。これが発生すると、入力FIAは着信パケットの廃棄を開始します。バックプレッシャのトリガーは、出力NP内の受信フレームディスクリプタ(RFD)バッファの使用率です。NPマイクロコードがパケットを処理している間、RFDバッファはパケットを保持しています。パケットの処理機能が増えるほど、パケットがRFDバッファに留まる時間が長くなります。
より良い言及するために、ローカルアービターからRSP上のアクティブアービターへのクレジットメカニズム。また、アービター障害の可能性のあるケースをカバーする別のセクションを追加します(エラーコードを言及する必要はありませんが、アービターASICエラーを確認します)。アービターの問題が発生した場合に確認し、ローカルまたは中央のアービターが原因で認可を取得せず、キューが積み重なる場合に確認します。
異なる出力NPに向かうパケットは、異なるVOQセットに入れられます。1つのNPで輻輳が発生しても、異なるNPに向かうパケットはブロックされません。
ASR9912は、10枚のLCと1つのファブリックインターコネクトチップのみをサポートしており、同じ構成です。
次の手順は、パントパス障害に関連する問題を絞り込む方法のヒントを示しています。 まったく同じ順序で従う必要はありません。
show logging | inc “PUNT_FABRIC_DATA_PATH”
RP/0/RP1/CPU0:Oct 28 12:46:58.459 IST: pfm_node_rp[349]: %PLATFORM-DIAGS-3-PUNT_FABRIC_DATA_PATH_FAILED :
Set|online_diag_rsp[24790]|System Punt/Fabric/data Path Test(0x2000004)|failure threshold is 3, (slot, NP)
failed: (0/9/CPU0, 1) (0/9/CPU0, 3)
この問題は、前述の0/9/CPU0のNP1とNP3で発生します。
run nslot all
コマンドを使用して、アップグレードを実行します。RP/0/RP1/CPU0:AG2-2#show pfm location 0/RP1/CPU0
node: node0_RP1_CPU0
---------------------
CURRENT TIME: Mar 25 12:11:29 2022
PFM TOTAL: 1 EMERGENCY/ALERT(E/A): 0 CRITICAL(CR): 0 ERROR(ER): 1
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Mar 25 12:03:30 2022|1 |PUNT_FABRIC_DATA_PATH_FAILED |ER |8947 |System Punt/Fa|0x2000004
RP/0/RP1/CPU0:AG2-2#sh pfm process 8947 location 0/rp1/CPU0
node: node0_RP1_CPU0
---------------------
CURRENT TIME: Mar 25 12:12:36 2022
PFM TOTAL: 1 EMERGENCY/ALERT(E/A): 0 CRITICAL(CR): 0 ERROR(ER): 1
PER PROCESS TOTAL: 0 EM: 0 CR: 0 ER: 0
Device/Path[1 ]:Fabric loopbac [0x2000003 ] State:RDY Tot: 0
Device/Path[2 ]:System Punt/Fa [0x2000004 ] State:RDY Tot: 1
1 Fault Id: 432
Sev: ER
Fault Name: PUNT_FABRIC_DATA_PATH_FAILED
Raised Timestamp: Mar 25 12:03:30 2022
Clear Timestamp: Mar 25 12:07:32 2022
Changed Timestamp: Mar 25 12:07:32 2022
Resync Mismatch: FALSE
MSG: failure threshold is 3, (slot, NP) failed: (0/9/CPU0, 1) (0/9/CPU0, 3)
診断パケットフロー図
RPのパケットパス:
online_diags <===> SPP <===> Fabric <===> NP
LCのパケットパス:
online_diags <===> SPP <===> Punt-switch <====> NP
1分ごとに、NPごとのDIAGSパケットがLCのCPUからパントスイッチに注入され、すべてがNPでループバックされます。ファブリックにはまったくアクセスしません。ターンアラウンドポイントまたは中間マークは、各NPのマイクロコードです。
RP/0/RP0/CPU0:AG2-2(admin)#show diagnostic content location <> >>> (in cXR)
RP/0/RP0/CPU0:AG2-2#show diagnostic content location <> >>> (in eXR)
A9K-8X100GE-L-SE 0/0/CPU0:
Diagnostics test suite attributes:
M/C/* - Minimal bootup level test / Complete bootup level test / NA
B/O/* - Basic ondemand test / not Ondemand test / NA
P/V/* - Per port test / Per device test / NA
D/N/* - Disruptive test / Non-disruptive test / NA
S/* - Only applicable to standby unit / NA
X/* - Not a health monitoring test / NA
F/* - Fixed monitoring interval test / NA
E/* - Always enabled monitoring test / NA
A/I - Monitoring is active / Monitoring is inactive
n/a - Not applicable
Test Interval Thre- Timeout
ID Test Name Attributes (day hh:mm:ss.ms shold ms )
==== ================================== ============ ================= ===== =====
1) CPUCtrlScratchRegister ----------> *B*N****A 000 00:01:00.000 3 n/a
2) DBCtrlScratchRegister -----------> *B*N****A 000 00:01:00.000 3 n/a
3) PortCtrlScratchRegister ---------> *B*N****A 000 00:01:00.000 3 n/a
4) PHYScratchRegister --------------> *B*N****A 000 00:01:00.000 3 n/a
5) NPULoopback ---------------------> *B*N****A 000 00:01:00.000 3 n/a
RP/0/RP0/CPU0:AG2-2#show diagnostic result location 0/0/CPU0
A9K-8X100GE-L-SE 0/0/CPU0:
Overall diagnostic result: PASS
Diagnostic level at card bootup: bypass
Test results: (. = Pass, F = Fail, U = Untested)
1 ) CPUCtrlScratchRegister ----------> .
2 ) DBCtrlScratchRegister -----------> .
3 ) PortCtrlScratchRegister ---------> .
4 ) PHYScratchRegister --------------> .
5 ) NPULoopback ---------------------> .
admin diag start location 0/x/cpu0 test NPULoopback (cXR)
RP/0/RP0/CPU0:AG3_1#diagnostic start location 0/0/CPU0 test NPULoopback >>> eXR
Fri May 13 06:53:00.902 EDT
RP/0/RP0/CPU0:AG3_1#show diagnostic res location 0/0/CPU0 test 5 detail >>> Here there are
multiple test 1-5 (check previous examples)
Test results: (. = Pass, F = Fail, U = Untested)
___________________________________________________________________________
5 ) NPULoopback ---------------------> .
Error code ------------------> 0 (DIAG_SUCCESS)
Total run count -------------> 67319
Last test execution time ----> Fri May 13 06:53:01 2022
First test failure time -----> n/a
Last test failure time ------> n/a
Last test pass time ---------> Fri May 13 06:53:01 2022
Total failure count ---------> 0
Consecutive failure count ---> 0
___________________________________________________________________________
RP/0/RSP1/CPU0:AG2-2#show controllers np counters location | inc DIAG| LC_CPU
108 PARSE_RSP_INJ_DIAGS_CNT 25195 0 >>> total DIAG packets injected by Active+Stdby RP
904 PUNT_DIAGS_RSP_ACT 12584 0 >>> Loopbacks to Active RP
906 PUNT_DIAGS_RSP_STBY 12611 0 >>> Loopbacks to Stdby R
122 PARSE_LC_INJ_DIAGS_CNT 2618 0 >>> total DIAG packets injected by LC
790 DIAGS 12618 0 >>> total DIAG packets replied back to LC
16 MDF_TX_LC_CPU 3998218312 937 >>> a packet punted to LC CPU PARSE_RSP_INJ_DIAGS_CNT should match (PUNT_DIAGS_RSP_ACT + PUNT_DIAGS_RSP_STDBY)
PARSE_LC_INJ_DIAGS_CNT should match DIAGS
PARSE_XX_INJ_DIAGS_CNT should increment periodically.
show spp sid stats location | inc DIAG 2. DIAG 35430
2. DIAG 35430
これらは送受信されるDIAGカウンタです。 これらはLC上で常に一致し、同時に増加します。
ログの例:SPPはシーケンス0x4eパケットを含む診断パケットを送受信しています。
LC/0/1/CPU0:Jun 6 04:14:05.581 : spp[89]: Sent DIAG packet. NP:0 Slot:0 Seq:0x4e
LC/0/1/CPU0:Jun 6 04:14:05.584 : spp[89]: Rcvd DIAG packet. NP:0 Slot:0 Seq:0x4e
show drops all location
show drops all ongoing location
オンライン診断は、パケットの送受信が行われたときやパケットが失われたときのタイムスタンプをチェックする際に役立ちます。 このようなタイムスタンプは、パケット相関のためにSPPキャプチャと比較できます。
admin debug diagnostic engineer location
admin debug diagnostic error location
注:次のように入力します。 admin undebug all
コマンドを発行して、これらのデバッグを無効にします。
デバッグからの出力例を次に示します。
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: Slot 1 has 4 NPs >>> Sending DIAG
messages to NPs on slot 1
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: PuntFabricDataPath: sending
a pak (seq 25), destination physical slot 1 (card type 0x3d02aa), NP 0, sfp=0xc6
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: PuntFabricDataPath: sending
a pak (seq 25), destination physical slot 1 (card type 0x3d02aa), NP 1, sfp=0xde
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: PuntFabricDataPath: sending
a pak (seq 25), destination physical slot 1 (card type 0x3d02aa), NP 2, sfp=0xf6
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: PuntFabricDataPath: sending
a pak (seq 25), destination physical slot 1 (card type 0x3d02aa), NP 3, sfp=0x10e
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
Time took to receive 22 pkts: 503922888 nsec, timeout value: 500000000 nsec
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
Received 22 packets, expected 24 => Some replies missed
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
Got a packet from physical slot 1, np 0
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: Successfully verified
a packet, seq. no.: 25
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
Got a packet from physical slot 1, np 2 <= Replies from NP1 and NP3 missing
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: Successfully verified
a packet, seq. no.: 25
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
Got a packet from physical slot 3, np 0
RP/0/RP1/CPU0:AG2-2#show diagnostic trace location 0/rp1/CPU0
Fri Mar 25 12:16:40.866 IST
1765 wrapping entries (3136 possible, 2048 allocated, 0 filtered, 3503120 total)
Mar 16 02:40:21.641 diags/online/gold_error 0/RP1/CPU0 t7356 Failed to get ack: got 0 responses,
expected 1
Mar 16 02:40:36.490 diags/online/message 0/RP1/CPU0 t8947 My nodeid 0x120, rack# is 0, slot# 1,
board type = 0x100327
Mar 16 02:40:36.948 diags/online/message 0/RP1/CPU0 t8947 dev cnt=25, path cnt=3, shm loc for
dev alarms@0x7fd4f0bec000, path alarms@0x7fd4f0bec01c, path alarm data@0x7fd4f0bec028
Mar 16 02:40:37.022 diags/online/message 0/RP1/CPU0 t8947 Last rpfo time: 1647378637
Mar 24 06:03:27.479 diags/online/error 0/RP1/CPU0 2105# t9057 PuntFabricDataPath test error:
physical slot 11(LC# 9): expected np mask: 0x0000000f, actual: 0x0000000b, failed: 0x00000004
Mar 24 06:03:27.479 diags/online/error 0/RP1/CPU0 634# t9057 PuntFabricDataPath test failure detected,
detail in the form of (0-based) (slot, NP: count): (LC9,2: 13)
show controllers fabric health location <>
show controllers fabric health spine all
admin
sysadmin-vm:0_RP0# show logging onboard fabric location 0/0
show controllers fabric fia errors ingress location <>
show controllers fabric fia stats location
show controllers fabric crossbar statistics instance [0-1] location <>
show controllers fabric crossbar statistics instance [0-1] location <>
show controllers fabric fia errors egress location <>
show controllers fabric fia stats location
show controllers fabric crossbar statistics instance [0-1] spine [0-6]
show controllers fabric fia drops ingress location <>
show controllers fabric fia drops egress location <>
show controllers fabric crossbar asic-errors instance 0 location<>
show asic-errors fia <> all location <>
show asic-errors fia <> all location <>
RP/0/RP0/CPU0:AG3_1#show controllers np fabric-counters all np0 location 0/0/CPU0
Node: 0/0/CPU0:
----------------------------------------------------------------
Egress fabric-to-bridge interface 2 counters for NP 0
INTERLAKEN_CNT_TX_BYTES 0x000073fc 23b6d99b
INTERLAKEN_CNT_TX_FRM_GOOD 0x000000ae a79d6612
INTERLAKEN_CNT_TX_FRM_BAD 0x00000000 00000000 >>> this is 0 which is good,
need to check if it is incremented
-------------------------------------------------------------
Egress fabric-to-bridge interface 3 counters for NP 0
INTERLAKEN_CNT_TX_BYTES 0x0004abdd fe02068d
INTERLAKEN_CNT_TX_FRM_GOOD 0x000005b8 089aac95
INTERLAKEN_CNT_TX_FRM_BAD 0x00000000 00000000
-------------------------------------------------------------
Node: 0/0/CPU0:
----------------------------------------------------------------
Ingress fabric-to-bridge interface 2 counters for NP 0
INTERLAKEN_CNT_RX_BYTES 0x0004aeb5 a4b9dbbe
INTERLAKEN_CNT_RX_FRM_GOOD 0x0000058e b7b91c15
INTERLAKEN_CNT_RX_FRM_BAD 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_CRC32_ERROR 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_CRC24_ERROR 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_SIZE_ERROR 0x00000000 00000000
-------------------------------------------------------------
Ingress fabric-to-bridge interface 3 counters for NP 0
INTERLAKEN_CNT_RX_BYTES 0x000094ce b8783f95
INTERLAKEN_CNT_RX_FRM_GOOD 0x000000f5 33cf9ed7
INTERLAKEN_CNT_RX_FRM_BAD 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_CRC32_ERROR 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_CRC24_ERROR 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_SIZE_ERROR 0x00000000 00000000
show controllers fabric fia link-status location
RP/0/RP0/CPU0:AG3_1#show controllers fabric fia link-status location 0/0/CPU0
********** FIA-0 **********
Category: link-0
spaui link-0 Up >>> FIA to NP link
spaui link-1 Up >>> FIA to NP link
arb link-0 Up >>> Arbitor link
xbar link-0 Up >>> FIA to XBAR link
xbar link-1 Up >>> FIA to XBAR link
xbar link-2 Up >>> FIA to XBAR link
RP/0/RP0/CPU0:AG3_1#show controllers fabric crossbar link-status instance 0 lo 0/0/CPU0
Mon May 2 04:05:06.161 EDT
PORT Remote Slot Remote Inst Logical ID Status
======================================================
00 0/0/CPU0 01 2 Up
01 0/FC3 01 0 Up
02 0/FC3 00 0 Up
03 0/FC4 01 0 Up
04 0/FC2 01 0 Up
05 0/FC4 00 0 Up
06 0/FC2 00 0 Up
07 0/FC1 01 0 Up
10 0/FC1 00 0 Up
14 0/FC0 01 0 Up
15 0/FC0 00 0 Up
16 0/0/CPU0 02 0 Up
18 0/0/CPU0 02 2 Up
19 0/0/CPU0 02 1 Up
20 0/0/CPU0 03 2 Up
21 0/0/CPU0 03 1 Up
22 0/0/CPU0 03 0 Up
23 0/0/CPU0 00 2 Up
24 0/0/CPU0 00 1 Up
25 0/0/CPU0 00 0 Up
26 0/0/CPU0 01 0 Up
27 0/0/CPU0 01 1 Up
LSPカードで次のログが表示される場合は、次の手順を実行します。
LC/0/3/CPU0:Jul 5 13:05:53.365 IST: fab_xbar[172]: %PLATFORM-CIH-5-ASIC_ERROR_THRESHOLD :
sfe[1]: An interface-err error has occurred causing packet drop transient.
ibbReg17.ibbExceptionHier.ibbReg17.ibbExceptionLeaf0.intIpcFnc0UcDataErr Threshold has been exceeded
17*2(ここではポートを特定するために役立つ) show controllers fabric crossbar link-status instance 1 lo 0/3/CPU0
コマンドにより、WLC CLI で明確に示されます。
ログ収集:
show platform
show inventory
show tech fabric
show tech np
show tech ethernet interface
show logging
show pfm location all
show pfm trace location <location id>
show controllers pm vqi location all
show hw-module fpd location all (cxr) / admin show hw-module fpd (exr)
show controllers fti trace <process-name> location <Card location>
admin show tech obfl
Cxr:
From Admin:
show logging onboard common location <>
show logging onboard error location <>
Exr:
From sysadmin/calvados:
show logging onboard fabric location <>
LS用:
show controllers asic LS-FIA instance <instance> block <block_name> register-name <register_name> location <>
LSP用:
show controllers asic LSP-FIA instance <instance> block <block_name> register-name <register_name> location <>
報告されたエラーが次のような場合は、
LC/0/9/CPU0:Mar 1 05:12:25.474 IST: fialc[137]: %PLATFORM-CIH-5-ASIC_ERROR_THRESHOLD :
fia[3]: A link-err error has occurred causing performance loss persistent.
fnc2serdesReg1.fnc2serdesExceptionHier.fnc2serdesReg1.fnc2serdesExceptionLeaf0.
iNTprbsErrTxphyrdydropped6 Threshold has been exceeded
show controllers asic SKB-XBAR instance <instance> block-name <block_name> register-name <register_name> location <>
報告されたエラーが次のような場合は、
LC/0/7/CPU0:Mar 4 06:42:01.241 IST: fab_xbar[213]: %PLATFORM-CIH-5-ASIC_ERROR_THRESHOLD :
sfe[0]: An interface-err error has occurred causing packet drop transient.
ibbReg11.ibbExceptionHier.ibbReg11.ibbExceptionLeaf0.intIpcFnc1UcDataErr Threshold has been exceeded
show controllers asic FC2-SKB-XBAR instance <instance> block-name <block_name> register-name <register_name> location
報告されたエラーが次のような場合は、
RP/0/RP0/CPU0:Mar 4 06:41:14.398 IST: fab_xbar_sp3[156]: %PLATFORM-CIH-3-ASIC_ERROR_SPECIAL_HANDLE_THRESH :
fc3xbar[1]: A link-err error has occurred causing packet drop transient.
cflReg17.cflExceptionHier.cflReg17.cflExceptionLeaf4.intCflPal1RxAlignErrPktRcvd Threshold has been exceeded
ASICは「FC3-SKB-XBAR」インスタンスで、インスタンスはSFE/XBAR ASICの番号です。ここでは「1」で、どちらも「fc3xbar[1]」block_nameから「cflReg17」、register_nameは「cflExceptionLeaf4」です。
以下に例を挙げます。
RP/0/RSP0/CPU0: AG2-10#sh logging | i ASIC
RP/0/RSP0/CPU0:May 11 20:48:57.658 IST: fab_xbar[184]: %PLATFORM-CIH-5-ASIC_ERROR_THRESHOLD :
sfe[0]: An interface-err error has occurred causing packet drop transient.
ibbReg13.ibbExceptionHier.ibbReg13.ibbExceptionLeaf0.intIpcFnc0UcDataErr Threshold has been exceeded
RP/0/RSP0/CPU0: AG2-10#sh controllers fabric crossbar link-status instance 0 location 0/rsp0/CPU0
PORT Remote Slot Remote Inst Logical ID Status
======================================================
04 0/0/CPU0 00 1 Up
06 0/0/CPU0 00 0 Up
08 0/7/CPU0 00 1 Up
10 0/7/CPU0 00 0 Up
24 0/2/CPU0 00 0 Up
26 0/2/CPU0 00 1 Up
>>> ibbReg13 >> 13*2 = 26 SO IT IS POINTING TO LC2 – IN THIS CASE YOU CAN DO OIR TO RECOVER THE ASIC ERROR
40 0/RSP0/CPU0 00 0 Up
RP/0/RSP0/CPU0: AG2-10#show controllers asic SKB-XBAR instance 0 block-name ibbReg13 register-name ibbExceptionLeaf0 location 0/RSP0/CPU0
address name value
0x00050d080 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int1Stat 0x00000000 (4 bytes)
address name value
0x00050d084 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int1StatRw1s 0x00000000 (4 bytes)
address name value
0x00050d088 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int1Enable 0xfffffffb (4 bytes)
address name value
0x00050d08c SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int1First 0x00000000 (4 bytes)
address name value
0x00050d090 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int2Stat 0x00000c50 (4 bytes)
address name value
0x00050d094 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int2StatRw1s 0x00000c50 (4 bytes)
address name value
0x00050d098 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int2Enable 0x00000000 (4 bytes)
address name value
0x00050d09c SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int2First 0x00000000 (4 bytes)
address name value
0x00050d0a0 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_haltEnable 0x00000000 (4 bytes)
address name value
0x00050d0a4 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_fault 0x00000000 (4 bytes)
address name value
0x00050d0a8 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_intMulti 0x00000840 (4 bytes)
address name value
0x00050d0ac SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_leaf 0x00000000 (4 bytes)
RP/0/RSP0/CPU0:AG2-10#
リンクステータスを確認するには、次の手順を実行します。
RP/0/RSP0/CPU0:AG2-10#sho controllers fabric arbiter link-status location 0/1/$
Port Remote Slot Remote Elem Remote Inst Status
=======================================================
00 0/1/CPU0 FIA 0 Up
01 0/1/CPU0 FIA 1 Up
24 0/RSP0/CPU0 ARB 0 Up
25 0/RSP1/CPU0 ARB 0 Up
VQIのアベイラビリティを確認するには、次の手順を実行します。
RP/0/RP0/CPU0:AG3_1#sh controllers fabric vqi assignment all
Current mode: Highbandwidth mode - 2K VQIs
Node Number of VQIs
----------------------------
0/0/CPU0 80
0/1/CPU0 40
0/2/CPU0 48
0/3/CPU0 80
0/5/CPU0 80
0/7/CPU0 80
0/12/CPU0 64
RP*/RSP* 8
----------------------------
In Use = 480
Available = 1568
VQIに割り当てられた速度を確認します。
RP/0/RP0/CPU0:AG3_1#sh controller fabric vqi assignment slot 7
Thu May 12 07:58:59.897 EDT
slot = 7
fia_inst = 0
VQI = 400 SPEED_100G
VQI = 401 SPEED_100G
VQI = 402 SPEED_100G
VQI = 403 SPEED_100G
VQI = 404 SPEED_100G
VQI = 405 SPEED_100G
VQI = 406 SPEED_100G
slot = 7
fia_inst = 1
VQI = 416 SPEED_40G
VQI = 417 SPEED_40G
VQI = 418 SPEED_40G
VQI = 419 SPEED_40G
VQI = 420 SPEED_100G
FIAでテールドロップが発生する場合は、次の手順を確認してください。
VQIでキュー項目数を確認します。
RP/0/RP0/CPU0:AG3_1#show controllers fabric fia q-depth location 0/0/CPU0
Thu May 12 08:00:42.186 EDT
********** FIA-0 **********
Category: q_stats_a-0
Voq ddr pri Cellcnt Slot_FIA_NP
28 0 2 2 LC0_1_1
********** FIA-0 **********
Category: q_stats_b-0
Voq ddr pri Cellcnt Slot_FIA_NP
********** FIA-1 **********
Category: q_stats_a-1
Voq ddr pri Cellcnt Slot_FIA_NP
7 0 2 12342 LC0_0_0
>>> Here Packet count is high so we need to check for LC0 FIA0 NP0 (egress) is there any congestion
or any other issue in LC0 FIA0 or NP0
Here Pri = 2 is the default queue (BE) , Pri = 0 is P1 (Voice, real time) queue, Pri = 1 is P2
97 0 2 23 LC1_0_0
RP/0/RP0/CPU0:AG3_1#show controllers fabric vqi assignment slot 02
slot = 2
fia_inst = 0
VQI = 0 SPEED_10G
VQI = 1 SPEED_10G
VQI = 2 SPEED_10G
VQI = 3 SPEED_10G
VQI = 4 SPEED_10G
VQI = 5 SPEED_10G
VQI = 6 SPEED_10G
VQI = 7 SPEED_10G
VQIのポートマッピングの詳細:
RP/0/RP0/CPU0:AG3_1#show controllers pm vqi location 0/0/CPU0
Platform-manager VQI Assignment Information
Interface Name | ifh Value | VQI | NP#
--------------------------------------------------
TenGigE0_0_0_0_1 | 0x4000680 | 1 | 0
TenGigE0_0_0_0_2 | 0x40006c0 | 2 | 0
TenGigE0_0_0_0_3 | 0x4000700 | 3 | 0
TenGigE0_0_0_0_4 | 0x4000740 | 4 | 0
TenGigE0_0_0_0_5 | 0x4000780 | 5 | 0
TenGigE0_0_0_0_6 | 0x40007c0 | 6 | 0
TenGigE0_0_0_0_7 | 0x4000800 | 7 | 0
RP/0/RP0/CPU0:AG3_1#show controllers pm interface tenGigE 0/0/0/0/7
Ifname(1): TenGigE0_0_0_0_7, ifh: 0x4000800 :
iftype 0x1e
egress_uidb_index 0x12, 0x0, 0x0, 0x0
ingress_uidb_index 0x12, 0x0, 0x0, 0x0
port_num 0x0
subslot_num 0x0
ifsubinst 0x0
ifsubinst port 0x7
phy_port_num 0x7
channel_id 0x0
channel_map 0x0
lag_id 0x7e
virtual_port_id 0xa
switch_fabric_port 7 >>> VQI matching for the ports
in_tm_qid_fid0 0x38001e
in_tm_qid_fid1 0x0
in_qos_drop_base 0xa69400
out_tm_qid_fid0 0x1fe002
out_tm_qid_fid1 0xffffffff
np_port 0xd3
ログの収集:
Show tech fabric
Show tech np
show controllers pm trace ?
async Platform manager async trace
creation Platform manager interface creation/deletion trace
error Platform manager error trace
information Platform manager information trace
init Platform manager init trace
other Platform manager common trace
stats Platform manager stats trace
NPロードの検証:
RP/0/RP0/CPU0:AG3_1#show controller np load all location 0/0/CPU0
Node: 0/0/CPU0:
----------------------------------------------------------------
Load Packet Rate
NP0: 2% utilization 3095766 pps
NP1: 3% utilization 5335675 pps
NP2: 0% utilization 498 pps
NP3: 0% utilization 1117 pps
ポートマッピング:
RP/0/RP0/CPU0:AG3_1#show controllers np ports all location 0/0/CPU0
Node: 0/0/CPU0:
----------------------------------------------------------------
NP Bridge Fia Ports
-- ------ --- ---------------------------------------------------
0 -- 0 TenGigE0/0/0/0/0 - TenGigE0/0/0/0/9, TenGigE0/0/0/1/0 - TenGigE0/0/0/1/9
1 -- 1 TenGigE0/0/0/2/0 - TenGigE0/0/0/2/9, HundredGigE0/0/0/3
2 -- 2 HundredGigE0/0/0/4 - HundredGigE0/0/0/5
3 -- 3 HundredGigE0/0/0/6 - HundredGigE0/0/0/7
トマホーク
これは管理モードであることに注意してください。
sysadmin-vm:0_RP0# show controller switch statistics location 0/LC0/LC-SW
Thu May 12 12:32:37.160 UTC+00:00
Rack Card Switch Rack Serial Number
--------------------------------------
0 LC0 LC-SW
Tx Rx
Phys State Drops/ Drops/
Port State Changes Tx Packets Rx Packets Errors Errors Connects To
----------------------------------------------------------------------------
0 Up 2 3950184361 3977756349 0 0 NP0
1 Up 2 0 0 0 0 NP0
8 Up 1 1319787462 209249871 0 0 LC CPU N0 P0
9 Up 1 3374323096 1819796660 0 0 LC CPU N0 P1
16 Up 2 2245174606 1089972811 0 0 NP1
17 Up 2 0 0 0 0 NP1
18 Up 2 65977 16543963 0 0 NP2
19 Up 2 0 0 0 0 NP2
32 Up 2 128588820 3904804720 0 0 NP3
33 Up 2 0 0 0 0 NP3
show asic-error np <> all loc <> >>> Ignore the macwrap errors as they are seen for every
interface flaps/ Execute 3-4 times to verify the drops increment
show controller np fast-drop <> loc <> >>> Execute 3-4 times to verify the drops increment
RP/0/RP0/CPU0:AG3_1#show controller np fast-drop np0 location 0/0/CPU0
Thu May 12 10:13:22.981 EDT
Node: 0/0/CPU0:
----------------------------------------------------------------
All fast drop counters for NP 0:
TenGigE0/0/0/1/0-TenGigE0/0/0/1/9:[Priority1] 0
TenGigE0/0/0/1/0-TenGigE0/0/0/1/9:[Priority2] 0
TenGigE0/0/0/1/0-TenGigE0/0/0/1/9:[Priority3] 0
TenGigE0/0/0/0/0-TenGigE0/0/0/0/9:[Priority1] 0
TenGigE0/0/0/0/0-TenGigE0/0/0/0/9:[Priority2] 0
TenGigE0/0/0/0/0-TenGigE0/0/0/0/9:[Priority3] 0
show controllers np punt-path-counters all HOST-IF-0 np<> location <>
[Check for IF_CNT_RX_FRM & IF_CNT_TX_FRM] >>> To check if diagnostic packets make it to the LC NP
Host CPU network port
光速
show asic-error np <> all loc <> >>> Ignore the macwrap errors as they are seen for every interface flap
RP/0/RP0/CPU0:AG3_1#sho asic-errors np 0 all location 0/5/CPU0
************************************************************
* 0_5_CPU0 *
************************************************************
************************************************************
* Single Bit Errors *
************************************************************
************************************************************
* Multiple Bit Errors *
************************************************************
************************************************************
* Parity Errors *
************************************************************
************************************************************
* Generic Errors *
************************************************************
ASR, ASR9K Lightspeed 20*100GE SE LC, 0/5/CPU0, npu[0]
Name : mphmacwrapReg1.mphmacwrapExceptionLeaf4.mphWrapIrqUmacIpInt82
Leaf ID : 0x2023e082
Error count : 1
Last clearing : Thu Apr 7 11:41:47 2022
Last N errors : 1
--------------------------------------------------------------
First N errors.
@Time, Error-Data
------------------------------------------
show controller np fast-drop <> loc <> >>> Execute 3-4 times to verify the drops increment
RP/0/RP0/CPU0:AG3_1#show controller np fast-drop np0 location 0/5/CPU0
Thu May 12 10:13:28.321 EDT
Node: 0/5/CPU0:
----------------------------------------------------------------
All fast drop counters for NP 0:
HundredGigE0_5_0_0[Crit] 0
HundredGigE0_5_0_0[HP] 0
HundredGigE0_5_0_0[LP2] 0
HundredGigE0_5_0_0[LP1] 0
HundredGigE0_5_0_0[Crit+HP_OOR] 0
HundredGigE0_5_0_0[LP2+LP1_OOR] 0
HundredGigE0_5_0_1[Crit] 0
HundredGigE0_5_0_1[HP] 0
HundredGigE0_5_0_1[LP2] 0
HundredGigE0_5_0_1[LP1] 0
HundredGigE0_5_0_1[Crit+HP_OOR] 0
これは管理モードであることに注意してください。
sysadmin-vm:0_RP0# show controller switch statistics location 0/LC5/LC-SW >>> Execute 3-4
times to verify the errors increment
Rack Card Switch Rack Serial Number
--------------------------------------
0 LC5 LC-SW
Tx Rx
Phys State Drops/ Drops/
Port State Changes Tx Packets Rx Packets Errors Errors Connects To
-----------------------------------------------------------------------------
0 Up 4 1456694749 329318054 0 4 CPU -- EOBC
1 Up 2 21 23 0 0 CPU -- flexE
2 Up 4 1063966999 87683758 0 0 CPU -- PUNT
3 Up 4 885103800 3021484524 0 0 CPU -- BFD
4 Up 3 329319167 1456700372 0 0 RP0
5 Up 3 0 0 0 0 RP1
6 Up 1 11887785 2256 0 0 IPU 0
7 Up 1 0 1086 0 0 IPU 1
9 Up 4 74028034 3025657779 0 0 NP0
10 Up 4 5 0 0 0 NP0
11 Down 1 0 0 0 0 PHY0 -- flexE
12 Up 4 264928 264929 0 0 NP1
13 Up 2 5 0 0 0 NP1
14 Down 1 0 0 0 0 PHY1 -- flexE
15 Up 4 1516538834 1159586563 0 0 NP2
ログ収集:
show tech np
show tech fabric
show asic-errors fia trace all location <>
RP/0/RP0/CPU0:AG3_1#run chvrf 0 ssh lc0_xr
LC : [one time capture]
show_np -e <> -d npdatalog [<> should be the affected NP]
Path where NP datalogs is saved : /misc/scratch/np/NPdatalog_0_0_CPU0_np0_prm__20220512-105332.txt.gz
LC : 5 to 10 times
show_np -e <> -d pipeline [<> should be the affected NP]
RP/0/RP0/CPU0:AG2-2#show controllers np ports all location 0/6/CPU0
Node: 0/6/CPU0:
----------------------------------------------------------------
NP Bridge Fia Ports
-- ------ --- ---------------------------------------------------
0 -- 0 HundredGigE0/6/0/0 - HundredGigE0/6/0/31 --
1 -- 1 HundredGigE0/6/0/4 - HundredGigE0/6/0/7
NP2 is down. >>>>>>>>>. NP Down/Init Failure
3 -- 3 HundredGigE0/6/0/12 - HundredGigE0/6/0/154 --
4 -- 4 HundredGigE0/6/0/16 - HundredGigE0/6/0/19
次のログが表示されます。
LC/0/6/CPU0:Mar 23 02:53:56.175 IST: npu_server_lsp[138]: %PLATFORM-LDA-3-INIT_FAIL :
Failed to initialize lda_bb_np_reset_process 13795 inst 0x2 LC INIT: Failed in NP HAL
Reset np (0x00000001 - Operation not permitted) : npu_server_lsp : (PID=4597) :
-Traceback= 7fea2d5cd9f6 7fea2d7d5816 7fea21465efa 7fea21465fc2 7fea42ad0bed 55a9dbd66031
7fea45e1c855 7fea45e1cc2b 7fea2624d526 7fea3571b96a 7fea4d6e4831 55a9dbd691e9
LC/0/6/CPU0:Mar 23 02:53:56.185 IST: npu_server_lsp[138]: %PLATFORM-NP-4-INIT_DEBUG_MSG :
LDA NP2 Reset failed!! Check for a downlevel IPU version.
ログ収集:
show tech-support ethernet interfaces
show tech-support ethernet controllers
show tech-support np
show tech-support fpd
admin show tech-support ctrace (in eXR)
show tech fabric
show asic-errors fia trace all location <>
show logging
gather (in eXR)
RP/0/RP0/CPU0:AG3_1#admin
sysadmin-vm:0_RP0#
[sysadmin-vm:0_RP0:~]$bash -l
[sysadmin-vm:0_RP0:~]$ gather
File will be generated and will get saved in rp0_xr:/misc/disk1
show platform
show inventory
show tech fabric
show tech np
show tech ethernet interface
show logging
show pfm location all
show pfm trace location <location id>
sh pfm process <> location <>
show controllers pm vqi location all
show hw-module fpd location all (cxr) / admin show hw-module fpd (exr)
show controllers fti trace <process-name> location <card location>
Cxr:
From admin:
show logging onboard common location <>
show logging onboard error location <>
Exr:
From sysadmin/calvados:
show logging onboard fabric location <>"
[Category] |
エラー |
観察 |
推奨事項 |
NP Initの失敗 |
LC/0/0/CPU0:Sep 29 00:41:13.171 IST: pfm_node_lc[304]: %PLATFORM-NP-1-NP_INIT_FAIL_NO_RESET: Set|prm_server_ty[168018]|0x1008006|永続的なNP初期化エラー、ラインカードのリロードは不要です。 |
HWパリティ/TCAMエラーによりNPがNP initパーシステントエラーになり、NPがダウンする可能性があります。 |
CLIからLCをリロードして回復します。 |
この問題は、LCの最初のリロード後に一時的に発生した場合に回復する可能性があります。 |
同じエラーが繰り返し発生する場合は、Return Material Authorization(RMA)を完了してください。 |
||
繰り返し発生する場合はRMAを要求してください。(障害のあるボードの写真を撮って、SRの破損または曲がったピンを調べます)。 |
|||
新しいカードは、誤ったフィールド処理が原因で同じ問題に直面する可能性があります。 |
|||
NPにマッピングされたインターフェイスがダウンしたままになる/影響なし |
|||
ASICの致命的な障害 – 二重ビットECCエラー |
LC/0/8/CPU0:May 29 18:29:09.836 IST: pfm_node_lc[301]: %FABRIC-FIA-0-ASIC_FATAL_FAULT : Set|fialc[159811]|0x108a000|Fabric interface asic ASIC0 encountered fatal fault 0x1 - DDR DOUBLE ECC ERROR |
これは、FIAのダブルビットECCエラーはハードエラーです。 |
FIAでのHWエラー。 |
エラーが再発する可能性があるため、LCのadmin shutが推奨されます。 |
カードのRMA手続きを行います。 |
||
NP/FIAにマッピングされたインターフェイスがダウンしたままになる/影響なし。 |
|||
この問題は、FIAがfib_mgrプロセスブロックを使用して起動した場合に発生します。 |
|||
SERDESエラー |
・RP/0/RSP1/CPU0:Apr 17 12:22:10.690 IST: pfm_node_rp[378]: %PLATFORM-CROSSBAR-1-SERDES_ERROR_LNK0 : Set|fab_xbar[209006]|0x101702f|XBAR_1_Slot_1 |
LCファブリックまたはRSPファブリックでのファブリックエラー |
CLIを使用してLCをリロードし、繰り返し発生するエラーの一時的なエラーまたはCRCエラーを回復します。 |
DATA_NB_SERDES_1_FAIL_0 |
LC/0/3/CPU0:Apr 10 18:55:03.213 IST: pfm_node_lc[304]: %FABRIC-FIA-1-DATA_NB_SERDES_1_FAIL_0 : Set|fialc[168004]|0x103d001|Data NB Serdes Link 1 Failure on FIA 1 RP/0/RSP0/CPU0:Apr 10 18:55:13.043 IST: FABMGR[227]: %PLATFORM-FABMGR-2-FABRIC_INTERNAL_FAULT: 0/3/CPU0 (スロット3)でファブリック障害が発生しました。インターフェイスがシャットダウンされます。 |
ファブリックのSERDESエラーを自動回復するインターフェイスの再確立メカニズム。 ハードウェアの問題が発生した場合、エラーはLCまたはRSPで再び発生する可能性があります。 インターフェイスがアップしたままであるか、SERDESで頻繁にエラーが発生し、トラフィックに影響が及びます。 |
OIR後の繰り返しインスタンスのRMA |
ASIC INITエラー |
・LC/0/6/CPU0:Jul 17 00:01:40.738 2019:pfm_node_lc[301]: %FABRIC-FIA-1-ASIC_INIT_ERROR : Set|fialc[168003]|0x108a000|ASIC INIT Error detected on FIA instance 0 |
SyslogにASIC INIT ERRORがあるLC上のFIAのいずれかのFIAインスタンスのダウンイベント。 |
一時的な問題を除外するために、CLIからLCをリロードします。 |
FIA ASIC致命的エラー (TS_NI_INTR_LCL_TIMER_EXPIRED) |
LC/0/19/CPU0:Mar 8 04:52:29.020 IST: pfm_node_lc[301]: %FABRIC-FIA-0-FATAL_INTERRUPT_ERROR : Set|fialc[172098]|0x108a003|FIAの致命的なエラー割り込み3: TS_NI_INTR_LCL_TIMER_EXPIRED |
新しいカードの場合、ユニットの出荷/取り付け時に不適切な取り扱いが行われ、ボードに物理的な損傷が発生していることが確認されています。 物理的な損傷を示さないボードも少数ありますが、EFAの間にはんだクラックが観察されました。これは、パッケージに過度の負荷がかかっており、時間の経過とともに誤動作が発生する可能性があることを示しています。 インターフェイスがアップしたままであるか、SERDESで頻繁にエラーが発生し、トラフィックに影響が及びます。 |
問題が解決しない場合は、RMA/R&Rに進みます。 |
NP高速リセット(Tomahawk ) |
LC/0/4/CPU0:Jul 6 04:06:49.259 IST: prm_server_ty[318]: %PLATFORM-NP-3-ECC : prm_ser_check: NPの高速リセットが完了し、NP 1のソフトエラーから正常に回復しました。これ以上の是正措置は必要ありません。 |
NPはソフトパリティの問題を検出し、NPの高速リセットを試行して問題の解決を試みます。 |
初回のRMAは不要です。 |
NPパリティLCリロード |
LC/0/6/CPU0:Jan 27 20:38:08.011 IST: prm_server_to[315]: %PLATFORM-NP-0-LC_RELOAD: NP3は1時間以内に3回の高速リセットを行い、NPdatalog収集とLCの自動リブートを開始しました |
通常は、回復を3回試行した後、LCはNPのパリティ問題を修正するために自動的にリロードします。これは通常、Tomahawkカードで見られます。 LCは、LCをリロードし、報告されたNPでソフトで回復不可能なパリティの問題を修正することで、自動回復動作を行います。 NPにマッピングされたインターフェイスがリセット/影響なし |
同じエラーの繰り返しインスタンスに対するRMA。 |
LC_NP_LOOPBACK_FAILED |
LC/0/1/CPU0:Jul 26 17:29:06.146 IST: pfm_node_lc[304]: %PLATFORM-DIAGS-0-LC_NP_LOOPBACK_FAILED_TX_PATH : Set|online_diag_lc[168022]|ラインカードNPUループバックテスト(0x2000006)|リンク障害マスクは0x1です。 |
いずれかのNPでLC NPループバック診断テストが失敗しました。 |
一時的な問題を除外するために、CLIからLCをリロードします。 |
アラームはPFMで「LC_NP_LOOPBACK_FAILED_XX_PATH」として設定されます。 |
同じエラーの繰り返しインスタンスに対するRMA。 |
||
NPにマッピングされたインターフェイスがリセット/影響なし |
|||
ファブリックFIA-1-SUSTAINED_CRC_ERR |
LC/0/5/CPU0:Mar 6 05:47:34.748 IST:pfm_node_lc[303]: %FABRIC-FIA-1-SUSTAINED_CRC_ERR : Set|fialc[168004]|0x103d000|ファブリックインターフェイスASIC-0でCRCエラーが発生しています |
Fiaのシャットダウン:ファブリックFIAでCRCエラーが発生しました。 |
一時的な問題を除外するために、CLIからLCをリロードします。 |
FIAシャットダウンイベントが発生すると、FIAのインターフェイスもダウンします。 |
同じエラーの繰り返しインスタンスに対するRMA。 |
||
インターフェイスはアップ状態を維持し、影響はありません。 |
|||
FAB ARB XIF1 ERR |
・LC/0/6/CPU0:Jan 25 19:31:22.787 IST: pfm_node_lc[302]: %PLATFORM-FABARBITER-1-RX_LINK_ERR : Clear|fab_arb[163918]|0x1001001|LIT_XIF1_K_CHAR_ERR LC/0/6/CPU0:Jan 25 19:31:22.787 IST: pfm_node_lc[302]: %PLATFORM-FABARBITER-1-SYNC_ERR : Clear|fab_arb[163918]|0x1001001|LIT_XIF1_LOSS_SYNC LC/0/6/CPU0:Jan 25 19:33:23.010 IST: pfm_node_lc[302]: %PLATFORM-FABARBITER-1-RX_LINK_ERR : Set|fab_arb[163918]|0x1001001|LIT_XIF1_DISP_ERR |
LCとファブリックアービターの同期エラーおよびrx_linkエラーのパントエラー。 インターフェイスはアップ状態を維持し、影響はありません。 |
カードにOIRを実行して、一時的な問題を除外します。 同じエラーの繰り返しインスタンスに対するRMA。 |
FPOE_read_writeエラー |
xbarエラートレース(show tech fabric) |
Cisco Bug ID CSCvv45788 |
ソフトウェアの欠陥 |
FIA_XBARのSERDES |
#show controller fabric fia link-status location 0/9/CPU0 |
カードにOIRを実行して、一時的な問題を除外します。同じエラーの繰り返しインスタンスに対するRMA。 |
|
NP DIAG ICFD高速リセット |
NP0、ICFD(STS-1)、NPのNP-DIAGは0 ~ 4です。 NP3は1時間以内に3回の高速リセットを行い、NPdatalog収集と自動LCリブートを開始しました |
NPの高速リセットをトリガーします。 また、3 NPの高速リセットが1時間で行われると、LCがリロードします。 |
LCが何度もリロードする場合は、RMAを行います。 |
PRMヘルスモニタリングがパケットNPの高速リセットを取得できませんでした |
NP-DIAGヘルスモニタリング障害 NP3は1時間以内に3回の高速リセットを行い、NPdatalog収集と自動LCリブートを開始しました |
NPの高速リセットをトリガーします。 また、3 NPの高速リセットが1時間で行われると、LCがリロードします。 |
LCが何度もリロードする場合は、RMAを行います。 |
PRMヘルスモニタリングで破損したパケットが取得される – NPの高速リセット |
NP-DIAGヘルスモニタリングの破損が NP3は1時間以内に3回の高速リセットを行い、NPdatalog収集と自動LCリブートを開始しました |
NPの高速リセットをトリガーします。 また、3 NPの高速リセットが1時間で行われると、LCがリロードします。 |
LCが何度もリロードする場合は、RMAを行います。 |
最も多い非アクティビティ障害 |
NPでのNP-DIAGの障害 Topの非アクティブ時にUcodeから割り込み – NPは高速リセットします |
NPの高速リセットをトリガーします。 また、3 NPの高速リセットが1時間で行われると、LCがリロードします。 |
LCが何度もリロードする場合は、RMAを行います。 |
LSP NP Initの失敗 |
LC/0/6/CPU0:Mar 23 02:53:56.175 IST: npu_server_lsp[138]: %PLATFORM-LDA-3-INIT_FAIL : Failed to initialize lda_bb_np_reset_process 13795 inst 0x2 LC INIT: Failed in NP HAL Reset (0x00000001 - Operation not allowed) : npu_server_lsp : (PID=4597) : eback= 7fea2d5cd9f6 7fea2d7d7d5816 7fea21465efa 7fea21465fc2 7fea42ad0bed 55a9dbd66031 7fea45e1c855 7fea45e1cc2b 7fea2624d526 7fea3571b96a 7fea4d6e48355a9dbd6 91e9(日本未発売) |
次の情報を収集する必要があります。
ファイルが生成され、rp0_xr:/misc/disk1に保存されます。
|
一時的な問題を除外するために、CLIからLCをリロードします。 |
Tomahawk NP初期障害(DDRトレーニング失敗) |
+++ show prm server trace error location 0/7/CPU0 [14:36:59.520 IST Sat Jan 29 2022] ++++ 97個のラッピングエントリ(2,112個、割り当て済み320個、0個のフィルタ済み、合計97個) Jan 29 00:22:10.135 prm_server/error 0/7/CPU0 t10 prm_np_Channel_PowerUp : 0x80001d46チャネル3フェーズ4の電源供給エラー Jan 29 00:22:10.136 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup : 0xa57c0200 Power phase 4 failed on channel 3 Jan 29 00:22:10.136 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup NP3 has failed to boot, trying again.再試行回数1 Jan 29 00:22:35.125 prm_server/error 0/7/CPU0 t10 prm_np_Channel_PowerUp : 0x80001d46チャネル3フェーズ4の電源供給エラー 1月29日00:22:35.125 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup : 0xa57c0200チャネル3で電源段階4が失敗しました。 Jan 29 00:22:35.125 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup NP3 has failed to boot, trying again.再試行回数2 Jan 29 00:22:59.075 prm_server/error 0/7/CPU0 t10 prm_np_Channel_PowerUp : 0x80001d46チャネル3フェーズ4の電源供給エラー Jan 29 00:22:59.075 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup : 0xa57c0200 Power phase 4 failed on channel 3 Jan 29 00:22:59.075 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup 3回の試行の後、NP3は初期化に失敗しました。 Jan 29 00:23:00.087 prm_server/error 0/7/CPU0 t10 prm_send_pfm_msg: Persistent NP initialization failure, linecard reload not required. NPドライバのログを確認します <NP#3>DDRトレーニング失敗(ステータス0x1) <NP#3>ddr3TipRunAlg:チューニング失敗0 <NP#3>ddrTipRunAlgo opcode: ddr3TipRunAlg failed (エラー0x1) <NP#3>***エラー:不明0x1 |
ノード:node0_7_CPU0 1月29日00:22:58|8 |NP_INIT_FAIL_NO_RESET |E/A|5356 |ネットワークプロセス|0x1008000 |
一時的な問題を除外するために、CLIからLCをリロードします。それでも問題が解決しない場合は、LCのRMAを確認してください Cisco Bug ID CSCwa85165 |
LSP NP初期化エラー(HbmReadParticleErrorエラー) |
LC/0/13/CPU0:Jan 10 13:34:59.106 IST: npu_server_lsp[278]: %PLATFORM-NP-4-SHUTDOWN_START : NP4: EMRHIMREG.ch1Psch0HbmReadParticleError detected, NP shutdown in progress LC/0/13/CPU0:Jan 10 13:34:59.106 IST: pfm_node_lc[330]: %PLATFORM-NP-0-UNRECOVERABLE_ERROR : Set|npu_server_lsp[4632]|0x10a5004|NP4で回復不能なエラーが検出されました |
+++ show controllers np interrupts all location 0/13/CPU0 [16:02:16.712 IST Mon Jan 10 2022] ++++ ノード:0/13/CPU0: ---------------------------------------------------------------- NPU割り込み名ID Cnt — ------------------------------------------------------------------------------------------ -------------- ------- <中略> 4 hbmdpReg0.hbmdpExceptionLeaf0.hbmdpIntNwlHbmdpRdDataUncorrectableErrCh1Psch1 0x201dc013 1 4 hbmdpReg0.hbmdpExceptionLeaf0.hbmdpIntNwlHbmdpRdDataUncorrectableErrCh1Psch0 0x201dc012 1 |
Cisco Bug ID CSCvt59803がインストールされていることを確認します。 CLIを介したLCのリロードが回復に役立ちます。 |
スタンバイ時のアービターリンクダウン |
ファブリックマネージャ: |
カードにOIRを実行して、一時的な問題を除外します。同じエラーの繰り返しインスタンスに対するRMA |
|
Serdesエラー |
show serdes trace location 0/X/CPU0 | i "HTL_ERR_DEVICE_NOT_CONNECTED"')に次のエラーが表示されます。 |
Cisco Bug ID CSCvz75552 |
ソフトウェアの欠陥 |
Cisco Bug ID | コンポーネント | タイトル |
Cisco Bug ID CSCvy00012 | asr9k-diags-online(ダウンロード) | online_diag_rspによるパケットメモリの枯渇 |
Cisco Bug ID CSCvw57721 | asr9k-servicepack(受信) | Lightspeed NPおよびアービターserdes用の更新されたファームウェアを含む包括SMU |
Cisco Bug ID CSCvz75552 | asr9k-vic-ls(ASR9k-VIC-LS) | Phyファームウェアがハングし、光ファイバがA9K-20HG-FLEXで認識されない |
Cisco Bug ID CSCvz76691 | asr9k-servicepack(受信) | Tomahawkラインカードのリンクステータス割り込み処理が改善された包括SMU |
Cisco Bug ID CSCvz84139 | asr9k-ls – ファブリック | ルータを742にアップグレードするとfab_siがクラッシュする |
Cisco Bug ID CSCwa81006 | asr9k-pfm | ASR9K/eXRが一部のシナリオで障害マネージャのデータパスポートシャットダウンをコミットできない |
Cisco Bug ID CSCvz16840 | asr9k-fia | 6.5.2で追加された変更により、転送パスが早期にシャットダウンされたため、CLIがLCをリロードすると、BLBセッションがフラップする |
Cisco Bug ID CSCwb64255 | asr9k-fab-xbar | starscream(9912)およびMegatron(9922)シャーシのSKB用の新しいSI設定 |
Cisco Bug ID CSCwa09794 | asr9k-fab-xbar | skb-SM15のROシャーシの調整後の新しいSI |
Cisco Bug ID CSCvv45788 | asr9k-fab-xbar | fab_xbarおよびmgid-programmerプロセスによるハードウェアへの同時アクセス |
Cisco Bug ID CSCwd22196 | asr9k-prm | Tomahawk LCのILKNリンク間のRFDバッファ枯渇 |
Cisco Bug ID CSCwb66960 | asr9k-fab-infra | ASR9kパントファブリック障害分離 |
Cisco Bug ID CSCwa79758 | asr9k-fab-xbar | XBARリンク障害が発生している別のLSP LCのOIRを実行した後のLSP LCでのマルチキャスト損失 |
Cisco Bug ID CSCvw88284 | asr9k-lda-ls(10.10.10.10.10) | RSP5 BWは、9910/9906シャーシではデフォルトで600 Gではなく200 Gに設定されます。 |
Cisco Bug ID CSCvm82379 | asr9k-fab-arb | sh tech fabricの取得中にfab-arbがクラッシュしました。 |
Cisco Bug ID CSCvh00349 | asr9k-fia | ASR9kファブリックは、スタンバイ状態で送信されるucastパケットを処理できます |
Cisco Bug ID CSCvk44688 | asr9k-fia | FPGAでエラーが繰り返し発生し、回復できませんでした |
Cisco Bug ID CSCvy31670 | asr9k-ls-fia(ASR9k-LS-FIA) | LSP:FC0を取り外すとファブリックレートリミッタが有効になりますが、FC4は有効になりません |
Cisco Bug ID CSCvt59803 | asr9k-ls-npdriver | LSP: PLATFORM-NP-4-SHUTDOWN IMRHIMREG.ch1Psch1HbmReadParticleError |
fault-manager datapath port shutdown/toggle
コマンドfault-manager datapath port shutdown
コマンドは、アクティブRP/RSPでパントデータパス障害アラームが設定されている各FIA/NPのポートをシャットダウンするのに役立ち、LCをリロードするまでインターフェイスは自動的に起動しません。このCLIコマンドは、7. x.xリリースから想定どおりに動作しません。(CLI コマンド fault-manager datapath port shutdown
は7.x.xからの設計に従って動作しません)。7.7.2で修正されています。fault-manager datapath port toggle
CLIコマンドは正常に動作します。Punt Datapath Failureアラームがクリアされると、ポートが開きます。テスト:前述のコマンドの動作を検証します。
NP0 LC7でパントエラーの生成を誘発します。
RP/0/RP0/CPU0:ASR-9922-A#monitor np counter PUNT_DIAGS_RSP_ACT np0 count 20 location 0/7/CPU0
Wed Jul 7 14:15:17.489 UTC
Usage of NP monitor is recommended for cisco internal use only.
Please use instead 'show controllers np capture' for troubleshooting packet drops in NP
and 'monitor np interface' for per (sub)interface counter monitoring
Warning: Every packet captured will be dropped! If you use the 'count'
option to capture multiple protocol packets, this could disrupt
protocol sessions (eg, OSPF session flap). So if capturing protocol
packets, capture only 1 at a time.
Warning: A mandatory NP reset will be done after monitor to clean up.
This will cause ~150ms traffic outage. Links will stay Up.
Proceed y/n [y] > y
Monitor PUNT_DIAGS_RSP_ACT on NP0 ... (Ctrl-C to quit)
Wed Jul 7 14:17:08 2021 -- NP0 packet
From Fabric: 127 byte packet
0000: 00 09 00 00 b4 22 00 00 ff ff ff ff 00 00 ff ff ....4"..........
0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa ....ppppLLLL****
0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00 UUUU............
0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff ................
0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55 ppppLLLL****UUUU
0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 ................
0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 ............pppp
0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 LLLL****UUUU...
(count 1 of 20)
Wed Jul 7 14:18:09 2021 -- NP0 packet
From Fabric: 256 byte packet
0000: 00 09 00 00 b5 22 00 00 ff ff ff ff 00 00 ff ff ....5"..........
0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa ....ppppLLLL****
0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00 UUUU............
0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff ................
0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55 ppppLLLL****UUUU
0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 ................
0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 ............pppp
0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 00 LLLL****UUUU....
0080: 01 00 00 00 00 00 00 00 00 00 00 00 ff ff ff ff ................
0090: 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc ........ppppLLLL
00a0: aa aa aa aa 55 55 55 55 00 00 00 00 01 00 00 00 ****UUUU........
00b0: 00 00 00 00 00 00 00 00 ff ff ff ff 00 00 ff ff ................
00c0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00d0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00e0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00f0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
(count 2 of 20)
Wed Jul 7 14:19:09 2021 -- NP0 packet
Actual packet size 515 bytes truncated size 384:
From Fabric: 384 byte packet
0000: 00 09 00 00 b6 22 00 00 ff ff ff ff 00 00 ff ff ....6"..........
0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa ....ppppLLLL****
0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00 UUUU............
0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff ................
0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55 ppppLLLL****UUUU
0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 ................
0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 ............pppp
0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 00 LLLL****UUUU....
0080: 01 00 00 00 00 00 00 00 00 00 00 00 ff ff ff ff ................
0090: 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc ........ppppLLLL
00a0: aa aa aa aa 55 55 55 55 00 00 00 00 01 00 00 00 ****UUUU........
00b0: 00 00 00 00 00 00 00 00 ff ff ff ff 00 00 ff ff ................
00c0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00d0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00e0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00f0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0100: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0110: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0120: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0130: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0140: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0150: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0160: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0170: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
RP/0/RP0/CPU0:ASR-9922-A#sh pfm location 0/RP0/CPU0
Wed Jul 7 14:19:17.174 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 14:19:17 2021
PFM TOTAL: 2 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 1
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Jul 1 10:13:45 2021|0 |SPINE_UNAVAILABLE |E/A|5082 |Fabric Manager|0x1034000
Jul 7 14:19:09 2021|0 |PUNT_FABRIC_DATA_PATH_FAILED |ER |9429 |System Punt/Fa|0x2000004
RP/0/RP0/CPU0:ASR-9922-A#sh pfm process 9429 location 0/Rp0/CPU0
Wed Jul 7 14:19:37.128 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 14:19:37 2021
PFM TOTAL: 2 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 1
PER PROCESS TOTAL: 0 EM: 0 CR: 0 ER: 0
Device/Path[1 ]:Fabric loopbac [0x2000003 ] State:RDY Tot: 0
Device/Path[2 ]:System Punt/Fa [0x2000004 ] State:RDY Tot: 1
1 Fault Id: 432
Sev: ER
Fault Name: PUNT_FABRIC_DATA_PATH_FAILED
Raised Timestamp: Jul 7 14:19:09 2021
Clear Timestamp: N/A
Changed Timestamp: N/A
Resync Mismatch: FALSE
MSG: failure threshold is 3, (slot, NP) failed: (0/7/CPU0, 0)
Device/Path[3 ]:Crossbar Switc [0x108c000 ] State:RDY Tot: 0
Device/Path[4 ]:Crossbar Switc [0x108c001 ] State:RDY Tot: 0
Device/Path[5 ]:Crossbar Switc [0x108c002 ] State:RDY Tot: 0
Device/Path[6 ]:Crossbar Switc [0x108c003 ] State:RDY Tot: 0
Device/Path[7 ]:Crossbar Switc [0x108c004 ] State:RDY Tot: 0
Device/Path[8 ]:Crossbar Switc [0x108c005 ] State:RDY Tot: 0
Device/Path[9 ]:Crossbar Switc [0x108c006 ] State:RDY Tot: 0
Device/Path[10]:Crossbar Switc [0x108c007 ] State:RDY Tot: 0
Device/Path[11]:Crossbar Switc [0x108c008 ] State:RDY Tot: 0
Device/Path[12]:Crossbar Switc [0x108c009 ] State:RDY Tot: 0
Device/Path[13]:Crossbar Switc [0x108c00a ] State:RDY Tot: 0
Device/Path[14]:Crossbar Switc [0x108c00b ] State:RDY Tot: 0
Device/Path[15]:Crossbar Switc [0x108c00c ] State:RDY Tot: 0
Device/Path[16]:Crossbar Switc [0x108c00d ] State:RDY Tot: 0
Device/Path[17]:Crossbar Switc [0x108c00e ] State:RDY Tot: 0
Device/Path[18]:Fabric Interfa [0x108b000 ] State:RDY Tot: 0
Device/Path[19]:Fabric Arbiter [0x1086000 ] State:RDY Tot: 0
Device/Path[20]:CPU Controller [0x108d000 ] State:RDY Tot: 0
Device/Path[21]:Device Control [0x109a000 ] State:RDY Tot: 0
Device/Path[22]:ClkCtrl Contro [0x109b000 ] State:RDY Tot: 0
Device/Path[23]:NVRAM [0x10ba000 ] State:RDY Tot: 0
Device/Path[24]:Hooper switch [0x1097000 ] State:RDY Tot: 0
Device/Path[25]:Hooper switch [0x1097001 ] State:RDY Tot: 0
Device/Path[26]:Hooper switch [0x1097002 ] State:RDY Tot: 0
Device/Path[27]:Hooper switch [0x1097003 ] State:RDY Tot: 0
この場合、ポートはダウンしませんでした。
RP/0/RP0/CPU0:ASR-9922-A#sh ipv4 int brief location 0/7/CPU0
Wed Jul 7 14:21:29.693 UTC
Interface IP-Address Status Protocol Vrf-Name
TenGigE0/7/0/0 unassigned Down Down default
TenGigE0/7/0/1 unassigned Down Down default
TenGigE0/7/0/2 unassigned Down Down default
TenGigE0/7/0/3 unassigned Down Down default
TenGigE0/7/0/4 unassigned Down Down default
TenGigE0/7/0/5 unassigned Down Down default
TenGigE0/7/0/6 unassigned Down Down default
TenGigE0/7/0/7 unassigned Shutdown Down default
TenGigE0/7/0/8 unassigned Shutdown Down default
TenGigE0/7/0/9 unassigned Shutdown Down default
TenGigE0/7/0/10 unassigned Down Down default
TenGigE0/7/0/11 unassigned Down Down default
TenGigE0/7/0/12 unassigned Down Down default
TenGigE0/7/0/13 unassigned Shutdown Down default
TenGigE0/7/0/14 unassigned Shutdown Down default
TenGigE0/7/0/15 unassigned Shutdown Down default
TenGigE0/7/0/16 unassigned Shutdown Down default
TenGigE0/7/0/17 unassigned Shutdown Down default
TenGigE0/7/0/18 unassigned Down Down default
TenGigE0/7/0/19 unassigned Up Up default >>>>>>> Port is UP
RP/0/RP0/CPU0:ASR-9922-A#sh logging last 200 | in 0/7/0
Wed Jul 7 14:22:35.715 UTC
RP/0/RP0/CPU0:ASR-9922-A#
テストケース1.2:
NP/ポートの動作は fault-manager datapath port toggle
コマンドにより、WLC CLI で明確に示されます。
RP/0/RP0/CPU0:ASR-9922-A#sh run formal | in data
Wed Jul 7 14:52:11.714 UTC
Building configuration...
fault-manager datapath port toggle
RP/0/RP0/CPU0:ASR-9922-A#
PFMでアラームなし:
RP/0/RP0/CPU0:ASR-9922-A#sh pfm location 0/Rp0/CPU0
Wed Jul 7 14:55:13.410 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 14:55:13 2021
PFM TOTAL: 1 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 0
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Jul 1 10:13:45 2021|0 |SPINE_UNAVAILABLE |E/A|5082 |Fabric Manager|0x1034000
RP/0/RP0/CPU0:ASR-9922-A#
NP0 LC7でのパントエラーの生成:
RP/0/RP0/CPU0:ASR-9922-A#monitor np counter PUNT_DIAGS_RSP_ACT np0 count 20 location 0/7/CPU0
Wed Jul 7 14:51:18.596 UTC
Usage of NP monitor is recommended for cisco internal use only.
Please use instead 'show controllers np capture' for troubleshooting packet drops in NP
and 'monitor np interface' for per (sub)interface counter monitoring
Warning: Every packet captured will be dropped! If you use the 'count'
option to capture multiple protocol packets, this could disrupt
protocol sessions (eg, OSPF session flap). So if capturing protocol
packets, capture only 1 at a time.
Warning: A mandatory NP reset will be done after monitor to clean up.
This will cause ~150ms traffic outage. Links will stay Up.
Proceed y/n [y] > y
Monitor PUNT_DIAGS_RSP_ACT on NP0 ... (Ctrl-C to quit)
Wed Jul 7 14:53:21 2021 -- NP0 packet
From Fabric: 127 byte packet
0000: 00 09 00 00 d8 22 00 00 ff ff ff ff 00 00 ff ff ....X"..........
0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa ....ppppLLLL****
0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00 UUUU............
0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff ................
0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55 ppppLLLL****UUUU
0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 ................
0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 ............pppp
0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 LLLL****UUUU...
(count 1 of 20)
Wed Jul 7 14:54:22 2021 -- NP0 packet
From Fabric: 256 byte packet
0000: 00 09 00 00 d9 22 00 00 ff ff ff ff 00 00 ff ff ....Y"..........
0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa ....ppppLLLL****
0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00 UUUU............
0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff ................
0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55 ppppLLLL****UUUU
0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 ................
0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 ............pppp
0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 00 LLLL****UUUU....
0080: 01 00 00 00 00 00 00 00 00 00 00 00 ff ff ff ff ................
0090: 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc ........ppppLLLL
00a0: aa aa aa aa 55 55 55 55 00 00 00 00 01 00 00 00 ****UUUU........
00b0: 00 00 00 00 00 00 00 00 ff ff ff ff 00 00 ff ff ................
00c0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00d0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00e0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00f0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
(count 2 of 20)
RP/0/RP0/CPU0:ASR-9922-A#sh pfm location 0/Rp0/CPU0
Wed Jul 7 14:56:24.459 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 14:56:24 2021
PFM TOTAL: 2 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 1
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Jul 1 10:13:45 2021|0 |SPINE_UNAVAILABLE |E/A|5082 |Fabric Manager|0x1034000
Jul 7 14:55:23 2021|0 |PUNT_FABRIC_DATA_PATH_FAILED |ER |9429 |System Punt/Fa|0x2000004
RP/0/RP0/CPU0:ASR-9922-A#sh pfm process 9429 location 0/RP0/CPU0
Wed Jul 7 14:56:39.961 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 14:56:40 2021
PFM TOTAL: 2 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 1
PER PROCESS TOTAL: 0 EM: 0 CR: 0 ER: 0
Device/Path[1 ]:Fabric loopbac [0x2000003 ] State:RDY Tot: 0
Device/Path[2 ]:System Punt/Fa [0x2000004 ] State:RDY Tot: 1
1 Fault Id: 432
Sev: ER
Fault Name: PUNT_FABRIC_DATA_PATH_FAILED
Raised Timestamp: Jul 7 14:55:23 2021
Clear Timestamp: N/A
Changed Timestamp: N/A
Resync Mismatch: FALSE
MSG: failure threshold is 3, (slot, NP) failed: (0/7/CPU0, 0)
Device/Path[3 ]:Crossbar Switc [0x108c000 ] State:RDY Tot: 0
Device/Path[4 ]:Crossbar Switc [0x108c001 ] State:RDY Tot: 0
Device/Path[5 ]:Crossbar Switc [0x108c002 ] State:RDY Tot: 0
Device/Path[6 ]:Crossbar Switc [0x108c003 ] State:RDY Tot: 0
Device/Path[7 ]:Crossbar Switc [0x108c004 ] State:RDY Tot: 0
Device/Path[8 ]:Crossbar Switc [0x108c005 ] State:RDY Tot: 0
Device/Path[9 ]:Crossbar Switc [0x108c006 ] State:RDY Tot: 0
Device/Path[10]:Crossbar Switc [0x108c007 ] State:RDY Tot: 0
Device/Path[11]:Crossbar Switc [0x108c008 ] State:RDY Tot: 0
Device/Path[12]:Crossbar Switc [0x108c009 ] State:RDY Tot: 0
Device/Path[13]:Crossbar Switc [0x108c00a ] State:RDY Tot: 0
Device/Path[14]:Crossbar Switc [0x108c00b ] State:RDY Tot: 0
Device/Path[15]:Crossbar Switc [0x108c00c ] State:RDY Tot: 0
Device/Path[16]:Crossbar Switc [0x108c00d ] State:RDY Tot: 0
Device/Path[17]:Crossbar Switc [0x108c00e ] State:RDY Tot: 0
Device/Path[18]:Fabric Interfa [0x108b000 ] State:RDY Tot: 0
Device/Path[19]:Fabric Arbiter [0x1086000 ] State:RDY Tot: 0
Device/Path[20]:CPU Controller [0x108d000 ] State:RDY Tot: 0
Device/Path[21]:Device Control [0x109a000 ] State:RDY Tot: 0
Device/Path[22]:ClkCtrl Contro [0x109b000 ] State:RDY Tot: 0
Device/Path[23]:NVRAM [0x10ba000 ] State:RDY Tot: 0
Device/Path[24]:Hooper switch [0x1097000 ] State:RDY Tot: 0
Device/Path[25]:Hooper switch [0x1097001 ] State:RDY Tot: 0
Device/Path[26]:Hooper switch [0x1097002 ] State:RDY Tot: 0
Device/Path[27]:Hooper switch [0x1097003 ] State:RDY Tot: 0
インターフェイスTenGigE0/7/0/19がNP0をダウンしました。
RP/0/RP0/CPU0:ASR-9922-A#show logging last 200 | in 0/7/0
Wed Jul 7 14:58:42.959 UTC
LC/0/7/CPU0:Jul 7 14:55:23.798 UTC: ifmgr[270]: %PKT_INFRA-LINK-3-UPDOWN :
Interface TenGigE0/7/0/19, changed state to Down
LC/0/7/CPU0:Jul 7 14:55:23.798 UTC: ifmgr[270]: %PKT_INFRA-LINEPROTO-5-UPDOWN :
Line protocol on Interface TenGigE0/7/0/19, changed state to Down
RP/0/RP0/CPU0:Jul 7 14:55:23.802 UTC: BM-DISTRIB[1290]: %L2-BM-6-ACTIVE :
TenGigE0/7/0/19 is no longer Active as part of Bundle-Ether854 (Link is down)
LC/0/7/CPU0:Jul 7 14:55:25.854 UTC: vic_0_0[379]: %PLATFORM-VIC-4-RFI :
Interface TenGigE0/7/0/19, Detected Remote Fault
LC/0/7/CPU0:Jul 7 14:55:26.936 UTC: lda_server[114]: %PKT_INFRA-FM-2-FAULT_CRITICAL :
ALARM_CRITICAL :OPTICS RX POWER LANE-0 LOW ALARM :CLEAR : Te0/7/0/0:
PUNTエラー生成の停止:
RP/0/RP0/CPU0:ASR-9922-A#sh ipv4 int brief location 0/7/CPU0
Wed Jul 7 14:59:16.322 UTC
Interface IP-Address Status Protocol Vrf-Name
TenGigE0/7/0/0 unassigned Down Down default
TenGigE0/7/0/1 unassigned Down Down default
TenGigE0/7/0/2 unassigned Down Down default
TenGigE0/7/0/3 unassigned Down Down default
TenGigE0/7/0/4 unassigned Down Down default
TenGigE0/7/0/5 unassigned Down Down default
TenGigE0/7/0/6 unassigned Down Down default
TenGigE0/7/0/7 unassigned Shutdown Down default
TenGigE0/7/0/8 unassigned Shutdown Down default
TenGigE0/7/0/9 unassigned Shutdown Down default
TenGigE0/7/0/10 unassigned Down Down default
TenGigE0/7/0/11 unassigned Down Down default
TenGigE0/7/0/12 unassigned Down Down default
TenGigE0/7/0/13 unassigned Shutdown Down default
TenGigE0/7/0/14 unassigned Shutdown Down default
TenGigE0/7/0/15 unassigned Shutdown Down default
TenGigE0/7/0/16 unassigned Shutdown Down default
TenGigE0/7/0/17 unassigned Shutdown Down default
TenGigE0/7/0/18 unassigned Down Down default
TenGigE0/7/0/19 unassigned Down Down default >>>>>>
アラーム停止:
RP/0/RP0/CPU0:ASR-9922-A#sh pfm location 0/Rp0/CPU0
Wed Jul 7 15:01:44.478 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 15:01:44 2021
PFM TOTAL: 1 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 0
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Jul 1 10:13:45 2021|0 |SPINE_UNAVAILABLE |E/A|5082 |Fabric Manager|0x1034000
RP/0/RP0/CPU0:ASR-9922-A#
インターフェイスが起動しました:
RP/0/RP0/CPU0:ASR-9922-A#show logging | in 0/7/0/19
Wed Jul 7 15:06:11.532 UTC
LC/0/7/CPU0:Jul 7 14:55:23.798 UTC: ifmgr[270]: %PKT_INFRA-LINK-3-UPDOWN :
Interface TenGigE0/7/0/19, changed state to Down
LC/0/7/CPU0:Jul 7 14:55:23.798 UTC: ifmgr[270]: %PKT_INFRA-LINEPROTO-5-UPDOWN :
Line protocol on Interface TenGigE0/7/0/19, changed state to Down
RP/0/RP0/CPU0:Jul 7 14:55:23.802 UTC: BM-DISTRIB[1290]: %L2-BM-6-ACTIVE :
TenGigE0/7/0/19 is no longer Active as part of Bundle-Ether854 (Link is down)
LC/0/7/CPU0:Jul 7 14:55:25.854 UTC: vic_0_0[379]: %PLATFORM-VIC-4-RFI :
Interface TenGigE0/7/0/19, Detected Remote Fault
LC/0/7/CPU0:Jul 7 15:03:27.204 UTC: ifmgr[270]: %PKT_INFRA-LINK-3-UPDOWN :
Interface TenGigE0/7/0/19, changed state to Up
LC/0/7/CPU0:Jul 7 15:03:27.206 UTC: ifmgr[270]: %PKT_INFRA-LINEPROTO-5-UPDOWN :
Line protocol on Interface TenGigE0/7/0/19, changed state to Up
RP/0/RP0/CPU0:Jul 7 15:03:29.219 UTC: BM-DISTRIB[1290]: %L2-BM-6-ACTIVE :
TenGigE0/7/0/19 is Active as part of Bundle-Ether854
改定 | 発行日 | コメント |
---|---|---|
1.0 |
09-Jan-2023 |
初版 |