본 제품에 대한 문서 세트는 편견 없는 언어를 사용하기 위해 노력합니다. 본 설명서 세트의 목적상, 편견 없는 언어는 나이, 장애, 성별, 인종 정체성, 민족 정체성, 성적 지향성, 사회 경제적 지위 및 교차성에 기초한 차별을 의미하지 않는 언어로 정의됩니다. 제품 소프트웨어의 사용자 인터페이스에서 하드코딩된 언어, RFP 설명서에 기초한 언어 또는 참조된 서드파티 제품에서 사용하는 언어로 인해 설명서에 예외가 있을 수 있습니다. 시스코에서 어떤 방식으로 포용적인 언어를 사용하고 있는지 자세히 알아보세요.
Cisco는 전 세계 사용자에게 다양한 언어로 지원 콘텐츠를 제공하기 위해 기계 번역 기술과 수작업 번역을 병행하여 이 문서를 번역했습니다. 아무리 품질이 높은 기계 번역이라도 전문 번역가의 번역 결과물만큼 정확하지는 않습니다. Cisco Systems, Inc.는 이 같은 번역에 대해 어떠한 책임도 지지 않으며 항상 원본 영문 문서(링크 제공됨)를 참조할 것을 권장합니다.
이 문서에서는 Cisco ASR(Aggregation Services Router) 9000 Series 작동 중에 나타나는 punt 패브릭 데이터 경로 오류 메시지에 대해 설명합니다.
메시지는 다음과 같은 형식으로 표시됩니다.
RP/0/RP0/CPU0:Oct 28 12:46:58.459 IST: pfm_node_rp[349]: %PLATFORM-DIAGS-3-PUNT_FABRIC_DATA_PATH_FAILED :
Set|online_diag_rsp[24790]|System Punt/Fabric/data Path Test(0x2000004)|failure threshold is 3,
(slot, NP) failed: (0/9/CPU0, 1) (0/9/CPU0, 3)
앞에서 언급한 0/9/CPU0의 NP1 및 NP3에 대해 문제가 발생합니다.
이 문서는 오류 메시지와 문제가 발견될 경우 취해야 할 조치를 이해하고자 하는 사용자를 위한 것입니다.
Tomahawk 기반 라인 카드(LC)는 Service Edge Optimized(Enhanced QoS) 또는 Packet Transport Optimized(Basic QoS) LC로 제공됩니다.
4포트 및 8포트 100기가비트 이더넷 LC는 LAN/WAN/OTN Unified PHY CPAK 포트 또는 LAN PHY 전용 CPAK 포트를 지원하는 두 가지 변형으로 사용할 수 있습니다.
이 LC는 Tomahawk 기반:
참고: A99-X로 시작하는 토마호크 기반 LC 부품 번호는 Cisco ASR 9904, ASR 9906, ASR 9910, ASR 9912 및 ASR 9922 섀시와 호환됩니다. Cisco ASR 9006 및 ASR 9010 라우터와 호환되지 않습니다.
광속 기반 LC는 서비스 에지 최적화(고급 QoS) 또는 패킷 전송 최적화(기본 QoS) LC로 사용할 수 있습니다. 토마호크 기반 LC와 달리, 모든 LC 모델이 -SE 및 -TR 유형 모두에서 사용 가능한 것은 아니다.
이 LC는 Lightspeed 기반:
LSP(Lightspeed-Plus) 기반 LC는 Service Edge Optimized(Enhanced QoS) 또는 Packet Transport Optimized(Basic QoS) LC로 사용할 수 있습니다.
이러한 LC는 LSP 기반입니다.
LC에 4개의 NP가 있다고 가정하고, 온라인 진단은 모든 NP를 실행해야 합니다(정상 상태 - 패브릭 경로). 이제 각 NP는 각각 20개의 VQI(0-19, 20-39, 40-59, 60-79)를 가질 수 있습니다.
첫 번째 분에는 온라인 진단이 각 NP에 하나의 패킷을 전송합니다.
1 min : against VQI 0, 20, 40, 60 (to all 4 NPs)
2 min:""""""""
3 min: """""""
4 min : """""
5th min : against VQI 1, 21, 41, 61..
6 min : """"""""
이는 모든 VQI가 완료되면 순환으로 반복됩니다.
RP/0/RP1/CPU0:AG2-2#show pfm location 0/RP1/CPU0
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Apr 7 01:04:04 2022PFM TOTAL: 1 EMERGENCY/ALERT(E/A): 0 CRITICAL(CR): 0 ERROR(ER): 1
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Apr 7 00:54:52 2022|0 |PUNT_FABRIC_DATA_PATH_FAILED |ER |10042 >>ID |System Punt/Fa|0x2000004
PFM 경보에 대한 모든 정보를 수집하려면 다음 명령 출력을 캡처합니다.
show pfm location all
show pfm trace location all
특정 프로세스에서 발생한 경보에 대한 자세한 내용을 보려면 다음 명령을 사용할 수 있습니다.
show pfm process name <process_name> location <location> >>> location where the PFM alarm is observed
각 RSP/RP(Route Switch Processor/Switch Processor)에는 하나의 공통 중재자(이중 RSP/RP는 섀시당 복원형 중재자를 의미함)에 의해 제어되는 패브릭 칩 2개가 있습니다. 활성 RSP/RP 상의 중재자만이 (듀얼 RSP들을 가정하여) 4개의 패브릭 칩 모두를 제어한다. 그러나 RSP/RP 간의 장애 조치가 즉시 이루어질 수 있도록 두 중재자 모두 지정된 시간에 전체 시스템의 상태를 파악하기 위해 패브릭 액세스 요청을 받고 있습니다. 중재자 사이에는 킵얼라이브가 없지만 RSP/RP에는 CPLD(Complex Programmable Logic Device) ASIC(FPGA와 유사)가 있으며, 그 기능 중 하나는 로우 레벨 킵얼라이브를 통해 다른 RSP/RP 상태를 추적하고 활성 중재자를 설정하는 것입니다.
모든 Fabric Interconnect ASIC에는 시스템의 100G 엔터티를 나타내는 큐 집합인 VQI 집합이 있습니다(Tomahawk용). 모든 100G 엔티티(단일 이그레스 NP의 1x100G 포트는 인그레스 NP의 단일 100G VQI로 표시됨)에는 여러 우선순위 클래스가 있습니다.
각 VQI에는 서로 다른 패킷 우선순위에 대해 4개의 VOQ(Virtual Output Queue) 집합이 있으며, 이 중 3개는 ASR 9000 포워딩 아키텍처에서 사용됩니다. 이는 우선순위 레벨 1, 2 및 인그레스 QoS 정책의 기본값에 해당합니다. 엄격한 우선 순위 대기열이 2개 있고 일반 대기열이 1개 있습니다(네 번째 대기열은 멀티캐스트용이며 유니캐스트 전달에 사용되지 않음).
일반적으로 기본 대기열은 이그레스 NP VQI에서 배압이 발생하는 동안 먼저 패킷을 삭제하기 시작합니다. NPU(Egress Network Processing Unit)가 오버로드되는 경우에만(회로에서 처리할 수 있는 것보다 더 많은 Bps 또는 PPS를 처리하는 경우) 인그레스 LC/NP에 역압을 적용하기 시작합니다. 이는 인그레스 LC의 FIA(Fabric Interface ASIC)에 VQI 플로우가 설치된 것으로 나타납니다.
예:
RP/0/RP0/CPU0:AG3_1#show controllers np ports all location 0/0/CPU0 >>> LC0 is installed in slot 2
Node: 0/0/CPU0:
----------------------------------------------------------------
NP Bridge Fia Ports
-- ------ --- ---------------------------------------------------
0 -- 0 TenGigE0/0/0/0/0 - TenGigE0/0/0/0/9, TenGigE0/0/0/1/0 - TenGigE0/0/0/1/9
1 -- 1 TenGigE0/0/0/2/0 - TenGigE0/0/0/2/9, HundredGigE0/0/0/3
2 -- 2 HundredGigE0/0/0/4 - HundredGigE0/0/0/5 >>>Below is the VQI assignment
3 -- 3 HundredGigE0/0/0/6 - HundredGigE0/0/0/7
RP/0/RP0/CPU0:AG3_1#sh controller fabric vqi assignment slot 2
slot = 2
fia_inst = 2 >>>FIA 2
VQI = 40 SPEED_100G
VQI = 41 SPEED_100G
VQI = 42 SPEED_100G
VQI = 43 SPEED_100G
VQI = 44 SPEED_100G
VQI = 45 SPEED_100G
VQI = 46 SPEED_100G
VQI = 47 SPEED_100G
VQI = 56 SPEED_100G
VQI = 57 SPEED_100G
VQI = 58 SPEED_100G
VQI = 59 SPEED_100G
VQI = 60 SPEED_100G
VQI = 61 SPEED_100G
VQI = 62 SPEED_100G
VQI = 63 SPEED_100G
인그레스 LC가 특정 패킷을 특정 이그레스 NPU로 전송하려는 경우 인그레스 LC의 수정(MDF) 스테이지는 패브릭 목적지 헤더로 패킷을 캡슐화합니다. FIA가 해당 "주소"를 보면 VOQ에서 특정 이그레스 NPU/대상/LC를 확인하고 사용 가능한 대역폭이 충분한지 확인합니다. 그것을 그 LC에 디큐잉할 준비가 되면, 인그레스 FIA는 그 목적지 LC에 대한 패브릭(중재자)으로부터의 허가를 요청한다. 중재 알고리즘은 QOS를 인식하고 있으므로 P1 클래스 패킷이 P2 클래스보다 우선권을 갖도록 보장합니다. 중재자는 승인 요청을 인그레스 FIA에서 이그레스 FIA로 릴레이합니다.
인그레스 FIA는 동일한 이그레스 LC로 가는 여러 패킷을 슈퍼프레임이라고 하는 것에 그룹화할 수 있다. 즉, 스위치 패브릭 링크를 통해 전달되는 네이티브 프레임/패킷이 아니라 수퍼프레임입니다. 상수 100pps의 테스트에서 CLI는 50pps만을 보고하는 패브릭 카운터만 표시할 수 있으므로 이 점을 유의해야 합니다. 이는 패킷 손실이 아니며, 스위치 패브릭을 통해 전송되는 각 슈퍼프레임에 2개의 패킷이 있다는 것을 의미할 뿐입니다. 슈퍼프레임에는 시퀀싱 정보가 포함되며, 대상 FIA는 재정렬을 지원합니다(패킷은 여러 패브릭 링크를 통해 "스프레이"될 수 있음). 유니캐스트 패킷만 수퍼프레임에 배치되고 멀티캐스트 패킷은 배치되지 않습니다.
일단 패킷이 이그레스 LC에 의해 수신되면, 승인은 중재자에게 반환된다. 중재자는 VOQ당 유한 개수의 토큰을 가집니다. 중재자가 인그레스 FIA가 (수퍼) 프레임을 특정 VOQ에 전송하도록 허용할 경우, 이그레스 FIA가 프레임을 이그레스 NP에 전달할 때만 해당 토큰이 풀로 반환됩니다. 이그레스 NP가 이그레스 FIA에 대한 배압 신호를 발생시킨 경우 토큰은 점유된 상태로 유지됩니다. 이것이 결국 중재자가 인그레스 FIA에서 그 VOQ에 대한 토큰이 고갈되는 방법이다. 이 경우 인그레스 FIA는 수신 패킷 삭제를 시작합니다. 배압의 트리거는 이그레스 NP에서 RFD(Receive Frame Descriptor) 버퍼의 사용률입니다. NP 마이크로코드가 패킷을 처리하는 동안 RFD 버퍼가 패킷을 보유하고 있습니다. 패킷을 처리하는 기능이 많을수록 RFD 버퍼에 더 오래 머무릅니다.
언급하는 것이 좋다면, RSP에 대한 로컬 중재인에서 활성 중재인으로의 신용 메커니즘입니다. 또한 다른 섹션을 추가하여 중재자 오류(오류 코드를 언급할 필요는 없지만 중재자 ASIC 오류를 살펴볼 필요 없음)의 가능한 사례를 다루면서 로컬 또는 중앙 중재자 때문에 승인을 받지 못하고 대기열이 쌓이는 경우를 살펴봅니다.
서로 다른 이그레스 NP로 이동하는 패킷은 서로 다른 VOQ 세트에 배치됩니다. 한 NP의 혼잡이 다른 NP로 이동하는 패킷을 차단하지는 않습니다.
ASR9912는 10개의 LC와 단일 Fabric Interconnect Chip만 지원하므로 동일합니다.
이 단계에서는 punt-path 실패와 관련된 문제를 좁히는 방법에 대한 힌트를 제공합니다. 정확히 동일한 순서로 따를 필요는 없습니다.
show logging | inc “PUNT_FABRIC_DATA_PATH”
RP/0/RP1/CPU0:Oct 28 12:46:58.459 IST: pfm_node_rp[349]: %PLATFORM-DIAGS-3-PUNT_FABRIC_DATA_PATH_FAILED :
Set|online_diag_rsp[24790]|System Punt/Fabric/data Path Test(0x2000004)|failure threshold is 3, (slot, NP)
failed: (0/9/CPU0, 1) (0/9/CPU0, 3)
앞에서 언급한 0/9/CPU0의 NP1 및 NP3에 대해 문제가 발생합니다.
run nslot all
명령을 실행합니다.RP/0/RP1/CPU0:AG2-2#show pfm location 0/RP1/CPU0
node: node0_RP1_CPU0
---------------------
CURRENT TIME: Mar 25 12:11:29 2022
PFM TOTAL: 1 EMERGENCY/ALERT(E/A): 0 CRITICAL(CR): 0 ERROR(ER): 1
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Mar 25 12:03:30 2022|1 |PUNT_FABRIC_DATA_PATH_FAILED |ER |8947 |System Punt/Fa|0x2000004
RP/0/RP1/CPU0:AG2-2#sh pfm process 8947 location 0/rp1/CPU0
node: node0_RP1_CPU0
---------------------
CURRENT TIME: Mar 25 12:12:36 2022
PFM TOTAL: 1 EMERGENCY/ALERT(E/A): 0 CRITICAL(CR): 0 ERROR(ER): 1
PER PROCESS TOTAL: 0 EM: 0 CR: 0 ER: 0
Device/Path[1 ]:Fabric loopbac [0x2000003 ] State:RDY Tot: 0
Device/Path[2 ]:System Punt/Fa [0x2000004 ] State:RDY Tot: 1
1 Fault Id: 432
Sev: ER
Fault Name: PUNT_FABRIC_DATA_PATH_FAILED
Raised Timestamp: Mar 25 12:03:30 2022
Clear Timestamp: Mar 25 12:07:32 2022
Changed Timestamp: Mar 25 12:07:32 2022
Resync Mismatch: FALSE
MSG: failure threshold is 3, (slot, NP) failed: (0/9/CPU0, 1) (0/9/CPU0, 3)
진단 패킷 흐름도
RP의 패킷 경로:
online_diags <===> SPP <===> Fabric <===> NP
LC의 패킷 경로:
online_diags <===> SPP <===> Punt-switch <====> NP
NP당 DIAGS 패킷은 1분마다 LC CPU에서 Punt Switch로 주입되며 모두 NP에서 루프백됩니다. 전혀 패브릭으로 이동하지 않습니다. 턴어라운드 포인트 또는 하프 마크는 각 NP의 마이크로코드이다.
RP/0/RP0/CPU0:AG2-2(admin)#show diagnostic content location <> >>> (in cXR)
RP/0/RP0/CPU0:AG2-2#show diagnostic content location <> >>> (in eXR)
A9K-8X100GE-L-SE 0/0/CPU0:
Diagnostics test suite attributes:
M/C/* - Minimal bootup level test / Complete bootup level test / NA
B/O/* - Basic ondemand test / not Ondemand test / NA
P/V/* - Per port test / Per device test / NA
D/N/* - Disruptive test / Non-disruptive test / NA
S/* - Only applicable to standby unit / NA
X/* - Not a health monitoring test / NA
F/* - Fixed monitoring interval test / NA
E/* - Always enabled monitoring test / NA
A/I - Monitoring is active / Monitoring is inactive
n/a - Not applicable
Test Interval Thre- Timeout
ID Test Name Attributes (day hh:mm:ss.ms shold ms )
==== ================================== ============ ================= ===== =====
1) CPUCtrlScratchRegister ----------> *B*N****A 000 00:01:00.000 3 n/a
2) DBCtrlScratchRegister -----------> *B*N****A 000 00:01:00.000 3 n/a
3) PortCtrlScratchRegister ---------> *B*N****A 000 00:01:00.000 3 n/a
4) PHYScratchRegister --------------> *B*N****A 000 00:01:00.000 3 n/a
5) NPULoopback ---------------------> *B*N****A 000 00:01:00.000 3 n/a
RP/0/RP0/CPU0:AG2-2#show diagnostic result location 0/0/CPU0
A9K-8X100GE-L-SE 0/0/CPU0:
Overall diagnostic result: PASS
Diagnostic level at card bootup: bypass
Test results: (. = Pass, F = Fail, U = Untested)
1 ) CPUCtrlScratchRegister ----------> .
2 ) DBCtrlScratchRegister -----------> .
3 ) PortCtrlScratchRegister ---------> .
4 ) PHYScratchRegister --------------> .
5 ) NPULoopback ---------------------> .
admin diag start location 0/x/cpu0 test NPULoopback (cXR)
RP/0/RP0/CPU0:AG3_1#diagnostic start location 0/0/CPU0 test NPULoopback >>> eXR
Fri May 13 06:53:00.902 EDT
RP/0/RP0/CPU0:AG3_1#show diagnostic res location 0/0/CPU0 test 5 detail >>> Here there are
multiple test 1-5 (check previous examples)
Test results: (. = Pass, F = Fail, U = Untested)
___________________________________________________________________________
5 ) NPULoopback ---------------------> .
Error code ------------------> 0 (DIAG_SUCCESS)
Total run count -------------> 67319
Last test execution time ----> Fri May 13 06:53:01 2022
First test failure time -----> n/a
Last test failure time ------> n/a
Last test pass time ---------> Fri May 13 06:53:01 2022
Total failure count ---------> 0
Consecutive failure count ---> 0
___________________________________________________________________________
RP/0/RSP1/CPU0:AG2-2#show controllers np counters location | inc DIAG| LC_CPU
108 PARSE_RSP_INJ_DIAGS_CNT 25195 0 >>> total DIAG packets injected by Active+Stdby RP
904 PUNT_DIAGS_RSP_ACT 12584 0 >>> Loopbacks to Active RP
906 PUNT_DIAGS_RSP_STBY 12611 0 >>> Loopbacks to Stdby R
122 PARSE_LC_INJ_DIAGS_CNT 2618 0 >>> total DIAG packets injected by LC
790 DIAGS 12618 0 >>> total DIAG packets replied back to LC
16 MDF_TX_LC_CPU 3998218312 937 >>> a packet punted to LC CPU PARSE_RSP_INJ_DIAGS_CNT should match (PUNT_DIAGS_RSP_ACT + PUNT_DIAGS_RSP_STDBY)
PARSE_LC_INJ_DIAGS_CNT should match DIAGS
PARSE_XX_INJ_DIAGS_CNT should increment periodically.
show spp sid stats location | inc DIAG 2. DIAG 35430
2. DIAG 35430
수신 및 전송 DIAG 카운터입니다. 그들은 항상 일치하고 LC에서 함께 증가 할 수 있습니다.
로그 예: SPP는 시퀀스 번호가 0x4e인 진단 패킷을 보내고 받습니다.
LC/0/1/CPU0:Jun 6 04:14:05.581 : spp[89]: Sent DIAG packet. NP:0 Slot:0 Seq:0x4e
LC/0/1/CPU0:Jun 6 04:14:05.584 : spp[89]: Rcvd DIAG packet. NP:0 Slot:0 Seq:0x4e
show drops all location
show drops all ongoing location
온라인 진단은 패킷이 전송/수신되거나 누락되었을 때 타임스탬프를 확인하는 데 여러 번 유용합니다. 이러한 타임스탬프는 패킷 상관관계를 위한 SPP 캡처와 비교할 수 있습니다.
admin debug diagnostic engineer location
admin debug diagnostic error location
참고: admin undebug all
명령을 사용하여 이러한 디버그를 비활성화합니다.
디버그의 샘플 출력:
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: Slot 1 has 4 NPs >>> Sending DIAG
messages to NPs on slot 1
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: PuntFabricDataPath: sending
a pak (seq 25), destination physical slot 1 (card type 0x3d02aa), NP 0, sfp=0xc6
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: PuntFabricDataPath: sending
a pak (seq 25), destination physical slot 1 (card type 0x3d02aa), NP 1, sfp=0xde
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: PuntFabricDataPath: sending
a pak (seq 25), destination physical slot 1 (card type 0x3d02aa), NP 2, sfp=0xf6
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: PuntFabricDataPath: sending
a pak (seq 25), destination physical slot 1 (card type 0x3d02aa), NP 3, sfp=0x10e
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
Time took to receive 22 pkts: 503922888 nsec, timeout value: 500000000 nsec
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
Received 22 packets, expected 24 => Some replies missed
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
Got a packet from physical slot 1, np 0
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: Successfully verified
a packet, seq. no.: 25
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
Got a packet from physical slot 1, np 2 <= Replies from NP1 and NP3 missing
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: Successfully verified
a packet, seq. no.: 25
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
Got a packet from physical slot 3, np 0
RP/0/RP1/CPU0:AG2-2#show diagnostic trace location 0/rp1/CPU0
Fri Mar 25 12:16:40.866 IST
1765 wrapping entries (3136 possible, 2048 allocated, 0 filtered, 3503120 total)
Mar 16 02:40:21.641 diags/online/gold_error 0/RP1/CPU0 t7356 Failed to get ack: got 0 responses,
expected 1
Mar 16 02:40:36.490 diags/online/message 0/RP1/CPU0 t8947 My nodeid 0x120, rack# is 0, slot# 1,
board type = 0x100327
Mar 16 02:40:36.948 diags/online/message 0/RP1/CPU0 t8947 dev cnt=25, path cnt=3, shm loc for
dev alarms@0x7fd4f0bec000, path alarms@0x7fd4f0bec01c, path alarm data@0x7fd4f0bec028
Mar 16 02:40:37.022 diags/online/message 0/RP1/CPU0 t8947 Last rpfo time: 1647378637
Mar 24 06:03:27.479 diags/online/error 0/RP1/CPU0 2105# t9057 PuntFabricDataPath test error:
physical slot 11(LC# 9): expected np mask: 0x0000000f, actual: 0x0000000b, failed: 0x00000004
Mar 24 06:03:27.479 diags/online/error 0/RP1/CPU0 634# t9057 PuntFabricDataPath test failure detected,
detail in the form of (0-based) (slot, NP: count): (LC9,2: 13)
show controllers fabric health location <>
show controllers fabric health spine all
admin
sysadmin-vm:0_RP0# show logging onboard fabric location 0/0
show controllers fabric fia errors ingress location <>
show controllers fabric fia stats location
show controllers fabric crossbar statistics instance [0-1] location <>
show controllers fabric crossbar statistics instance [0-1] location <>
show controllers fabric fia errors egress location <>
show controllers fabric fia stats location
show controllers fabric crossbar statistics instance [0-1] spine [0-6]
show controllers fabric fia drops ingress location <>
show controllers fabric fia drops egress location <>
show controllers fabric crossbar asic-errors instance 0 location<>
show asic-errors fia <> all location <>
show asic-errors fia <> all location <>
RP/0/RP0/CPU0:AG3_1#show controllers np fabric-counters all np0 location 0/0/CPU0
Node: 0/0/CPU0:
----------------------------------------------------------------
Egress fabric-to-bridge interface 2 counters for NP 0
INTERLAKEN_CNT_TX_BYTES 0x000073fc 23b6d99b
INTERLAKEN_CNT_TX_FRM_GOOD 0x000000ae a79d6612
INTERLAKEN_CNT_TX_FRM_BAD 0x00000000 00000000 >>> this is 0 which is good,
need to check if it is incremented
-------------------------------------------------------------
Egress fabric-to-bridge interface 3 counters for NP 0
INTERLAKEN_CNT_TX_BYTES 0x0004abdd fe02068d
INTERLAKEN_CNT_TX_FRM_GOOD 0x000005b8 089aac95
INTERLAKEN_CNT_TX_FRM_BAD 0x00000000 00000000
-------------------------------------------------------------
Node: 0/0/CPU0:
----------------------------------------------------------------
Ingress fabric-to-bridge interface 2 counters for NP 0
INTERLAKEN_CNT_RX_BYTES 0x0004aeb5 a4b9dbbe
INTERLAKEN_CNT_RX_FRM_GOOD 0x0000058e b7b91c15
INTERLAKEN_CNT_RX_FRM_BAD 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_CRC32_ERROR 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_CRC24_ERROR 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_SIZE_ERROR 0x00000000 00000000
-------------------------------------------------------------
Ingress fabric-to-bridge interface 3 counters for NP 0
INTERLAKEN_CNT_RX_BYTES 0x000094ce b8783f95
INTERLAKEN_CNT_RX_FRM_GOOD 0x000000f5 33cf9ed7
INTERLAKEN_CNT_RX_FRM_BAD 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_CRC32_ERROR 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_CRC24_ERROR 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_SIZE_ERROR 0x00000000 00000000
show controllers fabric fia link-status location
RP/0/RP0/CPU0:AG3_1#show controllers fabric fia link-status location 0/0/CPU0
********** FIA-0 **********
Category: link-0
spaui link-0 Up >>> FIA to NP link
spaui link-1 Up >>> FIA to NP link
arb link-0 Up >>> Arbitor link
xbar link-0 Up >>> FIA to XBAR link
xbar link-1 Up >>> FIA to XBAR link
xbar link-2 Up >>> FIA to XBAR link
RP/0/RP0/CPU0:AG3_1#show controllers fabric crossbar link-status instance 0 lo 0/0/CPU0
Mon May 2 04:05:06.161 EDT
PORT Remote Slot Remote Inst Logical ID Status
======================================================
00 0/0/CPU0 01 2 Up
01 0/FC3 01 0 Up
02 0/FC3 00 0 Up
03 0/FC4 01 0 Up
04 0/FC2 01 0 Up
05 0/FC4 00 0 Up
06 0/FC2 00 0 Up
07 0/FC1 01 0 Up
10 0/FC1 00 0 Up
14 0/FC0 01 0 Up
15 0/FC0 00 0 Up
16 0/0/CPU0 02 0 Up
18 0/0/CPU0 02 2 Up
19 0/0/CPU0 02 1 Up
20 0/0/CPU0 03 2 Up
21 0/0/CPU0 03 1 Up
22 0/0/CPU0 03 0 Up
23 0/0/CPU0 00 2 Up
24 0/0/CPU0 00 1 Up
25 0/0/CPU0 00 0 Up
26 0/0/CPU0 01 0 Up
27 0/0/CPU0 01 1 Up
LSP 카드에서 이러한 로그를 관찰하는 경우
LC/0/3/CPU0:Jul 5 13:05:53.365 IST: fab_xbar[172]: %PLATFORM-CIH-5-ASIC_ERROR_THRESHOLD :
sfe[1]: An interface-err error has occurred causing packet drop transient.
ibbReg17.ibbExceptionHier.ibbReg17.ibbExceptionLeaf0.intIpcFnc0UcDataErr Threshold has been exceeded
17*2 여기에서 포트 식별을 show controllers fabric crossbar link-status instance 1 lo 0/3/CPU0
명령을 사용합니다:
로그 수집:
show platform
show inventory
show tech fabric
show tech np
show tech ethernet interface
show logging
show pfm location all
show pfm trace location <location id>
show controllers pm vqi location all
show hw-module fpd location all (cxr) / admin show hw-module fpd (exr)
show controllers fti trace <process-name> location <Card location>
admin show tech obfl
Cxr:
From Admin:
show logging onboard common location <>
show logging onboard error location <>
Exr:
From sysadmin/calvados:
show logging onboard fabric location <>
LS:
show controllers asic LS-FIA instance <instance> block <block_name> register-name <register_name> location <>
LSP의 경우
show controllers asic LSP-FIA instance <instance> block <block_name> register-name <register_name> location <>
보고된 오류가 다음과 같은 경우:
LC/0/9/CPU0:Mar 1 05:12:25.474 IST: fialc[137]: %PLATFORM-CIH-5-ASIC_ERROR_THRESHOLD :
fia[3]: A link-err error has occurred causing performance loss persistent.
fnc2serdesReg1.fnc2serdesExceptionHier.fnc2serdesReg1.fnc2serdesExceptionLeaf0.
iNTprbsErrTxphyrdydropped6 Threshold has been exceeded
show controllers asic SKB-XBAR instance <instance> block-name <block_name> register-name <register_name> location <>
보고된 오류가 다음과 같은 경우:
LC/0/7/CPU0:Mar 4 06:42:01.241 IST: fab_xbar[213]: %PLATFORM-CIH-5-ASIC_ERROR_THRESHOLD :
sfe[0]: An interface-err error has occurred causing packet drop transient.
ibbReg11.ibbExceptionHier.ibbReg11.ibbExceptionLeaf0.intIpcFnc1UcDataErr Threshold has been exceeded
show controllers asic FC2-SKB-XBAR instance <instance> block-name <block_name> register-name <register_name> location
보고된 오류가 다음과 같은 경우:
RP/0/RP0/CPU0:Mar 4 06:41:14.398 IST: fab_xbar_sp3[156]: %PLATFORM-CIH-3-ASIC_ERROR_SPECIAL_HANDLE_THRESH :
fc3xbar[1]: A link-err error has occurred causing packet drop transient.
cflReg17.cflExceptionHier.cflReg17.cflExceptionLeaf4.intCflPal1RxAlignErrPktRcvd Threshold has been exceeded
그러면 ASIC가 "FC3-SKB-XBAR"이고 인스턴스는 SFE/XBAR ASIC의 인스턴스입니다. 여기서 "1"입니다. 둘 다 "fc3xbar[1]"에서 오는 block_name은 "cflReg17"이고 register_name은 "cflExceptionLeaf4"입니다.
예:
RP/0/RSP0/CPU0: AG2-10#sh logging | i ASIC
RP/0/RSP0/CPU0:May 11 20:48:57.658 IST: fab_xbar[184]: %PLATFORM-CIH-5-ASIC_ERROR_THRESHOLD :
sfe[0]: An interface-err error has occurred causing packet drop transient.
ibbReg13.ibbExceptionHier.ibbReg13.ibbExceptionLeaf0.intIpcFnc0UcDataErr Threshold has been exceeded
RP/0/RSP0/CPU0: AG2-10#sh controllers fabric crossbar link-status instance 0 location 0/rsp0/CPU0
PORT Remote Slot Remote Inst Logical ID Status
======================================================
04 0/0/CPU0 00 1 Up
06 0/0/CPU0 00 0 Up
08 0/7/CPU0 00 1 Up
10 0/7/CPU0 00 0 Up
24 0/2/CPU0 00 0 Up
26 0/2/CPU0 00 1 Up
>>> ibbReg13 >> 13*2 = 26 SO IT IS POINTING TO LC2 – IN THIS CASE YOU CAN DO OIR TO RECOVER THE ASIC ERROR
40 0/RSP0/CPU0 00 0 Up
RP/0/RSP0/CPU0: AG2-10#show controllers asic SKB-XBAR instance 0 block-name ibbReg13 register-name ibbExceptionLeaf0 location 0/RSP0/CPU0
address name value
0x00050d080 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int1Stat 0x00000000 (4 bytes)
address name value
0x00050d084 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int1StatRw1s 0x00000000 (4 bytes)
address name value
0x00050d088 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int1Enable 0xfffffffb (4 bytes)
address name value
0x00050d08c SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int1First 0x00000000 (4 bytes)
address name value
0x00050d090 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int2Stat 0x00000c50 (4 bytes)
address name value
0x00050d094 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int2StatRw1s 0x00000c50 (4 bytes)
address name value
0x00050d098 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int2Enable 0x00000000 (4 bytes)
address name value
0x00050d09c SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int2First 0x00000000 (4 bytes)
address name value
0x00050d0a0 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_haltEnable 0x00000000 (4 bytes)
address name value
0x00050d0a4 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_fault 0x00000000 (4 bytes)
address name value
0x00050d0a8 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_intMulti 0x00000840 (4 bytes)
address name value
0x00050d0ac SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_leaf 0x00000000 (4 bytes)
RP/0/RSP0/CPU0:AG2-10#
링크 상태를 확인하려면 다음을 수행합니다.
RP/0/RSP0/CPU0:AG2-10#sho controllers fabric arbiter link-status location 0/1/$
Port Remote Slot Remote Elem Remote Inst Status
=======================================================
00 0/1/CPU0 FIA 0 Up
01 0/1/CPU0 FIA 1 Up
24 0/RSP0/CPU0 ARB 0 Up
25 0/RSP1/CPU0 ARB 0 Up
VQI 가용성을 확인하려면 다음을 수행합니다.
RP/0/RP0/CPU0:AG3_1#sh controllers fabric vqi assignment all
Current mode: Highbandwidth mode - 2K VQIs
Node Number of VQIs
----------------------------
0/0/CPU0 80
0/1/CPU0 40
0/2/CPU0 48
0/3/CPU0 80
0/5/CPU0 80
0/7/CPU0 80
0/12/CPU0 64
RP*/RSP* 8
----------------------------
In Use = 480
Available = 1568
VQI에 할당된 속도를 확인합니다.
RP/0/RP0/CPU0:AG3_1#sh controller fabric vqi assignment slot 7
Thu May 12 07:58:59.897 EDT
slot = 7
fia_inst = 0
VQI = 400 SPEED_100G
VQI = 401 SPEED_100G
VQI = 402 SPEED_100G
VQI = 403 SPEED_100G
VQI = 404 SPEED_100G
VQI = 405 SPEED_100G
VQI = 406 SPEED_100G
slot = 7
fia_inst = 1
VQI = 416 SPEED_40G
VQI = 417 SPEED_40G
VQI = 418 SPEED_40G
VQI = 419 SPEED_40G
VQI = 420 SPEED_100G
FIA에서 tail drop이 관찰되는 경우 다음 단계를 확인하십시오.
VQI에서 대기열 깊이 확인:
RP/0/RP0/CPU0:AG3_1#show controllers fabric fia q-depth location 0/0/CPU0
Thu May 12 08:00:42.186 EDT
********** FIA-0 **********
Category: q_stats_a-0
Voq ddr pri Cellcnt Slot_FIA_NP
28 0 2 2 LC0_1_1
********** FIA-0 **********
Category: q_stats_b-0
Voq ddr pri Cellcnt Slot_FIA_NP
********** FIA-1 **********
Category: q_stats_a-1
Voq ddr pri Cellcnt Slot_FIA_NP
7 0 2 12342 LC0_0_0
>>> Here Packet count is high so we need to check for LC0 FIA0 NP0 (egress) is there any congestion
or any other issue in LC0 FIA0 or NP0
Here Pri = 2 is the default queue (BE) , Pri = 0 is P1 (Voice, real time) queue, Pri = 1 is P2
97 0 2 23 LC1_0_0
RP/0/RP0/CPU0:AG3_1#show controllers fabric vqi assignment slot 02
slot = 2
fia_inst = 0
VQI = 0 SPEED_10G
VQI = 1 SPEED_10G
VQI = 2 SPEED_10G
VQI = 3 SPEED_10G
VQI = 4 SPEED_10G
VQI = 5 SPEED_10G
VQI = 6 SPEED_10G
VQI = 7 SPEED_10G
VQI에 대한 포트 매핑 세부사항:
RP/0/RP0/CPU0:AG3_1#show controllers pm vqi location 0/0/CPU0
Platform-manager VQI Assignment Information
Interface Name | ifh Value | VQI | NP#
--------------------------------------------------
TenGigE0_0_0_0_1 | 0x4000680 | 1 | 0
TenGigE0_0_0_0_2 | 0x40006c0 | 2 | 0
TenGigE0_0_0_0_3 | 0x4000700 | 3 | 0
TenGigE0_0_0_0_4 | 0x4000740 | 4 | 0
TenGigE0_0_0_0_5 | 0x4000780 | 5 | 0
TenGigE0_0_0_0_6 | 0x40007c0 | 6 | 0
TenGigE0_0_0_0_7 | 0x4000800 | 7 | 0
RP/0/RP0/CPU0:AG3_1#show controllers pm interface tenGigE 0/0/0/0/7
Ifname(1): TenGigE0_0_0_0_7, ifh: 0x4000800 :
iftype 0x1e
egress_uidb_index 0x12, 0x0, 0x0, 0x0
ingress_uidb_index 0x12, 0x0, 0x0, 0x0
port_num 0x0
subslot_num 0x0
ifsubinst 0x0
ifsubinst port 0x7
phy_port_num 0x7
channel_id 0x0
channel_map 0x0
lag_id 0x7e
virtual_port_id 0xa
switch_fabric_port 7 >>> VQI matching for the ports
in_tm_qid_fid0 0x38001e
in_tm_qid_fid1 0x0
in_qos_drop_base 0xa69400
out_tm_qid_fid0 0x1fe002
out_tm_qid_fid1 0xffffffff
np_port 0xd3
로그 수집:
Show tech fabric
Show tech np
show controllers pm trace ?
async Platform manager async trace
creation Platform manager interface creation/deletion trace
error Platform manager error trace
information Platform manager information trace
init Platform manager init trace
other Platform manager common trace
stats Platform manager stats trace
NP 로드 확인:
RP/0/RP0/CPU0:AG3_1#show controller np load all location 0/0/CPU0
Node: 0/0/CPU0:
----------------------------------------------------------------
Load Packet Rate
NP0: 2% utilization 3095766 pps
NP1: 3% utilization 5335675 pps
NP2: 0% utilization 498 pps
NP3: 0% utilization 1117 pps
포트 매핑:
RP/0/RP0/CPU0:AG3_1#show controllers np ports all location 0/0/CPU0
Node: 0/0/CPU0:
----------------------------------------------------------------
NP Bridge Fia Ports
-- ------ --- ---------------------------------------------------
0 -- 0 TenGigE0/0/0/0/0 - TenGigE0/0/0/0/9, TenGigE0/0/0/1/0 - TenGigE0/0/0/1/9
1 -- 1 TenGigE0/0/0/2/0 - TenGigE0/0/0/2/9, HundredGigE0/0/0/3
2 -- 2 HundredGigE0/0/0/4 - HundredGigE0/0/0/5
3 -- 3 HundredGigE0/0/0/6 - HundredGigE0/0/0/7
토마호크
이 모드는 관리자 모드입니다.
sysadmin-vm:0_RP0# show controller switch statistics location 0/LC0/LC-SW
Thu May 12 12:32:37.160 UTC+00:00
Rack Card Switch Rack Serial Number
--------------------------------------
0 LC0 LC-SW
Tx Rx
Phys State Drops/ Drops/
Port State Changes Tx Packets Rx Packets Errors Errors Connects To
----------------------------------------------------------------------------
0 Up 2 3950184361 3977756349 0 0 NP0
1 Up 2 0 0 0 0 NP0
8 Up 1 1319787462 209249871 0 0 LC CPU N0 P0
9 Up 1 3374323096 1819796660 0 0 LC CPU N0 P1
16 Up 2 2245174606 1089972811 0 0 NP1
17 Up 2 0 0 0 0 NP1
18 Up 2 65977 16543963 0 0 NP2
19 Up 2 0 0 0 0 NP2
32 Up 2 128588820 3904804720 0 0 NP3
33 Up 2 0 0 0 0 NP3
show asic-error np <> all loc <> >>> Ignore the macwrap errors as they are seen for every
interface flaps/ Execute 3-4 times to verify the drops increment
show controller np fast-drop <> loc <> >>> Execute 3-4 times to verify the drops increment
RP/0/RP0/CPU0:AG3_1#show controller np fast-drop np0 location 0/0/CPU0
Thu May 12 10:13:22.981 EDT
Node: 0/0/CPU0:
----------------------------------------------------------------
All fast drop counters for NP 0:
TenGigE0/0/0/1/0-TenGigE0/0/0/1/9:[Priority1] 0
TenGigE0/0/0/1/0-TenGigE0/0/0/1/9:[Priority2] 0
TenGigE0/0/0/1/0-TenGigE0/0/0/1/9:[Priority3] 0
TenGigE0/0/0/0/0-TenGigE0/0/0/0/9:[Priority1] 0
TenGigE0/0/0/0/0-TenGigE0/0/0/0/9:[Priority2] 0
TenGigE0/0/0/0/0-TenGigE0/0/0/0/9:[Priority3] 0
show controllers np punt-path-counters all HOST-IF-0 np<> location <>
[Check for IF_CNT_RX_FRM & IF_CNT_TX_FRM] >>> To check if diagnostic packets make it to the LC NP
Host CPU network port
광속
show asic-error np <> all loc <> >>> Ignore the macwrap errors as they are seen for every interface flap
RP/0/RP0/CPU0:AG3_1#sho asic-errors np 0 all location 0/5/CPU0
************************************************************
* 0_5_CPU0 *
************************************************************
************************************************************
* Single Bit Errors *
************************************************************
************************************************************
* Multiple Bit Errors *
************************************************************
************************************************************
* Parity Errors *
************************************************************
************************************************************
* Generic Errors *
************************************************************
ASR, ASR9K Lightspeed 20*100GE SE LC, 0/5/CPU0, npu[0]
Name : mphmacwrapReg1.mphmacwrapExceptionLeaf4.mphWrapIrqUmacIpInt82
Leaf ID : 0x2023e082
Error count : 1
Last clearing : Thu Apr 7 11:41:47 2022
Last N errors : 1
--------------------------------------------------------------
First N errors.
@Time, Error-Data
------------------------------------------
show controller np fast-drop <> loc <> >>> Execute 3-4 times to verify the drops increment
RP/0/RP0/CPU0:AG3_1#show controller np fast-drop np0 location 0/5/CPU0
Thu May 12 10:13:28.321 EDT
Node: 0/5/CPU0:
----------------------------------------------------------------
All fast drop counters for NP 0:
HundredGigE0_5_0_0[Crit] 0
HundredGigE0_5_0_0[HP] 0
HundredGigE0_5_0_0[LP2] 0
HundredGigE0_5_0_0[LP1] 0
HundredGigE0_5_0_0[Crit+HP_OOR] 0
HundredGigE0_5_0_0[LP2+LP1_OOR] 0
HundredGigE0_5_0_1[Crit] 0
HundredGigE0_5_0_1[HP] 0
HundredGigE0_5_0_1[LP2] 0
HundredGigE0_5_0_1[LP1] 0
HundredGigE0_5_0_1[Crit+HP_OOR] 0
이 모드는 관리자 모드입니다.
sysadmin-vm:0_RP0# show controller switch statistics location 0/LC5/LC-SW >>> Execute 3-4
times to verify the errors increment
Rack Card Switch Rack Serial Number
--------------------------------------
0 LC5 LC-SW
Tx Rx
Phys State Drops/ Drops/
Port State Changes Tx Packets Rx Packets Errors Errors Connects To
-----------------------------------------------------------------------------
0 Up 4 1456694749 329318054 0 4 CPU -- EOBC
1 Up 2 21 23 0 0 CPU -- flexE
2 Up 4 1063966999 87683758 0 0 CPU -- PUNT
3 Up 4 885103800 3021484524 0 0 CPU -- BFD
4 Up 3 329319167 1456700372 0 0 RP0
5 Up 3 0 0 0 0 RP1
6 Up 1 11887785 2256 0 0 IPU 0
7 Up 1 0 1086 0 0 IPU 1
9 Up 4 74028034 3025657779 0 0 NP0
10 Up 4 5 0 0 0 NP0
11 Down 1 0 0 0 0 PHY0 -- flexE
12 Up 4 264928 264929 0 0 NP1
13 Up 2 5 0 0 0 NP1
14 Down 1 0 0 0 0 PHY1 -- flexE
15 Up 4 1516538834 1159586563 0 0 NP2
로그 수집:
show tech np
show tech fabric
show asic-errors fia trace all location <>
RP/0/RP0/CPU0:AG3_1#run chvrf 0 ssh lc0_xr
LC : [one time capture]
show_np -e <> -d npdatalog [<> should be the affected NP]
Path where NP datalogs is saved : /misc/scratch/np/NPdatalog_0_0_CPU0_np0_prm__20220512-105332.txt.gz
LC : 5 to 10 times
show_np -e <> -d pipeline [<> should be the affected NP]
RP/0/RP0/CPU0:AG2-2#show controllers np ports all location 0/6/CPU0
Node: 0/6/CPU0:
----------------------------------------------------------------
NP Bridge Fia Ports
-- ------ --- ---------------------------------------------------
0 -- 0 HundredGigE0/6/0/0 - HundredGigE0/6/0/31 --
1 -- 1 HundredGigE0/6/0/4 - HundredGigE0/6/0/7
NP2 is down. >>>>>>>>>. NP Down/Init Failure
3 -- 3 HundredGigE0/6/0/12 - HundredGigE0/6/0/154 --
4 -- 4 HundredGigE0/6/0/16 - HundredGigE0/6/0/19
이러한 로그는 다음을 관찰합니다.
LC/0/6/CPU0:Mar 23 02:53:56.175 IST: npu_server_lsp[138]: %PLATFORM-LDA-3-INIT_FAIL :
Failed to initialize lda_bb_np_reset_process 13795 inst 0x2 LC INIT: Failed in NP HAL
Reset np (0x00000001 - Operation not permitted) : npu_server_lsp : (PID=4597) :
-Traceback= 7fea2d5cd9f6 7fea2d7d5816 7fea21465efa 7fea21465fc2 7fea42ad0bed 55a9dbd66031
7fea45e1c855 7fea45e1cc2b 7fea2624d526 7fea3571b96a 7fea4d6e4831 55a9dbd691e9
LC/0/6/CPU0:Mar 23 02:53:56.185 IST: npu_server_lsp[138]: %PLATFORM-NP-4-INIT_DEBUG_MSG :
LDA NP2 Reset failed!! Check for a downlevel IPU version.
로그 수집:
show tech-support ethernet interfaces
show tech-support ethernet controllers
show tech-support np
show tech-support fpd
admin show tech-support ctrace (in eXR)
show tech fabric
show asic-errors fia trace all location <>
show logging
gather (in eXR)
RP/0/RP0/CPU0:AG3_1#admin
sysadmin-vm:0_RP0#
[sysadmin-vm:0_RP0:~]$bash -l
[sysadmin-vm:0_RP0:~]$ gather
File will be generated and will get saved in rp0_xr:/misc/disk1
show platform
show inventory
show tech fabric
show tech np
show tech ethernet interface
show logging
show pfm location all
show pfm trace location <location id>
sh pfm process <> location <>
show controllers pm vqi location all
show hw-module fpd location all (cxr) / admin show hw-module fpd (exr)
show controllers fti trace <process-name> location <card location>
Cxr:
From admin:
show logging onboard common location <>
show logging onboard error location <>
Exr:
From sysadmin/calvados:
show logging onboard fabric location <>"
카테고리 |
오류 |
관찰 |
권장 사항 |
NP 초기화 실패 |
LC/0/0/CPU0:Sep 29 00:41:13.171 IST: pfm_node_lc[304]: %PLATFORM-NP-1-NP_INIT_FAIL_NO_RESET: Set|prm_server_ty[168018]|0x1008006|영구 NP 초기화 실패, 라인 카드 다시 로드가 필요하지 않습니다. |
NP는 HW 패리티/TCAM 오류로 인해 NP 초기화 지속 오류로 인해 NP가 중단될 수 있습니다. |
복구할 CLI를 통해 LC 다시 로드 |
LC의 첫 번째 다시 로드 후 일시적으로 문제가 발생할 경우 문제가 복구될 수 있습니다. |
동일한 오류의 반복 인스턴스에 대해 RMA(Return Material Authorization)를 완료합니다. |
||
반복 인스턴스가 표시되는 경우 RMA (결함이 있는 보드의 사진을 캡처하여 SR의 핀 손상/구부러짐 여부를 검사합니다.) |
|||
새 카드는 잘못된 현장 처리로 인해 동일한 문제에 직면할 수 있습니다. |
|||
NP에 매핑된 인터페이스는 중단/영향 없음 |
|||
ASIC 치명적 결함-이중 비트 ECC 오류 |
LC/0/8/CPU0: 5월 29일 18:29:09.836 IST: pfm_node_lc[301]: %FABRIC-FIA-0-ASIC_FATAL_FAULT: Set|fialc[159811]|0x108a000|패브릭 인터페이스 ASIC0에서 치명적인 오류 0x1 - DDR DOUBLE ECC 오류가 발생했습니다. |
이 오류는 FIA의 2비트 ECC 오류이며 하드 오류입니다. |
FIA에서 HW 오류가 발생했습니다. |
오류가 다시 나타날 수 있으므로 LC를 종료하는 것이 좋습니다. |
카드를 RMA합니다. |
||
NP/FIA에 매핑된 인터페이스는 중단/영향 없음 |
|||
이 문제는 FIA가 fib_mgr 프로세스 블록을 발견한 경우 중 하나에서 나타납니다. |
|||
SERDES 오류 |
·RP/0/RSP1/CPU0:4월 17일 12:22:10.690 IST: pfm_node_rp[378]: %PLATFORM-CROSSBAR-1-SERDES_ERROR_LNK0: Set|fab_xbar[209006]|0x101702f|XBAR_1_Slot_1 |
LC 패브릭 또는 RSP 패브릭에서 패브릭 오류가 발생했습니다. |
반복 오류에 대한 일시적 / CRC 오류를 복구하기 위해 CLI를 통해 LC 다시 로드. |
데이터_NB_SERDES_1_FAIL_0 |
LC/0/3/CPU0: 4월 10일 18:55:03.213 IST: pfm_node_lc[304]: %FABRIC-FIA-1-DATA_NB_SERDES_1_FAIL_0 : Set|fialc[168004]|0x103d001|데이터 NB Serdes Link 1 FIA 1에서 실패 RP/0/RSP0/CPU0:4월 10 18:55:13.043 IST: FABMGR[227]: %PLATFORM-FABMGR-2-FABRIC_INTERNAL_FAULT: 0/3/CPU0(슬롯 3)에서 패브릭 결함이 발견되었습니다. 인터페이스가 종료됩니다. |
패브릭에서 SERDES 오류를 자동으로 복구하기 위한 인터페이스 재교육 메커니즘 HW 이슈가 발생한 경우, LC 또는 RSP에서 다시 에러가 발생할 수 있습니다. 인터페이스가 계속 작동/SERDES에서 자주 오류가 발생하여 트래픽이 영향을 받았습니다. |
OIR 이후 반복 인스턴스의 RMA |
ASIC 초기화 오류 |
·LC/0/6/CPU0:7월 17일 00:01:40.738 2019:pfm_node_lc[301]: %FABRIC-FIA-1-ASIC_INIT_ERROR: Set|fialc[168003]|0x108a000|ASIC INIT 오류가 FIA 인스턴스 0에서 감지됨 |
Syslog에서 ASIC INIT 오류가 발생한 LC의 FIA 인스턴스 중단 이벤트 |
CLI를 통해 LC를 다시 로드하여 일시적인 문제를 배제합니다. |
FIA ASIC 치명적 오류 TS_NI_INTR_LCL_TIMER_EXPIRED |
LC/0/19/CPU0:Mar 8 04:52:29.020 IST: pfm_node_lc[301]: %FABRIC-FIA-0-FATAL_INTERRUPT_ERROR: Set|fialc[172098]|0x108a003|FIA FIA 3의 치명적인 오류 인터럽트: TS_NI_INTR_LCL_TIMER_EXPIRED |
새 카드의 경우 배송/설치 시 장치가 잘못 처리되어 보드에 물리적 손상을 입힌 것으로 보입니다. 몇 개의 보드는 물리적 손상을 나타내지 않았지만 EFA 중에 땜납 균열이 관찰되었다. 그것은 포장재의 과중과 시간이 지남에 따른 오작동 가능성을 나타낸다. 인터페이스가 계속 작동/SERDES에서 자주 오류가 발생하여 트래픽이 영향을 받았습니다. |
문제가 지속되면 RMA/R&R을 진행합니다. |
NP 빠른 재설정 (토마호크 ) |
LC/0/4/CPU0:Jul 6 04:06:49.259 IST: prm_server_ty[318]: %PLATFORM-NP-3-ECC: prm_ser_check: NP 1의 소프트 오류를 성공적으로 복구하기 위해 NP 빠른 재설정을 완료했습니다. 더 이상의 시정 조치가 필요하지 않습니다. |
NP는 소프트 패리티 문제를 감지하고 NP 빠른 재설정을 시도하여 문제를 해결하려고 합니다. |
첫 번째 어커런스에 대한 RMA가 없습니다. |
NP 패리티 LC 다시 로드 |
LC/0/6/CPU0:1월 27 20:38:08.011 IST: prm_server_to[315]: %PLATFORM-NP-0-LC_RELOAD: NP3에서 1시간 내에 3개의 빠른 재설정이 발생하여 NPdatalog 수집 및 자동 LC 재부팅을 시작합니다. |
일반적으로 3번의 복구 시도 후 LC는 Tomahawk 카드에 대해 일반적으로 나타나는 NP에서 패리티 문제를 해결하기 위해 자체적으로 다시 로드됩니다. LC는 LC를 다시 로드하고 보고된 NP에서 복구 불가능한 소프트 패리티 문제를 수정하여 자동 복구 작업을 수행합니다. NP에 매핑된 인터페이스가 reset/No impact와 함께 다운됩니다. |
동일한 오류의 반복 인스턴스에 대한 RMA |
LC_NP_LOOPBACK_FAILED |
LC/0/1/CPU0: 7월 26일 17:29:06.146 IST: pfm_node_lc[304]: %PLATFORM-DIAGS-0-LC_NP_LOOPBACK_FAILED_TX_PATH: Set|online_diag_lc[168022]|라인 카드 NPU 루프백 테스트(0x2000006)|링크 오류 마스크는 0x1입니다. |
LC NP 중 하나에서 LC NP 루프백 진단 테스트 실패 |
CLI를 통해 LC를 다시 로드하여 일시적인 문제를 배제합니다. |
PFM에서 "LC_NP_LOOPBACK_FAILED_XX_PATH"로 설정된 경보. |
동일한 오류의 반복 인스턴스에 대한 RMA |
||
NP에 매핑된 인터페이스가 reset/No impact와 함께 다운됩니다. |
|||
패브릭 FIA-1-SUSTAINED_CRC_ERR |
LC/0/5/CPU0:Mar 6 05:47:34.748 IST: pfm_node_lc[303]: %FABRIC-FIA-1-SUSTAINED_CRC_ERR: Set|fialc[168004]|0x103d00|패브릭 인터페이스 ASIC-0에 지속적인 CRC 오류가 있습니다. |
패브릭 FIA 지속 CRC 오류로 인해 FIA 종료 |
CLI를 통해 LC를 다시 로드하여 일시적인 문제를 배제합니다. |
FIA 종료 이벤트에서 FIA의 인터페이스도 중단됩니다. |
동일한 오류의 반복 인스턴스에 대한 RMA |
||
인터페이스가 계속 켜져/아무런 영향도 미치지 않습니다. |
|||
FAB ARB XIF1 오류 |
·LC/0/6/CPU0:1월 25일 19:31:22.787 IST: pfm_node_lc[302]: %PLATFORM-FABARBITER-1-RX_LINK_ERR: Clear|fab_arb[163918]|0x1001001|LIT_XIF1_K_CHAR_ERR LC/0/6/CPU0: 1월 25일 19:31:22.787 목록: pfm_node_lc[302]: %PLATFORM-FABARITER-1-SYNC_ERR: Clear|fab_arb[163918]|0x1001001|LIT_XIF1_LOSS_SYNC LC/0/6/CPU0: 1월 25일 19:33:23.010 목록: pfm_node_lc[302]: %PLATFORM-FABARITER-1-RX_LINK_ERR: 설정|fab_arb[163918]|0x1001001|LIT_XIF1_DISP_ERR |
LC & 패브릭 중재자 동기화 & rx_link 오류에 대한 PUNT 오류. 인터페이스가 계속 켜져/아무런 영향도 미치지 않습니다. |
일시적인 문제를 배제하기 위해 카드를 OIR합니다. 동일한 오류의 반복 인스턴스에 대한 RMA |
FPOE_read_write 오류 |
xbar 오류 추적(show tech fabric) |
Cisco 버그 ID CSCvv45788 |
소프트웨어 결함 |
FIA_XBAR 시리즈 |
#show 컨트롤러 패브릭 fia 링크 상태 위치 0/9/CPU0 |
일시적인 문제를 배제하기 위해 카드를 OIR합니다. 동일한 오류의 반복 인스턴스에 대한 RMA |
|
NP DIAG ICFD 빠른 재설정 |
NP-DIAG on NP0, ICFD(STS-1), NP는 0-4일 수 있습니다. NP3는 1시간 내에 3번의 빠른 재설정을 수행하여 NPdatalog 수집 및 자동 LC 재부팅을 시작했습니다. |
NP의 FAST 재설정 트리거 3 NP Fast가 1시간 후에 재설정되면 LC가 다시 로드됩니다. |
LC가 여러 번 다시 로드되는 경우 RMA. |
PRM 상태 모니터링이 패킷 NP 빠른 재설정을 가져오지 못했습니다. |
NP-DIAG 상태 모니터링 실패 NP3는 1시간 내에 3번의 빠른 재설정을 수행하여 NPdatalog 수집 및 자동 LC 재부팅을 시작했습니다. |
NP의 FAST 재설정 트리거 3 NP Fast가 1시간 후에 재설정되면 LC가 다시 로드됩니다. |
LC가 여러 번 다시 로드되는 경우 RMA. |
PRM 상태 모니터링이 손상된 패킷 NP 빠른 재설정을 가져옵니다. |
NP-DIAG 상태 모니터링 손상 NP3는 1시간 내에 3번의 빠른 재설정을 수행하여 NPdatalog 수집 및 자동 LC 재부팅을 시작했습니다. |
NP의 FAST 재설정 트리거 3 NP Fast가 1시간 후에 재설정되면 LC가 다시 로드됩니다. |
LC가 여러 번 다시 로드되는 경우 RMA. |
최고 비활성 오류 |
NP의 NP-DIAG 실패 Interrupt from Ucode on Top inactivity - NP fast reset |
NP의 FAST 재설정 트리거 3 NP Fast가 1시간 후에 재설정되면 LC가 다시 로드됩니다. |
LC가 여러 번 다시 로드되는 경우 RMA. |
LSP NP 초기화 실패 |
LC/0/6/CPU0:Mar 23 02:53:56.175 IST: npu_server_lsp[138]: %PLATFORM-LDA-3-INIT_FAIL : lda_bb_np_reset_process 13795 inst 0x2 LC INIT를 초기화하지 못했습니다. NP HAL 재설정 np 실패(0x00000001 - 작업이 허용되지 않음) : npu_server_lsp : (PID=4597) : -Traceback= 7fea2d5cd6 7fea2d7d5816 7fea21465efa 7fea21465fc2 7fea42ad 침대 55a9dbd66031 7fea45e1c855 7fea45e1cc2b 7fea2624d526 7fea3571b96a 7fea4d6e4831 55a9dbd691e9 |
이 정보를 수집해야 합니다.
파일이 생성되고 rp0_xr:/misc/disk1에 저장됩니다.
|
CLI를 통해 LC를 다시 로드하여 일시적인 문제를 배제합니다. |
Tomahawk NP 초기화 실패(DDR 교육 실패) |
+++ show prm server trace error location 0/7/CPU0 [14:36:59.520 IST Sat Jan 29 2022] ++++ 97개의 래핑 엔트리(2,112개 가능, 320개 할당, 0개 필터링, 총 97개) 1월 29일 00:22:10.135 prm_server/error 0/7/CPU0 t10 prm_np_Channel_PowerUp: 0x80001d46 채널 3단계 전원 공급 오류 4 1월 29일 00:22:10.136 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup: 0xa57c0200 Power phase 4 failed on channel 3 1월 29일 00:22:10.136 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup NP3을(를) 부팅하지 못했습니다. 다시 시도합니다. 재시도 번호 1 1월 29일 00:22:35.125 prm_server/error 0/7/CPU0 t10 prm_np_Channel_PowerUp: 0x80001d46 채널 3단계 전원 공급 오류 4 1월 29일 00:22:35.125 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup: 0xa57c0200 Power phase 4 failed on channel 3 1월 29일 00:22:35.125 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup NP3을(를) 부팅하지 못했습니다. 다시 시도합니다. 재시도 번호 2 1월 29일 00:22:59.075 prm_server/error 0/7/CPU0 t10 prm_np_Channel_PowerUp: 0x80001d46 채널 3단계 전원 공급 오류 4 1월 29일 00:22:59.075 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup: 0xa57c0200 Power phase 4 failed on channel 3 1월 29일 00:22:59.075 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup 3번 시도 후 NP3을 초기화하지 못했습니다. 1월 29일 00:23:00.087 prm_server/error 0/7/CPU0 t10 prm_send_pfm_msg: 영구 NP 초기화 실패, 라인 카드 다시 로드 불필요. NP 드라이버 로그 체크 인 <NP#3>DDR 교육 실패(상태 0x1) <NP#3>ddr3TipRunAlg: 튜닝에 실패했습니다. 0 <NP#3>ddrTipRunAlgo opcode: ddr3TipRunAlg 실패(오류 0x1) <NP#3>*** 오류: 알 수 없는 0x1 |
노드: node0_7_CPU0 1월 29일 00:22:58|8 |NP_INIT_FAIL_NO_RESET |E/A|5356 |네트워크 프로세스|0x1008000 |
CLI를 통해 LC를 다시 로드하여 일시적인 문제를 배제합니다. 문제가 여전히 RMA를 준수하는 경우 LC Cisco 버그 ID CSCwa85165 |
LSP NP 초기화 실패(HbmReadParticleError 오류) |
LC/0/13/CPU0:1월 10:13:34:59.106 IST: npu_server_lsp[278]: %PLATFORM-NP-4-SHUTDOWN_START: NP4: EMRHIMREG.ch1Psch0HbmReadParticleError detected, NP shutdown in progress LC/0/13/CPU0:1월 10일 13:34:59.106 IST: pfm_node_lc[330]: %PLATFORM-NP-0-UNRECOVERABLE_ERROR: Set|npu_server_lsp[4632]|0x10a5004|NP4에서 복구할 수 없는 오류가 검색되었습니다. |
+++ show controllers np interrupts all location 0/13/CPU0 [16:02:16.712 IST Mon 10 2022] ++++ 노드: 0/13/CPU0: ---------------------------------------------------------------- NPU 인터럽트 이름 ID Cnt — ------------------------------------------------------------------------------------------ -------------- ------- <snip> 4 hbmdpReg0.hbmdpExceptionLeaf0.hbmdpIntNwlHbmdpRdDataUncorrectableErrCh1Psch1 0x201dc013 1 4 hbmdpReg0.hbmdpExceptionLeaf0.hbmdpIntNwlHbmdpRdDataUncorrectableErrCh1Psch0 0x201dc012 1 |
Cisco 버그 ID CSCvt59803이 설치되어 있는지 확인합니다. CLI를 통한 LC 다시 로드는 복구에 도움이 됩니다. |
Arbitor 링크가 Standby로 다운됨 |
패브릭 관리자: |
일시적인 문제를 배제하기 위해 카드를 OIR합니다. 동일한 오류의 반복 인스턴스에 대한 RMA |
|
Serdes 오류 |
show serdes trace location 0/X/CPU0 | i "HTL_ERR_DEVICE_NOT_CONNECTED") 다음 오류가 표시됩니다. |
Cisco 버그 ID CSCvz75552 |
소프트웨어 결함 |
Cisco 버그 ID | 구성 요소 | 직책 |
Cisco 버그 ID CSCvy00012 | asr9k-diags-online | online_diag_rsp에 의한 패킷 메모리 소진 |
Cisco 버그 ID CSCvw57721 | asr9k-servicepack | Lightspeed NP 및 아비터 서드용 업데이트된 펌웨어가 포함된 Umbrella SMU |
Cisco 버그 ID CSCvz75552 | asr9k-vic-ls | Phy 펌웨어가 중단되고 A9K-20HG-FLEX에서 옵틱이 인식되지 않음 |
Cisco 버그 ID CSCvz76691 | asr9k-servicepack | Tomahawk 라인 카드에 대한 링크 상태 중단 처리가 개선된 Umbrella SMU |
Cisco 버그 ID CSCvz84139 | asr9k-ls-fabric | 라우터를 742로 업그레이드할 때 fab_si 충돌 |
Cisco 버그 ID CSCwa81006 | asr9k-pfm | 일부 시나리오에서 ASR9K/eXR이 fault-manager datapath 포트 종료를 커밋할 수 없습니다. |
Cisco 버그 ID CSCvz16840 | asr9k-fia | BLB 세션은 6.5.2에 추가된 변경 사항으로 인해 포워딩 경로가 일찍 종료되므로 CLI가 LC를 다시 로드할 때 흐트러짐 |
Cisco 버그 ID CSCwb64255 | asr9k-fab-xbar | Starscream(9912) 및 Megatron(9922) 섀시의 SKB에 대한 새로운 SI 설정 |
Cisco 버그 ID CSCwa09794 | asr9k-fab-xbar | skb-SM15용 RO 섀시의 미세 조정 후 새로운 SI |
Cisco 버그 ID CSCvv45788 | asr9k-fab-xbar | fab_xbar 및 mgid-programmer가 동시에 hw에 액세스하는 프로세스 |
Cisco 버그 ID CSCwd22196 | asr9k-prm | Tomahawk LC의 ILKN 링크 간 RFD 버퍼 소모 |
Cisco 버그 ID CSCwb66960 | asr9k-fab-infra | ASR9k punt 패브릭 결함 격리 |
Cisco 버그 ID CSCwa79758 | asr9k-fab-xbar | XBAR 링크 장애가 있는 다른 LSP LC의 OIR을 수행한 후 LSP LC에서 멀티캐스트 손실 발생 |
Cisco 버그 ID CSCvw88284 | asr9k-lda-ls | RSP5 BW는 600G가 아닌 9910/9906 섀시에서 200G로 기본 설정됩니다. |
Cisco 버그 ID CSCvm82379 | asr9k-fab-arb | fab-arb는 sh 기술 패브릭을 가져오는 동안 |
Cisco 버그 ID CSCvh00349 | asr9k-fia | ASR9k 패브릭은 스탠바이 상태에서 전송된 멀티캐스트 패킷을 처리할 수 있습니다. |
Cisco 버그 ID CSCvk44688 | asr9k-fia | FPGA에 오류가 반복적으로 발생하여 복구할 수 없습니다. |
Cisco 버그 ID CSCvy31670 | asr9k-ls-fia | LSP: FC0을 제거하면 패브릭 레이트 리미터가 활성화되지만 FC4는 그렇지 않습니다. |
Cisco 버그 ID CSCvt59803 | asr9k-ls-npdriver | LSP: PLATFORM-NP-4-SHUTDOWN IMRHIMREG.ch1Psch1HbmReadParticleError |
fault-manager datapath port shutdown/toggle
명령을 사용합니다fault-manager datapath port shutdown
이 명령은 Punt Datapath 실패 경보가 설정된 각 FIA/NP의 포트를 Active RP/RSP에서 종료하는 데 도움이 되며, LC를 다시 로드할 때까지 인터페이스가 자동으로 나타나지 않습니다. 이 CLI 명령은 7. x.x 릴리스의 예상대로 작동하지 않습니다. (CLI 명령 fault-manager datapath port shutdown
7.x.x부터 설계에 따라 작동하지 않음 - 7.7.2에서 수정됨fault-manager datapath port toggle
CLI 명령이 제대로 작동합니다. Punt Datapath 실패 경보가 해제되면 포트를 엽니다.테스트 - 이전에 언급한 명령 작업을 검증합니다.
NP0 LC7에서 PUNT 오류 생성 유도:
RP/0/RP0/CPU0:ASR-9922-A#monitor np counter PUNT_DIAGS_RSP_ACT np0 count 20 location 0/7/CPU0
Wed Jul 7 14:15:17.489 UTC
Usage of NP monitor is recommended for cisco internal use only.
Please use instead 'show controllers np capture' for troubleshooting packet drops in NP
and 'monitor np interface' for per (sub)interface counter monitoring
Warning: Every packet captured will be dropped! If you use the 'count'
option to capture multiple protocol packets, this could disrupt
protocol sessions (eg, OSPF session flap). So if capturing protocol
packets, capture only 1 at a time.
Warning: A mandatory NP reset will be done after monitor to clean up.
This will cause ~150ms traffic outage. Links will stay Up.
Proceed y/n [y] > y
Monitor PUNT_DIAGS_RSP_ACT on NP0 ... (Ctrl-C to quit)
Wed Jul 7 14:17:08 2021 -- NP0 packet
From Fabric: 127 byte packet
0000: 00 09 00 00 b4 22 00 00 ff ff ff ff 00 00 ff ff ....4"..........
0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa ....ppppLLLL****
0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00 UUUU............
0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff ................
0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55 ppppLLLL****UUUU
0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 ................
0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 ............pppp
0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 LLLL****UUUU...
(count 1 of 20)
Wed Jul 7 14:18:09 2021 -- NP0 packet
From Fabric: 256 byte packet
0000: 00 09 00 00 b5 22 00 00 ff ff ff ff 00 00 ff ff ....5"..........
0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa ....ppppLLLL****
0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00 UUUU............
0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff ................
0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55 ppppLLLL****UUUU
0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 ................
0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 ............pppp
0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 00 LLLL****UUUU....
0080: 01 00 00 00 00 00 00 00 00 00 00 00 ff ff ff ff ................
0090: 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc ........ppppLLLL
00a0: aa aa aa aa 55 55 55 55 00 00 00 00 01 00 00 00 ****UUUU........
00b0: 00 00 00 00 00 00 00 00 ff ff ff ff 00 00 ff ff ................
00c0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00d0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00e0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00f0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
(count 2 of 20)
Wed Jul 7 14:19:09 2021 -- NP0 packet
Actual packet size 515 bytes truncated size 384:
From Fabric: 384 byte packet
0000: 00 09 00 00 b6 22 00 00 ff ff ff ff 00 00 ff ff ....6"..........
0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa ....ppppLLLL****
0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00 UUUU............
0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff ................
0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55 ppppLLLL****UUUU
0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 ................
0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 ............pppp
0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 00 LLLL****UUUU....
0080: 01 00 00 00 00 00 00 00 00 00 00 00 ff ff ff ff ................
0090: 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc ........ppppLLLL
00a0: aa aa aa aa 55 55 55 55 00 00 00 00 01 00 00 00 ****UUUU........
00b0: 00 00 00 00 00 00 00 00 ff ff ff ff 00 00 ff ff ................
00c0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00d0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00e0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00f0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0100: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0110: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0120: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0130: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0140: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0150: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0160: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0170: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
RP/0/RP0/CPU0:ASR-9922-A#sh pfm location 0/RP0/CPU0
Wed Jul 7 14:19:17.174 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 14:19:17 2021
PFM TOTAL: 2 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 1
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Jul 1 10:13:45 2021|0 |SPINE_UNAVAILABLE |E/A|5082 |Fabric Manager|0x1034000
Jul 7 14:19:09 2021|0 |PUNT_FABRIC_DATA_PATH_FAILED |ER |9429 |System Punt/Fa|0x2000004
RP/0/RP0/CPU0:ASR-9922-A#sh pfm process 9429 location 0/Rp0/CPU0
Wed Jul 7 14:19:37.128 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 14:19:37 2021
PFM TOTAL: 2 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 1
PER PROCESS TOTAL: 0 EM: 0 CR: 0 ER: 0
Device/Path[1 ]:Fabric loopbac [0x2000003 ] State:RDY Tot: 0
Device/Path[2 ]:System Punt/Fa [0x2000004 ] State:RDY Tot: 1
1 Fault Id: 432
Sev: ER
Fault Name: PUNT_FABRIC_DATA_PATH_FAILED
Raised Timestamp: Jul 7 14:19:09 2021
Clear Timestamp: N/A
Changed Timestamp: N/A
Resync Mismatch: FALSE
MSG: failure threshold is 3, (slot, NP) failed: (0/7/CPU0, 0)
Device/Path[3 ]:Crossbar Switc [0x108c000 ] State:RDY Tot: 0
Device/Path[4 ]:Crossbar Switc [0x108c001 ] State:RDY Tot: 0
Device/Path[5 ]:Crossbar Switc [0x108c002 ] State:RDY Tot: 0
Device/Path[6 ]:Crossbar Switc [0x108c003 ] State:RDY Tot: 0
Device/Path[7 ]:Crossbar Switc [0x108c004 ] State:RDY Tot: 0
Device/Path[8 ]:Crossbar Switc [0x108c005 ] State:RDY Tot: 0
Device/Path[9 ]:Crossbar Switc [0x108c006 ] State:RDY Tot: 0
Device/Path[10]:Crossbar Switc [0x108c007 ] State:RDY Tot: 0
Device/Path[11]:Crossbar Switc [0x108c008 ] State:RDY Tot: 0
Device/Path[12]:Crossbar Switc [0x108c009 ] State:RDY Tot: 0
Device/Path[13]:Crossbar Switc [0x108c00a ] State:RDY Tot: 0
Device/Path[14]:Crossbar Switc [0x108c00b ] State:RDY Tot: 0
Device/Path[15]:Crossbar Switc [0x108c00c ] State:RDY Tot: 0
Device/Path[16]:Crossbar Switc [0x108c00d ] State:RDY Tot: 0
Device/Path[17]:Crossbar Switc [0x108c00e ] State:RDY Tot: 0
Device/Path[18]:Fabric Interfa [0x108b000 ] State:RDY Tot: 0
Device/Path[19]:Fabric Arbiter [0x1086000 ] State:RDY Tot: 0
Device/Path[20]:CPU Controller [0x108d000 ] State:RDY Tot: 0
Device/Path[21]:Device Control [0x109a000 ] State:RDY Tot: 0
Device/Path[22]:ClkCtrl Contro [0x109b000 ] State:RDY Tot: 0
Device/Path[23]:NVRAM [0x10ba000 ] State:RDY Tot: 0
Device/Path[24]:Hooper switch [0x1097000 ] State:RDY Tot: 0
Device/Path[25]:Hooper switch [0x1097001 ] State:RDY Tot: 0
Device/Path[26]:Hooper switch [0x1097002 ] State:RDY Tot: 0
Device/Path[27]:Hooper switch [0x1097003 ] State:RDY Tot: 0
이 경우 포트가 다운되지 않았습니다.
RP/0/RP0/CPU0:ASR-9922-A#sh ipv4 int brief location 0/7/CPU0
Wed Jul 7 14:21:29.693 UTC
Interface IP-Address Status Protocol Vrf-Name
TenGigE0/7/0/0 unassigned Down Down default
TenGigE0/7/0/1 unassigned Down Down default
TenGigE0/7/0/2 unassigned Down Down default
TenGigE0/7/0/3 unassigned Down Down default
TenGigE0/7/0/4 unassigned Down Down default
TenGigE0/7/0/5 unassigned Down Down default
TenGigE0/7/0/6 unassigned Down Down default
TenGigE0/7/0/7 unassigned Shutdown Down default
TenGigE0/7/0/8 unassigned Shutdown Down default
TenGigE0/7/0/9 unassigned Shutdown Down default
TenGigE0/7/0/10 unassigned Down Down default
TenGigE0/7/0/11 unassigned Down Down default
TenGigE0/7/0/12 unassigned Down Down default
TenGigE0/7/0/13 unassigned Shutdown Down default
TenGigE0/7/0/14 unassigned Shutdown Down default
TenGigE0/7/0/15 unassigned Shutdown Down default
TenGigE0/7/0/16 unassigned Shutdown Down default
TenGigE0/7/0/17 unassigned Shutdown Down default
TenGigE0/7/0/18 unassigned Down Down default
TenGigE0/7/0/19 unassigned Up Up default >>>>>>> Port is UP
RP/0/RP0/CPU0:ASR-9922-A#sh logging last 200 | in 0/7/0
Wed Jul 7 14:22:35.715 UTC
RP/0/RP0/CPU0:ASR-9922-A#
테스트 사례 1.2:
NP/Ports 동작 fault-manager datapath port toggle
명령을 사용합니다:
RP/0/RP0/CPU0:ASR-9922-A#sh run formal | in data
Wed Jul 7 14:52:11.714 UTC
Building configuration...
fault-manager datapath port toggle
RP/0/RP0/CPU0:ASR-9922-A#
PFM에 경보 없음:
RP/0/RP0/CPU0:ASR-9922-A#sh pfm location 0/Rp0/CPU0
Wed Jul 7 14:55:13.410 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 14:55:13 2021
PFM TOTAL: 1 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 0
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Jul 1 10:13:45 2021|0 |SPINE_UNAVAILABLE |E/A|5082 |Fabric Manager|0x1034000
RP/0/RP0/CPU0:ASR-9922-A#
NP0 LC7에서 PUNT 오류 생성:
RP/0/RP0/CPU0:ASR-9922-A#monitor np counter PUNT_DIAGS_RSP_ACT np0 count 20 location 0/7/CPU0
Wed Jul 7 14:51:18.596 UTC
Usage of NP monitor is recommended for cisco internal use only.
Please use instead 'show controllers np capture' for troubleshooting packet drops in NP
and 'monitor np interface' for per (sub)interface counter monitoring
Warning: Every packet captured will be dropped! If you use the 'count'
option to capture multiple protocol packets, this could disrupt
protocol sessions (eg, OSPF session flap). So if capturing protocol
packets, capture only 1 at a time.
Warning: A mandatory NP reset will be done after monitor to clean up.
This will cause ~150ms traffic outage. Links will stay Up.
Proceed y/n [y] > y
Monitor PUNT_DIAGS_RSP_ACT on NP0 ... (Ctrl-C to quit)
Wed Jul 7 14:53:21 2021 -- NP0 packet
From Fabric: 127 byte packet
0000: 00 09 00 00 d8 22 00 00 ff ff ff ff 00 00 ff ff ....X"..........
0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa ....ppppLLLL****
0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00 UUUU............
0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff ................
0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55 ppppLLLL****UUUU
0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 ................
0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 ............pppp
0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 LLLL****UUUU...
(count 1 of 20)
Wed Jul 7 14:54:22 2021 -- NP0 packet
From Fabric: 256 byte packet
0000: 00 09 00 00 d9 22 00 00 ff ff ff ff 00 00 ff ff ....Y"..........
0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa ....ppppLLLL****
0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00 UUUU............
0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff ................
0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55 ppppLLLL****UUUU
0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 ................
0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 ............pppp
0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 00 LLLL****UUUU....
0080: 01 00 00 00 00 00 00 00 00 00 00 00 ff ff ff ff ................
0090: 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc ........ppppLLLL
00a0: aa aa aa aa 55 55 55 55 00 00 00 00 01 00 00 00 ****UUUU........
00b0: 00 00 00 00 00 00 00 00 ff ff ff ff 00 00 ff ff ................
00c0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00d0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00e0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00f0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
(count 2 of 20)
RP/0/RP0/CPU0:ASR-9922-A#sh pfm location 0/Rp0/CPU0
Wed Jul 7 14:56:24.459 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 14:56:24 2021
PFM TOTAL: 2 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 1
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Jul 1 10:13:45 2021|0 |SPINE_UNAVAILABLE |E/A|5082 |Fabric Manager|0x1034000
Jul 7 14:55:23 2021|0 |PUNT_FABRIC_DATA_PATH_FAILED |ER |9429 |System Punt/Fa|0x2000004
RP/0/RP0/CPU0:ASR-9922-A#sh pfm process 9429 location 0/RP0/CPU0
Wed Jul 7 14:56:39.961 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 14:56:40 2021
PFM TOTAL: 2 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 1
PER PROCESS TOTAL: 0 EM: 0 CR: 0 ER: 0
Device/Path[1 ]:Fabric loopbac [0x2000003 ] State:RDY Tot: 0
Device/Path[2 ]:System Punt/Fa [0x2000004 ] State:RDY Tot: 1
1 Fault Id: 432
Sev: ER
Fault Name: PUNT_FABRIC_DATA_PATH_FAILED
Raised Timestamp: Jul 7 14:55:23 2021
Clear Timestamp: N/A
Changed Timestamp: N/A
Resync Mismatch: FALSE
MSG: failure threshold is 3, (slot, NP) failed: (0/7/CPU0, 0)
Device/Path[3 ]:Crossbar Switc [0x108c000 ] State:RDY Tot: 0
Device/Path[4 ]:Crossbar Switc [0x108c001 ] State:RDY Tot: 0
Device/Path[5 ]:Crossbar Switc [0x108c002 ] State:RDY Tot: 0
Device/Path[6 ]:Crossbar Switc [0x108c003 ] State:RDY Tot: 0
Device/Path[7 ]:Crossbar Switc [0x108c004 ] State:RDY Tot: 0
Device/Path[8 ]:Crossbar Switc [0x108c005 ] State:RDY Tot: 0
Device/Path[9 ]:Crossbar Switc [0x108c006 ] State:RDY Tot: 0
Device/Path[10]:Crossbar Switc [0x108c007 ] State:RDY Tot: 0
Device/Path[11]:Crossbar Switc [0x108c008 ] State:RDY Tot: 0
Device/Path[12]:Crossbar Switc [0x108c009 ] State:RDY Tot: 0
Device/Path[13]:Crossbar Switc [0x108c00a ] State:RDY Tot: 0
Device/Path[14]:Crossbar Switc [0x108c00b ] State:RDY Tot: 0
Device/Path[15]:Crossbar Switc [0x108c00c ] State:RDY Tot: 0
Device/Path[16]:Crossbar Switc [0x108c00d ] State:RDY Tot: 0
Device/Path[17]:Crossbar Switc [0x108c00e ] State:RDY Tot: 0
Device/Path[18]:Fabric Interfa [0x108b000 ] State:RDY Tot: 0
Device/Path[19]:Fabric Arbiter [0x1086000 ] State:RDY Tot: 0
Device/Path[20]:CPU Controller [0x108d000 ] State:RDY Tot: 0
Device/Path[21]:Device Control [0x109a000 ] State:RDY Tot: 0
Device/Path[22]:ClkCtrl Contro [0x109b000 ] State:RDY Tot: 0
Device/Path[23]:NVRAM [0x10ba000 ] State:RDY Tot: 0
Device/Path[24]:Hooper switch [0x1097000 ] State:RDY Tot: 0
Device/Path[25]:Hooper switch [0x1097001 ] State:RDY Tot: 0
Device/Path[26]:Hooper switch [0x1097002 ] State:RDY Tot: 0
Device/Path[27]:Hooper switch [0x1097003 ] State:RDY Tot: 0
인터페이스 TenGigE0/7/0/19가 NP0으로 다운되었습니다.
RP/0/RP0/CPU0:ASR-9922-A#show logging last 200 | in 0/7/0
Wed Jul 7 14:58:42.959 UTC
LC/0/7/CPU0:Jul 7 14:55:23.798 UTC: ifmgr[270]: %PKT_INFRA-LINK-3-UPDOWN :
Interface TenGigE0/7/0/19, changed state to Down
LC/0/7/CPU0:Jul 7 14:55:23.798 UTC: ifmgr[270]: %PKT_INFRA-LINEPROTO-5-UPDOWN :
Line protocol on Interface TenGigE0/7/0/19, changed state to Down
RP/0/RP0/CPU0:Jul 7 14:55:23.802 UTC: BM-DISTRIB[1290]: %L2-BM-6-ACTIVE :
TenGigE0/7/0/19 is no longer Active as part of Bundle-Ether854 (Link is down)
LC/0/7/CPU0:Jul 7 14:55:25.854 UTC: vic_0_0[379]: %PLATFORM-VIC-4-RFI :
Interface TenGigE0/7/0/19, Detected Remote Fault
LC/0/7/CPU0:Jul 7 14:55:26.936 UTC: lda_server[114]: %PKT_INFRA-FM-2-FAULT_CRITICAL :
ALARM_CRITICAL :OPTICS RX POWER LANE-0 LOW ALARM :CLEAR : Te0/7/0/0:
PUNT 오류 생성 중지:
RP/0/RP0/CPU0:ASR-9922-A#sh ipv4 int brief location 0/7/CPU0
Wed Jul 7 14:59:16.322 UTC
Interface IP-Address Status Protocol Vrf-Name
TenGigE0/7/0/0 unassigned Down Down default
TenGigE0/7/0/1 unassigned Down Down default
TenGigE0/7/0/2 unassigned Down Down default
TenGigE0/7/0/3 unassigned Down Down default
TenGigE0/7/0/4 unassigned Down Down default
TenGigE0/7/0/5 unassigned Down Down default
TenGigE0/7/0/6 unassigned Down Down default
TenGigE0/7/0/7 unassigned Shutdown Down default
TenGigE0/7/0/8 unassigned Shutdown Down default
TenGigE0/7/0/9 unassigned Shutdown Down default
TenGigE0/7/0/10 unassigned Down Down default
TenGigE0/7/0/11 unassigned Down Down default
TenGigE0/7/0/12 unassigned Down Down default
TenGigE0/7/0/13 unassigned Shutdown Down default
TenGigE0/7/0/14 unassigned Shutdown Down default
TenGigE0/7/0/15 unassigned Shutdown Down default
TenGigE0/7/0/16 unassigned Shutdown Down default
TenGigE0/7/0/17 unassigned Shutdown Down default
TenGigE0/7/0/18 unassigned Down Down default
TenGigE0/7/0/19 unassigned Down Down default >>>>>>
경보가 중지되었습니다.
RP/0/RP0/CPU0:ASR-9922-A#sh pfm location 0/Rp0/CPU0
Wed Jul 7 15:01:44.478 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 15:01:44 2021
PFM TOTAL: 1 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 0
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Jul 1 10:13:45 2021|0 |SPINE_UNAVAILABLE |E/A|5082 |Fabric Manager|0x1034000
RP/0/RP0/CPU0:ASR-9922-A#
인터페이스가 나타남:
RP/0/RP0/CPU0:ASR-9922-A#show logging | in 0/7/0/19
Wed Jul 7 15:06:11.532 UTC
LC/0/7/CPU0:Jul 7 14:55:23.798 UTC: ifmgr[270]: %PKT_INFRA-LINK-3-UPDOWN :
Interface TenGigE0/7/0/19, changed state to Down
LC/0/7/CPU0:Jul 7 14:55:23.798 UTC: ifmgr[270]: %PKT_INFRA-LINEPROTO-5-UPDOWN :
Line protocol on Interface TenGigE0/7/0/19, changed state to Down
RP/0/RP0/CPU0:Jul 7 14:55:23.802 UTC: BM-DISTRIB[1290]: %L2-BM-6-ACTIVE :
TenGigE0/7/0/19 is no longer Active as part of Bundle-Ether854 (Link is down)
LC/0/7/CPU0:Jul 7 14:55:25.854 UTC: vic_0_0[379]: %PLATFORM-VIC-4-RFI :
Interface TenGigE0/7/0/19, Detected Remote Fault
LC/0/7/CPU0:Jul 7 15:03:27.204 UTC: ifmgr[270]: %PKT_INFRA-LINK-3-UPDOWN :
Interface TenGigE0/7/0/19, changed state to Up
LC/0/7/CPU0:Jul 7 15:03:27.206 UTC: ifmgr[270]: %PKT_INFRA-LINEPROTO-5-UPDOWN :
Line protocol on Interface TenGigE0/7/0/19, changed state to Up
RP/0/RP0/CPU0:Jul 7 15:03:29.219 UTC: BM-DISTRIB[1290]: %L2-BM-6-ACTIVE :
TenGigE0/7/0/19 is Active as part of Bundle-Ether854
개정 | 게시 날짜 | 의견 |
---|---|---|
1.0 |
09-Jan-2023 |
최초 릴리스 |