La documentazione per questo prodotto è stata redatta cercando di utilizzare un linguaggio senza pregiudizi. Ai fini di questa documentazione, per linguaggio senza di pregiudizi si intende un linguaggio che non implica discriminazioni basate su età, disabilità, genere, identità razziale, identità etnica, orientamento sessuale, status socioeconomico e intersezionalità. Le eventuali eccezioni possono dipendere dal linguaggio codificato nelle interfacce utente del software del prodotto, dal linguaggio utilizzato nella documentazione RFP o dal linguaggio utilizzato in prodotti di terze parti a cui si fa riferimento. Scopri di più sul modo in cui Cisco utilizza il linguaggio inclusivo.
Cisco ha tradotto questo documento utilizzando una combinazione di tecnologie automatiche e umane per offrire ai nostri utenti in tutto il mondo contenuti di supporto nella propria lingua. Si noti che anche la migliore traduzione automatica non sarà mai accurata come quella fornita da un traduttore professionista. Cisco Systems, Inc. non si assume alcuna responsabilità per l’accuratezza di queste traduzioni e consiglia di consultare sempre il documento originale in inglese (disponibile al link fornito).
Questo documento descrive i messaggi di errore del percorso dati di punt fabric rilevati durante il funzionamento di Cisco Aggregation Services Router (ASR) serie 9000.
Il messaggio viene visualizzato nel formato seguente:
RP/0/RP0/CPU0:Oct 28 12:46:58.459 IST: pfm_node_rp[349]: %PLATFORM-DIAGS-3-PUNT_FABRIC_DATA_PATH_FAILED :
Set|online_diag_rsp[24790]|System Punt/Fabric/data Path Test(0x2000004)|failure threshold is 3,
(slot, NP) failed: (0/9/CPU0, 1) (0/9/CPU0, 3)
Il problema si verifica per NP1 e NP3 su 0/9/CPU0 come indicato in precedenza.
Questo documento è destinato a chiunque desideri comprendere il messaggio di errore e le azioni da intraprendere se il problema viene rilevato.
La scheda di linea basata su Tomahawk (LC) è disponibile come scheda di linea con ottimizzazione per il perimetro del servizio (QoS avanzato) o con ottimizzazione per il trasporto di pacchetti (QoS di base).
La scheda LC 100 Gigabit Ethernet a 4 e 8 porte è disponibile in due varianti che supportano le porte CPAK PHY unificate LAN/WAN/OTN o le porte CPAK PHY-only LAN.
Questi LC sono basati su Tomahawk:
Nota: i numeri di parte LC basati su Tomahawk che iniziano con A99-X sono compatibili con gli chassis Cisco ASR 9904, ASR 9906, ASR 9910, ASR 9912 e ASR 9922. Non sono compatibili con Cisco ASR 9006 e ASR 9010 Router.
I LC basati su Lightspeed potrebbero essere disponibili come LC Service Edge Optimized (QoS avanzato) o Packet Transport Optimized (QoS di base). A differenza dei modelli LC basati su Tomahawk, non tutti i modelli LC sono disponibili in entrambi i tipi -SE e -TR.
Questi LC sono basati su Lightspeed:
I LC basati su Lightspeed-Plus (LSP) sono disponibili come LC con ottimizzazione per Service Edge (QoS avanzato) o con ottimizzazione per il trasporto di pacchetti (QoS base).
Questi LC sono basati su LSP:
Si consideri che il LC ha quattro NP, la diagnostica online deve esercitare tutti NP (per sapere che sono sani - percorsi fabric). Ora, ogni NP può avere 20 VQI (0-19, 20-39, 40-59, 60-79).
Nel primo minuto, la diagnostica online invia un pacchetto a ogni NP.
1 min : against VQI 0, 20, 40, 60 (to all 4 NPs)
2 min:""""""""
3 min: """""""
4 min : """""
5th min : against VQI 1, 21, 41, 61..
6 min : """"""""
Questo si ripete in un ciclo una volta che tutto VQI finisce.
RP/0/RP1/CPU0:AG2-2#show pfm location 0/RP1/CPU0
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Apr 7 01:04:04 2022PFM TOTAL: 1 EMERGENCY/ALERT(E/A): 0 CRITICAL(CR): 0 ERROR(ER): 1
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Apr 7 00:54:52 2022|0 |PUNT_FABRIC_DATA_PATH_FAILED |ER |10042 >>ID |System Punt/Fa|0x2000004
Per raccogliere tutte le informazioni sugli allarmi PFM, catturare questo output del comando:
show pfm location all
show pfm trace location all
Per ulteriori informazioni sugli allarmi generati da un processo specifico, utilizzare questo comando:
show pfm process name <process_name> location <location> >>> location where the PFM alarm is observed
Ogni Route Switch Processor/Switch Processor (RSP/RP) dispone di due chip fabric entrambi controllati da un arbitro comune (due RSP/RP indicano arbitri resilienti per chassis). Solo l'arbitro del RSP/RP attivo controlla tutti e quattro i chip dei fabric (presupponendo che siano presenti due RSP). Tuttavia, entrambi gli arbitri ricevono le richieste di accesso alla struttura per conoscere lo stato dell'intero sistema in un determinato momento, in modo che il failover tra RSP/RP possa essere istantaneo. Non esiste un vincolo keepalive tra gli arbitri, ma gli RSP/RP hanno un ASIC (Complex Programmable Logic Device) (simile a un FPGA) e una delle sue funzioni è tenere traccia dell'altro stato RSP/RP tramite keepalive di basso livello e stabilire quale sia l'arbitro attivo.
Ogni ASIC Fabric Interconnect dispone di un set di VQI, ovvero un set di code che rappresentano un'entità 100G nel sistema (per Tomahawk). Ogni entità 100G (1x100G porte su una singola NP in uscita sono rappresentate con una singola VQI 100G in entrata) ha più classi di priorità.
Ogni VQI dispone di un set di quattro VOQ (Virtual Output Queues), per priorità di pacchetto diverse, tre delle quali sono utilizzate nell'architettura di inoltro ASR 9000. Questi corrispondono ai livelli di priorità 1 e 2 e ai valori predefiniti nei criteri QoS in entrata. Esistono due code con priorità rigida e una coda normale (la quarta coda è per il multicast e non viene utilizzata per l'inoltro unicast).
In genere, la coda predefinita inizia a rilasciare i pacchetti per prima durante la pressione di ritorno dai VQI NP in uscita. Solo quando l'unità di elaborazione di rete (NPU) in uscita è sovraccarica (serve più Bps o PPS di quanti i circuiti possano gestire), inizia a esercitare una contropressione sul LC/NP in entrata. Ciò è rappresentato da un flusso VQI in stallo sull'ASIC (Fabric Interface) su quel LC in entrata.
Esempio:
RP/0/RP0/CPU0:AG3_1#show controllers np ports all location 0/0/CPU0 >>> LC0 is installed in slot 2
Node: 0/0/CPU0:
----------------------------------------------------------------
NP Bridge Fia Ports
-- ------ --- ---------------------------------------------------
0 -- 0 TenGigE0/0/0/0/0 - TenGigE0/0/0/0/9, TenGigE0/0/0/1/0 - TenGigE0/0/0/1/9
1 -- 1 TenGigE0/0/0/2/0 - TenGigE0/0/0/2/9, HundredGigE0/0/0/3
2 -- 2 HundredGigE0/0/0/4 - HundredGigE0/0/0/5 >>>Below is the VQI assignment
3 -- 3 HundredGigE0/0/0/6 - HundredGigE0/0/0/7
RP/0/RP0/CPU0:AG3_1#sh controller fabric vqi assignment slot 2
slot = 2
fia_inst = 2 >>>FIA 2
VQI = 40 SPEED_100G
VQI = 41 SPEED_100G
VQI = 42 SPEED_100G
VQI = 43 SPEED_100G
VQI = 44 SPEED_100G
VQI = 45 SPEED_100G
VQI = 46 SPEED_100G
VQI = 47 SPEED_100G
VQI = 56 SPEED_100G
VQI = 57 SPEED_100G
VQI = 58 SPEED_100G
VQI = 59 SPEED_100G
VQI = 60 SPEED_100G
VQI = 61 SPEED_100G
VQI = 62 SPEED_100G
VQI = 63 SPEED_100G
Quando il LC in entrata decide di inviare un pacchetto specifico a una determinata NPU in uscita, la fase di modifica (MDF) sul LC in entrata incapsula un pacchetto con un'intestazione di destinazione del fabric. Quando la FIA analizza tale "indirizzo", controlla il VOQ per la specifica NPU/destinazione/LC in uscita e verifica se è disponibile una larghezza di banda sufficiente. Quando è pronto a rimuoverlo da quel LC, la FIA in entrata richiede un finanziamento dal fabric (l'arbitro) per quel LC di destinazione. L'algoritmo Arbitration riconosce QOS, garantisce che i pacchetti di classe P1 abbiano la preferenza sulla classe P2 e così via. L'arbitro trasmette la richiesta di sovvenzione dalla FIA in entrata alla FIA in uscita.
La FIA in entrata può raggruppare più pacchetti insieme andando allo stesso LC in uscita in quello che è chiamato un superframe. Ciò significa che non sono i frame/pacchetti nativi che attraversano i collegamenti del fabric dello switch ma i superframe. È importante notare che, in un test di 100 p/s costante, la CLI può mostrare i contatori della struttura che segnalano solo 50 p/s. Questo non significa perdita di pacchetti, ma semplicemente la presenza di due pacchetti in ciascun superframe che trasmette sul fabric dello switch. I superframe includono le informazioni di sequenziamento e le FIA di destinazione supportano il riordino (i pacchetti possono essere "spruzzati" su più collegamenti di fabric). In un superframe non vengono mai inseriti pacchetti unicast, bensì solo pacchetti unicast.
Una volta che il pacchetto è stato ricevuto dalla LC in uscita, il privilegio viene restituito all'arbitro. L'arbitro ha un numero finito di token per VOQ. Quando l'arbitro permette alla FIA in entrata di inviare un (super) frame a un VOQ specifico, quel token viene restituito al pool solo quando la FIA in uscita consegna i frame all'NP in uscita. Se l'NP in uscita ha alzato un segnale di contropressione alla FIA in uscita, il token rimane occupato. Questo è il modo in cui l'arbitro alla fine esaurisce i gettoni per quel VOQ in entrata FIA. Quando ciò accade, la FIA in entrata inizia a scartare i pacchetti in entrata. Il trigger per la contropressione è il livello di utilizzo dei buffer RFD (Receive Frame Descriptor) in un NP in uscita. I buffer RFD tengono i pacchetti mentre il microcodice NP li elabora. Più funzionalità elaborano il pacchetto, più a lungo rimane nei buffer RFD.
Più precisamente, il meccanismo di credito dall'arbitro locale all'arbitro attivo su RSP. Inoltre, aggiungere un'altra sezione per coprire i possibili casi di errori dell'arbitro (non è necessario menzionare i codici di errore, ma per dare un'occhiata agli errori ASIC dell'arbitro) da esaminare in caso di qualsiasi problema dell'arbitro e non ottenere sovvenzioni a causa dell'arbitro locale o centrale e che causa l'accumulo di coda.
I pacchetti indirizzati a NP in uscita diversi vengono inseriti in diversi VOQ. La congestione su un NP non blocca il pacchetto che va a NP diversi.
L'ASR9912 è lo stesso con il supporto di soli 10 LC e un singolo chip Fabric Interconnect.
I passaggi descritti di seguito forniscono alcuni suggerimenti su come ridurre i problemi relativi all'errore del percorso di punt. Non devono essere seguiti nello stesso ordine.
show logging | inc “PUNT_FABRIC_DATA_PATH”
RP/0/RP1/CPU0:Oct 28 12:46:58.459 IST: pfm_node_rp[349]: %PLATFORM-DIAGS-3-PUNT_FABRIC_DATA_PATH_FAILED :
Set|online_diag_rsp[24790]|System Punt/Fabric/data Path Test(0x2000004)|failure threshold is 3, (slot, NP)
failed: (0/9/CPU0, 1) (0/9/CPU0, 3)
Il problema si verifica per NP1 e NP3 su 0/9/CPU0 come indicato in precedenza.
run nslot all
RP/0/RP1/CPU0:AG2-2#show pfm location 0/RP1/CPU0
node: node0_RP1_CPU0
---------------------
CURRENT TIME: Mar 25 12:11:29 2022
PFM TOTAL: 1 EMERGENCY/ALERT(E/A): 0 CRITICAL(CR): 0 ERROR(ER): 1
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Mar 25 12:03:30 2022|1 |PUNT_FABRIC_DATA_PATH_FAILED |ER |8947 |System Punt/Fa|0x2000004
RP/0/RP1/CPU0:AG2-2#sh pfm process 8947 location 0/rp1/CPU0
node: node0_RP1_CPU0
---------------------
CURRENT TIME: Mar 25 12:12:36 2022
PFM TOTAL: 1 EMERGENCY/ALERT(E/A): 0 CRITICAL(CR): 0 ERROR(ER): 1
PER PROCESS TOTAL: 0 EM: 0 CR: 0 ER: 0
Device/Path[1 ]:Fabric loopbac [0x2000003 ] State:RDY Tot: 0
Device/Path[2 ]:System Punt/Fa [0x2000004 ] State:RDY Tot: 1
1 Fault Id: 432
Sev: ER
Fault Name: PUNT_FABRIC_DATA_PATH_FAILED
Raised Timestamp: Mar 25 12:03:30 2022
Clear Timestamp: Mar 25 12:07:32 2022
Changed Timestamp: Mar 25 12:07:32 2022
Resync Mismatch: FALSE
MSG: failure threshold is 3, (slot, NP) failed: (0/9/CPU0, 1) (0/9/CPU0, 3)
Diagramma di flusso del pacchetto di diagnostica
Percorso pacchetto su RP:
online_diags <===> SPP <===> Fabric <===> NP
Percorso pacchetto su LC:
online_diags <===> SPP <===> Punt-switch <====> NP
Ogni minuto un pacchetto DIAGS per NP viene iniettato dalla CPU LC allo switch Punt, e tutti vengono riversati all'NP. NON vanno assolutamente nel tessuto. Il punto di svolta o punto intermedio è il microcodice di ogni NP.
RP/0/RP0/CPU0:AG2-2(admin)#show diagnostic content location <> >>> (in cXR)
RP/0/RP0/CPU0:AG2-2#show diagnostic content location <> >>> (in eXR)
A9K-8X100GE-L-SE 0/0/CPU0:
Diagnostics test suite attributes:
M/C/* - Minimal bootup level test / Complete bootup level test / NA
B/O/* - Basic ondemand test / not Ondemand test / NA
P/V/* - Per port test / Per device test / NA
D/N/* - Disruptive test / Non-disruptive test / NA
S/* - Only applicable to standby unit / NA
X/* - Not a health monitoring test / NA
F/* - Fixed monitoring interval test / NA
E/* - Always enabled monitoring test / NA
A/I - Monitoring is active / Monitoring is inactive
n/a - Not applicable
Test Interval Thre- Timeout
ID Test Name Attributes (day hh:mm:ss.ms shold ms )
==== ================================== ============ ================= ===== =====
1) CPUCtrlScratchRegister ----------> *B*N****A 000 00:01:00.000 3 n/a
2) DBCtrlScratchRegister -----------> *B*N****A 000 00:01:00.000 3 n/a
3) PortCtrlScratchRegister ---------> *B*N****A 000 00:01:00.000 3 n/a
4) PHYScratchRegister --------------> *B*N****A 000 00:01:00.000 3 n/a
5) NPULoopback ---------------------> *B*N****A 000 00:01:00.000 3 n/a
RP/0/RP0/CPU0:AG2-2#show diagnostic result location 0/0/CPU0
A9K-8X100GE-L-SE 0/0/CPU0:
Overall diagnostic result: PASS
Diagnostic level at card bootup: bypass
Test results: (. = Pass, F = Fail, U = Untested)
1 ) CPUCtrlScratchRegister ----------> .
2 ) DBCtrlScratchRegister -----------> .
3 ) PortCtrlScratchRegister ---------> .
4 ) PHYScratchRegister --------------> .
5 ) NPULoopback ---------------------> .
admin diag start location 0/x/cpu0 test NPULoopback (cXR)
RP/0/RP0/CPU0:AG3_1#diagnostic start location 0/0/CPU0 test NPULoopback >>> eXR
Fri May 13 06:53:00.902 EDT
RP/0/RP0/CPU0:AG3_1#show diagnostic res location 0/0/CPU0 test 5 detail >>> Here there are
multiple test 1-5 (check previous examples)
Test results: (. = Pass, F = Fail, U = Untested)
___________________________________________________________________________
5 ) NPULoopback ---------------------> .
Error code ------------------> 0 (DIAG_SUCCESS)
Total run count -------------> 67319
Last test execution time ----> Fri May 13 06:53:01 2022
First test failure time -----> n/a
Last test failure time ------> n/a
Last test pass time ---------> Fri May 13 06:53:01 2022
Total failure count ---------> 0
Consecutive failure count ---> 0
___________________________________________________________________________
RP/0/RSP1/CPU0:AG2-2#show controllers np counters location | inc DIAG| LC_CPU
108 PARSE_RSP_INJ_DIAGS_CNT 25195 0 >>> total DIAG packets injected by Active+Stdby RP
904 PUNT_DIAGS_RSP_ACT 12584 0 >>> Loopbacks to Active RP
906 PUNT_DIAGS_RSP_STBY 12611 0 >>> Loopbacks to Stdby R
122 PARSE_LC_INJ_DIAGS_CNT 2618 0 >>> total DIAG packets injected by LC
790 DIAGS 12618 0 >>> total DIAG packets replied back to LC
16 MDF_TX_LC_CPU 3998218312 937 >>> a packet punted to LC CPU PARSE_RSP_INJ_DIAGS_CNT should match (PUNT_DIAGS_RSP_ACT + PUNT_DIAGS_RSP_STDBY)
PARSE_LC_INJ_DIAGS_CNT should match DIAGS
PARSE_XX_INJ_DIAGS_CNT should increment periodically.
show spp sid stats location | inc DIAG 2. DIAG 35430
2. DIAG 35430
Questi sono i contatori DIAG ricevuti e inviati. Possono sempre abbinare e incrementare insieme su LC.
Log di esempio: SPP sta inviando e ricevendo il pacchetto di diagnostica senza pacchetti 0x4e in sequenza.
LC/0/1/CPU0:Jun 6 04:14:05.581 : spp[89]: Sent DIAG packet. NP:0 Slot:0 Seq:0x4e
LC/0/1/CPU0:Jun 6 04:14:05.584 : spp[89]: Rcvd DIAG packet. NP:0 Slot:0 Seq:0x4e
show drops all location
show drops all ongoing location
La diagnostica online è utile molte volte per controllare i timestamp di invio/ricezione o di mancato recapito dei pacchetti. Tali timestamp possono essere confrontati con le acquisizioni SPP per la correlazione dei pacchetti.
admin debug diagnostic engineer location
admin debug diagnostic error location
Nota: immettere il admin undebug all
per disabilitare i debug.
Output di esempio dei debug:
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: Slot 1 has 4 NPs >>> Sending DIAG
messages to NPs on slot 1
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: PuntFabricDataPath: sending
a pak (seq 25), destination physical slot 1 (card type 0x3d02aa), NP 0, sfp=0xc6
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: PuntFabricDataPath: sending
a pak (seq 25), destination physical slot 1 (card type 0x3d02aa), NP 1, sfp=0xde
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: PuntFabricDataPath: sending
a pak (seq 25), destination physical slot 1 (card type 0x3d02aa), NP 2, sfp=0xf6
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: PuntFabricDataPath: sending
a pak (seq 25), destination physical slot 1 (card type 0x3d02aa), NP 3, sfp=0x10e
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
Time took to receive 22 pkts: 503922888 nsec, timeout value: 500000000 nsec
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
Received 22 packets, expected 24 => Some replies missed
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
Got a packet from physical slot 1, np 0
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: Successfully verified
a packet, seq. no.: 25
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
Got a packet from physical slot 1, np 2 <= Replies from NP1 and NP3 missing
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: Successfully verified
a packet, seq. no.: 25
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
Got a packet from physical slot 3, np 0
RP/0/RP1/CPU0:AG2-2#show diagnostic trace location 0/rp1/CPU0
Fri Mar 25 12:16:40.866 IST
1765 wrapping entries (3136 possible, 2048 allocated, 0 filtered, 3503120 total)
Mar 16 02:40:21.641 diags/online/gold_error 0/RP1/CPU0 t7356 Failed to get ack: got 0 responses,
expected 1
Mar 16 02:40:36.490 diags/online/message 0/RP1/CPU0 t8947 My nodeid 0x120, rack# is 0, slot# 1,
board type = 0x100327
Mar 16 02:40:36.948 diags/online/message 0/RP1/CPU0 t8947 dev cnt=25, path cnt=3, shm loc for
dev alarms@0x7fd4f0bec000, path alarms@0x7fd4f0bec01c, path alarm data@0x7fd4f0bec028
Mar 16 02:40:37.022 diags/online/message 0/RP1/CPU0 t8947 Last rpfo time: 1647378637
Mar 24 06:03:27.479 diags/online/error 0/RP1/CPU0 2105# t9057 PuntFabricDataPath test error:
physical slot 11(LC# 9): expected np mask: 0x0000000f, actual: 0x0000000b, failed: 0x00000004
Mar 24 06:03:27.479 diags/online/error 0/RP1/CPU0 634# t9057 PuntFabricDataPath test failure detected,
detail in the form of (0-based) (slot, NP: count): (LC9,2: 13)
show controllers fabric health location <>
show controllers fabric health spine all
admin
sysadmin-vm:0_RP0# show logging onboard fabric location 0/0
show controllers fabric fia errors ingress location <>
show controllers fabric fia stats location
show controllers fabric crossbar statistics instance [0-1] location <>
show controllers fabric crossbar statistics instance [0-1] location <>
show controllers fabric fia errors egress location <>
show controllers fabric fia stats location
show controllers fabric crossbar statistics instance [0-1] spine [0-6]
show controllers fabric fia drops ingress location <>
show controllers fabric fia drops egress location <>
show controllers fabric crossbar asic-errors instance 0 location<>
show asic-errors fia <> all location <>
show asic-errors fia <> all location <>
RP/0/RP0/CPU0:AG3_1#show controllers np fabric-counters all np0 location 0/0/CPU0
Node: 0/0/CPU0:
----------------------------------------------------------------
Egress fabric-to-bridge interface 2 counters for NP 0
INTERLAKEN_CNT_TX_BYTES 0x000073fc 23b6d99b
INTERLAKEN_CNT_TX_FRM_GOOD 0x000000ae a79d6612
INTERLAKEN_CNT_TX_FRM_BAD 0x00000000 00000000 >>> this is 0 which is good,
need to check if it is incremented
-------------------------------------------------------------
Egress fabric-to-bridge interface 3 counters for NP 0
INTERLAKEN_CNT_TX_BYTES 0x0004abdd fe02068d
INTERLAKEN_CNT_TX_FRM_GOOD 0x000005b8 089aac95
INTERLAKEN_CNT_TX_FRM_BAD 0x00000000 00000000
-------------------------------------------------------------
Node: 0/0/CPU0:
----------------------------------------------------------------
Ingress fabric-to-bridge interface 2 counters for NP 0
INTERLAKEN_CNT_RX_BYTES 0x0004aeb5 a4b9dbbe
INTERLAKEN_CNT_RX_FRM_GOOD 0x0000058e b7b91c15
INTERLAKEN_CNT_RX_FRM_BAD 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_CRC32_ERROR 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_CRC24_ERROR 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_SIZE_ERROR 0x00000000 00000000
-------------------------------------------------------------
Ingress fabric-to-bridge interface 3 counters for NP 0
INTERLAKEN_CNT_RX_BYTES 0x000094ce b8783f95
INTERLAKEN_CNT_RX_FRM_GOOD 0x000000f5 33cf9ed7
INTERLAKEN_CNT_RX_FRM_BAD 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_CRC32_ERROR 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_CRC24_ERROR 0x00000000 00000000
INTERLAKEN_CNT_RX_BURST_SIZE_ERROR 0x00000000 00000000
show controllers fabric fia link-status location
RP/0/RP0/CPU0:AG3_1#show controllers fabric fia link-status location 0/0/CPU0
********** FIA-0 **********
Category: link-0
spaui link-0 Up >>> FIA to NP link
spaui link-1 Up >>> FIA to NP link
arb link-0 Up >>> Arbitor link
xbar link-0 Up >>> FIA to XBAR link
xbar link-1 Up >>> FIA to XBAR link
xbar link-2 Up >>> FIA to XBAR link
RP/0/RP0/CPU0:AG3_1#show controllers fabric crossbar link-status instance 0 lo 0/0/CPU0
Mon May 2 04:05:06.161 EDT
PORT Remote Slot Remote Inst Logical ID Status
======================================================
00 0/0/CPU0 01 2 Up
01 0/FC3 01 0 Up
02 0/FC3 00 0 Up
03 0/FC4 01 0 Up
04 0/FC2 01 0 Up
05 0/FC4 00 0 Up
06 0/FC2 00 0 Up
07 0/FC1 01 0 Up
10 0/FC1 00 0 Up
14 0/FC0 01 0 Up
15 0/FC0 00 0 Up
16 0/0/CPU0 02 0 Up
18 0/0/CPU0 02 2 Up
19 0/0/CPU0 02 1 Up
20 0/0/CPU0 03 2 Up
21 0/0/CPU0 03 1 Up
22 0/0/CPU0 03 0 Up
23 0/0/CPU0 00 2 Up
24 0/0/CPU0 00 1 Up
25 0/0/CPU0 00 0 Up
26 0/0/CPU0 01 0 Up
27 0/0/CPU0 01 1 Up
Se si osservano questi registri nella scheda LSP:
LC/0/3/CPU0:Jul 5 13:05:53.365 IST: fab_xbar[172]: %PLATFORM-CIH-5-ASIC_ERROR_THRESHOLD :
sfe[1]: An interface-err error has occurred causing packet drop transient.
ibbReg17.ibbExceptionHier.ibbReg17.ibbExceptionLeaf0.intIpcFnc0UcDataErr Threshold has been exceeded
17*2 consente di identificare la porta con show controllers fabric crossbar link-status instance 1 lo 0/3/CPU0
comando:
Insieme Logs:
show platform
show inventory
show tech fabric
show tech np
show tech ethernet interface
show logging
show pfm location all
show pfm trace location <location id>
show controllers pm vqi location all
show hw-module fpd location all (cxr) / admin show hw-module fpd (exr)
show controllers fti trace <process-name> location <Card location>
admin show tech obfl
Cxr:
From Admin:
show logging onboard common location <>
show logging onboard error location <>
Exr:
From sysadmin/calvados:
show logging onboard fabric location <>
Per LS:
show controllers asic LS-FIA instance <instance> block <block_name> register-name <register_name> location <>
Per LSP:
show controllers asic LSP-FIA instance <instance> block <block_name> register-name <register_name> location <>
Se l'errore segnalato è simile al seguente:
LC/0/9/CPU0:Mar 1 05:12:25.474 IST: fialc[137]: %PLATFORM-CIH-5-ASIC_ERROR_THRESHOLD :
fia[3]: A link-err error has occurred causing performance loss persistent.
fnc2serdesReg1.fnc2serdesExceptionHier.fnc2serdesReg1.fnc2serdesExceptionLeaf0.
iNTprbsErrTxphyrdydropped6 Threshold has been exceeded
show controllers asic SKB-XBAR instance <instance> block-name <block_name> register-name <register_name> location <>
Se l'errore segnalato è simile al seguente:
LC/0/7/CPU0:Mar 4 06:42:01.241 IST: fab_xbar[213]: %PLATFORM-CIH-5-ASIC_ERROR_THRESHOLD :
sfe[0]: An interface-err error has occurred causing packet drop transient.
ibbReg11.ibbExceptionHier.ibbReg11.ibbExceptionLeaf0.intIpcFnc1UcDataErr Threshold has been exceeded
show controllers asic FC2-SKB-XBAR instance <instance> block-name <block_name> register-name <register_name> location
Se l'errore segnalato è simile al seguente:
RP/0/RP0/CPU0:Mar 4 06:41:14.398 IST: fab_xbar_sp3[156]: %PLATFORM-CIH-3-ASIC_ERROR_SPECIAL_HANDLE_THRESH :
fc3xbar[1]: A link-err error has occurred causing packet drop transient.
cflReg17.cflExceptionHier.cflReg17.cflExceptionLeaf4.intCflPal1RxAlignErrPktRcvd Threshold has been exceeded
L'istanza ASIC è "FC3-SKB-XBAR" e corrisponde al numero dell'istanza ASIC SFE/XBAR. Qui è "1", entrambi provengono da "fc3xbar[1]" block_name è "cflReg17" e register_name è "cflExceptionLeaf4".
Esempio:
RP/0/RSP0/CPU0: AG2-10#sh logging | i ASIC
RP/0/RSP0/CPU0:May 11 20:48:57.658 IST: fab_xbar[184]: %PLATFORM-CIH-5-ASIC_ERROR_THRESHOLD :
sfe[0]: An interface-err error has occurred causing packet drop transient.
ibbReg13.ibbExceptionHier.ibbReg13.ibbExceptionLeaf0.intIpcFnc0UcDataErr Threshold has been exceeded
RP/0/RSP0/CPU0: AG2-10#sh controllers fabric crossbar link-status instance 0 location 0/rsp0/CPU0
PORT Remote Slot Remote Inst Logical ID Status
======================================================
04 0/0/CPU0 00 1 Up
06 0/0/CPU0 00 0 Up
08 0/7/CPU0 00 1 Up
10 0/7/CPU0 00 0 Up
24 0/2/CPU0 00 0 Up
26 0/2/CPU0 00 1 Up
>>> ibbReg13 >> 13*2 = 26 SO IT IS POINTING TO LC2 – IN THIS CASE YOU CAN DO OIR TO RECOVER THE ASIC ERROR
40 0/RSP0/CPU0 00 0 Up
RP/0/RSP0/CPU0: AG2-10#show controllers asic SKB-XBAR instance 0 block-name ibbReg13 register-name ibbExceptionLeaf0 location 0/RSP0/CPU0
address name value
0x00050d080 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int1Stat 0x00000000 (4 bytes)
address name value
0x00050d084 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int1StatRw1s 0x00000000 (4 bytes)
address name value
0x00050d088 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int1Enable 0xfffffffb (4 bytes)
address name value
0x00050d08c SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int1First 0x00000000 (4 bytes)
address name value
0x00050d090 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int2Stat 0x00000c50 (4 bytes)
address name value
0x00050d094 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int2StatRw1s 0x00000c50 (4 bytes)
address name value
0x00050d098 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int2Enable 0x00000000 (4 bytes)
address name value
0x00050d09c SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int2First 0x00000000 (4 bytes)
address name value
0x00050d0a0 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_haltEnable 0x00000000 (4 bytes)
address name value
0x00050d0a4 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_fault 0x00000000 (4 bytes)
address name value
0x00050d0a8 SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_intMulti 0x00000840 (4 bytes)
address name value
0x00050d0ac SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_leaf 0x00000000 (4 bytes)
RP/0/RSP0/CPU0:AG2-10#
Per controllare lo stato del collegamento:
RP/0/RSP0/CPU0:AG2-10#sho controllers fabric arbiter link-status location 0/1/$
Port Remote Slot Remote Elem Remote Inst Status
=======================================================
00 0/1/CPU0 FIA 0 Up
01 0/1/CPU0 FIA 1 Up
24 0/RSP0/CPU0 ARB 0 Up
25 0/RSP1/CPU0 ARB 0 Up
Per verificare la disponibilità di VQI:
RP/0/RP0/CPU0:AG3_1#sh controllers fabric vqi assignment all
Current mode: Highbandwidth mode - 2K VQIs
Node Number of VQIs
----------------------------
0/0/CPU0 80
0/1/CPU0 40
0/2/CPU0 48
0/3/CPU0 80
0/5/CPU0 80
0/7/CPU0 80
0/12/CPU0 64
RP*/RSP* 8
----------------------------
In Use = 480
Available = 1568
Controllare la velocità assegnata a VQI:
RP/0/RP0/CPU0:AG3_1#sh controller fabric vqi assignment slot 7
Thu May 12 07:58:59.897 EDT
slot = 7
fia_inst = 0
VQI = 400 SPEED_100G
VQI = 401 SPEED_100G
VQI = 402 SPEED_100G
VQI = 403 SPEED_100G
VQI = 404 SPEED_100G
VQI = 405 SPEED_100G
VQI = 406 SPEED_100G
slot = 7
fia_inst = 1
VQI = 416 SPEED_40G
VQI = 417 SPEED_40G
VQI = 418 SPEED_40G
VQI = 419 SPEED_40G
VQI = 420 SPEED_100G
Se si osservano delle gocce di coda sulla FIA, controllare questi passaggi:
Verificare la profondità della coda in VQI:
RP/0/RP0/CPU0:AG3_1#show controllers fabric fia q-depth location 0/0/CPU0
Thu May 12 08:00:42.186 EDT
********** FIA-0 **********
Category: q_stats_a-0
Voq ddr pri Cellcnt Slot_FIA_NP
28 0 2 2 LC0_1_1
********** FIA-0 **********
Category: q_stats_b-0
Voq ddr pri Cellcnt Slot_FIA_NP
********** FIA-1 **********
Category: q_stats_a-1
Voq ddr pri Cellcnt Slot_FIA_NP
7 0 2 12342 LC0_0_0
>>> Here Packet count is high so we need to check for LC0 FIA0 NP0 (egress) is there any congestion
or any other issue in LC0 FIA0 or NP0
Here Pri = 2 is the default queue (BE) , Pri = 0 is P1 (Voice, real time) queue, Pri = 1 is P2
97 0 2 23 LC1_0_0
RP/0/RP0/CPU0:AG3_1#show controllers fabric vqi assignment slot 02
slot = 2
fia_inst = 0
VQI = 0 SPEED_10G
VQI = 1 SPEED_10G
VQI = 2 SPEED_10G
VQI = 3 SPEED_10G
VQI = 4 SPEED_10G
VQI = 5 SPEED_10G
VQI = 6 SPEED_10G
VQI = 7 SPEED_10G
Dettagli mapping porte per VQI:
RP/0/RP0/CPU0:AG3_1#show controllers pm vqi location 0/0/CPU0
Platform-manager VQI Assignment Information
Interface Name | ifh Value | VQI | NP#
--------------------------------------------------
TenGigE0_0_0_0_1 | 0x4000680 | 1 | 0
TenGigE0_0_0_0_2 | 0x40006c0 | 2 | 0
TenGigE0_0_0_0_3 | 0x4000700 | 3 | 0
TenGigE0_0_0_0_4 | 0x4000740 | 4 | 0
TenGigE0_0_0_0_5 | 0x4000780 | 5 | 0
TenGigE0_0_0_0_6 | 0x40007c0 | 6 | 0
TenGigE0_0_0_0_7 | 0x4000800 | 7 | 0
RP/0/RP0/CPU0:AG3_1#show controllers pm interface tenGigE 0/0/0/0/7
Ifname(1): TenGigE0_0_0_0_7, ifh: 0x4000800 :
iftype 0x1e
egress_uidb_index 0x12, 0x0, 0x0, 0x0
ingress_uidb_index 0x12, 0x0, 0x0, 0x0
port_num 0x0
subslot_num 0x0
ifsubinst 0x0
ifsubinst port 0x7
phy_port_num 0x7
channel_id 0x0
channel_map 0x0
lag_id 0x7e
virtual_port_id 0xa
switch_fabric_port 7 >>> VQI matching for the ports
in_tm_qid_fid0 0x38001e
in_tm_qid_fid1 0x0
in_qos_drop_base 0xa69400
out_tm_qid_fid0 0x1fe002
out_tm_qid_fid1 0xffffffff
np_port 0xd3
Insieme Logs:
Show tech fabric
Show tech np
show controllers pm trace ?
async Platform manager async trace
creation Platform manager interface creation/deletion trace
error Platform manager error trace
information Platform manager information trace
init Platform manager init trace
other Platform manager common trace
stats Platform manager stats trace
Verifica carico NP:
RP/0/RP0/CPU0:AG3_1#show controller np load all location 0/0/CPU0
Node: 0/0/CPU0:
----------------------------------------------------------------
Load Packet Rate
NP0: 2% utilization 3095766 pps
NP1: 3% utilization 5335675 pps
NP2: 0% utilization 498 pps
NP3: 0% utilization 1117 pps
Mapping porte:
RP/0/RP0/CPU0:AG3_1#show controllers np ports all location 0/0/CPU0
Node: 0/0/CPU0:
----------------------------------------------------------------
NP Bridge Fia Ports
-- ------ --- ---------------------------------------------------
0 -- 0 TenGigE0/0/0/0/0 - TenGigE0/0/0/0/9, TenGigE0/0/0/1/0 - TenGigE0/0/0/1/9
1 -- 1 TenGigE0/0/0/2/0 - TenGigE0/0/0/2/9, HundredGigE0/0/0/3
2 -- 2 HundredGigE0/0/0/4 - HundredGigE0/0/0/5
3 -- 3 HundredGigE0/0/0/6 - HundredGigE0/0/0/7
Tomahawk
Si noti che questa è la modalità amministratore:
sysadmin-vm:0_RP0# show controller switch statistics location 0/LC0/LC-SW
Thu May 12 12:32:37.160 UTC+00:00
Rack Card Switch Rack Serial Number
--------------------------------------
0 LC0 LC-SW
Tx Rx
Phys State Drops/ Drops/
Port State Changes Tx Packets Rx Packets Errors Errors Connects To
----------------------------------------------------------------------------
0 Up 2 3950184361 3977756349 0 0 NP0
1 Up 2 0 0 0 0 NP0
8 Up 1 1319787462 209249871 0 0 LC CPU N0 P0
9 Up 1 3374323096 1819796660 0 0 LC CPU N0 P1
16 Up 2 2245174606 1089972811 0 0 NP1
17 Up 2 0 0 0 0 NP1
18 Up 2 65977 16543963 0 0 NP2
19 Up 2 0 0 0 0 NP2
32 Up 2 128588820 3904804720 0 0 NP3
33 Up 2 0 0 0 0 NP3
show asic-error np <> all loc <> >>> Ignore the macwrap errors as they are seen for every
interface flaps/ Execute 3-4 times to verify the drops increment
show controller np fast-drop <> loc <> >>> Execute 3-4 times to verify the drops increment
RP/0/RP0/CPU0:AG3_1#show controller np fast-drop np0 location 0/0/CPU0
Thu May 12 10:13:22.981 EDT
Node: 0/0/CPU0:
----------------------------------------------------------------
All fast drop counters for NP 0:
TenGigE0/0/0/1/0-TenGigE0/0/0/1/9:[Priority1] 0
TenGigE0/0/0/1/0-TenGigE0/0/0/1/9:[Priority2] 0
TenGigE0/0/0/1/0-TenGigE0/0/0/1/9:[Priority3] 0
TenGigE0/0/0/0/0-TenGigE0/0/0/0/9:[Priority1] 0
TenGigE0/0/0/0/0-TenGigE0/0/0/0/9:[Priority2] 0
TenGigE0/0/0/0/0-TenGigE0/0/0/0/9:[Priority3] 0
show controllers np punt-path-counters all HOST-IF-0 np<> location <>
[Check for IF_CNT_RX_FRM & IF_CNT_TX_FRM] >>> To check if diagnostic packets make it to the LC NP
Host CPU network port
Velocità ridotta
show asic-error np <> all loc <> >>> Ignore the macwrap errors as they are seen for every interface flap
RP/0/RP0/CPU0:AG3_1#sho asic-errors np 0 all location 0/5/CPU0
************************************************************
* 0_5_CPU0 *
************************************************************
************************************************************
* Single Bit Errors *
************************************************************
************************************************************
* Multiple Bit Errors *
************************************************************
************************************************************
* Parity Errors *
************************************************************
************************************************************
* Generic Errors *
************************************************************
ASR, ASR9K Lightspeed 20*100GE SE LC, 0/5/CPU0, npu[0]
Name : mphmacwrapReg1.mphmacwrapExceptionLeaf4.mphWrapIrqUmacIpInt82
Leaf ID : 0x2023e082
Error count : 1
Last clearing : Thu Apr 7 11:41:47 2022
Last N errors : 1
--------------------------------------------------------------
First N errors.
@Time, Error-Data
------------------------------------------
show controller np fast-drop <> loc <> >>> Execute 3-4 times to verify the drops increment
RP/0/RP0/CPU0:AG3_1#show controller np fast-drop np0 location 0/5/CPU0
Thu May 12 10:13:28.321 EDT
Node: 0/5/CPU0:
----------------------------------------------------------------
All fast drop counters for NP 0:
HundredGigE0_5_0_0[Crit] 0
HundredGigE0_5_0_0[HP] 0
HundredGigE0_5_0_0[LP2] 0
HundredGigE0_5_0_0[LP1] 0
HundredGigE0_5_0_0[Crit+HP_OOR] 0
HundredGigE0_5_0_0[LP2+LP1_OOR] 0
HundredGigE0_5_0_1[Crit] 0
HundredGigE0_5_0_1[HP] 0
HundredGigE0_5_0_1[LP2] 0
HundredGigE0_5_0_1[LP1] 0
HundredGigE0_5_0_1[Crit+HP_OOR] 0
Si noti che questa è la modalità amministratore:
sysadmin-vm:0_RP0# show controller switch statistics location 0/LC5/LC-SW >>> Execute 3-4
times to verify the errors increment
Rack Card Switch Rack Serial Number
--------------------------------------
0 LC5 LC-SW
Tx Rx
Phys State Drops/ Drops/
Port State Changes Tx Packets Rx Packets Errors Errors Connects To
-----------------------------------------------------------------------------
0 Up 4 1456694749 329318054 0 4 CPU -- EOBC
1 Up 2 21 23 0 0 CPU -- flexE
2 Up 4 1063966999 87683758 0 0 CPU -- PUNT
3 Up 4 885103800 3021484524 0 0 CPU -- BFD
4 Up 3 329319167 1456700372 0 0 RP0
5 Up 3 0 0 0 0 RP1
6 Up 1 11887785 2256 0 0 IPU 0
7 Up 1 0 1086 0 0 IPU 1
9 Up 4 74028034 3025657779 0 0 NP0
10 Up 4 5 0 0 0 NP0
11 Down 1 0 0 0 0 PHY0 -- flexE
12 Up 4 264928 264929 0 0 NP1
13 Up 2 5 0 0 0 NP1
14 Down 1 0 0 0 0 PHY1 -- flexE
15 Up 4 1516538834 1159586563 0 0 NP2
Raccolta registri:
show tech np
show tech fabric
show asic-errors fia trace all location <>
RP/0/RP0/CPU0:AG3_1#run chvrf 0 ssh lc0_xr
LC : [one time capture]
show_np -e <> -d npdatalog [<> should be the affected NP]
Path where NP datalogs is saved : /misc/scratch/np/NPdatalog_0_0_CPU0_np0_prm__20220512-105332.txt.gz
LC : 5 to 10 times
show_np -e <> -d pipeline [<> should be the affected NP]
RP/0/RP0/CPU0:AG2-2#show controllers np ports all location 0/6/CPU0
Node: 0/6/CPU0:
----------------------------------------------------------------
NP Bridge Fia Ports
-- ------ --- ---------------------------------------------------
0 -- 0 HundredGigE0/6/0/0 - HundredGigE0/6/0/31 --
1 -- 1 HundredGigE0/6/0/4 - HundredGigE0/6/0/7
NP2 is down. >>>>>>>>>. NP Down/Init Failure
3 -- 3 HundredGigE0/6/0/12 - HundredGigE0/6/0/154 --
4 -- 4 HundredGigE0/6/0/16 - HundredGigE0/6/0/19
Questi registri osservano:
LC/0/6/CPU0:Mar 23 02:53:56.175 IST: npu_server_lsp[138]: %PLATFORM-LDA-3-INIT_FAIL :
Failed to initialize lda_bb_np_reset_process 13795 inst 0x2 LC INIT: Failed in NP HAL
Reset np (0x00000001 - Operation not permitted) : npu_server_lsp : (PID=4597) :
-Traceback= 7fea2d5cd9f6 7fea2d7d5816 7fea21465efa 7fea21465fc2 7fea42ad0bed 55a9dbd66031
7fea45e1c855 7fea45e1cc2b 7fea2624d526 7fea3571b96a 7fea4d6e4831 55a9dbd691e9
LC/0/6/CPU0:Mar 23 02:53:56.185 IST: npu_server_lsp[138]: %PLATFORM-NP-4-INIT_DEBUG_MSG :
LDA NP2 Reset failed!! Check for a downlevel IPU version.
Raccolta registri:
show tech-support ethernet interfaces
show tech-support ethernet controllers
show tech-support np
show tech-support fpd
admin show tech-support ctrace (in eXR)
show tech fabric
show asic-errors fia trace all location <>
show logging
gather (in eXR)
RP/0/RP0/CPU0:AG3_1#admin
sysadmin-vm:0_RP0#
[sysadmin-vm:0_RP0:~]$bash -l
[sysadmin-vm:0_RP0:~]$ gather
File will be generated and will get saved in rp0_xr:/misc/disk1
show platform
show inventory
show tech fabric
show tech np
show tech ethernet interface
show logging
show pfm location all
show pfm trace location <location id>
sh pfm process <> location <>
show controllers pm vqi location all
show hw-module fpd location all (cxr) / admin show hw-module fpd (exr)
show controllers fti trace <process-name> location <card location>
Cxr:
From admin:
show logging onboard common location <>
show logging onboard error location <>
Exr:
From sysadmin/calvados:
show logging onboard fabric location <>"
Categoria |
Errore |
Osservazioni |
Suggerimento |
Errore di inizializzazione NP |
LC/0/0/CPU0:Sep 29 00:41:13.171 IST: pfm_node_lc[304]: %PLATFORM-NP-1-NP_INIT_FAIL_NO_RESET: Set|prm_server_ty[168018]|0x1008006|Errore di inizializzazione NP persistente. Non è necessario ricaricare la scheda di linea. |
NP può andare in NP init errore persistente a causa di un errore di parità HW/TCAM che costringe NP a scendere. |
LC Ricaricare tramite CLI per eseguire il ripristino. |
Il problema può essere risolto se di natura transitoria dopo il primo ricaricamento di LC. |
Completare un'autorizzazione restituzione materiale (RMA) per le istanze ripetute dello stesso errore. |
||
RMA se vengono rilevate istanze di ripetizione. (catturare una foto della scheda difettosa per verificare la presenza di pin piegati/danneggiati in SR). |
|||
La nuova scheda può essere soggetta allo stesso problema a causa di una gestione errata del campo. |
|||
L'interfaccia mappata all'NP rimane inattiva / Nessun impatto. |
|||
Errore ASIC FATAL FAULT-Double bit ECC |
LC/0/8/CPU0:May 29 18:29:09.836 IST: pfm_node_lc[301]: %FABRIC-FIA-0-ASIC_FATAL_FAULT : Set|fialc[159811]|0x108a000|Si è verificato un errore irreversibile 0x1 nell'ASIC0 dell'interfaccia fabric - ERRORE DDR DOUBLE ECC |
Questo è un errore ECC doppio bit su FIA è un errore difficile. |
Errore hardware nella FIA. |
L'errore può riemergere, pertanto si consiglia di chiudere la scheda LC. |
RMA la carta. |
||
L'interfaccia mappata a NP/FIA rimane inattiva / Nessun impatto. |
|||
Il problema si presenta in uno dei casi in cui la FIA ha creato il blocco di processo fib_mgr. |
|||
Errore SERDES |
·RP/0/RSP1/CPU0:Apr 17 12:22:10.690 IST: pfm_node_rp[378]: %PLATFORM-CROSSBAR-1-SERDES_ERROR_LNK0 : Set|fab_xbar[209006]|0x101702f|XBAR_1_Slot_1 |
Errore fabric su fabric LC o fabric RSP |
Ricaricare LC tramite CLI per ripristinare l'errore transitorio o CRC per errori ripetitivi. |
DATA_NB_SERDES_1_FAIL_0 |
LC/0/3/CPU0:Apr 10 18:55:03.213 IST: pfm_node_lc[304]: %FABRIC-FIA-1-DATA_NB_SERDES_1_FAIL_0 : Set|fialc[168004]|0x103d001|Collegamento Data NB 1 non riuscito su FIA 1 RP/0/RSP0/CPU0:Apr 10 18:55:13.043 IST: FABMGR[227]: %PLATFORM-FABMGR-2-FABRIC_INTERNAL_FAULT: 0/3/CPU0 (slot 3) ha rilevato un errore di struttura. Le interfacce verranno chiuse. |
Meccanismo di retraining dell'interfaccia per il recupero automatico dell'errore SERDES sulla struttura. In caso di un problema di hardware, l'errore può ripresentarsi di nuovo su LC o RSP. L'interfaccia rimane attiva / errori frequenti su SERDES hanno influito sul traffico. |
RMA per le istanze di ripetizione dopo OIR. |
Errori di inizializzazione ASIC |
·LC/0/6/CPU0:Jul 17 00:01:40.738 2019:pfm_node_lc[301]: %FABRIC-FIA-1-ASIC_INIT_ERROR : Set|fialc[168003]|0x108a000|Rilevato errore INIT ASIC sull'istanza FIA 0 |
Evento FIA di inattività per qualsiasi evento FIA su LC con errore ASIC INIT in Syslog. |
LC Reload attraverso la CLI per escludere qualsiasi problema transitorio. |
Errore IRREVERSIBILE FIA ASIC (TS_NI_INTR_LCL_TIMER_EXPIRED) |
LC/0/19/CPU0:Mar 8 04:52:29.020 IST: pfm_node_lc[301]: %FABRIC-FIA-0-FATAL_INTERRUPT_ERROR : Set|fialc[172098]|0x108a003|FIA fatal error interrupt su FIA 3: TS_NI_INTR_LCL_TIMER_EXPIRED |
Per la nuova scheda, è stato riscontrato che l'unità è stata manomessa al momento della spedizione / installazione causando danni fisici alla scheda. Alcune tavole non hanno mostrato alcun danno fisico, ma una crepa di saldatura è stata osservata durante l'EFA. Ciò indica sovraccarico sulla confezione e possibile malfunzionamento nel tempo. L'interfaccia rimane attiva / errori frequenti su SERDES hanno influito sul traffico. |
Se il problema persiste, procedere con RMA / R&R. |
Ripristino rapido NP (Tomahawk ) |
LC/0/4/CPU0:Jul 6 04:06:49.259 IST: prm_server_ty[318]: %PLATFORM-NP-3-ECC : prm_ser_check: reimpostazione rapida NP completata per il ripristino da un errore software su NP 1. Non sono necessarie ulteriori azioni correttive. |
NP rileva il problema di parità soft e tenta di risolverlo tentando di reimpostare rapidamente NP. |
Nessuna autorizzazione al reso (RMA) per la prima occorrenza. |
Ricaricamento LC parità NP |
LC/0/6/CPU0:Jan 27 20:38:08.011 IST: prm_server_to[315]: %PLATFORM-NP-0-LC_RELOAD: NP3 ha subito 3 reimpostazioni veloci in un'ora, avviando la raccolta dei dati NPdatalog e il riavvio automatico del LC |
Di solito, dopo tre tentativi di recupero, la LC si ricarica da sola per aver risolto il problema di parità su NP, solitamente visto per la scheda Tomahawk. LC esegue un'azione di recupero automatico ricaricando la LC e risolvendo il problema di parità non recuperabile soft nell'NP riportato. L'interfaccia mappata a NP si interrompe con reset / Nessun impatto. |
RMA per le istanze di ripetizione dello stesso errore. |
LC_NP_LOOPBACK_FAILED |
LC/0/1/CPU0:Jul 26 17:29:06.146 IST: pfm_node_lc[304]: %PLATFORM-DIAGS-0-LC_NP_LOOPBACK_FAILED_TX_PATH : Set|online_diag_lc[168022]|Test di loopback NPU scheda di linea (0x20000006)|maschera di errore collegamento: 0x1. |
Errore di analisi loopback LC NP su uno degli NP. |
LC Reload attraverso la CLI per escludere qualsiasi problema transitorio. |
Allarme impostato in PFM come "LC_NP_LOOPBACK_FAILED_XX_PATH". |
RMA per le istanze di ripetizione dello stesso errore. |
||
L'interfaccia mappata a NP si interrompe con reset / Nessun impatto. |
|||
FABRIC-FIA-1-SUPPORTED_CRC_ERR |
LC/0/5/CPU0:Mar 6 05:47:34.748 IST: pfm_node_lc[303]: %FABRIC-FIA-1-SUPPORTED_CRC_ERR : Set|fialc[168004]|0x103d000|L'interfaccia fabric ASIC-0 ha rilevato errori CRC |
Arresto fia dovuto a errore FABRIC FIA SOSTENUTO CRC. |
LC Reload attraverso la CLI per escludere qualsiasi problema transitorio. |
Con l'evento di chiusura FIA, anche l'interfaccia sulla FIA va giù. |
RMA per le istanze di ripetizione dello stesso errore. |
||
L'interfaccia rimane attiva / Nessun impatto. |
|||
FAB ARB XIF1 ERR |
·LC/0/6/CPU0:Jan 25 19:31:22.787 IST: pfm_node_lc[302]: %PLATFORM-FABARBITER-1-RX_LINK_ERR : Clear|fab_arb[163918]|0x1001001|LIT_XIF1_K_CHAR_ERR LC/0/6/CPU0:Jan 25 19:31:22.787 IST: pfm_node_lc[302]: %PLATFORM-FABARBITER-1-SYNC_ERR : Clear|fab_arb[163918]|0x1001001|LIT_XIF1_LOSS_SYNC LC/0/6/CPU0:Jan 25 19:33:23.010 IST: pfm_node_lc[302]: %PLATFORM-FABARBITER-1-RX_LINK_ERR : Set|fab_arb[163918]|0x1001001|LIT_XIF1_DISP_ERR |
Errore PUNT per errore di sincronizzazione e rx_link di arbitro LC & Fabric. L'interfaccia rimane attiva / Nessun impatto. |
OIR la carta per escludere qualsiasi problema transitorio. RMA per le istanze di ripetizione dello stesso errore. |
Errore FPOE_read_write |
traccia errori xbar (show tech fabric) |
ID bug Cisco CSCv45788 |
Errore software |
SERDES FIA_XBAR |
#show controller fabric - posizione stato collegamento 0/9/CPU0 |
OIR la carta per escludere qualsiasi problema transitorio. RMA per le istanze di ripetizione dello stesso errore. |
|
Ripristino rapido ICFD DIAG NP |
NP-DIAG su NP0, ICFD (STS-1), NP può essere 0-4 NP3 ha subito 3 reimpostazioni veloci in un'ora, avviando la raccolta di dati NPdatalog e il riavvio automatico LC |
Attiva un ripristino rapido di NP E LC si ricarica se 3 NP si reimposta velocemente in un'ora. |
Se LC viene ricaricato più volte, RMA. |
Monitoraggio integrità PRM: impossibile ottenere reimpostazioni veloci NP dei pacchetti |
Errore di monitoraggio dello stato NP-DIAG NP3 ha subito 3 reimpostazioni veloci in un'ora, avviando la raccolta di dati NPdatalog e il riavvio automatico LC |
Attiva un ripristino rapido di NP E LC si ricarica se 3 NP si reimposta velocemente in un'ora. |
Se LC viene ricaricato più volte, RMA. |
Il monitoraggio dello stato di PRM viene danneggiato a causa di reimpostazioni rapide di pacchetti NP |
Monitoraggio dello stato NP-DIAG per la corruzione NP3 ha subito 3 reimpostazioni veloci in un'ora, avviando la raccolta di dati NPdatalog e il riavvio automatico LC |
Attiva un ripristino rapido di NP E LC si ricarica se 3 NP si reimposta velocemente in un'ora. |
Se LC viene ricaricato più volte, RMA. |
Errore di inattività principale |
Errore NP-DIAG su NP Interrupt from Ucode on Top inactivity (Interrompi da Ucode su inattività superiore) - esegue reimpostazioni veloci NP |
Attiva un ripristino rapido di NP E LC si ricarica se 3 NP si reimposta velocemente in un'ora. |
Se LC viene ricaricato più volte, RMA. |
Errore inizializzazione NP LSP |
LC/0/6/CPU0:Mar 23 02:53:56.175 IST: npu_server_lsp[138]: %PLATFORM-LDA-3-INIT_FAIL: impossibile inizializzare lda_bb_np_reset_process 13795 inst 0x2 LC INIT: errore in NP HAL Reset np (0x000000001 - Operazione non consentita) : npu_server_lsp : (PID=4599 ) : -Traceback= 7fea2d5cd9f6 7fea2d7d5816 7fea21465efa 7fea21465fc2 7fea42ad0bed 55a9dbd66031 7fea45e1c855 7fea45e1cc2b 7fea2624d526 7fea3571b 96a 7fea4d6e4831 55a9dbd691e9 |
Queste informazioni devono essere raccolte:
Il file viene generato e salvato in rp0_xr:/misc/disk1
|
LC Reload attraverso la CLI per escludere qualsiasi problema transitorio. |
Errore di inizializzazione Tomahawk NP (training DDR non riuscito) |
+++ show prm server trace error location 0/7/CPU0 [14:36:59.520 IST Sat 29 gen 2022] +++ 97 voci di imballaggio (2112 possibili, 320 assegnate, 0 filtrate, 97 totali) Gen 29 00:22:10.135 prm_server/error 0/7/CPU0 t10 prm_np_Channel_PowerUp : 0x80001d46 Errore durante l'accensione del canale 3 fase 4 Gen 29 00:22:10.136 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup : 0xa57c0200 Errore fase alimentazione 4 sul canale 3 Gen 29 00:22:10.136 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup NP3: avvio non riuscito. Riprovare. Nuovo tentativo numero 1 Gen 29 00:22:35.125 prm_server/error 0/7/CPU0 t10 prm_np_Channel_PowerUp : 0x80001d46 Errore durante l'accensione del canale 3 fase 4 Gen 29 00:22:35.125 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup : 0xa57c0200 Errore fase alimentazione 4 sul canale 3 Gen 29 00:22:35.125 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup NP3: avvio non riuscito. Riprovare. Nuovo tentativo numero 2 Gen 29 00:22:59.075 prm_server/error 0/7/CPU0 t10 prm_np_Channel_PowerUp : 0x80001d46 Errore durante l'accensione del canale 3 fase 4 Gen 29 00:22:59.075 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup : 0xa57c0200 Errore fase alimentazione 4 sul canale 3 Gen 29 00:22:59.075 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup Dopo 3 tentativi, NP3 non è riuscito a eseguire l'inizializzazione. Gen 29 00:23:00.087 prm_server/error 0/7/CPU0 t10 prm_send_pfm_msg: errore di inizializzazione NP persistente, ricaricamento linecard non richiesto. Archivia registri driver NP <NP#3>Formazione DDR NON RIUSCITA (stato 0x1) <NP#3>ddr3TipRunAlg: ottimizzazione non riuscita 0 <NP#3>Codice operativo ddrTipRunAlgo: errore di ddr3TipRunAlg (0x1) <NP#3>*** Errore: sconosciuto 0x1 |
nodo: node0_7_CPU0 29 gen 00:22:58|8 |NP_INIT_FAIL_NO_RESET |E/A|5356 |Processo di rete|0x1008000 |
LC Reload attraverso la CLI per escludere qualsiasi problema transitorio. Se il problema persiste, RMA il LC ID bug Cisco CSCwa85165 |
Errore inizializzazione NP LSP (errore HbmReadParticleError) |
LC/0/13/CPU0:Jan 10 13:34:59.106 IST: npu_server_lsp[278]: %PLATFORM-NP-4-SHUTDOWN_START : NP4: errore EMRHIMREG.ch1Psch0HbmReadParticleError rilevato, arresto NP in corso LC/0/13/CPU0:Jan 10 13:34:59.106 IST: pfm_node_lc[330]: %PLATFORM-NP-0-UNRECOVERABLE_ERROR : Set|npu_server_lsp[4632]|0x10a5004|È stato rilevato un errore irreversibile su NP4 |
+++ show controller np interrompe tutte le posizioni 0/13/CPU0 [16:02:16.712 IST Mon Jan 10 2022] +++ Nodo: 0/13/CPU0: — Cnt ID nome interrupt NPU — — — <cattura> 4 hbmdpReg0.hbmdpExceptionLeaf0.hbmdpIntNwlHbmdpRdDataUncorrectableErrCh1Psch1 0x201dc0131 4 hbmdpReg0.hbmdpExceptionLeaf0.hbmdpIntNwlHbmdpRdDataUncorrectableErrCh1Psch0 0x201dc012 1 |
Verificare che l'ID bug Cisco CSCvt59803 sia installato. Caricamento LC tramite CLI per il ripristino. |
Collegamento arbitro non attivo con standby |
Fabric-Manager: |
OIR la carta per escludere qualsiasi problema transitorio. RMA per istanza di ripetizione dello stesso errore. |
|
Errore Serdes |
show serdes trace location 0/X/CPU0 | i "HTL_ERR_DEVICE_NOT_CONNECTED"') vengono visualizzati questi errori: |
ID bug Cisco CSCvz7552 |
Errore software |
ID bug Cisco | Componente | Titolo |
ID bug Cisco CSCvy00012 | asr9k-diags-online | Esaurimento della memoria del pacchetto da online_diag_rsp |
ID bug Cisco CSCvw57721 | asr9k-servicepack | Umbrella SMU contenente firmware aggiornato per Lightspeed NP e arbiter serdes |
ID bug Cisco CSCvz7552 | asr9k-vic-ls | Il firmware Phy si blocca e l'ottica non viene riconosciuta su A9K-20HG-FLEX |
ID bug Cisco CSCvz7691 | asr9k-servicepack | Umbrella SMU con miglioramento nella gestione degli interrupt dello stato del collegamento per le schede di linea Tomahawk |
ID bug Cisco CSCvz84139 | asr9k-ls-fabric | fab_si si blocca quando il router viene aggiornato a 742 |
ID bug Cisco CSCwa81006 | asr9k-pfm | ASR9K/eXR non è in grado di eseguire il commit dell'arresto della porta del percorso dati di gestione errori in alcuni scenari |
ID bug Cisco CSCvz16840 | asr9k-fia | Le sessioni BLB si interrompono quando CLI ricarica LC perché il percorso di inoltro viene chiuso in anticipo a causa delle modifiche aggiunte nella versione 6.5.2 |
ID bug Cisco CSCwb64255 | asr9k-fab-xbar | Nuove impostazioni SI per SKB in chassis Starscream(9912) e Megatron(9922) |
ID bug Cisco CSCwa09794 | asr9k-fab-xbar | Nuovo SI dopo la messa a punto dello chassis RO per SKB-SM15 |
ID bug Cisco CSCv45788 | asr9k-fab-xbar | fab_xbar e mgid-programmer eseguono l'accesso simultaneo a hw |
ID bug Cisco CSCwd2196 | asr9k-prm | Esaurimento del buffer RFD tra il collegamento ILKN su Tomahawk LC |
ID bug Cisco CSCwb6960 | asr9k-fab-infra | Isolamento degli errori di ASR9k Punt Fabric |
ID bug Cisco CSCwa79758 | asr9k-fab-xbar | Perdita di multicast su LC LSP dopo aver eseguito l'OIR di un altro LC LSP con errore del collegamento XBAR |
ID bug Cisco CSCvw88284 | asr9k-lda-ls | RSP5 BW imposta come predefinito 200 G su chassis 9910/9906 invece di 600 G. |
ID bug Cisco CSCvm82379 | asr9k-fab-arb | fab-arb si è schiantato durante l'uso di sh tech fabric |
ID bug Cisco CSCvh00349 | asr9k-fia | L'infrastruttura ASR9k può gestire i pacchetti ucast inviati in standby |
ID bug Cisco CSCvk4688 | asr9k-fia | FPGA ha ripetutamente riscontrato errori e non è stato possibile ripristinarlo |
ID bug Cisco CSCvy31670 | asr9k-ls-fia | LSP: la rimozione di FC0 attiva il limitatore di velocità del fabric, FC4 non |
ID bug Cisco CSCvt59803 | asr9k-ls-npdriver | LSP: Errore PLATFORM-NP-4-SHUTDOWN IMRHIMREG.ch1Psch1HbmReadParticle |
fault-manager datapath port shutdown/toggle
Comandofault-manager datapath port shutdown
Il comando aiuta a chiudere le porte delle rispettive FIA/NP per le quali è impostato l'allarme Punt Datapath Failure, su RP/RSP attivi, e l'interfaccia non viene visualizzata automaticamente fino a quando non si ricarica il LC. questo comando CLI non funziona come previsto dalla versione 7. x.x. (comando CLI fault-manager datapath port shutdown
non funziona come da progetto da 7. x.x) - fissato in 7.7.2.fault-manager datapath port toggle
Il comando CLI funziona correttamente. Apre la porta quando l'allarme di guasto del percorso dati del perno è stato cancellato.Test: per convalidare l'operazione del comando precedentemente indicata.
Generazione dell'errore PUNT su NP0 LC7:
RP/0/RP0/CPU0:ASR-9922-A#monitor np counter PUNT_DIAGS_RSP_ACT np0 count 20 location 0/7/CPU0
Wed Jul 7 14:15:17.489 UTC
Usage of NP monitor is recommended for cisco internal use only.
Please use instead 'show controllers np capture' for troubleshooting packet drops in NP
and 'monitor np interface' for per (sub)interface counter monitoring
Warning: Every packet captured will be dropped! If you use the 'count'
option to capture multiple protocol packets, this could disrupt
protocol sessions (eg, OSPF session flap). So if capturing protocol
packets, capture only 1 at a time.
Warning: A mandatory NP reset will be done after monitor to clean up.
This will cause ~150ms traffic outage. Links will stay Up.
Proceed y/n [y] > y
Monitor PUNT_DIAGS_RSP_ACT on NP0 ... (Ctrl-C to quit)
Wed Jul 7 14:17:08 2021 -- NP0 packet
From Fabric: 127 byte packet
0000: 00 09 00 00 b4 22 00 00 ff ff ff ff 00 00 ff ff ....4"..........
0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa ....ppppLLLL****
0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00 UUUU............
0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff ................
0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55 ppppLLLL****UUUU
0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 ................
0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 ............pppp
0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 LLLL****UUUU...
(count 1 of 20)
Wed Jul 7 14:18:09 2021 -- NP0 packet
From Fabric: 256 byte packet
0000: 00 09 00 00 b5 22 00 00 ff ff ff ff 00 00 ff ff ....5"..........
0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa ....ppppLLLL****
0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00 UUUU............
0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff ................
0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55 ppppLLLL****UUUU
0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 ................
0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 ............pppp
0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 00 LLLL****UUUU....
0080: 01 00 00 00 00 00 00 00 00 00 00 00 ff ff ff ff ................
0090: 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc ........ppppLLLL
00a0: aa aa aa aa 55 55 55 55 00 00 00 00 01 00 00 00 ****UUUU........
00b0: 00 00 00 00 00 00 00 00 ff ff ff ff 00 00 ff ff ................
00c0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00d0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00e0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00f0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
(count 2 of 20)
Wed Jul 7 14:19:09 2021 -- NP0 packet
Actual packet size 515 bytes truncated size 384:
From Fabric: 384 byte packet
0000: 00 09 00 00 b6 22 00 00 ff ff ff ff 00 00 ff ff ....6"..........
0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa ....ppppLLLL****
0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00 UUUU............
0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff ................
0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55 ppppLLLL****UUUU
0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 ................
0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 ............pppp
0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 00 LLLL****UUUU....
0080: 01 00 00 00 00 00 00 00 00 00 00 00 ff ff ff ff ................
0090: 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc ........ppppLLLL
00a0: aa aa aa aa 55 55 55 55 00 00 00 00 01 00 00 00 ****UUUU........
00b0: 00 00 00 00 00 00 00 00 ff ff ff ff 00 00 ff ff ................
00c0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00d0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00e0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00f0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0100: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0110: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0120: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0130: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0140: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0150: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0160: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
0170: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
RP/0/RP0/CPU0:ASR-9922-A#sh pfm location 0/RP0/CPU0
Wed Jul 7 14:19:17.174 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 14:19:17 2021
PFM TOTAL: 2 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 1
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Jul 1 10:13:45 2021|0 |SPINE_UNAVAILABLE |E/A|5082 |Fabric Manager|0x1034000
Jul 7 14:19:09 2021|0 |PUNT_FABRIC_DATA_PATH_FAILED |ER |9429 |System Punt/Fa|0x2000004
RP/0/RP0/CPU0:ASR-9922-A#sh pfm process 9429 location 0/Rp0/CPU0
Wed Jul 7 14:19:37.128 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 14:19:37 2021
PFM TOTAL: 2 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 1
PER PROCESS TOTAL: 0 EM: 0 CR: 0 ER: 0
Device/Path[1 ]:Fabric loopbac [0x2000003 ] State:RDY Tot: 0
Device/Path[2 ]:System Punt/Fa [0x2000004 ] State:RDY Tot: 1
1 Fault Id: 432
Sev: ER
Fault Name: PUNT_FABRIC_DATA_PATH_FAILED
Raised Timestamp: Jul 7 14:19:09 2021
Clear Timestamp: N/A
Changed Timestamp: N/A
Resync Mismatch: FALSE
MSG: failure threshold is 3, (slot, NP) failed: (0/7/CPU0, 0)
Device/Path[3 ]:Crossbar Switc [0x108c000 ] State:RDY Tot: 0
Device/Path[4 ]:Crossbar Switc [0x108c001 ] State:RDY Tot: 0
Device/Path[5 ]:Crossbar Switc [0x108c002 ] State:RDY Tot: 0
Device/Path[6 ]:Crossbar Switc [0x108c003 ] State:RDY Tot: 0
Device/Path[7 ]:Crossbar Switc [0x108c004 ] State:RDY Tot: 0
Device/Path[8 ]:Crossbar Switc [0x108c005 ] State:RDY Tot: 0
Device/Path[9 ]:Crossbar Switc [0x108c006 ] State:RDY Tot: 0
Device/Path[10]:Crossbar Switc [0x108c007 ] State:RDY Tot: 0
Device/Path[11]:Crossbar Switc [0x108c008 ] State:RDY Tot: 0
Device/Path[12]:Crossbar Switc [0x108c009 ] State:RDY Tot: 0
Device/Path[13]:Crossbar Switc [0x108c00a ] State:RDY Tot: 0
Device/Path[14]:Crossbar Switc [0x108c00b ] State:RDY Tot: 0
Device/Path[15]:Crossbar Switc [0x108c00c ] State:RDY Tot: 0
Device/Path[16]:Crossbar Switc [0x108c00d ] State:RDY Tot: 0
Device/Path[17]:Crossbar Switc [0x108c00e ] State:RDY Tot: 0
Device/Path[18]:Fabric Interfa [0x108b000 ] State:RDY Tot: 0
Device/Path[19]:Fabric Arbiter [0x1086000 ] State:RDY Tot: 0
Device/Path[20]:CPU Controller [0x108d000 ] State:RDY Tot: 0
Device/Path[21]:Device Control [0x109a000 ] State:RDY Tot: 0
Device/Path[22]:ClkCtrl Contro [0x109b000 ] State:RDY Tot: 0
Device/Path[23]:NVRAM [0x10ba000 ] State:RDY Tot: 0
Device/Path[24]:Hooper switch [0x1097000 ] State:RDY Tot: 0
Device/Path[25]:Hooper switch [0x1097001 ] State:RDY Tot: 0
Device/Path[26]:Hooper switch [0x1097002 ] State:RDY Tot: 0
Device/Path[27]:Hooper switch [0x1097003 ] State:RDY Tot: 0
La porta non è guasta in questo caso:
RP/0/RP0/CPU0:ASR-9922-A#sh ipv4 int brief location 0/7/CPU0
Wed Jul 7 14:21:29.693 UTC
Interface IP-Address Status Protocol Vrf-Name
TenGigE0/7/0/0 unassigned Down Down default
TenGigE0/7/0/1 unassigned Down Down default
TenGigE0/7/0/2 unassigned Down Down default
TenGigE0/7/0/3 unassigned Down Down default
TenGigE0/7/0/4 unassigned Down Down default
TenGigE0/7/0/5 unassigned Down Down default
TenGigE0/7/0/6 unassigned Down Down default
TenGigE0/7/0/7 unassigned Shutdown Down default
TenGigE0/7/0/8 unassigned Shutdown Down default
TenGigE0/7/0/9 unassigned Shutdown Down default
TenGigE0/7/0/10 unassigned Down Down default
TenGigE0/7/0/11 unassigned Down Down default
TenGigE0/7/0/12 unassigned Down Down default
TenGigE0/7/0/13 unassigned Shutdown Down default
TenGigE0/7/0/14 unassigned Shutdown Down default
TenGigE0/7/0/15 unassigned Shutdown Down default
TenGigE0/7/0/16 unassigned Shutdown Down default
TenGigE0/7/0/17 unassigned Shutdown Down default
TenGigE0/7/0/18 unassigned Down Down default
TenGigE0/7/0/19 unassigned Up Up default >>>>>>> Port is UP
RP/0/RP0/CPU0:ASR-9922-A#sh logging last 200 | in 0/7/0
Wed Jul 7 14:22:35.715 UTC
RP/0/RP0/CPU0:ASR-9922-A#
Test case 1.2:
Comportamento NP/Porte con fault-manager datapath port toggle
comando:
RP/0/RP0/CPU0:ASR-9922-A#sh run formal | in data
Wed Jul 7 14:52:11.714 UTC
Building configuration...
fault-manager datapath port toggle
RP/0/RP0/CPU0:ASR-9922-A#
Nessun allarme in PFM:
RP/0/RP0/CPU0:ASR-9922-A#sh pfm location 0/Rp0/CPU0
Wed Jul 7 14:55:13.410 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 14:55:13 2021
PFM TOTAL: 1 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 0
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Jul 1 10:13:45 2021|0 |SPINE_UNAVAILABLE |E/A|5082 |Fabric Manager|0x1034000
RP/0/RP0/CPU0:ASR-9922-A#
Generazione errore PUNT in NP0 LC7:
RP/0/RP0/CPU0:ASR-9922-A#monitor np counter PUNT_DIAGS_RSP_ACT np0 count 20 location 0/7/CPU0
Wed Jul 7 14:51:18.596 UTC
Usage of NP monitor is recommended for cisco internal use only.
Please use instead 'show controllers np capture' for troubleshooting packet drops in NP
and 'monitor np interface' for per (sub)interface counter monitoring
Warning: Every packet captured will be dropped! If you use the 'count'
option to capture multiple protocol packets, this could disrupt
protocol sessions (eg, OSPF session flap). So if capturing protocol
packets, capture only 1 at a time.
Warning: A mandatory NP reset will be done after monitor to clean up.
This will cause ~150ms traffic outage. Links will stay Up.
Proceed y/n [y] > y
Monitor PUNT_DIAGS_RSP_ACT on NP0 ... (Ctrl-C to quit)
Wed Jul 7 14:53:21 2021 -- NP0 packet
From Fabric: 127 byte packet
0000: 00 09 00 00 d8 22 00 00 ff ff ff ff 00 00 ff ff ....X"..........
0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa ....ppppLLLL****
0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00 UUUU............
0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff ................
0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55 ppppLLLL****UUUU
0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 ................
0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 ............pppp
0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 LLLL****UUUU...
(count 1 of 20)
Wed Jul 7 14:54:22 2021 -- NP0 packet
From Fabric: 256 byte packet
0000: 00 09 00 00 d9 22 00 00 ff ff ff ff 00 00 ff ff ....Y"..........
0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa ....ppppLLLL****
0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00 UUUU............
0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff ................
0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55 ppppLLLL****UUUU
0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 ................
0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 ............pppp
0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 00 LLLL****UUUU....
0080: 01 00 00 00 00 00 00 00 00 00 00 00 ff ff ff ff ................
0090: 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc ........ppppLLLL
00a0: aa aa aa aa 55 55 55 55 00 00 00 00 01 00 00 00 ****UUUU........
00b0: 00 00 00 00 00 00 00 00 ff ff ff ff 00 00 ff ff ................
00c0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00d0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00e0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00f0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
(count 2 of 20)
RP/0/RP0/CPU0:ASR-9922-A#sh pfm location 0/Rp0/CPU0
Wed Jul 7 14:56:24.459 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 14:56:24 2021
PFM TOTAL: 2 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 1
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Jul 1 10:13:45 2021|0 |SPINE_UNAVAILABLE |E/A|5082 |Fabric Manager|0x1034000
Jul 7 14:55:23 2021|0 |PUNT_FABRIC_DATA_PATH_FAILED |ER |9429 |System Punt/Fa|0x2000004
RP/0/RP0/CPU0:ASR-9922-A#sh pfm process 9429 location 0/RP0/CPU0
Wed Jul 7 14:56:39.961 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 14:56:40 2021
PFM TOTAL: 2 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 1
PER PROCESS TOTAL: 0 EM: 0 CR: 0 ER: 0
Device/Path[1 ]:Fabric loopbac [0x2000003 ] State:RDY Tot: 0
Device/Path[2 ]:System Punt/Fa [0x2000004 ] State:RDY Tot: 1
1 Fault Id: 432
Sev: ER
Fault Name: PUNT_FABRIC_DATA_PATH_FAILED
Raised Timestamp: Jul 7 14:55:23 2021
Clear Timestamp: N/A
Changed Timestamp: N/A
Resync Mismatch: FALSE
MSG: failure threshold is 3, (slot, NP) failed: (0/7/CPU0, 0)
Device/Path[3 ]:Crossbar Switc [0x108c000 ] State:RDY Tot: 0
Device/Path[4 ]:Crossbar Switc [0x108c001 ] State:RDY Tot: 0
Device/Path[5 ]:Crossbar Switc [0x108c002 ] State:RDY Tot: 0
Device/Path[6 ]:Crossbar Switc [0x108c003 ] State:RDY Tot: 0
Device/Path[7 ]:Crossbar Switc [0x108c004 ] State:RDY Tot: 0
Device/Path[8 ]:Crossbar Switc [0x108c005 ] State:RDY Tot: 0
Device/Path[9 ]:Crossbar Switc [0x108c006 ] State:RDY Tot: 0
Device/Path[10]:Crossbar Switc [0x108c007 ] State:RDY Tot: 0
Device/Path[11]:Crossbar Switc [0x108c008 ] State:RDY Tot: 0
Device/Path[12]:Crossbar Switc [0x108c009 ] State:RDY Tot: 0
Device/Path[13]:Crossbar Switc [0x108c00a ] State:RDY Tot: 0
Device/Path[14]:Crossbar Switc [0x108c00b ] State:RDY Tot: 0
Device/Path[15]:Crossbar Switc [0x108c00c ] State:RDY Tot: 0
Device/Path[16]:Crossbar Switc [0x108c00d ] State:RDY Tot: 0
Device/Path[17]:Crossbar Switc [0x108c00e ] State:RDY Tot: 0
Device/Path[18]:Fabric Interfa [0x108b000 ] State:RDY Tot: 0
Device/Path[19]:Fabric Arbiter [0x1086000 ] State:RDY Tot: 0
Device/Path[20]:CPU Controller [0x108d000 ] State:RDY Tot: 0
Device/Path[21]:Device Control [0x109a000 ] State:RDY Tot: 0
Device/Path[22]:ClkCtrl Contro [0x109b000 ] State:RDY Tot: 0
Device/Path[23]:NVRAM [0x10ba000 ] State:RDY Tot: 0
Device/Path[24]:Hooper switch [0x1097000 ] State:RDY Tot: 0
Device/Path[25]:Hooper switch [0x1097001 ] State:RDY Tot: 0
Device/Path[26]:Hooper switch [0x1097002 ] State:RDY Tot: 0
Device/Path[27]:Hooper switch [0x1097003 ] State:RDY Tot: 0
Interfaccia TenGigE0/7/0/19 scesa da NP0:
RP/0/RP0/CPU0:ASR-9922-A#show logging last 200 | in 0/7/0
Wed Jul 7 14:58:42.959 UTC
LC/0/7/CPU0:Jul 7 14:55:23.798 UTC: ifmgr[270]: %PKT_INFRA-LINK-3-UPDOWN :
Interface TenGigE0/7/0/19, changed state to Down
LC/0/7/CPU0:Jul 7 14:55:23.798 UTC: ifmgr[270]: %PKT_INFRA-LINEPROTO-5-UPDOWN :
Line protocol on Interface TenGigE0/7/0/19, changed state to Down
RP/0/RP0/CPU0:Jul 7 14:55:23.802 UTC: BM-DISTRIB[1290]: %L2-BM-6-ACTIVE :
TenGigE0/7/0/19 is no longer Active as part of Bundle-Ether854 (Link is down)
LC/0/7/CPU0:Jul 7 14:55:25.854 UTC: vic_0_0[379]: %PLATFORM-VIC-4-RFI :
Interface TenGigE0/7/0/19, Detected Remote Fault
LC/0/7/CPU0:Jul 7 14:55:26.936 UTC: lda_server[114]: %PKT_INFRA-FM-2-FAULT_CRITICAL :
ALARM_CRITICAL :OPTICS RX POWER LANE-0 LOW ALARM :CLEAR : Te0/7/0/0:
Generazione errore PUNT interrotta:
RP/0/RP0/CPU0:ASR-9922-A#sh ipv4 int brief location 0/7/CPU0
Wed Jul 7 14:59:16.322 UTC
Interface IP-Address Status Protocol Vrf-Name
TenGigE0/7/0/0 unassigned Down Down default
TenGigE0/7/0/1 unassigned Down Down default
TenGigE0/7/0/2 unassigned Down Down default
TenGigE0/7/0/3 unassigned Down Down default
TenGigE0/7/0/4 unassigned Down Down default
TenGigE0/7/0/5 unassigned Down Down default
TenGigE0/7/0/6 unassigned Down Down default
TenGigE0/7/0/7 unassigned Shutdown Down default
TenGigE0/7/0/8 unassigned Shutdown Down default
TenGigE0/7/0/9 unassigned Shutdown Down default
TenGigE0/7/0/10 unassigned Down Down default
TenGigE0/7/0/11 unassigned Down Down default
TenGigE0/7/0/12 unassigned Down Down default
TenGigE0/7/0/13 unassigned Shutdown Down default
TenGigE0/7/0/14 unassigned Shutdown Down default
TenGigE0/7/0/15 unassigned Shutdown Down default
TenGigE0/7/0/16 unassigned Shutdown Down default
TenGigE0/7/0/17 unassigned Shutdown Down default
TenGigE0/7/0/18 unassigned Down Down default
TenGigE0/7/0/19 unassigned Down Down default >>>>>>
Allarme interrotto:
RP/0/RP0/CPU0:ASR-9922-A#sh pfm location 0/Rp0/CPU0
Wed Jul 7 15:01:44.478 UTC
node: node0_RP0_CPU0
---------------------
CURRENT TIME: Jul 7 15:01:44 2021
PFM TOTAL: 1 EMERGENCY/ALERT(E/A): 1 CRITICAL(CR): 0 ERROR(ER): 0
-------------------------------------------------------------------------------------------------
Raised Time |S#|Fault Name |Sev|Proc_ID|Dev/Path Name |Handle
--------------------+--+-----------------------------------+---+-------+--------------+----------
Jul 1 10:13:45 2021|0 |SPINE_UNAVAILABLE |E/A|5082 |Fabric Manager|0x1034000
RP/0/RP0/CPU0:ASR-9922-A#
Interfaccia visualizzata:
RP/0/RP0/CPU0:ASR-9922-A#show logging | in 0/7/0/19
Wed Jul 7 15:06:11.532 UTC
LC/0/7/CPU0:Jul 7 14:55:23.798 UTC: ifmgr[270]: %PKT_INFRA-LINK-3-UPDOWN :
Interface TenGigE0/7/0/19, changed state to Down
LC/0/7/CPU0:Jul 7 14:55:23.798 UTC: ifmgr[270]: %PKT_INFRA-LINEPROTO-5-UPDOWN :
Line protocol on Interface TenGigE0/7/0/19, changed state to Down
RP/0/RP0/CPU0:Jul 7 14:55:23.802 UTC: BM-DISTRIB[1290]: %L2-BM-6-ACTIVE :
TenGigE0/7/0/19 is no longer Active as part of Bundle-Ether854 (Link is down)
LC/0/7/CPU0:Jul 7 14:55:25.854 UTC: vic_0_0[379]: %PLATFORM-VIC-4-RFI :
Interface TenGigE0/7/0/19, Detected Remote Fault
LC/0/7/CPU0:Jul 7 15:03:27.204 UTC: ifmgr[270]: %PKT_INFRA-LINK-3-UPDOWN :
Interface TenGigE0/7/0/19, changed state to Up
LC/0/7/CPU0:Jul 7 15:03:27.206 UTC: ifmgr[270]: %PKT_INFRA-LINEPROTO-5-UPDOWN :
Line protocol on Interface TenGigE0/7/0/19, changed state to Up
RP/0/RP0/CPU0:Jul 7 15:03:29.219 UTC: BM-DISTRIB[1290]: %L2-BM-6-ACTIVE :
TenGigE0/7/0/19 is Active as part of Bundle-Ether854
Revisione | Data di pubblicazione | Commenti |
---|---|---|
1.0 |
09-Jan-2023 |
Versione iniziale |