Solucione problemas de falha de caminho de dados do Punt Fabric no Tomahawk e no Lightspeed Card

Opções de download

PDF (3.8 MB)
Ver no Adobe Reader em vários dispositivos

Atualizado:9 de janeiro de 2023

ID do documento:220131

Linguagem imparcial

O conjunto de documentação deste produto faz o possível para usar uma linguagem imparcial. Para os fins deste conjunto de documentação, a imparcialidade é definida como uma linguagem que não implica em discriminação baseada em idade, deficiência, gênero, identidade racial, identidade étnica, orientação sexual, status socioeconômico e interseccionalidade. Pode haver exceções na documentação devido à linguagem codificada nas interfaces de usuário do software do produto, linguagem usada com base na documentação de RFP ou linguagem usada por um produto de terceiros referenciado. Saiba mais sobre como a Cisco está usando a linguagem inclusiva.

Sobre esta tradução

A Cisco traduziu este documento com a ajuda de tecnologias de tradução automática e humana para oferecer conteúdo de suporte aos seus usuários no seu próprio idioma, independentemente da localização. Observe que mesmo a melhor tradução automática não será tão precisa quanto as realizadas por um tradutor profissional. A Cisco Systems, Inc. não se responsabiliza pela precisão destas traduções e recomenda que o documento original em inglês (link fornecido) seja sempre consultado.

Introdução

Informações de Apoio

Caminho do Pacote de Diagnóstico de Estrutura Punt

Arquitetura de LCs de alto nível

Tomahawk LC

Arquitetura 8x100G

Arquitetura 12 x 100G

LC Lightspeed

A9K-20HG-FLEX-SE/TR

A99-32x100GE-X-SE/TR

A9K-8HG-FLEX-SE/TR

Filas de saída virtuais e o Arbiter

Visão geral da fila de saída virtual

Diagrama do Fabric Arbiter

Interconexões em malha

Interconexões de estrutura de switch ASR9006 e ASR9010

Interconexões de estrutura de switch ASR9922

Backplane ASR9922 e ASR9912

Visão geral do Online Diagnostics

Faça a triagem do problema

Informações necessárias para iniciar a triagem

Teste de diagnóstico

Triagem de estrutura

Triagem de Falhas do Árbitro

Triagem de falhas NP

Coleta de log geral para Tomahawk, LSQ e LSP

Assinatura e Recomendação de Erro Comum

Defeitos conhecidos

Comportamento do comando fault-manager datapath port shutdown/toggle

Introdução

Este documento descreve as mensagens de falha de caminho de dados de estrutura de punt vistas durante a operação do Cisco Aggregation Services Router (ASR) 9000 Series.

Informações de Apoio

A mensagem aparece neste formato:

Os alarmes são vistos no console do roteador, conforme mostrado aqui.
Isso significa que o caminho de loopback dessas mensagens foi interrompido em algum lugar.

RP/0/RP0/CPU0:Oct 28 12:46:58.459 IST: pfm_node_rp[349]: %PLATFORM-DIAGS-3-PUNT_FABRIC_DATA_PATH_FAILED :
 Set|online_diag_rsp[24790]|System Punt/Fabric/data Path Test(0x2000004)|failure threshold is 3,
 (slot, NP) failed: (0/9/CPU0, 1) (0/9/CPU0, 3)

O problema ocorre para NP1 e NP3 em 0/9/CPU0 mencionado anteriormente.

Este documento destina-se a qualquer pessoa que queira entender a mensagem de erro e as ações que devem ser tomadas se o problema for visto.

A placa de linha (LC) baseada em Tomahawk está disponível como uma LC otimizada para borda de serviço (QoS aprimorada) ou otimizada para transporte de pacotes (QoS básica).

SE - Borda de serviços otimizada
TR - Transporte de pacotes otimizado

O LC 100 Gigabit Ethernet de 4 e 8 portas está disponível em duas variantes que suportam portas LAN/WAN/OTN PHY CPAK unificadas ou portas LAN PHY CPAK somente.

Estes LCs são baseados em Tomahawk:

A9K-8X100G-LB-SE
A9K-8X100G-LB-TR
A9K-8X100GE-SE
A9K-8X100GE-TR
A9K-4X100GE-SE
A9K-4X100GE-TR
A9K-400G-DWDM-TR
A9K-MOD400-SE
A9K-MOD400-TR
A9K-MOD200-SE
A9K-MOD200-TR
A9K-24X10GE-1G-SE
A9K-24X10GE-1G-TR
A9K-48X10GE-1G-SE
A9K-48X10GE-1G-TR
A99-12X100GE
A99-8X100GE-SE
A99-8X100GE-TR

Note: Os números de peça de LC baseados em Tomahawk que começam com A99-X são compatíveis com os chassis do Cisco ASR 9904, ASR 9906, ASR 9910, ASR 9912 e ASR 9922. Eles não são compatíveis com os roteadores Cisco ASR 9006 e ASR 9010.

LCs baseados em Lightspeed podem estar disponíveis como uma LC otimizada para borda de serviço (QoS aprimorada) ou otimizada para transporte de pacotes (QoS básica). Diferentemente das LCs baseadas em Tomahawk, nem todo modelo de LC está disponível nos tipos -SE e -TR.

SE - Borda de serviços otimizada
TR - Transporte de pacotes otimizado

Estes LCs são baseados em Lightspeed:

A9K-16X100GE-TR
A99-16X100GE-X-SE
A99-32X100GE-TR

As LCs baseadas em Lightspeed-Plus (LSP) estão disponíveis como uma LC otimizada para borda de serviço (QoS aprimorada) ou otimizada para transporte de pacotes (QoS básica).

Esses LCs são baseados em LSP:

A9K-4HG-FLEX-TR
A9K-4HG-FLEX-SE
A99-4HG-FLEX-TR
A99-4HG-FLEX-SE
A9K-8HG-FLEX-TR
A9K-8HG-FLEX-SE
A9K-20HG-FLEX-TR
A9K-20HG-FLEX-SE
A99-32X100GE-X-TR
A99-32X100GE-X-SE
A99-10X400GE-X-TR
A99-10X400GE-X-SE

Caminho do Pacote de Diagnóstico de Estrutura Punt

O aplicativo de diagnóstico que é executado na CPU da placa do processador de rotas injeta periodicamente pacotes de diagnóstico destinados a cada processador de rede (NP).
O pacote de diagnóstico tem loopback dentro do NP e é injetado novamente em direção à CPU da placa do processador de rotas que originou o pacote.
Essa verificação periódica da integridade de cada NP com um pacote exclusivo por NP pelo aplicativo de diagnóstico na placa do processador de rotas fornece um alerta para quaisquer erros funcionais no caminho de dados durante a operação do roteador.
É essencial observar que a aplicação de diagnóstico no processador de rota ativo e no processador de rota em standby injeta um pacote por NP periodicamente e mantém uma contagem de êxito ou falha por NP.
A cada minuto, um pacote de diagnóstico é enviado para NP, (para cada Virtual Queues Interface (VQI) quatro vezes (total de quatro minutos/VQI) e é executado em todos os VQIs desse NP). Para resumir isso, aqui está um exemplo:

Considere que o LC tem quatro NPs, os diagnósticos on-line têm que exercitar todos os NPs (para saber se eles são saudáveis - caminhos de estrutura). Agora, cada NP pode ter 20 VQIs cada (0-19, 20-39, 40-59, 60-79).

No primeiro minuto, o diagnóstico on-line envia um pacote para cada NP.

1 min : against VQI 0, 20, 40, 60 (to all 4 NPs)

2 min:""""""""

3 min: """""""

4 min : """""




5th min : against VQI 1, 21, 41, 61..

6 min : """"""""

Isso se repete em um ciclo quando todas as VQI terminarem.

Quando um limite de pacotes de diagnóstico descartados é atingido, o aplicativo aciona um alarme no Platform Fault Manager (PFM).

RP/0/RP1/CPU0:AG2-2#show pfm location 0/RP1/CPU0
node: node0_RP0_CPU0
---------------------

CURRENT TIME: Apr  7 01:04:04 2022PFM TOTAL: 1   EMERGENCY/ALERT(E/A): 0   CRITICAL(CR): 0   ERROR(ER): 1

-------------------------------------------------------------------------------------------------

Raised Time         |S#|Fault Name                         |Sev|Proc_ID|Dev/Path Name |Handle

--------------------+--+-----------------------------------+---+-------+--------------+----------

Apr  7 00:54:52 2022|0 |PUNT_FABRIC_DATA_PATH_FAILED       |ER |10042 >>ID |System Punt/Fa|0x2000004

Para coletar todas as informações sobre alarmes PFM, capture esta saída de comando:

show pfm location all

show pfm trace location all

Se quiser ver mais informações sobre alarmes acionados por um processo específico, você pode usar este comando:

show pfm process name <process_name> location <location> >>> location where the PFM alarm is observed

Arquitetura de LCs de alto nível

Tomahawk LC

Arquitetura 8x100G

Tomahawk - 8x100G LC architecture Tomahawk - 8x100G LC

Arquitetura 12 x 100G

Tomahawk 12*100G LC architecture Tomahawk 12*100G LC

LC Lightspeed

A9K-20HG-FLEX-SE/TR

A9K-20HG-FLEX-SE/TR architecture A9K-20HG-FLEX-SE/TR

A99-32x100GE-X-SE/TR

A99-32x100GE-X-SE/TR architecture A99-32x100GE-X-SE/TR

A9K-8HG-FLEX-SE/TR

A9K-8HG-FLEX-SE/TR LC architecture - 9922, 9912, 9910 and 9906 Arquitetura LC

A9K-8HG-FLEX-SE/TR LC architecture - 9010 and 9006 Arquitetura LC

Filas de saída virtuais e o Arbiter

Cada Route Switch Processor/Switch Processor (RSP/RP) tem dois chips de estrutura que são controlados por um intermediário comum (RSPs/RPs duplos significam árbitros resilientes por chassi). Somente o intermediário no RSP/RP ativo controla todos os quatro chips de estrutura (assumindo RSPs duplos). No entanto, ambos os árbitros estão recebendo as solicitações de acesso à estrutura para saber o estado de todo o sistema em um determinado momento, de modo que o failover entre RSPs/RPs possa ser instantâneo. Não há keepalive entre os árbitros, mas os RSPs/RPs têm um ASIC de dispositivo lógico programável complexo (CPLD) (semelhante a um FPGA) e uma de suas funções é rastrear o outro estado RSP/RP através de keepalives de baixo nível e estabelecer qual é o árbitro ativo.

Cada ASIC de interconexão de estrutura tem um conjunto de VQIs, que é um conjunto de filas que representam uma entidade 100G no sistema (para Tomahawk). Cada entidade de 100G (portas 1x100G em um único NP de saída são representadas com um único VQI de 100G em um NP de entrada) tem várias classes de prioridade.

Cada VQI tem um conjunto de quatro Virtual Output Queues (VOQs), para prioridades de pacotes diferentes, das quais três são usadas na arquitetura de encaminhamento do ASR 9000. Eles correspondem aos níveis de prioridade 1 e 2 e ao padrão na política de QoS de entrada. Há duas filas de prioridade estrita e uma fila normal (a quarta fila é para multicast e não é usada para encaminhamento unicast).

Geralmente, a fila padrão começa a descartar os pacotes primeiro durante a pressão contrária dos NP VQIs de saída. Somente quando a unidade de processamento de rede (NPU) de saída está ficando sobrecarregada (servindo mais Bps ou PPS do que os circuitos podem suportar), ela começa a exercer pressão de retorno sobre a LC/NP de entrada. Isso é representado por uma paralisação de fluxo de VQI no ASIC de interface de estrutura (FIA) nesse LC de ingresso.

Exemplo:

RP/0/RP0/CPU0:AG3_1#show controllers np ports all location 0/0/CPU0  >>> LC0 is installed in slot 2

                Node: 0/0/CPU0:

----------------------------------------------------------------

NP Bridge Fia                       Ports                      

-- ------ --- --------------------------------------------------- 

0  --     0   TenGigE0/0/0/0/0 - TenGigE0/0/0/0/9, TenGigE0/0/0/1/0 - TenGigE0/0/0/1/9 

1  --     1   TenGigE0/0/0/2/0 - TenGigE0/0/0/2/9, HundredGigE0/0/0/3 

2  --     2   HundredGigE0/0/0/4 - HundredGigE0/0/0/5  >>>Below is the VQI assignment

3  --     3   HundredGigE0/0/0/6 - HundredGigE0/0/0/7 

RP/0/RP0/CPU0:AG3_1#sh controller fabric vqi assignment slot 2      

 slot = 2


    
     
     
 
     
fia_inst = 2 >>>FIA 2 
     
 
     
 VQI = 40       SPEED_100G 
     
 
     
 VQI = 41       SPEED_100G 
     
 
     
 VQI = 42       SPEED_100G 
     
 
     
 VQI = 43       SPEED_100G 
     
 
     
 VQI = 44       SPEED_100G 
     
 
     
 VQI = 45       SPEED_100G 
     
 
     
 VQI = 46       SPEED_100G 
     
 
     
 VQI = 47       SPEED_100G 
     
 
     
 VQI = 56       SPEED_100G 
     
 
     
 VQI = 57       SPEED_100G 
     
 
     
 VQI = 58       SPEED_100G 
     
 
     
 VQI = 59       SPEED_100G 
     
 
     
 VQI = 60       SPEED_100G 
     
 
     
 VQI = 61       SPEED_100G 
     
 
     
 VQI = 62       SPEED_100G 
     
 
     
 VQI = 63       SPEED_100G

Quando o LC de entrada decide que deseja enviar um determinado pacote para um determinado NPU de saída, o estágio de modificação (MDF) no LC de entrada encapsulou um pacote com um cabeçalho de destino de estrutura. Quando o FIA observa esse "endereço", ele verifica o VOQ para o NPU/destino/LC de saída específico e verifica se há largura de banda suficiente disponível. Quando estiver pronto para desenfileirá-lo para esse LC, o FIA de entrada solicitará uma concessão da estrutura (o intermediário) para esse LC de destino. O algoritmo de arbitragem reconhece a QOS, ele garante que os pacotes da classe P1 tenham preferência sobre a classe P2 e assim por diante. O intermediário retransmite a solicitação de concessão do FIA de entrada para o FIA de saída.

O FIA de entrada pode agrupar vários pacotes juntos indo para o mesmo LC de saída no que é chamado de superquadro. Isso significa que não são os quadros/pacotes nativos que passam pelos links da matriz de comutação, mas superquadros. Isso é importante observar porque, em um teste de uma constante de 100 pps, a CLI pode mostrar os contadores de estrutura que relatam apenas 50 pps. Isso não é perda de pacotes, significa apenas que há dois pacotes em cada superquadro transmitindo pela matriz de comutação. Os superquadros incluem informações de sequenciamento e os FIAs de destino suportam a reordenação (os pacotes podem ser "pulverizados" em vários links de estrutura). Somente pacotes unicast são colocados em superquadros, nunca pacotes multicast.

Quando o pacote é recebido pelo LC de saída, a concessão é devolvida ao intermediário. O intermediário tem um número finito de tokens por VOQ. Quando o intermediário permite que o FIA de entrada envie um (super) quadro para um VOQ específico, esse token é retornado para o pool somente quando o FIA de saída entrega os quadros ao NP de saída. Se o NP de saída tiver elevado um sinal de pressão contrária para o FIA de saída, o token permanecerá ocupado. É assim que o intermediário acaba com os tokens para o VOQ no FIA de entrada. Quando isso acontece, o FIA de entrada começa a descartar os pacotes de entrada. O disparador para a contrapressão é o nível de utilização dos buffers do descritor de quadro de recepção (RFD) em um NP de saída. Os buffers de RFD mantêm os pacotes enquanto o microcódigo NP os processa. Quanto mais o processamento do pacote passa, mais tempo ele permanece nos buffers RFD.

O Ingress FIA faz solicitações de estrutura para todos os árbitros de chassi.
O intermediário ativo verifica os tokens de concessão de acesso livre e processa seu algoritmo de QoS se houver congestionamento.
Mecanismo de crédito do intermediário local para o intermediário ativo no RSP.
O intermediário ativo envia o token de concessão de malha para o FIA de entrada.
Balanceamento de carga (super)quadros FIA de entrada sobre links de estrutura.
O FIA de saída retorna um token de estrutura para o intermediário central.

Melhor mencionar, o mecanismo de crédito do árbitro local para o árbitro ativo em RSP. Adicione também outra seção para cobrir possíveis casos de falhas do intermediário (não é necessário mencionar códigos de erro, mas para ter uma visão dos erros ASIC do intermediário) para examinar no caso de qualquer problema do intermediário e não obter concessões por causa do intermediário local ou central e que causa o acúmulo de fila.

Visão geral da fila de saída virtual

Virtual output queue Fila de saída virtual

Pacotes indo para NPs de saída diferentes são colocados em conjuntos VOQ diferentes. O congestionamento em um NP não bloqueia o pacote que vai para diferentes NPs.

Diagrama do Fabric Arbiter

Fabric arbiter diagram Árbitro de malha

Interconexões em malha

Interconexões de estrutura de switch ASR9006 e ASR9010

ASR9006 and ASR9010 switch fabric interconnects Interconexões de estrutura de switch ASR9006 e ASR9010

Interconexões de estrutura de switch ASR9922

O ASR9912 é o mesmo com suporte para apenas 10 LCs e um único chip de interconexão de estrutura.

ASR9922 switch fabric interconnects Interconexões de estrutura de switch ASR9922

Backplane ASR9922 e ASR9912

ASR9922 and ASR9912 backplane Backplane ASR9922 e ASR9912

Visão geral do Online Diagnostics

A ferramenta de diagnóstico on-line é executada no LC e no RP CPU.
- Os testes de diagnóstico que testam o caminho de encaminhamento são:
  - Teste PuntFabricDataPath em execução na CPU RP ativa e em espera, enviando pacotes de diagnóstico para cada NP ativo no sistema. Envios RP ativos.
  - Pacotes de diagnóstico PuntFabricDataPath como unicast, enquanto standby os envia como multicast. Os pacotes de resposta são enviados de volta à CPU RP de origem.

NP Loopback test within LC.
- Teste NPULoopback em execução em cada CPU LC, enviando pacotes de diagnóstico para cada NP. Os pacotes de resposta são enviados de volta à CPU da LC.

Faça a triagem do problema

As etapas aqui fornecem algumas dicas sobre como restringir os problemas relacionados à falha do caminho de punt. Elas não precisam ser seguidas na mesma ordem.

Informações necessárias para iniciar a triagem

Localize o NP e o LC afetados:

show logging | inc “PUNT_FABRIC_DATA_PATH”

RP/0/RP1/CPU0:Oct 28 12:46:58.459 IST: pfm_node_rp[349]: %PLATFORM-DIAGS-3-PUNT_FABRIC_DATA_PATH_FAILED :
 Set|online_diag_rsp[24790]|System Punt/Fabric/data Path Test(0x2000004)|failure threshold is 3, (slot, NP)
 failed: (0/9/CPU0, 1) (0/9/CPU0, 3)

O problema ocorre para NP1 e NP3 em 0/9/CPU0 mencionado anteriormente.

Para localizar o slot do chassi, insira o run nslot all comando.
alarme de PFM

RP/0/RP1/CPU0:AG2-2#show pfm location 0/RP1/CPU0
node: node0_RP1_CPU0

---------------------

CURRENT TIME: Mar 25 12:11:29 2022

PFM TOTAL: 1   EMERGENCY/ALERT(E/A): 0   CRITICAL(CR): 0   ERROR(ER): 1  

-------------------------------------------------------------------------------------------------

Raised Time         |S#|Fault Name                         |Sev|Proc_ID|Dev/Path Name |Handle    

--------------------+--+-----------------------------------+---+-------+--------------+----------

Mar 25 12:03:30 2022|1 |PUNT_FABRIC_DATA_PATH_FAILED       |ER |8947   |System Punt/Fa|0x2000004 

RP/0/RP1/CPU0:AG2-2#sh pfm process 8947 location 0/rp1/CPU0

node: node0_RP1_CPU0

---------------------

CURRENT TIME: Mar 25 12:12:36 2022

PFM TOTAL: 1   EMERGENCY/ALERT(E/A): 0   CRITICAL(CR): 0   ERROR(ER): 1  

PER PROCESS TOTAL: 0   EM: 0   CR: 0   ER: 0   

Device/Path[1 ]:Fabric loopbac  [0x2000003 ] State:RDY  Tot: 0  

Device/Path[2 ]:System Punt/Fa  [0x2000004 ] State:RDY  Tot: 1  

1   Fault Id:          432

    Sev:               ER

    Fault Name:        PUNT_FABRIC_DATA_PATH_FAILED

    Raised Timestamp:  Mar 25 12:03:30 2022

    Clear Timestamp:   Mar 25 12:07:32 2022

    Changed Timestamp: Mar 25 12:07:32 2022

    Resync Mismatch:   FALSE

    MSG:               failure threshold is 3, (slot, NP) failed: (0/9/CPU0, 1) (0/9/CPU0, 3)

Diagrama de Fluxo do Pacote de Diagnóstico

Diagnostics packet flow diagram

O DIAG envia o caminho do pacote entre RP e LC (o intervalo do pacote de diagnóstico é de um minuto).

Caminho do pacote no RP:

online_diags <===> SPP <===> Fabric <===> NP

Caminho do pacote no LC:

online_diags <===> SPP <===> Punt-switch <====> NP

NP Loopback test within LC

A cada minuto, um pacote DIAGS por NP é injetado da CPU da LC para o Punt Switch, e todos têm loopback nos NPs. Eles NÃO vão para a malha de forma alguma. O ponto de retorno ou a marca de meio caminho é o microcódigo de cada NP.

Caminho de envio de diagnóstico: LC  : Online Diagnostics > Inject > LC-NP > (loop)
Caminho de retorno de diagnóstico: LC-NP > Punt > diagnósticos online: LC

Teste de diagnóstico

RP/0/RP0/CPU0:AG2-2(admin)#show diagnostic content location <> >>> (in cXR)

RP/0/RP0/CPU0:AG2-2#show diagnostic content location <> >>> (in eXR)
A9K-8X100GE-L-SE 0/0/CPU0:

  Diagnostics test suite attributes:

    M/C/* - Minimal bootup level test / Complete bootup level test / NA

    B/O/* - Basic ondemand test / not Ondemand test / NA

    P/V/* - Per port test / Per device test / NA

    D/N/* - Disruptive test / Non-disruptive test / NA

      S/* - Only applicable to standby unit / NA

      X/* - Not a health monitoring test / NA

      F/* - Fixed monitoring interval test / NA

      E/* - Always enabled monitoring test / NA

      A/I - Monitoring is active / Monitoring is inactive

      n/a -  Not applicable




                                                         Test Interval    Thre- Timeout

  ID   Test Name                          Attributes     (day hh:mm:ss.ms shold ms   )

  ==== ================================== ============ ================= =====  =====

    1) CPUCtrlScratchRegister ----------> *B*N****A       000 00:01:00.000 3 n/a

    2) DBCtrlScratchRegister -----------> *B*N****A       000 00:01:00.000 3 n/a

    3) PortCtrlScratchRegister ---------> *B*N****A       000 00:01:00.000 3 n/a

    4) PHYScratchRegister --------------> *B*N****A       000 00:01:00.000 3 n/a

    5) NPULoopback ---------------------> *B*N****A       000 00:01:00.000 3 n/a

RP/0/RP0/CPU0:AG2-2#show diagnostic result location 0/0/CPU0 
A9K-8X100GE-L-SE 0/0/CPU0:
  Overall diagnostic result: PASS

  Diagnostic level at card bootup: bypass

  Test results: (. = Pass, F = Fail, U = Untested)

  1  ) CPUCtrlScratchRegister ----------> .

  2  ) DBCtrlScratchRegister -----------> .

  3  ) PortCtrlScratchRegister ---------> .

  4  ) PHYScratchRegister --------------> .

  5  ) NPULoopback ---------------------> .

Você pode testar esse parâmetro "injetar pacotes de diagnóstico" manualmente em detalhes, conforme mencionado neste exemplo:

admin diag start location 0/x/cpu0 test NPULoopback (cXR)


RP/0/RP0/CPU0:AG3_1#diagnostic start location 0/0/CPU0 test NPULoopback   >>> eXR

Fri May 13 06:53:00.902 EDT

RP/0/RP0/CPU0:AG3_1#show diagnostic res location 0/0/CPU0 test 5 detail >>> Here there are
 multiple test 1-5 (check previous examples) 

Test results: (. = Pass, F = Fail, U = Untested)
___________________________________________________________________________

  5  ) NPULoopback ---------------------> .

          Error code ------------------> 0 (DIAG_SUCCESS)

          Total run count -------------> 67319

          Last test execution time ----> Fri May 13 06:53:01 2022

          First test failure time -----> n/a

          Last test failure time ------> n/a

          Last test pass time ---------> Fri May 13 06:53:01 2022

          Total failure count ---------> 0

          Consecutive failure count ---> 0

  ___________________________________________________________________________

Verifique se NP está recebendo/enviando mensagens DIAG:

RP/0/RSP1/CPU0:AG2-2#show controllers np counters location | inc DIAG| LC_CPU

 108  PARSE_RSP_INJ_DIAGS_CNT               25195          0  >>> total DIAG packets injected by Active+Stdby RP
 904  PUNT_DIAGS_RSP_ACT                    12584          0  >>> Loopbacks to Active RP
 906  PUNT_DIAGS_RSP_STBY                   12611          0  >>> Loopbacks to Stdby R
 122  PARSE_LC_INJ_DIAGS_CNT                2618           0  >>> total DIAG packets injected by LC
 790  DIAGS                                12618           0  >>> total DIAG packets replied back to LC

16  MDF_TX_LC_CPU                     3998218312         937  >>> a packet punted to LC CPU


PARSE_RSP_INJ_DIAGS_CNT should match (PUNT_DIAGS_RSP_ACT + PUNT_DIAGS_RSP_STDBY)
PARSE_LC_INJ_DIAGS_CNT should match DIAGS

PARSE_XX_INJ_DIAGS_CNT should increment periodically.

Verificando se o caminho de pacote de software (SPP) está enviando/recebendo mensagens DIAG:

show spp sid stats location | inc DIAG

2. DIAG                        35430
 2. DIAG                        35430

Eles são contadores DIAG recebidos e enviados. Eles sempre podem corresponder e incrementar juntos no LC.

debug punt-inject l2-packets diag np 0 location 0/9/CPU0

Exemplos de registros: O SPP está enviando e recebendo o pacote de diagnóstico com a sequência de pacotes 0x4e.

LC/0/1/CPU0:Jun 6 04:14:05.581 : spp[89]: Sent DIAG packet. NP:0 Slot:0 Seq:0x4e

LC/0/1/CPU0:Jun 6 04:14:05.584 : spp[89]: Rcvd DIAG packet. NP:0 Slot:0 Seq:0x4e

Verifique se há quedas no caminho do pacote:

show drops all location
show drops all ongoing location

Verificar depurações de diagnósticos online (em cXR):

Os diagnósticos on-line são úteis muitas vezes na verificação dos timestamps quando os pacotes foram enviados/recebidos ou perdidos. Tais timestamps podem ser comparados com capturas SPP para correlação de pacotes.

admin debug diagnostic engineer location
admin debug diagnostic error location

Note: Insira o admin undebug all comando para desabilitar essas depurações.

Exemplos de saída das depurações:

RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: Slot 1 has 4 NPs  >>> Sending DIAG
 messages to NPs on slot 1

RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: PuntFabricDataPath: sending
 a pak (seq 25), destination physical slot 1 (card type 0x3d02aa), NP 0, sfp=0xc6
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: PuntFabricDataPath: sending
 a pak (seq 25), destination physical slot 1 (card type 0x3d02aa), NP 1, sfp=0xde
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: PuntFabricDataPath: sending
 a pak (seq 25), destination physical slot 1 (card type 0x3d02aa), NP 2, sfp=0xf6
RP/0/RSP0/CPU0:Mar 25 05:43:43.384 EST: online_diag_rsp[349]: PuntFabricDataPath: sending
 a pak (seq 25), destination physical slot 1 (card type 0x3d02aa), NP 3, sfp=0x10e

RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
 Time took to receive 22 pkts: 503922888 nsec, timeout value: 500000000 nsec
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
 Received 22 packets, expected 24  => Some replies missed

RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
 Got a packet from physical slot 1, np 0
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: Successfully verified
 a packet, seq. no.: 25
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
 Got a packet from physical slot 1, np 2  <= Replies from NP1 and NP3 missing
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: Successfully verified
 a packet, seq. no.: 25
RP/0/RSP0/CPU0:Mar 25 05:43:43.888 EST: online_diag_rsp[349]: PuntFabricDataPath:
 Got a packet from physical slot 3, np 0

Rastreamento de diagnóstico:

RP/0/RP1/CPU0:AG2-2#show diagnostic trace location 0/rp1/CPU0 

Fri Mar 25 12:16:40.866 IST

1765 wrapping entries (3136 possible, 2048 allocated, 0 filtered, 3503120 total)

Mar 16 02:40:21.641 diags/online/gold_error 0/RP1/CPU0 t7356 Failed to get ack: got 0 responses,
 expected 1

Mar 16 02:40:36.490 diags/online/message 0/RP1/CPU0 t8947 My nodeid 0x120, rack# is 0, slot# 1,
 board type = 0x100327

Mar 16 02:40:36.948 diags/online/message 0/RP1/CPU0 t8947 dev cnt=25, path cnt=3, shm loc for
 dev alarms@0x7fd4f0bec000, path alarms@0x7fd4f0bec01c, path alarm data@0x7fd4f0bec028

Mar 16 02:40:37.022 diags/online/message 0/RP1/CPU0 t8947 Last rpfo time: 1647378637

Mar 24 06:03:27.479 diags/online/error 0/RP1/CPU0 2105# t9057 PuntFabricDataPath test error:
 physical slot 11(LC# 9): expected np mask: 0x0000000f, actual: 0x0000000b, failed: 0x00000004

Mar 24 06:03:27.479 diags/online/error 0/RP1/CPU0 634# t9057 PuntFabricDataPath test failure detected,
 detail in the form of (0-based) (slot, NP: count): (LC9,2: 13)

Triagem de estrutura

Integridade da estrutura (fornece um resumo do status do link, estatísticas, quedas e alarmes):

show controllers fabric health location <>

Integridade da coluna:

show controllers fabric health spine all

Registro de falhas na placa (OBFL) (após o recarregamento, também estará disponível):

admin

sysadmin-vm:0_RP0# show logging onboard fabric location 0/0

Verifique os contadores de estrutura no FIA de LC de entrada:

show controllers fabric fia errors ingress location <>

show controllers fabric fia stats location

Barra cruzada de LC de entrada (não aplicável a Trident e SIP-700):

show controllers fabric crossbar statistics instance [0-1] location <>

Barra cruzada da LC de saída (não aplicável a Trident e SIP-700):

show controllers fabric crossbar statistics instance [0-1] location <>

SAÍDA LC FIA:

show controllers fabric fia errors egress location <>
show controllers fabric fia stats location

Estatísticas da coluna:

show controllers fabric crossbar statistics instance [0-1] spine [0-6]

Verificar quedas de malha:
- FIA de LC de entrada:

show controllers fabric fia drops ingress location <>

SAÍDA LC FIA:

show controllers fabric fia drops egress location <>

Erros de ASIC:
- LSP:

show controllers fabric crossbar asic-errors instance 0 location<>
show asic-errors fia <> all location <>

- Tomahawk:

show asic-errors fia <> all location <>

RP/0/RP0/CPU0:AG3_1#show controllers np fabric-counters all np0 location 0/0/CPU0
                Node: 0/0/CPU0:

----------------------------------------------------------------

Egress fabric-to-bridge interface 2 counters for NP 0

 INTERLAKEN_CNT_TX_BYTES                       0x000073fc 23b6d99b

 INTERLAKEN_CNT_TX_FRM_GOOD                    0x000000ae a79d6612

 INTERLAKEN_CNT_TX_FRM_BAD                     0x00000000 00000000 >>> this is 0 which is good,
 need to check if it is incremented

 -------------------------------------------------------------

Egress fabric-to-bridge interface 3 counters for NP 0

 INTERLAKEN_CNT_TX_BYTES                       0x0004abdd fe02068d

 INTERLAKEN_CNT_TX_FRM_GOOD                    0x000005b8 089aac95

 INTERLAKEN_CNT_TX_FRM_BAD                     0x00000000 00000000

 -------------------------------------------------------------
                Node: 0/0/CPU0:
----------------------------------------------------------------

Ingress fabric-to-bridge interface 2 counters for NP 0

 INTERLAKEN_CNT_RX_BYTES                       0x0004aeb5 a4b9dbbe

 INTERLAKEN_CNT_RX_FRM_GOOD                    0x0000058e b7b91c15

 INTERLAKEN_CNT_RX_FRM_BAD                     0x00000000 00000000

 INTERLAKEN_CNT_RX_BURST_CRC32_ERROR           0x00000000 00000000

 INTERLAKEN_CNT_RX_BURST_CRC24_ERROR           0x00000000 00000000

 INTERLAKEN_CNT_RX_BURST_SIZE_ERROR            0x00000000 00000000

 -------------------------------------------------------------

Ingress fabric-to-bridge interface 3 counters for NP 0

 INTERLAKEN_CNT_RX_BYTES                       0x000094ce b8783f95

 INTERLAKEN_CNT_RX_FRM_GOOD                    0x000000f5 33cf9ed7

 INTERLAKEN_CNT_RX_FRM_BAD                     0x00000000 00000000

 INTERLAKEN_CNT_RX_BURST_CRC32_ERROR           0x00000000 00000000

 INTERLAKEN_CNT_RX_BURST_CRC24_ERROR           0x00000000 00000000

 INTERLAKEN_CNT_RX_BURST_SIZE_ERROR            0x00000000 00000000

Para verificar o status do link do FIA:

show controllers fabric fia link-status location

RP/0/RP0/CPU0:AG3_1#show controllers fabric fia link-status location 0/0/CPU0
 ********** FIA-0 **********

Category: link-0
spaui link-0                       Up >>> FIA to NP link

spaui link-1                       Up >>> FIA to NP link

arb  link-0                       Up >>> Arbitor link

xbar link-0                       Up >>> FIA to XBAR link

xbar link-1                       Up >>> FIA to XBAR link

xbar link-2                       Up >>> FIA to XBAR link

Para verificar o status do link de XBAR:

RP/0/RP0/CPU0:AG3_1#show controllers fabric crossbar link-status instance 0 lo 0/0/CPU0

Mon May  2 04:05:06.161 EDT

PORT    Remote Slot  Remote Inst    Logical ID  Status

======================================================

00      0/0/CPU0            01             2        Up

01      0/FC3               01             0        Up

02      0/FC3               00             0        Up

03      0/FC4               01             0        Up

04      0/FC2               01             0        Up

05      0/FC4               00             0        Up

06      0/FC2               00             0        Up

07      0/FC1               01             0        Up

10      0/FC1               00             0        Up

14      0/FC0               01             0        Up

15      0/FC0               00             0        Up

16      0/0/CPU0            02             0        Up

18      0/0/CPU0            02             2        Up

19      0/0/CPU0            02             1        Up

20      0/0/CPU0            03             2        Up

21      0/0/CPU0            03             1        Up

22      0/0/CPU0            03             0        Up

23      0/0/CPU0            00             2        Up

24      0/0/CPU0            00             1        Up

25      0/0/CPU0            00             0        Up

26      0/0/CPU0            01             0        Up

27      0/0/CPU0            01             1        Up

Se você observar esses registros na placa LSP:

LC/0/3/CPU0:Jul  5 13:05:53.365 IST: fab_xbar[172]: %PLATFORM-CIH-5-ASIC_ERROR_THRESHOLD :
 sfe[1]: An interface-err error has occurred causing  packet drop transient.
 ibbReg17.ibbExceptionHier.ibbReg17.ibbExceptionLeaf0.intIpcFnc0UcDataErr  Threshold has been exceeded

17*2 aqui ajuda a identificar a porta com o show controllers fabric crossbar link-status instance 1 lo 0/3/CPU0 comando:

Coleção de Logs:

show platform
show inventory
show tech fabric
show tech np
show tech ethernet interface
show logging
show pfm location all
show pfm trace location <location id>
show controllers pm vqi location all
show hw-module fpd location all (cxr) / admin show hw-module fpd (exr)
show controllers fti trace <process-name>  location  <Card location>
admin show tech obfl

Cxr:
From Admin:
show logging onboard common location <>
show logging onboard error location <>

Exr:
From sysadmin/calvados:
show logging onboard fabric location <>

Se houver erros de ASIC no FIA:

Para LS:

show controllers asic LS-FIA instance <instance> block <block_name> register-name <register_name> location <>

Para LSP:

show controllers asic LSP-FIA instance <instance> block <block_name> register-name <register_name> location <>

Se o erro relatado for como este:

LC/0/9/CPU0:Mar  1 05:12:25.474 IST: fialc[137]: %PLATFORM-CIH-5-ASIC_ERROR_THRESHOLD : 
fia[3]: A link-err error has occurred causing  performance loss persistent. 
fnc2serdesReg1.fnc2serdesExceptionHier.fnc2serdesReg1.fnc2serdesExceptionLeaf0.
iNTprbsErrTxphyrdydropped6  Threshold has been exceeded

A instância é o número da instância do FIA ASIC. Aqui está "3" block_name é "fnc2serdesReg1" e register_name é "fnc2serdesExceptionLeaf0".

Se houver erros de ASIC no LC/RSP XBAR:

show controllers asic SKB-XBAR instance <instance> block-name <block_name> register-name <register_name> location <>

Se o erro relatado for como este:

LC/0/7/CPU0:Mar  4 06:42:01.241 IST: fab_xbar[213]: %PLATFORM-CIH-5-ASIC_ERROR_THRESHOLD :
 sfe[0]: An interface-err error has occurred causing  packet drop transient.
 ibbReg11.ibbExceptionHier.ibbReg11.ibbExceptionLeaf0.intIpcFnc1UcDataErr  Threshold has been exceeded

A instância é a instância de um número do ASIC SFE/XBAR. Aqui, "0" block_name é "ibbReg11" e register_name é "ibbExceptionLeaf0".

Se erros de ASIC forem reportados no FC XBAR:

show controllers asic FC2-SKB-XBAR instance <instance> block-name <block_name> register-name <register_name> location

Se o erro relatado for como este:

RP/0/RP0/CPU0:Mar  4 06:41:14.398 IST: fab_xbar_sp3[156]: %PLATFORM-CIH-3-ASIC_ERROR_SPECIAL_HANDLE_THRESH :
 fc3xbar[1]: A link-err error has occurred causing  packet drop transient.
 cflReg17.cflExceptionHier.cflReg17.cflExceptionLeaf4.intCflPal1RxAlignErrPktRcvd  Threshold has been exceeded

Em seguida, ASIC é a instância "FC3-SKB-XBAR" é a instância um número do ASIC SFE/XBAR. Aqui está "1", ambos vêm de "fc3xbar[1]" block_name é "cflReg17" e register_name é "cflExceptionLeaf4".

Exemplo:

RP/0/RSP0/CPU0: AG2-10#sh logging | i ASIC

RP/0/RSP0/CPU0:May 11 20:48:57.658 IST: fab_xbar[184]: %PLATFORM-CIH-5-ASIC_ERROR_THRESHOLD :
 sfe[0]: An interface-err error has occurred causing  packet drop transient.
 ibbReg13.ibbExceptionHier.ibbReg13.ibbExceptionLeaf0.intIpcFnc0UcDataErr  Threshold has been exceeded

RP/0/RSP0/CPU0: AG2-10#sh controllers fabric crossbar link-status instance 0 location 0/rsp0/CPU0 

PORT    Remote Slot  Remote Inst    Logical ID  Status

======================================================

04      0/0/CPU0            00             1        Up

06      0/0/CPU0            00             0        Up

08      0/7/CPU0            00             1        Up

10      0/7/CPU0            00             0        Up

24      0/2/CPU0            00             0        Up

26      0/2/CPU0            00             1        Up
 >>> ibbReg13 >> 13*2 = 26 SO IT IS POINTING TO LC2 – IN THIS CASE YOU CAN DO OIR TO RECOVER THE ASIC ERROR

40      0/RSP0/CPU0         00             0        Up

RP/0/RSP0/CPU0: AG2-10#show controllers asic SKB-XBAR instance 0 block-name ibbReg13 register-name ibbExceptionLeaf0 location 0/RSP0/CPU0

address   name                value

0x00050d080  SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int1Stat 0x00000000 (4 bytes)

address   name                value

0x00050d084  SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int1StatRw1s 0x00000000 (4 bytes)

address   name                value

0x00050d088  SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int1Enable 0xfffffffb (4 bytes)

address   name                value

0x00050d08c  SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int1First 0x00000000 (4 bytes)

address   name                value

0x00050d090  SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int2Stat 0x00000c50 (4 bytes)

address   name                value

0x00050d094  SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int2StatRw1s 0x00000c50 (4 bytes)

address   name                value

0x00050d098  SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int2Enable 0x00000000 (4 bytes)

address   name                value

0x00050d09c  SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_int2First 0x00000000 (4 bytes)

address   name                value

0x00050d0a0  SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_haltEnable 0x00000000 (4 bytes)

address   name                value

0x00050d0a4  SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_fault 0x00000000 (4 bytes)

address   name                value

0x00050d0a8  SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_intMulti 0x00000840 (4 bytes)

address   name                value

0x00050d0ac  SkyboltRegisters_ibbReg13_ibbExceptionLeaf0_leaf 0x00000000 (4 bytes)

RP/0/RSP0/CPU0:AG2-10#

Triagem de Falhas do Árbitro

Para verificar o status do link:

RP/0/RSP0/CPU0:AG2-10#sho controllers fabric arbiter link-status location 0/1/$

Port    Remote Slot  Remote Elem    Remote Inst  Status

=======================================================

00      0/1/CPU0            FIA            0        Up

01      0/1/CPU0            FIA            1        Up

24      0/RSP0/CPU0         ARB            0        Up

25      0/RSP1/CPU0         ARB            0        Up

Para verificar a disponibilidade de VQI:

RP/0/RP0/CPU0:AG3_1#sh controllers fabric vqi assignment all

Current mode: Highbandwidth mode - 2K VQIs

Node          Number of VQIs

----------------------------

0/0/CPU0       80 

0/1/CPU0       40 

0/2/CPU0       48 

0/3/CPU0       80 

0/5/CPU0       80 

0/7/CPU0       80 

0/12/CPU0      64 

RP*/RSP*       8  

----------------------------

In Use   =      480

Available =    1568

Verifique a velocidade atribuída à VQI:

RP/0/RP0/CPU0:AG3_1#sh controller fabric vqi assignment slot 7

Thu May 12 07:58:59.897 EDT

 slot = 7

 fia_inst = 0

 VQI = 400      SPEED_100G

 VQI = 401      SPEED_100G

 VQI = 402      SPEED_100G

 VQI = 403      SPEED_100G

 VQI = 404      SPEED_100G

 VQI = 405      SPEED_100G

 VQI = 406      SPEED_100G

slot = 7

 fia_inst = 1

 VQI = 416      SPEED_40G

 VQI = 417      SPEED_40G

 VQI = 418      SPEED_40G

 VQI = 419      SPEED_40G

 VQI = 420      SPEED_100G

Se você observar qualquer queda traseira no FIA, verifique estes passos:

Verificar a profundidade da fila em VQI:

RP/0/RP0/CPU0:AG3_1#show controllers fabric fia q-depth location 0/0/CPU0

Thu May 12 08:00:42.186 EDT

 ********** FIA-0 **********

Category: q_stats_a-0

Voq       ddr            pri            Cellcnt   Slot_FIA_NP   

28        0              2              2         LC0_1_1

 ********** FIA-0 **********

Category: q_stats_b-0

Voq       ddr            pri            Cellcnt   Slot_FIA_NP   

 ********** FIA-1 **********

Category: q_stats_a-1

Voq       ddr            pri            Cellcnt   Slot_FIA_NP   

7         0              2              12342         LC0_0_0
 >>> Here Packet count is high so we need to check for LC0 FIA0 NP0 (egress) is there any congestion
 or any other issue in LC0 FIA0 or NP0 

Here Pri = 2 is the default queue (BE) , Pri = 0 is P1 (Voice, real time) queue, Pri = 1 is P2 

97        0              2                23           LC1_0_0

RP/0/RP0/CPU0:AG3_1#show controllers fabric vqi assignment slot 02

 slot = 2

 fia_inst = 0

 VQI = 0        SPEED_10G

 VQI = 1        SPEED_10G

 VQI = 2        SPEED_10G

 VQI = 3        SPEED_10G

 VQI = 4        SPEED_10G

 VQI = 5        SPEED_10G

 VQI = 6        SPEED_10G

 VQI = 7        SPEED_10G

Detalhes do mapeamento de portas para o VQI:

RP/0/RP0/CPU0:AG3_1#show controllers pm vqi location 0/0/CPU0

Platform-manager VQI Assignment Information

      Interface Name      | ifh Value | VQI | NP#

--------------------------------------------------

         TenGigE0_0_0_0_1 | 0x4000680 |   1 |   0

         TenGigE0_0_0_0_2 | 0x40006c0 |   2 |   0

         TenGigE0_0_0_0_3 | 0x4000700 |   3 |   0

         TenGigE0_0_0_0_4 | 0x4000740 |   4 |   0

         TenGigE0_0_0_0_5 | 0x4000780 |   5 |   0

         TenGigE0_0_0_0_6 | 0x40007c0 |   6 |   0

         TenGigE0_0_0_0_7 | 0x4000800 |   7 |   0

RP/0/RP0/CPU0:AG3_1#show controllers pm interface tenGigE 0/0/0/0/7 

Ifname(1): TenGigE0_0_0_0_7, ifh: 0x4000800 :

iftype             0x1e

egress_uidb_index  0x12, 0x0, 0x0, 0x0

ingress_uidb_index 0x12, 0x0, 0x0, 0x0

port_num           0x0

subslot_num        0x0

ifsubinst          0x0

ifsubinst port     0x7

phy_port_num       0x7

channel_id         0x0

channel_map        0x0

lag_id             0x7e

virtual_port_id    0xa

switch_fabric_port 7     >>> VQI matching for the ports 

in_tm_qid_fid0     0x38001e

in_tm_qid_fid1     0x0

in_qos_drop_base   0xa69400

out_tm_qid_fid0    0x1fe002

out_tm_qid_fid1    0xffffffff

np_port            0xd3

Coleção de logs:

Show tech fabric

Show tech np

show controllers pm trace ?

  async        Platform manager async trace

  creation     Platform manager interface creation/deletion trace

  error        Platform manager error trace

  information  Platform manager information trace

  init         Platform manager init trace

  other        Platform manager common trace

  stats        Platform manager stats trace

Triagem de falhas NP

Verificação de carga NP:

RP/0/RP0/CPU0:AG3_1#show controller np load all location 0/0/CPU0

                Node: 0/0/CPU0:

----------------------------------------------------------------

           Load                Packet Rate

  NP0:  2% utilization         3095766 pps

  NP1:  3% utilization         5335675 pps

  NP2:  0% utilization             498 pps

  NP3:  0% utilization            1117 pps

Mapeamento de portas:

RP/0/RP0/CPU0:AG3_1#show controllers np ports all location 0/0/CPU0 

                Node: 0/0/CPU0:

----------------------------------------------------------------


NP Bridge Fia                       Ports                     

-- ------ --- ---------------------------------------------------

0  --     0   TenGigE0/0/0/0/0 - TenGigE0/0/0/0/9, TenGigE0/0/0/1/0 - TenGigE0/0/0/1/9

1  --     1   TenGigE0/0/0/2/0 - TenGigE0/0/0/2/9, HundredGigE0/0/0/3

2  --     2   HundredGigE0/0/0/4 - HundredGigE0/0/0/5

3  --     3   HundredGigE0/0/0/6 - HundredGigE0/0/0/7

Tomahawk

Observe que este é o modo de administração:

sysadmin-vm:0_RP0# show controller switch statistics location 0/LC0/LC-SW

Thu May  12 12:32:37.160 UTC+00:00

Rack  Card  Switch  Rack Serial Number

--------------------------------------

0     LC0   LC-SW                    
                                              Tx      Rx                   

      Phys   State                            Drops/  Drops/               

Port  State  Changes  Tx Packets  Rx Packets  Errors  Errors  Connects To  

----------------------------------------------------------------------------

0     Up     2        3950184361  3977756349  0       0       NP0          

1     Up     2        0           0           0       0       NP0          

8     Up     1        1319787462  209249871   0       0       LC CPU N0 P0 

9     Up     1        3374323096  1819796660  0       0       LC CPU N0 P1 

16    Up     2        2245174606  1089972811  0       0       NP1          

17    Up     2        0           0           0       0       NP1          

18    Up     2        65977       16543963    0       0       NP2          

19    Up     2        0           0           0       0       NP2          

32    Up     2        128588820   3904804720  0       0       NP3          

33    Up     2        0           0           0       0       NP3

show asic-error np <> all loc <>   >>> Ignore the macwrap errors as they are seen for every
 interface flaps/ Execute 3-4 times to verify the drops increment

show controller np fast-drop <> loc <>  >>> Execute 3-4 times to verify the drops increment

RP/0/RP0/CPU0:AG3_1#show controller np fast-drop  np0 location 0/0/CPU0

Thu May 12 10:13:22.981 EDT

                Node: 0/0/CPU0:

----------------------------------------------------------------

All fast drop counters for NP 0:

 TenGigE0/0/0/1/0-TenGigE0/0/0/1/9:[Priority1]    0

 TenGigE0/0/0/1/0-TenGigE0/0/0/1/9:[Priority2]    0

 TenGigE0/0/0/1/0-TenGigE0/0/0/1/9:[Priority3]    0

 TenGigE0/0/0/0/0-TenGigE0/0/0/0/9:[Priority1]    0

 TenGigE0/0/0/0/0-TenGigE0/0/0/0/9:[Priority2]    0

 TenGigE0/0/0/0/0-TenGigE0/0/0/0/9:[Priority3]    0

show controllers np punt-path-counters all HOST-IF-0 np<> location <>   
 [Check for IF_CNT_RX_FRM & IF_CNT_TX_FRM] >>> To check if diagnostic packets make it to the LC NP
 Host CPU network port

Velocidade da luz

show asic-error np <> all loc <>   >>> Ignore the macwrap errors as they are seen for every interface flap

RP/0/RP0/CPU0:AG3_1#sho asic-errors np 0 all location 0/5/CPU0

************************************************************

*                         0_5_CPU0                         *

************************************************************

************************************************************

*                    Single Bit Errors                     *

************************************************************

************************************************************

*                   Multiple Bit Errors                    *

************************************************************

************************************************************

*                      Parity Errors                       *

************************************************************

************************************************************

*                      Generic Errors                      *

************************************************************

ASR, ASR9K Lightspeed 20*100GE SE LC, 0/5/CPU0, npu[0]

Name            : mphmacwrapReg1.mphmacwrapExceptionLeaf4.mphWrapIrqUmacIpInt82

Leaf ID         : 0x2023e082

Error count     : 1

Last clearing   : Thu Apr  7 11:41:47 2022

Last N errors   : 1

--------------------------------------------------------------

First N errors.

@Time, Error-Data

------------------------------------------

show controller np fast-drop <> loc <> >>> Execute 3-4 times to verify the drops increment

RP/0/RP0/CPU0:AG3_1#show controller np fast-drop  np0 location 0/5/CPU0

Thu May 12 10:13:28.321 EDT

                Node: 0/5/CPU0:

----------------------------------------------------------------

All fast drop counters for NP 0:

 HundredGigE0_5_0_0[Crit]                      0

 HundredGigE0_5_0_0[HP]                        0

 HundredGigE0_5_0_0[LP2]                       0

 HundredGigE0_5_0_0[LP1]                       0

 HundredGigE0_5_0_0[Crit+HP_OOR]               0

 HundredGigE0_5_0_0[LP2+LP1_OOR]               0

 HundredGigE0_5_0_1[Crit]                      0

 HundredGigE0_5_0_1[HP]                        0

 HundredGigE0_5_0_1[LP2]                       0

 HundredGigE0_5_0_1[LP1]                       0

 HundredGigE0_5_0_1[Crit+HP_OOR]               0

Observe que este é o modo de administração:

sysadmin-vm:0_RP0# show controller switch statistics location 0/LC5/LC-SW   >>> Execute 3-4
 times to verify the errors increment

Rack  Card  Switch  Rack Serial Number

--------------------------------------

0     LC5   LC-SW                    

                                              Tx      Rx                    

      Phys   State                            Drops/  Drops/                

Port  State  Changes  Tx Packets  Rx Packets  Errors  Errors  Connects To   

-----------------------------------------------------------------------------

0     Up     4        1456694749  329318054   0       4       CPU -- EOBC   

1     Up     2        21          23          0       0       CPU -- flexE  

2     Up     4        1063966999  87683758    0       0       CPU -- PUNT   

3     Up     4        885103800   3021484524  0       0       CPU -- BFD    

4     Up     3        329319167   1456700372  0       0       RP0           

5     Up     3        0           0           0       0       RP1           

6     Up     1        11887785    2256        0       0       IPU 0         

7     Up     1        0           1086        0       0       IPU 1         

9     Up     4        74028034    3025657779  0       0       NP0           

10    Up     4        5           0           0       0       NP0           

11    Down   1        0           0           0       0       PHY0 -- flexE 

12    Up     4        264928      264929      0       0       NP1           

13    Up     2        5           0           0       0       NP1           

14    Down   1        0           0           0       0       PHY1 -- flexE 

15    Up     4        1516538834  1159586563  0       0       NP2

Coleta de logs:

show tech np
show tech fabric
show asic-errors fia trace all location <>

Em eXR , colete o np_datalog:

RP/0/RP0/CPU0:AG3_1#run chvrf 0 ssh lc0_xr

LC : [one time capture]

show_np -e <> -d npdatalog [<> should be the affected NP]

Path where NP datalogs is saved : /misc/scratch/np/NPdatalog_0_0_CPU0_np0_prm__20220512-105332.txt.gz

LC : 5 to 10 times

show_np -e <> -d pipeline [<> should be the affected NP]

Para falha de inicialização NP em LSP:

RP/0/RP0/CPU0:AG2-2#show controllers np ports all location 0/6/CPU0
       
Node: 0/6/CPU0:
----------------------------------------------------------------
NP Bridge Fia                       Ports
-- ------ --- ---------------------------------------------------

0  --     0   HundredGigE0/6/0/0 - HundredGigE0/6/0/31  --     

1 --      1   HundredGigE0/6/0/4 - HundredGigE0/6/0/7

NP2 is down. >>>>>>>>>. NP Down/Init Failure 

3 --      3   HundredGigE0/6/0/12 - HundredGigE0/6/0/154  --     

4 --      4  HundredGigE0/6/0/16 - HundredGigE0/6/0/19

Estes registros observam:

LC/0/6/CPU0:Mar 23 02:53:56.175 IST: npu_server_lsp[138]: %PLATFORM-LDA-3-INIT_FAIL :
 Failed to initialize lda_bb_np_reset_process 13795 inst 0x2 LC INIT: Failed in NP HAL
 Reset np  (0x00000001 - Operation not permitted)  : npu_server_lsp : (PID=4597) :
  -Traceback= 7fea2d5cd9f6 7fea2d7d5816 7fea21465efa 7fea21465fc2 7fea42ad0bed 55a9dbd66031
 7fea45e1c855 7fea45e1cc2b 7fea2624d526 7fea3571b96a 7fea4d6e4831 55a9dbd691e9
LC/0/6/CPU0:Mar 23 02:53:56.185 IST: npu_server_lsp[138]: %PLATFORM-NP-4-INIT_DEBUG_MSG :
 LDA NP2 Reset failed!!  Check for a downlevel IPU version.

Coleta de logs:

show tech-support ethernet interfaces
show tech-support ethernet controllers
show tech-support np
show tech-support fpd
admin show tech-support ctrace (in eXR)
show tech fabric
show asic-errors fia trace all location <>
show logging

gather (in eXR)
RP/0/RP0/CPU0:AG3_1#admin                                
sysadmin-vm:0_RP0# 
[sysadmin-vm:0_RP0:~]$bash -l
[sysadmin-vm:0_RP0:~]$ gather

File will be generated and will get saved in rp0_xr:/misc/disk1

Coleta de log geral para Tomahawk, LSQ e LSP

show platform
show inventory
show tech fabric
show tech np
show tech ethernet interface
show logging
show pfm location all
show pfm trace location <location id>
sh pfm process <> location <>
show controllers pm vqi location all
show hw-module fpd location all (cxr) / admin show hw-module fpd (exr)
show controllers fti trace <process-name> location <card location>

Cxr:
From admin:
show logging onboard common location <>
show logging onboard error location <>
Exr:
From sysadmin/calvados:
show logging onboard fabric location <>"

Assinatura e Recomendação de Erro Comum

Categoria	Erro	Observações	Recomendação
NP Init failure (Falha de inicialização NP)	LC/0/0/CPU0:29 de setembro 00:41:13.171 IST: pfm_node_lc[304]: %PLATFORM-NP-1-NP_INIT_FAIL_NO_RESET: Set\|prm_server_ty[168018]\|0x1008006\|Falha de inicialização NP persistente, não é necessário recarregar a placa de linha.	NP pode entrar no erro persistente NP init devido ao erro de paridade de HW/TCAM que força NP a ficar inoperante.	LC Recarregue através de CLI para recuperar.
		O problema pode ser recuperado se for transitório por natureza após o primeiro recarregamento do LC.	Preencha uma Autorização de Devolução de Material (RMA) para instâncias repetidas do mesmo erro.
		RMA se forem vistas instâncias repetidas. (capture uma foto da placa defeituosa para verificar se há pinos tortos/danificados no SR).
		A nova placa pode enfrentar o mesmo problema devido ao manuseio incorreto do campo.
		A interface mapeada para NP permanece inativa / Sem impacto.
Erro ECC de bit duplo FATAL FATAL ASIC	LC/0/8/CPU0:29 de maio 18:29:09.836 LISTA: pfm_node_lc[301]: %FABRIC-FIA-0-ASIC_FATAL_FAULT : Set\|fialc[159811]\|0x108a000\|A interface de estrutura ASIC0 básica encontrou uma falha fatal 0x1 - ERRO DDR DOUBLE ECC	Este é um erro de ECC de bit duplo no FIA é um erro difícil.	Erro de hardware no FIA.
		O erro pode ressurgir e, portanto, é recomendável desativar o LC pelo administrador.	RMA na placa.

		A interface mapeada para NP/FIA permanece inativa / Sem impacto.
		O problema é visto em um dos casos em que o FIA surgiu com o bloco de processo fib_mgr.
erro de SERDES	·RP/0/RSP1/CPU0:Apr 17 12:22:10.690 IST: pfm_node_rp[378]: %PLATFORM-CROSSBAR-1-SERDES_ERROR_LNK0 : Set\|fab_xbar[209006]\|0x101702f\|XBAR_1_Slot_1	Erro de estrutura na estrutura LC ou na estrutura RSP	Recarregamento de LC através de CLI para recuperar o erro transitório/CRC para erro repetitivo.
DATA_NB_SERDES_1_FAIL_0	LC/0/3/CPU0:Apr 10 18:55:03.213 IST: pfm_node_lc[304]: %FABRIC-FIA-1-DATA_NB_SERDES_1_FAIL_0 : Set\|fialc[168004]\|0x103d001\|Falha de Link 1 de Serdes NB de Dados no FIA 1 RP/0/RSP0/CPU0:Apr 10 18:55:13.043 IST: FABMGR[227]: %PLATFORM-FABMGR-2-FABRIC_INTERNAL_FAULT: 0/3/CPU0 (slot 3) encontrou uma falha de estrutura. As interfaces serão desligadas.	Mecanismo de reciclagem da interface para recuperar automaticamente o erro SERDES na estrutura. No caso de um problema de HW, o erro pode ressurgir no LC ou no RSP novamente. A interface permanece ativa / erros frequentes no SERDES afetaram o tráfego.	RMA para instâncias repetidas após OIR.
Erros ASIC INIT	·LC/0/6/CPU0:Jul 17 00:01:40.738 2019:pfm_node_lc[301]: %FABRIC-FIA-1-ASIC_INIT_ERROR : Set\|fialc[168003]\|0x108a000\|Erro ASIC INIT detectado na instância FIA 0	Evento de inatividade de instância FIA para qualquer um dos FIA no LC com ASIC INIT ERROR no Syslog.	Recarregamento de LC através de CLI para descartar qualquer problema transitório.
Erro FATAL do FIA ASIC (TS_NI_INTR_LCL_TIMER_EXPIRED)	LC/0/19/CPU0:Mar 8 04:52:29.020 IST: pfm_node_lc[301]: %FABRIC-FIA-0-FATAL_INTERRUPT_ERROR : Set\|fialc[172098]\|0x108a003\|Interrupção de erro fatal FIA no FIA 3: TS_NI_INTR_LCL_TIMER_EXPIRED	Para a nova placa, observa-se que a unidade foi manuseada incorretamente no momento do envio/instalação, causando danos físicos à placa. Algumas placas não exibiram nenhum dano físico, mas uma rachadura de solda foi observada durante a AFE. Isso indica sobrecarga no pacote e possível mau funcionamento ao longo do tempo. A interface permanece ativa / erros frequentes no SERDES afetaram o tráfego.	Se o problema persistir, continue com RMA / R&R.
NP fast reset (Tomahawk)	LC/0/4/CPU0:Jul 6 04:06:49.259 LISTA: prm_server_ty[318]: %PLATFORM-NP-3-ECC : prm_ser_check: Concluída a reinicialização NP fast para se recuperar com êxito de um erro simples em NP 1. Nenhuma ação corretiva adicional é necessária.	NP detecta o problema de paridade de software e tenta corrigi-lo tentando a reinicialização NP rápida.	Nenhuma RMA para a primeira ocorrência.
NP parity LC reload	LC/0/6/CPU0:Jan 27 20:38:08.011 IST: prm_server_to[315]: %PLATFORM-NP-0-LC_RELOAD: NP3 teve 3 reinicializações rápidas em uma hora, iniciando a coleta NPdatalog e a reinicialização automática de LC	Geralmente, após três tentativas de recuperação, o LC é recarregado sozinho para corrigir o problema de paridade no NP geralmente visto para a placa Tomahawk. O LC executa a ação de recuperação automática recarregando o LC e corrigindo o problema de paridade não recuperável suave no NP relatado. A interface mapeada para NP fica inativa com reset / No impact.	RMA para instâncias repetidas do mesmo erro.
LC_NP_LOOPBACK_FAILED	LC/0/1/CPU0:Jul 26 17:29:06.146 LISTA: pfm_node_lc[304]: %PLATFORM-DIAGS-0-LC_NP_LOOPBACK_FAILED_TX_PATH : Set\|online_diag_lc[168022]\|Line card NPU loopback Test(0x2000006)\|máscara de falha de link é 0x1.	Falha de teste de diagnóstico de loopback LC NP em um dos NP.	Recarregamento de LC através de CLI para descartar qualquer problema transitório.
		Alarme definido no PFM como "LC_NP_LOOPBACK_FAILED_XX_PATH".	RMA para instâncias repetidas do mesmo erro.
		A interface mapeada para NP fica inativa com reset / No impact.
FABRIC-FIA-1-SUSTAINED_CRC_ERR	LC/0/5/CPU0:Mar 6 05:47:34.748 IST: pfm_node_lc[303]: %FABRIC-FIA-1-SUSTAINED_CRC_ERR : Set\|fialc[168004]\|0x103d000\|A interface de estrutura ASIC-0 tem erros de CRC sustentados	Desligamento do Fia devido a erro de CRC SUSTENTADO do FABRIC FIA.	Recarregamento de LC através de CLI para descartar qualquer problema transitório.
		Com o evento de desligamento do FIA, a interface no FIA também fica inativa.	RMA para instâncias repetidas do mesmo erro.
		A interface permanece ativa / Sem impacto.
ERRO FAB ARB XIF1	·LC/0/6/CPU0:Jan 25 19:31:22.787 LISTA: pfm_node_lc[302]: %PLATFORM-FABARBITER-1-RX_LINK_ERR : Clear\|fab_arb[163918]\|0x1001001\|LIT_XIF1_K_CHAR_ERR LC/0/6/CPU0:Jan 25 19:31:22.787 LISTA: pfm_node_lc[302]: %PLATFORM-FABARBITER-1-SYNC_ERR : Clear\|fab_arb[163918]\|0x1001001\|LIT_XIF1_LOSS_SYNC LC/0/6/CPU0:Jan 25 19:33:23.010 LISTA: pfm_node_lc[302]: %PLATFORM-FABARBITER-1-RX_LINK_ERR : Set\|fab_arb[163918]\|0x1001001\|LIT_XIF1_DISP_ERR	Erro de PUNT para erro de sincronização de intermediário de LC e Fabric e rx_link. A interface permanece ativa / Sem impacto.	Use o OIR da placa para descartar qualquer problema transitório. RMA para instâncias repetidas do mesmo erro.
erro FPOE_read_write	rastreamento de erro xbar (show tech fabric) Mar 25 00:14:03.497 sm15/error.log_fab_xbar 0/7/CPU0 t4812 /sm15_board_spec.c:90: (ERRO) sm15_tom_get_ha_status: lda_get_ative(SUP)) após novas tentativas 0 Mar 25 00:14:04.893 sm15/error.log_fab_xbar 0/7/CPU0 t4812 /sm15_config.c:917: (ERRO) sm15_port_setup_auto_spread: erro asic:0 port:12, rc: 0x0 Mar 25 00:14:31.935 sm15/error.log_fab_xbar 0/7/CPU0 t4812 /sm15_regio.c:686: (ERRO) sm15_pcie_read_fpoe: write_fpoe_beg asic:0 porta:5 fpoe:2722 dados:0x6271268 Mar 25 00:14:31.935 sm15/error.log_fab_xbar 0/7/CPU0 t4812 /sm15_regio.c:166: (ERRO) sm15_rd_fpoe: RF_E:0x5 i:0 p:5 o:0xaa2 v:0x0 Mar 25 00:14:31.965 sm15/error.log_fab_xbar 0/7/CPU0 t4812 /sm15_regio.c:686: (ERRO) sm15_pcie_read_fpoe: write_fpoe_beg asic:0 porta:5 fpoe:2961 dados:0x6271624 Mar 25 00:14:31.965 sm15/error.log_fab_xbar 0/7/CPU0 t4812 /sm15_regio.c:166: (ERRO) sm15_rd_fpoe: RF_E:0x5 i:0 p:5 o:0xb91 v:0x0	ID de bug da Cisco CSCvv45788	Defeito de software
SERDES FIA_XBAR	Local 0/9/CPU0 do status de link do fia da controladora de #show ******** FIA-3 ******** Categoria: link-3 arb link-0 Up xbar link-0 Up xbar link-1 ativado xbar link-2 Desativado xbar link-3 Desativado LC/0/9/CPU0:Oct 15 05:51:50.677 IST: pfm_node_lc[252]: %FABRIC-FIA-1-DATA_NB_SERDES_2_FAIL_0 : Clear\|fialc[4574]\|0x108b003\|Falha de Data NB Serdes Link 2 no FIA 3 \| LC/0/9/CPU0:15 de outubro 06:02:23.310 IST: pfm_node_lc[252]: %PLATFORM-CROSSBAR-1-SERDES_ERROR_LNK2 : Conjunto\|fab_xbar[4586]\|0x1017008\|FIA_3 \| LC/0/9/CPU0:15 de outubro 06:02:33.311 IST: pfm_node_lc[252]: %PLATFORM-CROSSBAR-1-SERDES_ERROR_LNK2 : Clear\|fab_xbar[4586]\|0x1017008\|FIA_3 RP/0/RP1/CPU0:Mar 1 04:36:27.501 IST: FABMGR[218]: %PLATFORM-FABMGR-2-FABRIC_LINK_DOWN_FAULT : (0/8/CPU0 FIA 3) <—> (0/8/CPU0 XBAR 0) o link de estrutura está inoperante RP/0/RP1/CPU0:Mar 1 04:36:27.504 IST: FABMGR[218]: %PLATFORM-FABMGR-2-FABRIC_INTERNAL_FAULT: 0/8/CPU0 (slot 10) encontrou uma falha de estrutura. As interfaces serão desligadas.		Use o OIR da placa para descartar qualquer problema transitório. RMA para instâncias repetidas do mesmo erro.
NP DIAG ICFD fast reset	NP-DIAG em NP0, ICFD (STS-1), NP pode ser 0-4 NP3 teve 3 reinicializações rápidas em uma hora, iniciando a coleta NPdatalog e a reinicialização automática de LC	Aciona uma reinicialização FAST de NP E LC é recarregado se 3 NP reinicializar em uma hora.	Se LC recarregar várias vezes, RMA.
Falha do monitoramento de integridade do PRM ao obter redefinições de pacote NP fast	Falha de monitoramento de integridade de NP-DIAG NP3 teve 3 reinicializações rápidas em uma hora, iniciando a coleta NPdatalog e a reinicialização automática de LC	Aciona uma reinicialização FAST de NP E LC é recarregado se 3 NP reinicializar em uma hora.	Se LC recarregar várias vezes, RMA.
O monitoramento de integridade do PRM obtém redefinições rápidas de pacote NP corrompidas	corrupção de monitoramento de integridade NP-DIAG em NP3 teve 3 reinicializações rápidas em uma hora, iniciando a coleta NPdatalog e a reinicialização automática de LC	Aciona uma reinicialização FAST de NP E LC é recarregado se 3 NP reinicializar em uma hora.	Se LC recarregar várias vezes, RMA.
Falha de inatividade principal	Falha de NP-DIAG em NP Interromper de Ucode na inatividade Superior - faz redefinições NP rápidas	Aciona uma reinicialização FAST de NP E LC é recarregado se 3 NP reinicializar em uma hora.	Se LC recarregar várias vezes, RMA.
Falha de Inicialização LSP NP	LC/0/6/CPU0:Mar 23 02:53:56.175 IST: npu_server_lsp[138]: %PLATFORM-LDA-3-INIT_FAIL : Falha ao inicializar lda_bb_np_reset_process 13795 inst 0x2 LC INIT: Falha em NP HAL Reset np (0x00000001 - Operação não permitida): npu_server_lsp : (PID=4597): -Traceback= 7fea2d5cd9f6 7fea2d7d5816 7fea21465efa 7fea21465fc2 7fea42ad0bed 55a9dbd66031 7fea45e1c855 7fea45e1cc2b 7fea2624d526 7fea3571b96a 7fea4d6e4 831 55a9dbd691e9 LC/0/6/CPU0:Mar 23 02:53:56.185 IST: npu_server_lsp[138]: %PLATFORM-NP-4-INIT_DEBUG_MSG : Falha ao redefinir LDA NP2!! Verifique se há uma versão de IPU de nível inferior.	Estas informações devem ser recolhidas: `show tech-support ethernet interfaces show tech-support ethernet controllers show tech-support np show tech-support fpd admin show tech-support ctrace show tech fabric show logging gather RP/0/RP0/CPU0:AG3_1#admin sysadmin-vm:0_RP0# run [sysadmin-vm:0_RP0:~]$bash -l [sysadmin-vm:0_RP0:~]$ gather` O arquivo é gerado e salvo em rp0_xr:/misc/disk1 De sysadmin/calvados: `show logging onboard fabric location <>`	Recarregamento de LC através de CLI para descartar qualquer problema transitório.
Falha de inicialização NP Tomahawk (falha de treinamento DDR)	+++ show prm server trace error location 0/7/CPU0 [14:36:59.520 IST Sat Jan 29 2022] ++++ 97 entradas de empacotamento (2112 possíveis, 320 alocadas, 0 filtradas, total de 97) Jan 29 00:22:10.135 prm_server/error 0/7/CPU0 t10 prm_np_Channel_PowerUp : 0x80001d46 Erro ao alimentar canal 3 fase 4 Jan 29 00:22:10.136 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup : 0xa57c0200 Falha da fase 4 de energia no canal 3 Jan 29 00:22:10.136 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup NP3 falhou ao inicializar, tentando novamente. Número de repetição 1 Jan 29 00:22:35.125 prm_server/error 0/7/CPU0 t10 prm_np_Channel_PowerUp : 0x80001d46 Erro ao alimentar canal 3 fase 4 Jan 29 00:22:35.125 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup : 0xa57c0200 Falha da fase 4 de energia no canal 3 Jan 29 00:22:35.125 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup NP3 falhou ao inicializar, tentando novamente. Número de repetição 2 Jan 29 00:22:59.075 prm_server/error 0/7/CPU0 t10 prm_np_Channel_PowerUp : 0x80001d46 Erro ao alimentar canal 3 fase 4 Jan 29 00:22:59.075 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup : 0xa57c0200 Falha da fase 4 de energia no canal 3 Jan 29 00:22:59.075 prm_server/error 0/7/CPU0 t10 np_thread_channel_bringup Após 3 tentativas, NP3 falhou ao inicializar. Jan 29 00:23:00.087 prm_server/error 0/7/CPU0 t10 prm_send_pfm_msg: Falha de inicialização NP persistente; não é necessário recarregar a placa de linha. Fazer check-in dos logs do Driver NP <NP#3>FALHA no treinamento DDR (status 0x1) <NP#3>ddr3TipRunAlg: falha no ajuste 0 <NP#3>ddrTipRunAlgo opcode: Falha de ddr3TipRunAlg (erro 0x1) <NP#3>Erro ***: 0x1 desconhecido	nó: node0_7_CPU0 --------------------- HORA ATUAL: 3 de maio 09:46:42 2022 TOTAL DE PFM: 1 EMERGÊNCIA/ALERTA(E/A): 1 CRÍTICO(CR): ERRO(S) 0: 0 ------------------------------------------------------------------------------------------------- Tempo Elevado \|S#\|Nome da falha \|Sev\|Proc_ID\|Nome do dispositivo/caminho \|Tratamento --------------------+—+-----------------------------------+—+-------+--------------+---------- 29 de janeiro 00:22:58\|8 \|NP_INIT_FAIL_NO_RESET \|E/A\|5356 \|Processo de Rede\|0x1008000	Recarregamento de LC através de CLI para descartar qualquer problema transitório. Se o problema ainda observar a RMA, o LC ID de bug da Cisco CSCwa85165
Falha de Inicialização LSP NP (erro HbmReadParticleError)	LC/0/13/CPU0:Jan 10 13:34:59.106 LISTA: npu_server_lsp[278]: %PLATFORM-NP-4-SHUTDOWN_START : NP4: EMRHIMREG.ch1Psch0HbmReadParticleErro detectado, desligamento NP em andamento LC/0/13/CPU0:Jan 10 13:34:59.106 LISTA: pfm_node_lc[30]: %PLATFORM-NP-0-UNRECOVERABLE_ERROR : Set\|npu_server_lsp[4632]\|0x10a5004\|Um erro irrecuperável foi detectado em NP4	+++ show controllers np interrompe todos os locais 0/13/CPU0 [16:02:16.712 IST Seg 10 Jan 2022] ++++ Nó: 0/13/CPU0: ---------------------------------------------------------------- Contagem de ID do Nome de Interrupção NPU — ------------------------------------------------------------------------------------------ -------------- ------- <snip> 4 hbmdpReg0.hbmdpExceptionLeaf0.hbmdpIntNwlHbmdpRdDataUncorrectableErrCh1Psch1 0x201dc013 1 4 hbmdpReg0.hbmdpExceptionLeaf0.hbmdpIntNwlHbmdpRdDataUncorrectableErrCh1Psch0 0x201dc012 1	Verifique se o ID de bug da Cisco CSCvt59803 está instalado. O recarregamento de LC através de CLI ajuda a recuperar.
Link de Arbitrador Inativo com Standby	Gerenciador de estrutura: ############# Estado da Fatia ===================================== 0/RP0/CPU0/0 Online 0/RP1/CPU0/0 Online 0/0/CPU0 0 1 on-line 0/1/CPU0 0 1 on-line 0/8/CPU0 0 Off-line (Enlace do Arbiter do Backplane Desativado) 0/8/CPU0 1 off-line (link do intermediário do backplane desativado) 0/8/CPU0 2 off-line (link do intermediário do backplane desativado) 0/8/CPU0 3 off-line (link do intermediário do painel traseiro desativado)		Use o OIR da placa para descartar qualquer problema transitório. RMA para instância de repetição do mesmo erro.
Erro de Serdes	show serdes trace location 0/X/CPU0 \| i "HTL_ERR_DEVICE_NOT_CONNECTED"') você verá os seguintes erros: 68413 Aug 12 22:44:33.525 vkg_serdes/error 0/3/CPU0 t5234 Erro: vkg_mdx1_get_lasi_info() line:2910 mdx1_serdes_status_get falhou no dispositivo 1 canal 12. rc=0x2103 - HTL_ERR_DEVICE_NOT_CONNECTED	ID de bug da Cisco CSCvz75552	Defeito de software

Defeitos conhecidos

ID de bug da Cisco	Componente	Título
ID de bug da Cisco CSCvy00012	asr9k-diags-online	Esgotamento da memória de pacotes por online_diag_rsp
ID de bug da Cisco CSCvw57721	asr9k-servicepack	Umbrella SMU contendo firmware atualizado para Lightspeed NP e serdes árbitro
ID de bug da Cisco CSCvz75552	asr9k-vic-ls	O firmware Phy trava e faz com que a óptica não seja reconhecida no A9K-20HG-FLEX
ID de bug da Cisco CSCvz76691	asr9k-servicepack	Umbrella SMU com status de link aprimorado para manuseio de interrupção de placas de linha Tomahawk
ID de bug da Cisco CSCvz84139	asr9k-ls-fabric	falha de fab_si quando o roteador é atualizado para 742
ID de bug da Cisco CSCwa81006	asr9k-pfm	O ASR9K/eXR não pode confirmar o desligamento da porta do caminho de dados do gerenciador de falhas em alguns cenários
ID de bug da Cisco CSCvz16840	asr9k-fia	As sessões BLB não sincronizam quando a CLI recarregar a LC porque o caminho de encaminhamento foi encerrado antecipadamente devido às alterações adicionadas na versão 6.5.2
ID de bug da Cisco CSCwb64255	asr9k-fab-xbar	novas configurações de SI para SKB nos chassis Starscream(9912) e Megatron(9922)
ID de bug da Cisco CSCwa09794	asr9k-fab-xbar	novo SI após ajuste para chassi RO para SKB-SM15
ID de bug da Cisco CSCvv45788	asr9k-fab-xbar	fab_xbar e mgid-programmer processam o acesso ao hw ao mesmo tempo
ID de bug da Cisco CSCwd22196	asr9k-prm	Esgotamento de buffer RFD entre link ILKN no Tomahawk LC
ID de bug da Cisco CSCwb66960	asr9k-fab-infra	Isolamento de falha de malha de punt ASR9k
ID de bug da Cisco CSCwa79758	asr9k-fab-xbar	Perda de multicast no LSP LC após fazer OIR de outro LSP LC com falha de link XBAR
ID de bug da Cisco CSCvw88284	asr9k-lda-ls	RSP5 BW para o padrão de 200G no chassi 9910/9906 em vez de 600G.
ID de bug da Cisco CSCvm82379	asr9k-fab-arb	fab-arb travou durante o sh tech fabric
ID de bug da Cisco CSCvh00349	asr9k-fia	A estrutura ASR9k pode lidar com pacotes ucast enviados enquanto em standby
ID de bug da Cisco CSCvk44688	asr9k-fia	O FPGA tinha erros repetidamente e não podia se recuperar
ID de bug da Cisco CSCvy31670	asr9k-ls-fia	LSP: A remoção de FC0 ativa o limitador de taxa de estrutura, o FC4 não
ID de bug da Cisco CSCvt59803	asr9k-ls-npdriver	LSP: PLATFORM-NP-4-SHUTDOWN IMRHIMREG.ch1Psch1HbmReadParticleError

Comportamento do `fault-manager datapath port shutdown/toggle` comando

fault-manager datapath port shutdown O comando ajuda a desativar as portas do respectivo FIA/NP para as quais o alarme Punt Datapath Failure está configurado, no RP/RSP Ativo, e a interface não é ativada automaticamente até que você recarregue o LC. Esse comando CLI não funciona como esperado na versão 7.x.x. (O comando CLI não fault-manager datapath port shutdown está funcionando de acordo com o projeto de 7. x.x) - corrigido na 7.7.2.
O comando fault-manager datapath port toggle CLI funciona bem. Ele abre a porta quando o alarme Punt Datapath Failure é limpo.
Isso ajuda a evitar uma paralisação do serviço se a redundância no nível do link e a disponibilidade de largura de banda no caminho redundante estiverem disponíveis.

Teste - para validar a operação de comando mencionada anteriormente.

Geração de erro PUNT induzida em NP0 LC7:

RP/0/RP0/CPU0:ASR-9922-A#monitor np counter PUNT_DIAGS_RSP_ACT np0 count 20 location 0/7/CPU0

Wed Jul  7 14:15:17.489 UTC


Usage of NP monitor is recommended for cisco internal use only.

Please use instead 'show controllers np capture' for troubleshooting packet drops in NP

and 'monitor np interface' for per (sub)interface counter monitoring


Warning: Every packet captured will be dropped! If you use the 'count'

         option to capture multiple protocol packets, this could disrupt

         protocol sessions (eg, OSPF session flap). So if capturing protocol

         packets, capture only 1 at a time.



Warning: A mandatory NP reset will be done after monitor to clean up.

         This will cause ~150ms traffic outage. Links will stay Up.

 Proceed y/n [y] > y

 Monitor PUNT_DIAGS_RSP_ACT on NP0 ... (Ctrl-C to quit)




Wed Jul  7 14:17:08 2021 -- NP0 packet




 From Fabric: 127 byte packet

0000: 00 09 00 00 b4 22 00 00 ff ff ff ff 00 00 ff ff   ....4"..........

0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa   ....ppppLLLL****

0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00   UUUU............

0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff   ................

0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55   ppppLLLL****UUUU

0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00   ................

0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0   ............pppp

0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00      LLLL****UUUU...




                                    (count 1 of 20)

Wed Jul  7 14:18:09 2021 -- NP0 packet




 From Fabric: 256 byte packet

0000: 00 09 00 00 b5 22 00 00 ff ff ff ff 00 00 ff ff   ....5"..........

0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa   ....ppppLLLL****

0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00   UUUU............

0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff   ................

0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55   ppppLLLL****UUUU

0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00   ................

0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0   ............pppp

0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 00   LLLL****UUUU....

0080: 01 00 00 00 00 00 00 00 00 00 00 00 ff ff ff ff   ................

0090: 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc   ........ppppLLLL

00a0: aa aa aa aa 55 55 55 55 00 00 00 00 01 00 00 00   ****UUUU........

00b0: 00 00 00 00 00 00 00 00 ff ff ff ff 00 00 ff ff   ................

00c0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

00d0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

00e0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

00f0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................




                                    (count 2 of 20)

Wed Jul  7 14:19:09 2021 -- NP0 packet

Actual packet size 515 bytes truncated size 384:




 From Fabric: 384 byte packet

0000: 00 09 00 00 b6 22 00 00 ff ff ff ff 00 00 ff ff   ....6"..........

0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa   ....ppppLLLL****

0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00   UUUU............

0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff   ................

0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55   ppppLLLL****UUUU

0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00   ................

0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0   ............pppp

0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 00   LLLL****UUUU....

0080: 01 00 00 00 00 00 00 00 00 00 00 00 ff ff ff ff   ................

0090: 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc   ........ppppLLLL

00a0: aa aa aa aa 55 55 55 55 00 00 00 00 01 00 00 00   ****UUUU........

00b0: 00 00 00 00 00 00 00 00 ff ff ff ff 00 00 ff ff   ................

00c0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

00d0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

00e0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

00f0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

0100: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

0110: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

0120: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

0130: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

0140: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

0150: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

0160: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

0170: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................



RP/0/RP0/CPU0:ASR-9922-A#sh pfm location 0/RP0/CPU0

Wed Jul  7 14:19:17.174 UTC




node: node0_RP0_CPU0

---------------------

CURRENT TIME: Jul  7 14:19:17 2021

PFM TOTAL: 2   EMERGENCY/ALERT(E/A): 1   CRITICAL(CR): 0   ERROR(ER): 1 

-------------------------------------------------------------------------------------------------

Raised Time         |S#|Fault Name                         |Sev|Proc_ID|Dev/Path Name |Handle   

--------------------+--+-----------------------------------+---+-------+--------------+----------

Jul  1 10:13:45 2021|0 |SPINE_UNAVAILABLE                  |E/A|5082   |Fabric Manager|0x1034000

Jul  7 14:19:09 2021|0 |PUNT_FABRIC_DATA_PATH_FAILED       |ER |9429   |System Punt/Fa|0x2000004

RP/0/RP0/CPU0:ASR-9922-A#sh pfm process 9429 location 0/Rp0/CPU0

Wed Jul  7 14:19:37.128 UTC







node: node0_RP0_CPU0

---------------------

CURRENT TIME: Jul  7 14:19:37 2021

PFM TOTAL: 2   EMERGENCY/ALERT(E/A): 1   CRITICAL(CR): 0   ERROR(ER): 1 

PER PROCESS TOTAL: 0   EM: 0   CR: 0   ER: 0  

Device/Path[1 ]:Fabric loopbac  [0x2000003 ] State:RDY  Tot: 0 

Device/Path[2 ]:System Punt/Fa  [0x2000004 ] State:RDY  Tot: 1 

1   Fault Id:          432

    Sev:               ER

    Fault Name:        PUNT_FABRIC_DATA_PATH_FAILED

    Raised Timestamp:  Jul  7 14:19:09 2021

    Clear Timestamp:   N/A

    Changed Timestamp: N/A

    Resync Mismatch:   FALSE

    MSG:               failure threshold is 3, (slot, NP) failed: (0/7/CPU0, 0)

Device/Path[3 ]:Crossbar Switc  [0x108c000 ] State:RDY  Tot: 0 

Device/Path[4 ]:Crossbar Switc  [0x108c001 ] State:RDY  Tot: 0 

Device/Path[5 ]:Crossbar Switc  [0x108c002 ] State:RDY  Tot: 0 

Device/Path[6 ]:Crossbar Switc  [0x108c003 ] State:RDY  Tot: 0 

Device/Path[7 ]:Crossbar Switc  [0x108c004 ] State:RDY  Tot: 0 

Device/Path[8 ]:Crossbar Switc  [0x108c005 ] State:RDY  Tot: 0 

Device/Path[9 ]:Crossbar Switc  [0x108c006 ] State:RDY  Tot: 0 

Device/Path[10]:Crossbar Switc  [0x108c007 ] State:RDY  Tot: 0 

Device/Path[11]:Crossbar Switc  [0x108c008 ] State:RDY  Tot: 0 

Device/Path[12]:Crossbar Switc  [0x108c009 ] State:RDY  Tot: 0 

Device/Path[13]:Crossbar Switc  [0x108c00a ] State:RDY  Tot: 0 

Device/Path[14]:Crossbar Switc  [0x108c00b ] State:RDY  Tot: 0 

Device/Path[15]:Crossbar Switc  [0x108c00c ] State:RDY  Tot: 0 

Device/Path[16]:Crossbar Switc  [0x108c00d ] State:RDY  Tot: 0 

Device/Path[17]:Crossbar Switc  [0x108c00e ] State:RDY  Tot: 0 

Device/Path[18]:Fabric Interfa  [0x108b000 ] State:RDY  Tot: 0 

Device/Path[19]:Fabric Arbiter  [0x1086000 ] State:RDY  Tot: 0 

Device/Path[20]:CPU Controller  [0x108d000 ] State:RDY  Tot: 0 

Device/Path[21]:Device Control  [0x109a000 ] State:RDY  Tot: 0 

Device/Path[22]:ClkCtrl Contro  [0x109b000 ] State:RDY  Tot: 0 

Device/Path[23]:NVRAM           [0x10ba000 ] State:RDY  Tot: 0 

Device/Path[24]:Hooper switch   [0x1097000 ] State:RDY  Tot: 0 

Device/Path[25]:Hooper switch   [0x1097001 ] State:RDY  Tot: 0 

Device/Path[26]:Hooper switch   [0x1097002 ] State:RDY  Tot: 0 

Device/Path[27]:Hooper switch   [0x1097003 ] State:RDY  Tot: 0

A porta não foi desativada neste caso:

RP/0/RP0/CPU0:ASR-9922-A#sh ipv4 int brief location 0/7/CPU0

Wed Jul  7 14:21:29.693 UTC




Interface                      IP-Address      Status          Protocol Vrf-Name

TenGigE0/7/0/0                 unassigned      Down            Down     default

TenGigE0/7/0/1                 unassigned      Down            Down     default

TenGigE0/7/0/2                 unassigned      Down            Down     default

TenGigE0/7/0/3                 unassigned      Down            Down     default

TenGigE0/7/0/4                 unassigned      Down            Down     default

TenGigE0/7/0/5                 unassigned      Down            Down     default

TenGigE0/7/0/6                 unassigned      Down            Down     default

TenGigE0/7/0/7                 unassigned      Shutdown        Down     default

TenGigE0/7/0/8                 unassigned      Shutdown        Down     default

TenGigE0/7/0/9                 unassigned      Shutdown        Down     default

TenGigE0/7/0/10                unassigned      Down            Down     default

TenGigE0/7/0/11                unassigned      Down            Down     default

TenGigE0/7/0/12                unassigned      Down            Down     default

TenGigE0/7/0/13                unassigned      Shutdown        Down     default

TenGigE0/7/0/14                unassigned      Shutdown        Down     default

TenGigE0/7/0/15                unassigned      Shutdown        Down     default

TenGigE0/7/0/16                unassigned      Shutdown        Down     default

TenGigE0/7/0/17                unassigned      Shutdown        Down     default

TenGigE0/7/0/18                unassigned      Down            Down     default

TenGigE0/7/0/19                unassigned      Up              Up       default  >>>>>>> Port is UP



RP/0/RP0/CPU0:ASR-9922-A#sh logging last 200 | in 0/7/0

Wed Jul  7 14:22:35.715 UTC

RP/0/RP0/CPU0:ASR-9922-A#

Caso de ensaio 1.2:

Comportamento NP/Ports com o fault-manager datapath port toggle comando:

RP/0/RP0/CPU0:ASR-9922-A#sh run formal | in data

Wed Jul  7 14:52:11.714 UTC

Building configuration...

fault-manager datapath port toggle

RP/0/RP0/CPU0:ASR-9922-A#

Nenhum alarme no PFM:

RP/0/RP0/CPU0:ASR-9922-A#sh pfm location  0/Rp0/CPU0

Wed Jul  7 14:55:13.410 UTC



node: node0_RP0_CPU0

---------------------

CURRENT TIME: Jul  7 14:55:13 2021

PFM TOTAL: 1   EMERGENCY/ALERT(E/A): 1   CRITICAL(CR): 0   ERROR(ER): 0 

-------------------------------------------------------------------------------------------------

Raised Time         |S#|Fault Name                         |Sev|Proc_ID|Dev/Path Name |Handle   

--------------------+--+-----------------------------------+---+-------+--------------+----------

Jul  1 10:13:45 2021|0 |SPINE_UNAVAILABLE                  |E/A|5082   |Fabric Manager|0x1034000




RP/0/RP0/CPU0:ASR-9922-A#

Geração de erro PUNT em NP0 LC7:

RP/0/RP0/CPU0:ASR-9922-A#monitor np counter PUNT_DIAGS_RSP_ACT np0 count 20 location 0/7/CPU0

Wed Jul  7 14:51:18.596 UTC




Usage of NP monitor is recommended for cisco internal use only.

Please use instead 'show controllers np capture' for troubleshooting packet drops in NP

and 'monitor np interface' for per (sub)interface counter monitoring




Warning: Every packet captured will be dropped! If you use the 'count'

         option to capture multiple protocol packets, this could disrupt

         protocol sessions (eg, OSPF session flap). So if capturing protocol

         packets, capture only 1 at a time.







Warning: A mandatory NP reset will be done after monitor to clean up.

         This will cause ~150ms traffic outage. Links will stay Up.

 Proceed y/n [y] > y

 Monitor PUNT_DIAGS_RSP_ACT on NP0 ... (Ctrl-C to quit)




Wed Jul  7 14:53:21 2021 -- NP0 packet




 From Fabric: 127 byte packet

0000: 00 09 00 00 d8 22 00 00 ff ff ff ff 00 00 ff ff   ....X"..........

0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa   ....ppppLLLL****

0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00   UUUU............

0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff   ................

0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55   ppppLLLL****UUUU

0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00   ................

0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0   ............pppp

0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00      LLLL****UUUU...




                                    (count 1 of 20)

Wed Jul  7 14:54:22 2021 -- NP0 packet




 From Fabric: 256 byte packet

0000: 00 09 00 00 d9 22 00 00 ff ff ff ff 00 00 ff ff   ....Y"..........

0010: 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc aa aa aa aa   ....ppppLLLL****

0020: 55 55 55 55 00 00 00 00 01 00 00 00 00 00 00 00   UUUU............

0030: 00 00 00 00 ff ff ff ff 00 00 ff ff 00 ff 00 ff   ................

0040: f0 f0 f0 f0 cc cc cc cc aa aa aa aa 55 55 55 55   ppppLLLL****UUUU

0050: 00 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00   ................

0060: ff ff ff ff 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0   ............pppp

0070: cc cc cc cc aa aa aa aa 55 55 55 55 00 00 00 00   LLLL****UUUU....

0080: 01 00 00 00 00 00 00 00 00 00 00 00 ff ff ff ff   ................

0090: 00 00 ff ff 00 ff 00 ff f0 f0 f0 f0 cc cc cc cc   ........ppppLLLL

00a0: aa aa aa aa 55 55 55 55 00 00 00 00 01 00 00 00   ****UUUU........

00b0: 00 00 00 00 00 00 00 00 ff ff ff ff 00 00 ff ff   ................

00c0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

00d0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

00e0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................

00f0: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00   ................




                                    (count 2 of 20)










RP/0/RP0/CPU0:ASR-9922-A#sh pfm location  0/Rp0/CPU0

Wed Jul  7 14:56:24.459 UTC







node: node0_RP0_CPU0

---------------------

CURRENT TIME: Jul  7 14:56:24 2021

PFM TOTAL: 2   EMERGENCY/ALERT(E/A): 1   CRITICAL(CR): 0   ERROR(ER): 1 

-------------------------------------------------------------------------------------------------

Raised Time         |S#|Fault Name                         |Sev|Proc_ID|Dev/Path Name |Handle   

--------------------+--+-----------------------------------+---+-------+--------------+----------

Jul  1 10:13:45 2021|0 |SPINE_UNAVAILABLE                  |E/A|5082   |Fabric Manager|0x1034000

Jul  7 14:55:23 2021|0 |PUNT_FABRIC_DATA_PATH_FAILED       |ER |9429   |System Punt/Fa|0x2000004

RP/0/RP0/CPU0:ASR-9922-A#sh pfm process 9429 location 0/RP0/CPU0

Wed Jul  7 14:56:39.961 UTC







node: node0_RP0_CPU0

---------------------

CURRENT TIME: Jul  7 14:56:40 2021

PFM TOTAL: 2   EMERGENCY/ALERT(E/A): 1   CRITICAL(CR): 0   ERROR(ER): 1 

PER PROCESS TOTAL: 0   EM: 0   CR: 0   ER: 0  

Device/Path[1 ]:Fabric loopbac  [0x2000003 ] State:RDY  Tot: 0 

Device/Path[2 ]:System Punt/Fa  [0x2000004 ] State:RDY  Tot: 1 

1   Fault Id:          432

    Sev:               ER

    Fault Name:        PUNT_FABRIC_DATA_PATH_FAILED

    Raised Timestamp:  Jul  7 14:55:23 2021

    Clear Timestamp:   N/A

    Changed Timestamp: N/A

    Resync Mismatch:   FALSE

    MSG:               failure threshold is 3, (slot, NP) failed: (0/7/CPU0, 0)

Device/Path[3 ]:Crossbar Switc  [0x108c000 ] State:RDY  Tot: 0 

Device/Path[4 ]:Crossbar Switc  [0x108c001 ] State:RDY  Tot: 0 

Device/Path[5 ]:Crossbar Switc  [0x108c002 ] State:RDY  Tot: 0 

Device/Path[6 ]:Crossbar Switc  [0x108c003 ] State:RDY  Tot: 0 

Device/Path[7 ]:Crossbar Switc  [0x108c004 ] State:RDY  Tot: 0 

Device/Path[8 ]:Crossbar Switc  [0x108c005 ] State:RDY  Tot: 0 

Device/Path[9 ]:Crossbar Switc  [0x108c006 ] State:RDY  Tot: 0 

Device/Path[10]:Crossbar Switc  [0x108c007 ] State:RDY  Tot: 0 

Device/Path[11]:Crossbar Switc  [0x108c008 ] State:RDY  Tot: 0 

Device/Path[12]:Crossbar Switc  [0x108c009 ] State:RDY  Tot: 0 

Device/Path[13]:Crossbar Switc  [0x108c00a ] State:RDY  Tot: 0 

Device/Path[14]:Crossbar Switc  [0x108c00b ] State:RDY  Tot: 0 

Device/Path[15]:Crossbar Switc  [0x108c00c ] State:RDY  Tot: 0 

Device/Path[16]:Crossbar Switc  [0x108c00d ] State:RDY  Tot: 0 

Device/Path[17]:Crossbar Switc  [0x108c00e ] State:RDY  Tot: 0 

Device/Path[18]:Fabric Interfa  [0x108b000 ] State:RDY  Tot: 0 

Device/Path[19]:Fabric Arbiter  [0x1086000 ] State:RDY  Tot: 0 

Device/Path[20]:CPU Controller  [0x108d000 ] State:RDY  Tot: 0 

Device/Path[21]:Device Control  [0x109a000 ] State:RDY  Tot: 0 

Device/Path[22]:ClkCtrl Contro  [0x109b000 ] State:RDY  Tot: 0 

Device/Path[23]:NVRAM           [0x10ba000 ] State:RDY  Tot: 0 

Device/Path[24]:Hooper switch   [0x1097000 ] State:RDY  Tot: 0 

Device/Path[25]:Hooper switch   [0x1097001 ] State:RDY  Tot: 0 

Device/Path[26]:Hooper switch   [0x1097002 ] State:RDY  Tot: 0 

Device/Path[27]:Hooper switch   [0x1097003 ] State:RDY  Tot: 0

A interface TenGigE0/7/0/19 foi desativada de NP0:

RP/0/RP0/CPU0:ASR-9922-A#show logging last 200 | in 0/7/0       

Wed Jul  7 14:58:42.959 UTC

LC/0/7/CPU0:Jul  7 14:55:23.798 UTC: ifmgr[270]: %PKT_INFRA-LINK-3-UPDOWN :
 Interface TenGigE0/7/0/19, changed state to Down

LC/0/7/CPU0:Jul  7 14:55:23.798 UTC: ifmgr[270]: %PKT_INFRA-LINEPROTO-5-UPDOWN :
 Line protocol on Interface TenGigE0/7/0/19, changed state to Down

RP/0/RP0/CPU0:Jul  7 14:55:23.802 UTC: BM-DISTRIB[1290]: %L2-BM-6-ACTIVE :
 TenGigE0/7/0/19 is no longer Active as part of Bundle-Ether854 (Link is down)

LC/0/7/CPU0:Jul  7 14:55:25.854 UTC: vic_0_0[379]: %PLATFORM-VIC-4-RFI :
 Interface TenGigE0/7/0/19, Detected Remote Fault

LC/0/7/CPU0:Jul  7 14:55:26.936 UTC: lda_server[114]: %PKT_INFRA-FM-2-FAULT_CRITICAL :
 ALARM_CRITICAL :OPTICS RX POWER LANE-0 LOW ALARM :CLEAR : Te0/7/0/0:

Geração de erro PUNT interrompida:

RP/0/RP0/CPU0:ASR-9922-A#sh ipv4 int brief location 0/7/CPU0   

Wed Jul  7 14:59:16.322 UTC



Interface                      IP-Address      Status          Protocol Vrf-Name

TenGigE0/7/0/0                 unassigned      Down            Down     default

TenGigE0/7/0/1                 unassigned      Down            Down     default

TenGigE0/7/0/2                 unassigned      Down            Down     default

TenGigE0/7/0/3                 unassigned      Down            Down     default

TenGigE0/7/0/4                 unassigned      Down            Down     default

TenGigE0/7/0/5                 unassigned      Down            Down     default

TenGigE0/7/0/6                 unassigned      Down            Down     default

TenGigE0/7/0/7                 unassigned      Shutdown        Down     default

TenGigE0/7/0/8                 unassigned      Shutdown        Down     default

TenGigE0/7/0/9                 unassigned      Shutdown        Down     default

TenGigE0/7/0/10                unassigned      Down            Down     default

TenGigE0/7/0/11                unassigned      Down            Down     default

TenGigE0/7/0/12                unassigned      Down            Down     default

TenGigE0/7/0/13                unassigned      Shutdown        Down     default

TenGigE0/7/0/14                unassigned      Shutdown        Down     default

TenGigE0/7/0/15                unassigned      Shutdown        Down     default

TenGigE0/7/0/16                unassigned      Shutdown        Down     default

TenGigE0/7/0/17                unassigned      Shutdown        Down     default

TenGigE0/7/0/18                unassigned      Down            Down     default

TenGigE0/7/0/19                unassigned      Down            Down     default  >>>>>>

Alarme parado:

RP/0/RP0/CPU0:ASR-9922-A#sh pfm location  0/Rp0/CPU0

Wed Jul  7 15:01:44.478 UTC


node: node0_RP0_CPU0

---------------------

CURRENT TIME: Jul  7 15:01:44 2021

PFM TOTAL: 1   EMERGENCY/ALERT(E/A): 1   CRITICAL(CR): 0   ERROR(ER): 0 

-------------------------------------------------------------------------------------------------

Raised Time         |S#|Fault Name                         |Sev|Proc_ID|Dev/Path Name |Handle   

--------------------+--+-----------------------------------+---+-------+--------------+----------

Jul  1 10:13:45 2021|0 |SPINE_UNAVAILABLE                  |E/A|5082   |Fabric Manager|0x1034000

RP/0/RP0/CPU0:ASR-9922-A#

Interface ativada:

RP/0/RP0/CPU0:ASR-9922-A#show logging  | in 0/7/0/19                                 

Wed Jul  7 15:06:11.532 UTC

LC/0/7/CPU0:Jul  7 14:55:23.798 UTC: ifmgr[270]: %PKT_INFRA-LINK-3-UPDOWN :
 Interface TenGigE0/7/0/19, changed state to Down

LC/0/7/CPU0:Jul  7 14:55:23.798 UTC: ifmgr[270]: %PKT_INFRA-LINEPROTO-5-UPDOWN :
 Line protocol on Interface TenGigE0/7/0/19, changed state to Down

RP/0/RP0/CPU0:Jul  7 14:55:23.802 UTC: BM-DISTRIB[1290]: %L2-BM-6-ACTIVE :
 TenGigE0/7/0/19 is no longer Active as part of Bundle-Ether854 (Link is down)

LC/0/7/CPU0:Jul  7 14:55:25.854 UTC: vic_0_0[379]: %PLATFORM-VIC-4-RFI :
 Interface TenGigE0/7/0/19, Detected Remote Fault

LC/0/7/CPU0:Jul  7 15:03:27.204 UTC: ifmgr[270]: %PKT_INFRA-LINK-3-UPDOWN :
 Interface TenGigE0/7/0/19, changed state to Up

LC/0/7/CPU0:Jul  7 15:03:27.206 UTC: ifmgr[270]: %PKT_INFRA-LINEPROTO-5-UPDOWN :
 Line protocol on Interface TenGigE0/7/0/19, changed state to Up

RP/0/RP0/CPU0:Jul  7 15:03:29.219 UTC: BM-DISTRIB[1290]: %L2-BM-6-ACTIVE :
 TenGigE0/7/0/19 is Active as part of Bundle-Ether854

Histórico de revisões

Revisão	Data de publicação	Comentários
1.0	09-Jan-2023	Versão inicial

Colaborado por engenheiros da Cisco

Ritesh Shetty
Líder técnico da Cisco

Este documento lhe foi útil?

Feedback

Contate a Cisco

Abrir um caso de suporte
(É necessário um Contrato de Serviço da Cisco)

Este documento se refere a estes produtos

ASR 9000 Series Aggregation Services Routers

Solucione problemas de falha de caminho de dados do Punt Fabric no Tomahawk e no Lightspeed Card

Opções de download

Linguagem imparcial

Sobre esta tradução

Contents

Introdução

Informações de Apoio

Caminho do Pacote de Diagnóstico de Estrutura Punt

Arquitetura de LCs de alto nível

Tomahawk LC

Arquitetura 8x100G

Arquitetura 12 x 100G

LC Lightspeed

A9K-20HG-FLEX-SE/TR

A99-32x100GE-X-SE/TR

A9K-8HG-FLEX-SE/TR

Filas de saída virtuais e o Arbiter

Visão geral da fila de saída virtual

Diagrama do Fabric Arbiter

Interconexões em malha

Interconexões de estrutura de switch ASR9006 e ASR9010

Interconexões de estrutura de switch ASR9922

Backplane ASR9922 e ASR9912

Visão geral do Online Diagnostics

Faça a triagem do problema

Informações necessárias para iniciar a triagem

Teste de diagnóstico

Triagem de estrutura

Triagem de Falhas do Árbitro

Triagem de falhas NP

Coleta de log geral para Tomahawk, LSQ e LSP

Assinatura e Recomendação de Erro Comum

Defeitos conhecidos

Comportamento do fault-manager datapath port shutdown/toggle comando

Histórico de revisões

Colaborado por engenheiros da Cisco

Este documento lhe foi útil?

Contate a Cisco

Este documento se refere a estes produtos

Comportamento do `fault-manager datapath port shutdown/toggle` comando