O conjunto de documentação deste produto faz o possível para usar uma linguagem imparcial. Para os fins deste conjunto de documentação, a imparcialidade é definida como uma linguagem que não implica em discriminação baseada em idade, deficiência, gênero, identidade racial, identidade étnica, orientação sexual, status socioeconômico e interseccionalidade. Pode haver exceções na documentação devido à linguagem codificada nas interfaces de usuário do software do produto, linguagem usada com base na documentação de RFP ou linguagem usada por um produto de terceiros referenciado. Saiba mais sobre como a Cisco está usando a linguagem inclusiva.
A Cisco traduziu este documento com a ajuda de tecnologias de tradução automática e humana para oferecer conteúdo de suporte aos seus usuários no seu próprio idioma, independentemente da localização. Observe que mesmo a melhor tradução automática não será tão precisa quanto as realizadas por um tradutor profissional. A Cisco Systems, Inc. não se responsabiliza pela precisão destas traduções e recomenda que o documento original em inglês (link fornecido) seja sempre consultado.
Este documento descreve a solução geral de problemas para relatar corretamente problemas de alta CPU/QFP ao TAC para uma resolução de caso mais rápida.
A Cisco recomenda que você tenha conhecimento básico destes tópicos:
Este documento não se restringe a versões de software e hardware específicas. Ele se aplica a qualquer plataforma de roteamento Cisco IOS-XE® com QFP físico/virtualizado como ASR1000, ISR4000, ISR1000, Cat8000 ou Cat8000v.
As informações neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. Todos os dispositivos utilizados neste documento foram iniciados com uma configuração (padrão) inicial. Se a rede estiver ativa, certifique-se de que você entenda o impacto potencial de qualquer comando.
Este documento descreve os comandos que o TAC precisa para a triagem inicial de um problema alto de CPU/QFP para obter uma excelente experiência no TAC desde o primeiro contato.
Além disso, este documento contém dicas de Troubleshooting para identificar uma unidade de processamento central (CPU) alta ou um problema de utilização do processador de fluxo quântico (QFP) alto para que você possa encontrar uma solução antes de abrir um caso de TAC.
A finalidade deste documento não é explicar detalhadamente nenhum procedimento de identificação e solução de problemas. Se disponíveis, serão fornecidas referências a mais guias de troubleshooting mais aprofundados.
No final deste documento, há diagramas de blocos que servem para fins educacionais como uma representação visual dos componentes.
Componentes altos - memória, TCAM, CPU, QFP - a utilização normalmente é um indicador de:
Identificar a causa subjacente da alta utilização de componentes é vital para determinar o curso apropriado de ação para resolver o problema.
Você pode validar se há uma condição alta de CPU ou QFP através das ferramentas de monitoramento ou através destes comandos:
show process cpu sorted
iosxe_router#show process cpu sorted
CPU utilization for five seconds: 90%/0%; one minute: 0%; five minutes: 0%
PID Runtime(ms) Invoked uSecs 5Sec 1Min 5Min TTY Process
395 78769 1242162 63 89.07% 88.04% 89.02% 0 CDP Protocol
1 8 88 90 0.00% 0.00% 0.00% 0 Chunk Manager
--- snip ---
Na linha "Utilização da CPU por cinco segundos: 90%/0%; um minuto: 0%; cinco minutos: 0%", é necessário focalizar no primeiro valor após a sequência de "cinco segundos". Nesse caso, os 90% indicam a utilização geral da CPU, enquanto o número à direita de slash-0, nesse caso, representa o uso da CPU devido a interrupções. A diferença entre esses dois números representa a utilização total da CPU devido a processos. Neste cenário, o protocolo CDP está consumindo a maior parte dos recursos da CPU (plano de controle).
Como o Cisco IOS-XE tem um kernel baseado em Linux, às vezes você encontra problemas ao longo de qualquer um dos processos em execução sobre ele, você pode usar a plataforma show processes CPU classificada para validar se algum processo está causando problemas (foco na coluna de 5 seg) para mostrar processos do sistema operacional subjacente.
iosxe_router#show process cpu platform sorted
-- depending on the architecture, there can be multiple cores, deleting for brevity --
Pid PPid 5Sec 1Min 5Min Status Size Name
--------------------------------------------------------------------------------
18009 18001 323% 325% 328% R 266740 ucode_pkt_PPE0
11168 11160 1% 1% 1% S 914556 linux_iosd-imag
96 2 1% 0% 0% S 0 ksmd
--- snip ---
Observação: os roteadores com QFP virtual têm o processo ucode_pkt_PPE0, que é o processo de software que emula o plano de dados. Portanto, esse processo pode ser ignorado na lista de processos que contribuem para a utilização da CPU.
QFP é o sistema em um chip responsável por todo o encaminhamento de pacotes. Informações adicionais podem ser encontradas na seção: Compreendendo o High QFP em roteadores IOS-XE.
iosxe_router #show platform hardware qfp active datapath utilization
CPP 0: Subdev 0 5 secs 1 min 5 min 60 min
--- snip ---
(bps) 21992 13648 13736 13720
Processing: Load (pct) 0 0 0 0
Crypto/IO
RX: Load (pct) 0 0 0 0
TX: Load (pct) 1 1 1 0
Idle (pct) 99 99 99 99
A partir do comando show platform hardware qfp ative data path usage, concentre-se no processamento: Carga para a coluna de 5 segundos, pois isso fornece o uso geral de QFP mais recente. Alguns dispositivos também exibem o uso do módulo Crypto/IO, com foco em Ocioso, quanto mais próximo de 100%, melhor.
Por padrão, não há registros gerados pelo sistema que mostra uma alta utilização da CPU no IOSd, que usa o número de CPU 0, a primeira CPU nos sistemas Cisco IOS-XE.
Esse comando deve ser configurado primeiro para que o syslog seja gerado no primeiro núcleo.
Este comando deve ser escrito de acordo com o formato descrito em Notificação de Limite de CPU: process cpu threshold type {total | processo | interrupção} aumento percentual intervalo segundos [queda percentual intervalo segundos]
Dessa forma, poderemos ver este tipo de notificação:
%SYS-1-CPURISINGTHRESHOLD: Threshold: Total CPU Utilization(Total/Intr): 91%/2%, Top 3 processes(Pid/Util):
Outra maneira de capturar o alto uso dele é por meio de medições de SNMP ou telemetria.
Em alguns casos, você verá um alerta de LIMITE de recurso como este quando outros núcleos tiverem um acerto de uso alto:
PLATFORM_INFRA-5-IOS_INTR_OVER_LIMIT:
Para o plano de dados , veríamos esse tipo de alerta QFP em log, geralmente indicando que a carga de limite foi excedida:
MCPRP-QFP-ALERT: Slot: 0, QFP:0, Load 93% exceeds the setting threshold(80%).
Se a CPU não ficar presa a uma constante de 100%, inclua uma saída show tech. Isso é de grande ajuda para o TAC, e você pode se beneficiar das automatizações que o TAC desenvolveu para ajudá-lo a encontrar problemas mais rapidamente.
Observação: a condição de CPU de alto desempenho deve ser solucionada enquanto o problema estiver presente, pois o dispositivo não armazena dados históricos sobre o tempo de execução dos processos.
Observação: verifique se você está executando uma versão com suporte. Procure o documento End-of-Sale (Fim das vendas) e End-of-Life (Fim da vida útil) para a versão. Se necessário, mude para uma versão que esteja atualmente em Software Maintenance Releases. Caso contrário, o TAC é limitado nas opções de solução de problemas.
Como regra, considera-se que uma CPU/QFP está executando acima de 80%.
Os roteadores Cisco IOS-XE podem ser associados à alta utilização no plano de controle (CPU) ou no plano de dados (QFP).
Observação: o ideal é avaliar uma alta utilização de CPU/QFP em relação aos padrões de uso típicos do dispositivo ao longo do tempo. Por exemplo, se um dispositivo normalmente opera com 10% de uso da CPU, mas repentinamente salta para 40%, isso pode indicar alto uso da CPU para esse dispositivo. Por outro lado, um dispositivo que executa consistentemente com 80% de uso da CPU não é necessariamente um problema se esse é o seu nível operacional normal. O monitoramento de sistemas com gráficos de CPU pode ajudar a coletar e analisar esses dados para estabelecer uma linha de base para cada dispositivo.
Fazer referência à CPU em um roteador Cisco IOS-XE é fazer referência à CPU responsável pelas operações do plano administrativo/de controle do dispositivo. Há muitos processos em execução no dispositivo, todos sendo executados sobre um kernel baseado em Linux. Cada um desses processos é executado em uma CPU de uso geral.
Quando uma condição de alta utilização da CPU está presente, geralmente ela é um indicador de:
Algumas plataformas têm várias CPUs de uso geral, que obedecem a estas regras:
Em dispositivos Cisco IOSXE, geralmente temos planos de dados e planos de controle de núcleos dedicados à CPU.
Geralmente, se a CPU 0 (a primeira CPU) estiver ligada ao IOSd (daemon do IOS) , o núcleo dedicado à CPU será relacionado ao plano de controle. Outras CPUs podem ser uma combinação de CPUs de plano de controle e plano de dados.
No caso do ASR 1000, que geralmente é modular, as saídas de comando como show platform resources e show platform software status control-processor brief mostram o uso para CPUs de plano de controle (RP) e plano de dados (ESP).
As CPUs do plano de controle são dedicadas a controlar o processamento do protocolo, como o processamento do protocolo BGP, protocolo STP, CDP, SSH e assim por diante. As CPUs do plano de controle processam pacotes destinados ao próprio roteador para seu processamento.
O plano de dados geralmente se refere aos pacotes de trânsito que o roteador não consome em si no Processador de Roteamento (RP), em vez disso, os pacotes de processo de plano de dados que são processados somente no componente do Processador de Fluxo Quântico (QFP) que é o processador de pacotes. Esses pacotes têm seu processamento em QFP, onde as pesquisas acontecem para enviar o pacote de trânsito ao destino pretendido.
O Quantum Flow Processor (QFP) é o sistema em um chip (SoC) responsável por todas as operações de encaminhamento de pacotes no dispositivo.
O QFP executa um software especializado chamado microcódigo. Esse microcódigo é responsável por executar e aplicar recursos a todos os pacotes que passam pelo dispositivo com base na configuração da interface de entrada/saída. Ele também interage com o resto do sistema através de diferentes processos.
Quando uma condição QFP alta está presente, ela é geralmente um indicador de:
Para um melhor entendimento da situação, o TAC deve coletar o rastreamento de Feature Invocation Array (FIA) para análise adicional. Isso está documentado em Troubleshooting com o Recurso de Rastreamento de Pacotes do Datapath do IOS-XE
Estes são comandos básicos iniciais que devem ser reunidos no momento do problema (a lógica EEM pode ser implementada para corresponder à notificação de registro e obter a saída):
router_non_modular#show platform resources
**State Acronym: H - Healthy, W - Warning, C - Critical
Resource Usage Max Warning Critical State
----------------------------------------------------------------------------------------------------
RP0 (ok, active) H
Control Processor 10.64% 100% 80% 90% H
DRAM 2143MB(54%) 3913MB 88% 93% H
bootflash 2993MB(97%) 3099MB 70% 90% C
ESP0(ok, active) H
QFP H
DRAM 52844KB(20%) 262144KB 85% 95% H
IRAM 207KB(10%) 2048KB 85% 95% H
CPU Utilization 0.00% 100% 90% 95% H
Router#show platform software status control-processor brief
Load Average
Slot Status 1-Min 5-Min 15-Min
RP0 Healthy 1.75 1.25 1.14
Memory (kB)
Slot Status Total Used (Pct) Free (Pct) Committed (Pct)
RP0 Healthy 4003008 2302524 (58%) 1700484 (42%) 3043872 (76%)
CPU Utilization
Slot CPU User System Nice Idle IRQ SIRQ IOwait
RP0 0 5.60 10.80 0.00 75.00 0.00 0.10 8.50
1 8.10 11.81 0.00 66.66 0.00 0.20 13.21
2 4.69 9.49 0.00 80.81 0.00 0.19 4.79
3 4.80 10.20 0.00 79.30 0.00 0.10 5.60
4 3.70 3.20 0.00 92.90 0.00 0.00 0.20
5 1.09 2.99 0.00 95.00 0.00 0.09 0.79
6 20.00 33.10 0.00 46.90 0.00 0.00 0.00
7 0.00 0.00 0.00 100.00 0.00 0.00 0.00
Router#
O alto uso da CPU em um roteador Cisco IOS-XE modular pode ter uma condição de alta CPU na placa do Processador de Rotas (RP), no Processador de Serviços Embutido (ESP) ou na placa do Processador de Interface SPA (SIP). Esses comandos ajudam a entender se a condição de CPU alta está relacionada a uma placa diferente dentro do dispositivo:
ios_xe_modular_router#show platform resources
**State Acronym: H - Healthy, W - Warning, C - Critical
Resource Usage Max Warning Critical State
----------------------------------------------------------------------------------------------------
RP0 (ok, active) H
Control Processor 11.62% 100% 90% 95% H
DRAM 1730MB(45%) 3783MB 90% 95% H
ESP0(ok, active) H
Control Processor 19.59% 100% 90% 95% H
DRAM 616MB(65%) 946MB 90% 95% H
QFP H
TCAM 8cells(0%) 65536cells 45% 55% H
DRAM 79212KB(30%) 262144KB 80% 90% H
IRAM 9329KB(7%) 131072KB 80% 90% H
SIP0 H
Control Processor 2.30% 100% 90% 95% H
DRAM 280MB(60%) 460MB 90% 95% H
* Dependendo da versão do Cisco IOS, o QFP pode conter o uso do processador, caso contrário, você precisará coletar a utilização do caminho de dados qfp show platform hardware
Um bom guia de referência para o ASR1k pode ser encontrado em Troubleshoot High CPU on ASR1000 Series Router
Observação: os comandos às vezes variam dependendo da plataforma e da versão. Procure a documentação específica da plataforma em alguns casos.
Revisão | Data de publicação | Comentários |
---|---|---|
1.0 |
23-Oct-2024 |
Versão inicial |