Solução de problemas de degradação do KPI S11

Opções de download

PDF (481.1 KB)
Ver no Adobe Reader em vários dispositivos
ePub (323.9 KB)
Ver em vários aplicativos no iPhone, iPad, Android, Sony Reader ou Windows Phone
Mobi (Kindle) (225.5 KB)
Ver no dispositivo Kindle ou no aplicativo Kindle em vários dispositivos

Atualizado:16 de junho de 2023

ID do documento:220520

Linguagem imparcial

O conjunto de documentação deste produto faz o possível para usar uma linguagem imparcial. Para os fins deste conjunto de documentação, a imparcialidade é definida como uma linguagem que não implica em discriminação baseada em idade, deficiência, gênero, identidade racial, identidade étnica, orientação sexual, status socioeconômico e interseccionalidade. Pode haver exceções na documentação devido à linguagem codificada nas interfaces de usuário do software do produto, linguagem usada com base na documentação de RFP ou linguagem usada por um produto de terceiros referenciado. Saiba mais sobre como a Cisco está usando a linguagem inclusiva.

Sobre esta tradução

A Cisco traduziu este documento com a ajuda de tecnologias de tradução automática e humana para oferecer conteúdo de suporte aos seus usuários no seu próprio idioma, independentemente da localização. Observe que mesmo a melhor tradução automática não será tão precisa quanto as realizadas por um tradutor profissional. A Cisco Systems, Inc. não se responsabiliza pela precisão destas traduções e recomenda que o documento original em inglês (link fornecido) seja sempre consultado.

Introdução

Overview

Mensagens na interface S11

Sequência de Troubleshooting

Análise e identificação de sintomas

Introdução

Este documento descreve como solucionar problemas de degradação dos KPIs (Key Performance Indicators, principais indicadores de desempenho) S11.

Overview

S11 é a interface que conecta a Entidade de Gerenciamento de Mobilidade (MME - Mobility Management Entity) e o Gateway de Serviço (SGW - Serving Gateway) em uma rede LTE (Long Term Evolution). A interface utiliza o Gn ou o GPRS Tunneling Protocol-Control (GTP-C).

Mensagens na interface S11

Criar solicitação/resposta de sessão
Modificar Solicitação/Resposta da Sessão
Excluir solicitação/resposta de sessão

Estabelecimento de Sessão EPS

Estabelecimento de sessão EPS:

A degradação do KPI S11 é observada quando você vê mais rejeições de Criar Solicitações de Sessão (CSR) em comparação com suas tentativas de CSR, que deve ser a causa raiz.

Você pode conhecer a fórmula usada para medir o KPI e anotar todos os contadores que estão incluídos na fórmula e determinar o contador exato responsável pela degradação.

S11 ASR (SPGW)  = ((tun-sent-cresessrespaccept+ggsn_tun-sent-cresessrespdeniedUserAuthFailed+tun-sent-cresessrespdeniedPrefPdnTypeUnsupported+tun-sent-cresessrespdeniedCtxtNotFound)/EGTPC-ggsn_tun-recv-cresess)*100

PDN Connectivity Success Rate (MME) : ((%esmevent-pdncon-success%) + (%esm-msgtx-pdncon-rej%))*) / (%esmevent-pdncon-attempt%) *100)

Observação: a fórmula pode variar com base na maneira como é medida.

Logs necessários no nível inicial:

Tendência de KPI que representa a degradação.
Fórmula de KPI utilizada.
Os contadores bulkstat brutos causam tendências de código desde o início do problema.
Capture duas instâncias de Mostrar Detalhes de Suporte (SSDs) do nó em um intervalo de 30 minutos durante períodos problemáticos.
Os Syslogs variaram de duas horas antes da degradação ocorrer até a hora atual. mon sub/pro traces e logging monitor msid <imsi> .

`Sequência de Troubleshooting`

  Avalie a tendência de KPI de cada contador envolvido na fórmula de KPI S11 analisando as estatísticas de volume.
 
  Comparar a tendência de KPI durante cronogramas problemáticos com cronogramas não problemáticos.
 
  Examine como o contador bulkstat problemático identificado é definido com base no fluxo e estabeleça quaisquer padrões.
 
  Colete os motivos de desconexão do nó por meio de várias iterações em intervalos de 3 a 5 minutos.

Você pode analisar o delta dos motivos de desconexão entre dois SSDs coletados em carimbos de data/hora diferentes. O motivo da desconexão que mostra um aumento significativo no valor delta pode ser considerado a causa da degradação do KPI. Para obter descrições detalhadas de todos os motivos de desconexão, consulte a Cisco Statistics and Counters Reference aqui: https://www.cisco.com/c/en/us/td/docs/wireless/asr_5000/21-23/Stat-Count-Reference/21-23-show-comman...

show session disconnect-reasons verbose

5. Verifique as estatísticas do egtp com base no tipo de nó em que ele é utilizado:

--- SGW end -----

show egtpc statistics interface sgw-ingress path-failure-reasons
show egtpc statistics interface sgw-ingress summary
show egtpc statistics interface sgw-ingress verbose
show egtpc statistics interface sgw-ingress sessmgr-only

show egtpc statistics interface sgw-egress path-failure-reasons
show egtpc statistics interface sgw-egress summary
show egtpc statistics interface sgw-egress verbose
show egtpc statistics interface sgw-egress sessmgr-only

---- PGW end -----

show egtpc statistics interface pgw-ingress path-failure-reasons
show egtpc statistics interface sgw-ingress summary
show egtpc statistics interface sgw-ingress verbose
show egtpc statistics interface sgw-ingress sessmgr-only

--- MME end -----

show egtpc statistics interface mme path-failure-reasons
show egtpc statistics interface mme summary
show egtpc statistics interface mme verbose
show egtpc statistics interface mme sessmgr-only

6. Depois de identificar o contador específico que está causando o problema, você deve capturar rastreamentos de chamada mon-sub/mon-pro para analisar e identificar melhor o fluxo de chamada específico que está causando a degradação do KPI. Além disso, você pode usar ferramentas externas para obter rastros do Wireshark para uma análise mais detalhada.

Os comandos para capturar sub-rastreamentos Mon são os seguintes:

monitor subscriber with options 19, 26,33, 34, 35, 49,A,S, X, Y, verbosity +5 during the issue.

mon-pro with options 19, 26,33, 34, 35, 49,A,S, X, Y, verbosity +5 during the issue if no mon-sub is present.

More options can be enabled depending on the protocol or call flow we need to capture specifically

Nos casos em que a captura de rastreamentos como mon-sub não é viável devido a uma porcentagem mínima de degradação de KPI, você deve capturar logs de depuração no nível do sistema. Isso envolve a captura de logs de depuração para o sessmgr e o egptc e, se necessário, a captura de fluxos específicos do gateway.

logging filter active facility sessmgr level debug 
logging filter active facility egtpc level debug
logging filter active facility sgw level debug
logging filter active facility pgw level debug

logging active ----------------- to enable 
no logging active ------------- to disable

Note :: Debugging logs can increase CPU utilization so need to keep a watch while executing debugging logs

7. Depois de analisar os logs de depuração, se você determinar a causa do problema, poderá continuar capturando o arquivo de núcleo para aquele evento específico, onde você observa os logs de erro.

logging enable-debug facility sessmgr instance <instance-ID> eventid 11176 line-number 3219 collect-cores 1

For example :: consider we are getting below error log in debug logs which we suspect can be a cause of issue 
and we don;t have any call trace

[egtpc 141027 info] [15/0/6045 <sessmgr:93> _handler_func.c:10068] [context: INLAND_PTL_MME01, contextID: 6] [software internal user syslog] [mme-egress] Sending reject response for the message EGTP_MSG_UPDATE_BEARER_REQUEST with cause EGTP_CAUSE_NO_RESOURCES_AVAILABLE to <Host:x.x.x.x, Port:31456, seq_num:82011>

So in this error event 

facility :: sessmgr
event ID = 141027 
line number = 10068

 
      
      Aviso: Sempre que solicitar a coleta de logs, como logs de depuração, monitor de log, mon-sub ou mon-pro, é importante garantir que esses logs sejam coletados durante uma janela de manutenção. Além disso, é crucial monitorar a carga da CPU durante esse período.

`Análise e identificação de sintomas`

 Primeiro, verifique se algum travamento frequente foi observado no sistema a partir do SSD.

show crash list 
     
     Verifique se algum problema de licença foi encontrado. Em alguns casos, quando a licença no SPGW (Serving Packet Data Gateway) expira, ele não pode mais aceitar novas chamadas, resultando em chamadas com falha e levando à degradação ou queda do S11. 
    
show resource info 
     
     Verifique se há várias instâncias do sessmgr em um aviso/sobre o estado devido ao uso alto de memória ou CPU. Se tais instâncias forem encontradas, verifique se novas chamadas estão sendo rejeitadas devido a essas condições. 
     Nos registros de depuração, você pode verificar em que interface os erros de rejeição de chamada ocorrem. 
    
Se um número significativo de erros de rejeição de chamada ocorrer para um assinante específico no contexto "sgw-egress", seguido pela rejeição do mesmo assinante no contexto "sgw-ingress", pode ser inferido que as rejeições do Packet Data Gateway (PGW) são enviadas para SGW-> MME no contexto S11. Para confirmar e fazer troubleshooting adicional a partir da extremidade do PGW, agora você pode usar um mon-sub para este IMSI.
2022-Nov-26+00:20:51.763 [egtpc 141018 unusual] [7/0/16871 <sessmgr:579> _handler_func.c:3227] [context: gwctx, contextID: 2]  [software internal user syslog] [sgw-egress] For IMSI: 427021600263284, create session request is rejected by the peer with cause EGTP_CAUSE_NO_RESOURCES_AVAILABLE

2022-Nov-26+00:20:51.763 [egtpc 141018 unusual] [7/0/16871 <sessmgr:579> _handler_func.c:2505] [context: gwctx, contextID: 2]  [software internal user syslog] [sgw-ingress] For IMSI: 427021600263284, create session request is rejected by the SAP user with cause EGTPC_REASON_UNKNOWN 
     
     Às vezes, pode haver vários motivos de rejeição para a queda do KPI, portanto, você precisa verificar cada motivo separadamente e prosseguir de acordo. 
    
Por exemplo, pode haver no_resource_available/user_auth_failure aumento de erro para determinadas séries IMSI (International Mobile Subscriber Identity), que é para assinantes em roamer, portanto elas precisam ser verificadas no PGW. Pode haver um motivo como remote peer not responding e criar uma solicitação de sessão cujo tempo limite foi atingido no SGW e isso pode causar degradação no KPI S11. Esta sessão de criação pode ser rejeitada como No_resource_available de SGW para MME. Esses códigos de causa da rejeição podem ser observados nos logs do protocolo do monitor e você pode verificar Criar solicitação de sessão e Criar respostas de sessão para identificar os endereços IP específicos de onde esses códigos de causa da rejeição são enviados.

Histórico de revisões

Revisão	Data de publicação	Comentários
1.0	18-Jun-2023	Versão inicial

Colaborado por engenheiros da Cisco

Gaurav Sachan
Engenheiro do Cisco TAC
Bharati Choudhary
Engenheiro do Cisco TAC
Krishna Kishore
Líder técnico da Cisco

Este documento lhe foi útil?

Feedback

Contate a Cisco

Abrir um caso de suporte
(É necessário um Contrato de Serviço da Cisco)

Solução de problemas de degradação do KPI S11

Opções de download

Linguagem imparcial

Sobre esta tradução

Contents

Introdução

Overview

Mensagens na interface S11

Sequência de Troubleshooting

Análise e identificação de sintomas

Histórico de revisões

Colaborado por engenheiros da Cisco

Este documento lhe foi útil?

Contate a Cisco

`Sequência de Troubleshooting`

`Análise e identificação de sintomas`