Introdução
Este documento descreve como solucionar problemas de degradação dos KPIs (Key Performance Indicators, principais indicadores de desempenho) S11.
Overview
S11 é a interface que conecta a Entidade de Gerenciamento de Mobilidade (MME - Mobility Management Entity) e o Gateway de Serviço (SGW - Serving Gateway) em uma rede LTE (Long Term Evolution). A interface utiliza o Gn ou o GPRS Tunneling Protocol-Control (GTP-C).
Mensagens na interface S11
- Criar solicitação/resposta de sessão
- Modificar Solicitação/Resposta da Sessão
- Excluir solicitação/resposta de sessão
Estabelecimento de sessão EPS:
- A degradação do KPI S11 é observada quando você vê mais rejeições de Criar Solicitações de Sessão (CSR) em comparação com suas tentativas de CSR, que deve ser a causa raiz.
Você pode conhecer a fórmula usada para medir o KPI e anotar todos os contadores que estão incluídos na fórmula e determinar o contador exato responsável pela degradação.
S11 ASR (SPGW) = ((tun-sent-cresessrespaccept+ggsn_tun-sent-cresessrespdeniedUserAuthFailed+tun-sent-cresessrespdeniedPrefPdnTypeUnsupported+tun-sent-cresessrespdeniedCtxtNotFound)/EGTPC-ggsn_tun-recv-cresess)*100
PDN Connectivity Success Rate (MME) : ((%esmevent-pdncon-success%) + (%esm-msgtx-pdncon-rej%))*) / (%esmevent-pdncon-attempt%) *100)
Observação: a fórmula pode variar com base na maneira como é medida.
Logs necessários no nível inicial:
- Tendência de KPI que representa a degradação.
- Fórmula de KPI utilizada.
-
Os contadores bulkstat brutos causam tendências de código desde o início do problema.
- Capture duas instâncias de Mostrar Detalhes de Suporte (SSDs) do nó em um intervalo de 30 minutos durante períodos problemáticos.
- Os Syslogs variaram de duas horas antes da degradação ocorrer até a hora atual.
mon sub/pro traces e logging monitor msid <imsi> .
Sequência de Troubleshooting
-
Avalie a tendência de KPI de cada contador envolvido na fórmula de KPI S11 analisando as estatísticas de volume.
-
Comparar a tendência de KPI durante cronogramas problemáticos com cronogramas não problemáticos.
-
Examine como o contador bulkstat problemático identificado é definido com base no fluxo e estabeleça quaisquer padrões.
-
Colete os motivos de desconexão do nó por meio de várias iterações em intervalos de 3 a 5 minutos.
Você pode analisar o delta dos motivos de desconexão entre dois SSDs coletados em carimbos de data/hora diferentes. O motivo da desconexão que mostra um aumento significativo no valor delta pode ser considerado a causa da degradação do KPI. Para obter descrições detalhadas de todos os motivos de desconexão, consulte a Cisco Statistics and Counters Reference aqui: https://www.cisco.com/c/en/us/td/docs/wireless/asr_5000/21-23/Stat-Count-Reference/21-23-show-comman...
show session disconnect-reasons verbose
5. Verifique as estatísticas do egtp com base no tipo de nó em que ele é utilizado:
--- SGW end -----
show egtpc statistics interface sgw-ingress path-failure-reasons
show egtpc statistics interface sgw-ingress summary
show egtpc statistics interface sgw-ingress verbose
show egtpc statistics interface sgw-ingress sessmgr-only
show egtpc statistics interface sgw-egress path-failure-reasons
show egtpc statistics interface sgw-egress summary
show egtpc statistics interface sgw-egress verbose
show egtpc statistics interface sgw-egress sessmgr-only
---- PGW end -----
show egtpc statistics interface pgw-ingress path-failure-reasons
show egtpc statistics interface sgw-ingress summary
show egtpc statistics interface sgw-ingress verbose
show egtpc statistics interface sgw-ingress sessmgr-only
--- MME end -----
show egtpc statistics interface mme path-failure-reasons
show egtpc statistics interface mme summary
show egtpc statistics interface mme verbose
show egtpc statistics interface mme sessmgr-only
6. Depois de identificar o contador específico que está causando o problema, você deve capturar rastreamentos de chamada mon-sub/mon-pro para analisar e identificar melhor o fluxo de chamada específico que está causando a degradação do KPI. Além disso, você pode usar ferramentas externas para obter rastros do Wireshark para uma análise mais detalhada.
Os comandos para capturar sub-rastreamentos Mon são os seguintes:
monitor subscriber with options 19, 26,33, 34, 35, 49,A,S, X, Y, verbosity +5 during the issue.
mon-pro with options 19, 26,33, 34, 35, 49,A,S, X, Y, verbosity +5 during the issue if no mon-sub is present.
More options can be enabled depending on the protocol or call flow we need to capture specifically
Nos casos em que a captura de rastreamentos como mon-sub não é viável devido a uma porcentagem mínima de degradação de KPI, você deve capturar logs de depuração no nível do sistema. Isso envolve a captura de logs de depuração para o sessmgr e o egptc e, se necessário, a captura de fluxos específicos do gateway.
logging filter active facility sessmgr level debug
logging filter active facility egtpc level debug
logging filter active facility sgw level debug
logging filter active facility pgw level debug
logging active ----------------- to enable
no logging active ------------- to disable
Note :: Debugging logs can increase CPU utilization so need to keep a watch while executing debugging logs
7. Depois de analisar os logs de depuração, se você determinar a causa do problema, poderá continuar capturando o arquivo de núcleo para aquele evento específico, onde você observa os logs de erro.
logging enable-debug facility sessmgr instance <instance-ID> eventid 11176 line-number 3219 collect-cores 1
For example :: consider we are getting below error log in debug logs which we suspect can be a cause of issue
and we don;t have any call trace
[egtpc 141027 info] [15/0/6045 <sessmgr:93> _handler_func.c:10068] [context: INLAND_PTL_MME01, contextID: 6] [software internal user syslog] [mme-egress] Sending reject response for the message EGTP_MSG_UPDATE_BEARER_REQUEST with cause EGTP_CAUSE_NO_RESOURCES_AVAILABLE to <Host:x.x.x.x, Port:31456, seq_num:82011>
So in this error event
facility :: sessmgr
event ID = 141027
line number = 10068
Aviso: Sempre que solicitar a coleta de logs, como logs de depuração, monitor de log, mon-sub ou mon-pro, é importante garantir que esses logs sejam coletados durante uma janela de manutenção. Além disso, é crucial monitorar a carga da CPU durante esse período.
Análise e identificação de sintomas
- Primeiro, verifique se algum travamento frequente foi observado no sistema a partir do SSD.
show crash list
- Verifique se algum problema de licença foi encontrado. Em alguns casos, quando a licença no SPGW (Serving Packet Data Gateway) expira, ele não pode mais aceitar novas chamadas, resultando em chamadas com falha e levando à degradação ou queda do S11.
show resource info
- Verifique se há várias instâncias do sessmgr em um aviso/sobre o estado devido ao uso alto de memória ou CPU. Se tais instâncias forem encontradas, verifique se novas chamadas estão sendo rejeitadas devido a essas condições.
- Nos registros de depuração, você pode verificar em que interface os erros de rejeição de chamada ocorrem.
Se um número significativo de erros de rejeição de chamada ocorrer para um assinante específico no contexto "sgw-egress", seguido pela rejeição do mesmo assinante no contexto "sgw-ingress", pode ser inferido que as rejeições do Packet Data Gateway (PGW) são enviadas para SGW-> MME no contexto S11. Para confirmar e fazer troubleshooting adicional a partir da extremidade do PGW, agora você pode usar um mon-sub para este IMSI.
2022-Nov-26+00:20:51.763 [egtpc 141018 unusual] [7/0/16871 <sessmgr:579> _handler_func.c:3227] [context: gwctx, contextID: 2] [software internal user syslog] [sgw-egress] For IMSI: 427021600263284, create session request is rejected by the peer with cause EGTP_CAUSE_NO_RESOURCES_AVAILABLE
2022-Nov-26+00:20:51.763 [egtpc 141018 unusual] [7/0/16871 <sessmgr:579> _handler_func.c:2505] [context: gwctx, contextID: 2] [software internal user syslog] [sgw-ingress] For IMSI: 427021600263284, create session request is rejected by the SAP user with cause EGTPC_REASON_UNKNOWN
- Às vezes, pode haver vários motivos de rejeição para a queda do KPI, portanto, você precisa verificar cada motivo separadamente e prosseguir de acordo.
Por exemplo, pode haver no_resource_available/user_auth_failure aumento de erro para determinadas séries IMSI (International Mobile Subscriber Identity), que é para assinantes em roamer, portanto elas precisam ser verificadas no PGW. Pode haver um motivo como remote peer not responding e criar uma solicitação de sessão cujo tempo limite foi atingido no SGW e isso pode causar degradação no KPI S11. Esta sessão de criação pode ser rejeitada como No_resource_available de SGW para MME. Esses códigos de causa da rejeição podem ser observados nos logs do protocolo do monitor e você pode verificar Criar solicitação de sessão e Criar respostas de sessão para identificar os endereços IP específicos de onde esses códigos de causa da rejeição são enviados.