Introducción
Este documento describe cómo resolver problemas de degradación de los indicadores clave de rendimiento (KPI) S11.
Overview
S11 es la interfaz que conecta la entidad de gestión de movilidad (MME) y la puerta de enlace de servicio (SGW) en una red de evolución a largo plazo (LTE). La interfaz utiliza Gn o GPRS Tunneling Protocol-Control (GTP-C).
Mensajes en la interfaz S11
- Crear Solicitud/Respuesta de Sesión
- Modificar solicitud/respuesta de sesión
- Eliminar solicitud/respuesta de sesión
Establecimiento de sesión EPS:
- La degradación de KPI de S11 se observa cuando se ven más rechazos de Crear solicitudes de sesión (CSR) en comparación con sus intentos de CSR, que tiene que ser la causa raíz.
Puede conocer la fórmula utilizada para medir el KPI y tomar nota de todos los contadores que se incluyen en la fórmula y determinar el contador exacto responsable de la degradación.
S11 ASR (SPGW) = ((tun-sent-cresessrespaccept+ggsn_tun-sent-cresessrespdeniedUserAuthFailed+tun-sent-cresessrespdeniedPrefPdnTypeUnsupported+tun-sent-cresessrespdeniedCtxtNotFound)/EGTPC-ggsn_tun-recv-cresess)*100
PDN Connectivity Success Rate (MME) : ((%esmevent-pdncon-success%) + (%esm-msgtx-pdncon-rej%))*) / (%esmevent-pdncon-attempt%) *100)
Nota: La fórmula puede variar en función de la forma en que se mide.
Registros necesarios en el nivel inicial:
- Tendencia KPI que representa la degradación.
- Fórmula KPI utilizada.
-
Los contadores de bulkstat sin procesar y las tendencias de código de causa desde el principio del problema.
- Capture dos instancias de Mostrar detalles de compatibilidad (SSD) del nodo en un intervalo de 30 minutos durante períodos problemáticos.
- Los registros del sistema variaron desde dos horas antes de que se produjera la degradación hasta la hora actual.
mon sub/pro traces y logging monitor msid <imsi> .
Secuencia de Troubleshooting
-
Evaluar la tendencia KPI de cada contador involucrado en la fórmula KPI S11 mediante el análisis de las estadísticas de volumen.
-
Compare la tendencia KPI durante las escalas de tiempo problemáticas con las escalas de tiempo no problemáticas.
-
Examine cómo se define el contador de bulkstat problemático identificado en función del flujo y establezca cualquier patrón.
-
Recopile los motivos de desconexión del nodo a través de varias iteraciones en intervalos de 3 a 5 minutos.
Puede analizar el delta de razones de desconexión entre dos SSD recolectados en diferentes marcas de tiempo. El motivo de desconexión que muestra un aumento significativo en el valor delta puede considerarse la causa de la degradación de KPI. Para obtener descripciones detalladas de todas las razones de desconexión, consulte la Referencia de estadísticas y contadores de Cisco aquí: https://www.cisco.com/c/en/us/td/docs/wireless/asr_5000/21-23/Stat-Count-Reference/21-23-show-comman...
show session disconnect-reasons verbose
5. Verifique las estadísticas de egtp en función del tipo de nodo en el que se toma:
--- SGW end -----
show egtpc statistics interface sgw-ingress path-failure-reasons
show egtpc statistics interface sgw-ingress summary
show egtpc statistics interface sgw-ingress verbose
show egtpc statistics interface sgw-ingress sessmgr-only
show egtpc statistics interface sgw-egress path-failure-reasons
show egtpc statistics interface sgw-egress summary
show egtpc statistics interface sgw-egress verbose
show egtpc statistics interface sgw-egress sessmgr-only
---- PGW end -----
show egtpc statistics interface pgw-ingress path-failure-reasons
show egtpc statistics interface sgw-ingress summary
show egtpc statistics interface sgw-ingress verbose
show egtpc statistics interface sgw-ingress sessmgr-only
--- MME end -----
show egtpc statistics interface mme path-failure-reasons
show egtpc statistics interface mme summary
show egtpc statistics interface mme verbose
show egtpc statistics interface mme sessmgr-only
6. Una vez que haya identificado el contador específico que causa el problema, debe capturar los seguimientos de llamadas mon-sub/mon-pro para analizar e identificar más detalladamente el flujo de llamadas específico que está causando la degradación del KPI. Además, puede utilizar herramientas externas para obtener seguimientos de Wireshark y obtener así un análisis más detallado.
Los comandos para capturar sub-seguimientos Mon son los siguientes:
monitor subscriber with options 19, 26,33, 34, 35, 49,A,S, X, Y, verbosity +5 during the issue.
mon-pro with options 19, 26,33, 34, 35, 49,A,S, X, Y, verbosity +5 during the issue if no mon-sub is present.
More options can be enabled depending on the protocol or call flow we need to capture specifically
En los casos en los que la captura de seguimientos como mon-sub no es factible debido a un porcentaje mínimo de degradación de KPI, debe capturar registros de depuración a nivel del sistema en su lugar. Esto implica la captura de registros de depuración para sessmgr y egptc y, si es necesario, la captura de flujos específicos de gateway.
logging filter active facility sessmgr level debug
logging filter active facility egtpc level debug
logging filter active facility sgw level debug
logging filter active facility pgw level debug
logging active ----------------- to enable
no logging active ------------- to disable
Note :: Debugging logs can increase CPU utilization so need to keep a watch while executing debugging logs
7. Después de analizar los logs de depuración, si determina la causa del problema, puede continuar capturando el archivo de núcleo para ese evento específico en el que observe los logs de errores.
logging enable-debug facility sessmgr instance <instance-ID> eventid 11176 line-number 3219 collect-cores 1
For example :: consider we are getting below error log in debug logs which we suspect can be a cause of issue
and we don;t have any call trace
[egtpc 141027 info] [15/0/6045 <sessmgr:93> _handler_func.c:10068] [context: INLAND_PTL_MME01, contextID: 6] [software internal user syslog] [mme-egress] Sending reject response for the message EGTP_MSG_UPDATE_BEARER_REQUEST with cause EGTP_CAUSE_NO_RESOURCES_AVAILABLE to <Host:x.x.x.x, Port:31456, seq_num:82011>
So in this error event
facility :: sessmgr
event ID = 141027
line number = 10068
Advertencia: Siempre que se solicite la recopilación de registros como, por ejemplo, debug logs, logging monitor, mon-sub o mon-pro, es importante asegurarse de que estos registros se recopilan durante una ventana de mantenimiento. Además, es crucial monitorear la carga de la CPU durante este tiempo.
Análisis e identificación de síntomas
- En primer lugar, compruebe si se observan desperfectos frecuentes en el sistema desde SSD.
show crash list
- Verifique si se ha encontrado algún problema de licencia. En algunos casos, cuando la licencia de Serving Packet Data Gateway (SPGW) ha caducado, ya no puede aceptar nuevas llamadas, lo que provoca fallos en las llamadas y provoca la degradación o caída de S11.
show resource info
- Verifique si hay varias instancias de sessmgr en estado warn/over debido al uso excesivo de memoria o CPU. Si se encuentran estas instancias, compruebe si se están rechazando nuevas llamadas debido a estas condiciones.
- Desde los registros de depuración, puede verificar en qué interfaz, obtendrá los errores de rechazo de llamada.
Si se produce un número significativo de errores de rechazo de llamada para un suscriptor específico en el contexto "sgw-egress", seguido del rechazo del mismo suscriptor en el contexto "sgw-ingress", se puede inferir que los rechazos de Packet Data Gateway (PGW) se envían a SGW-> MME en el contexto S11. Para confirmar y resolver problemas más allá del extremo PGW, ahora puede tomar un mon-sub para este IMSI.
2022-Nov-26+00:20:51.763 [egtpc 141018 unusual] [7/0/16871 <sessmgr:579> _handler_func.c:3227] [context: gwctx, contextID: 2] [software internal user syslog] [sgw-egress] For IMSI: 427021600263284, create session request is rejected by the peer with cause EGTP_CAUSE_NO_RESOURCES_AVAILABLE
2022-Nov-26+00:20:51.763 [egtpc 141018 unusual] [7/0/16871 <sessmgr:579> _handler_func.c:2505] [context: gwctx, contextID: 2] [software internal user syslog] [sgw-ingress] For IMSI: 427021600263284, create session request is rejected by the SAP user with cause EGTPC_REASON_UNKNOWN
- En ocasiones, puede haber varios motivos de rechazo para la reducción de KPI, por lo que debe comprobar cada motivo por separado y proceder en consecuencia.
Por ejemplo, puede producirse un no_resource_available/user_auth_failure aumento de errores para determinadas series de International Mobile Subscriber Identity (IMSI), que es para los suscriptores en itinerancia, por lo que deben comprobarse desde PGW. Podría haber una razón como remote peer not responding y crear una solicitud de sesión que se agota el tiempo de espera en SGW y esto puede causar degradación en S11 KPI. Esta sesión de creación podría rechazarse No_resource_available desde SGW hacia MME. Estos códigos de causa de rechazo se pueden observar en los registros del protocolo de monitoreo y puede verificar las opciones Crear Solicitud de Sesión y Crear Respuestas de Sesión para identificar las direcciones IP específicas desde donde se envían estos códigos de causa de rechazo.