Introducción
Este documento describe cómo utilizar Grafana/Prometheus en Cisco SMF para crear consultas personalizadas para resolver problemas relacionados con el flujo de llamadas.
Abreviaturas
SMF |
Función de administración de sesiones |
UDM |
Gestión unificada de datos |
AMF |
Función de acceso y movilidad |
PDU |
Unidad de datos de protocolo |
¿Por qué personalizar consultas para solucionar problemas de flujo de llamadas de SMF?
Mientras que los paneles incorporados proporcionan grandes gráficos con respecto a importantes KPI y estadísticas de estado de nodos, para utilizar todo el potencial de las consultas PromQL y el grafana para resolver problemas habituales, las consultas personalizadas desempeñan un papel importante. Las consultas y los gráficos personalizados del programa añaden más versatilidad y comodidad para aislar una falla específica.
Ventajas de los paneles integrados:
- Grafana proporciona una interfaz gráfica y fácil de usar para examinar las estadísticas de SMF.
- Hay paneles de grafana incorporados disponibles para comprobar la mayoría de los KPI y estadísticas.
Ejemplo:
Panel SMF 5G
- Velocidad de error/éxito de creación de PDU 5G
- PDN 4G Creación de tasa de fallos/éxito
- Tasa de éxito por procedimiento
- Porcentaje de causa por fallo de procedimiento.
- Porcentaje de motivo de desconexión.
- Solicitud HTTP y porcentaje de causa de respuesta correspondiente.
Para resolver problemas adicionales:
- Los paneles y el panel disponibles se refieren principalmente a porcentajes y KPI. Mientras se investiga más a fondo, es posible que sea necesario analizar los detalles granulares para identificar el escenario y el mensaje concretos que desencadenaron este error.
- Las consultas personalizadas utilizando expresiones regulares específicas contribuirán a correlacionar estas estadísticas y aislar el desencadenador.
- Estas consultas se pueden utilizar para trazar gráficos en grafana SMF o en el grafana fuera de línea con la métrica volcada del paquete tac-debug.
- Se puede utilizar el rango de métricas asociado a diferentes servicios y también se puede filtrar a través de pares de clave/valor de etiqueta para resolver problemas de escenario específico.
Grafana y Prometeo
Grafana
"Grafana es un software de visualización y análisis de código abierto. Le permite consultar, visualizar, alertar y explorar sus métricas sin importar dónde se almacenen".
Cisco SMF utiliza grafana integrada para trazar los datos estadísticos en tiempo real de los contenedores de aplicaciones.
Prometeo
Prometheus proporciona un modelo de datos multidimensional con datos de series temporales identificados por pares de nombre métrico y clave/valor y un lenguaje de consulta flexible denominado PromQL para acceder a estos datos.
Prometheus se utiliza para recopilar estadísticas/contadores de los microservicios.
Indicadores: son los identificadores de las estadísticas de la serie temporal.
Etiquetas- Las métricas están formadas por Etiquetas. ¿Cuáles son básicamente los pares clave-valor? Las combinaciones de etiquetas para una métrica determinada identifican una instancia particular de datos de series temporales
Ejemplo:
La métrica "smf_service_stats" resaltada en verde, tiene muchas etiquetas, que se resaltan en amarillo.
Con estos pares de clave/valor de etiqueta, se puede seleccionar una serie de datos determinada.
Consulta PromQL
Prometheus proporciona un lenguaje de consulta funcional llamado PromQL. Las funciones incorporadas están disponibles en PromQl (p. ej. Sum(), by(), count() etc) nos permite seleccionar determinados datos de series temporales en un formato gráfico o tabular.
Ejemplo:
sum(smf_service_stats{status="success"}) by (procedure_type)
Este ejemplo selecciona datos de la métrica smf_service_stats por tipo_de_procedimiento donde estado = "éxito"
suma (calcular suma sobre dimensiones)
by(Agrupa el resultado por etiquetas)
Los filtros se pueden utilizar dentro de la suma utilizando pares de clave/valor Label para filtrar más los gráficos.
Ejemplo 1:
sum(smf_disconnect_stats{namespace="smf-data",reason=~"disc_eutra.*"})by(reason, rat_type)
Aquí se selecciona el espacio de nombres smf-data y, como motivo, se tendrá en cuenta toda la razón de desconexión que comienza con disk_eutra (es decir, razones de desconexión 4G).
Ejemplo 2:
sum(smf_restep_http_msg{namespace="smf-data", api_name=~"sdm_.*"}) by(api_name,message_direction,response_status,response_cause)
Esta consulta paralizará los mensajes de suscripción sdm SMF - UDM con la causa de respuesta.
¿Cómo se crea un panel y un panel?
Para agregar un Nuevo Panel.
Paso 1. Vaya a Crear > Panel, como se muestra en esta imagen.
Para agregar el nuevo panel - Agregar consulta.
Paso 2. Navegue hasta la opción Agregar panel en la parte superior para agregar un nuevo panel.
Paso 3. Seleccione el botón Agregar consulta.
Seleccione Tipo de consulta: Prometheus hi-res.
Paso 4. Seleccione la opción Prometheus hi-res en la lista desplegable Consulta.
Paso 5. A continuación, agregue la consulta de Promql en el cuadro dado.
Paso 6. Guarde el panel.
Ejemplo: Utilice la consulta personalizada y los gráficos para solucionar problemas
Falla de establecimiento de sesión PDU - Falla de respuesta N1N2
Paso 1. Observación de la Dip KPI e identificación de la sesión PDU que crea la falla.
Query: sum by (procedure_type, pdu_type, status, reason) (smf_service_stats{namespace="smf",procedure_type="pdu_sess_create"})
Paso 2. La causa de la falla es "n1n2_transfer_failure_rsp_code". Veamos las razones de la desconexión:
Query: sum(smf_disconnect_stats{namespace=”smf"}) by (reason)
Paso 3. El motivo de desconexión "disk_pdusetup_n1n2_transfer_rsp_failure" indica una respuesta negativa del par AMF. Puesto que la interacción SMF-AMF se realiza sobre la interfaz basada en servicios HTTP, es necesario analizar más las estadísticas HTTP (métrica: smf_restep_http_msg)
Las estadísticas HTTP indican que durante el error SMF ha recibido un código de estado HTTP 401 - No autorizado de AMF
Query: sum(smf_restep_http_msg{namespace="smf"}) by(api_name,message_direction,response_status)
Métricas importantes para resolver problemas:
smf_disconnect_stats
smf_proto_pfcp_msg_total
smf_service_stats
smf_restep_http_msg
smf_n1_message_stats
smf_proto_pfcp_msg_total
nodemgr_msg_stats
nodemgr_gtpc_msg_stats
chf_message_stats
policy_msg_processing_status
procedure_protocol_total
procedure_service_total
Más información sobre las métricas SMF:
Como se muestra en estos ejemplos, se pueden trazar sus propios gráficos personalizados como y cuando sea necesario para que el escenario de falla específico correlacione diferentes mensajes y aísle la falla. Estas consultas se pueden ejecutar en sistemas locales también después de que los datos de métrica de Tac_debug_pkg se monten en grafana local.