簡介
本文檔介紹如何使用Grafana控制面板對常見執行環境(CEE)中生成的警報進行故障排除。
CEE中的警報
可在CEE Ops Center上配置警報規則,以下是一個示例:
alerts rules group Pod
interval-seconds 300
rule Memory_Major
expression "(go_memstats_heap_inuse_bytes{pod=~\"rest-ep.*|smf-service.*|gtpc-ep.*|protocol.*|udp-proxy.*|cache-pod.*\"} /16000000000) >= 0.5"
duration 15m
severity major
type "Processing Error Alarm"
annotation summary
value "\"POD {{ $labels.pod }} in Namespace: {{ $labels.namespace }} has reached 50% of utilization\""
exit
exit
exit
表達式依賴於PromQL,在示例中,它監控每個指定的POD的go_memstats_heap_inuse_bytes(=記憶體使用率)。它計算總記憶體為16GB的記憶體利用率,如果利用率超過75%,將生成警報。生成的警報可通過show alerts history或show alerts active CLI檢視。
[unknown] cee# show alerts active summary | include Memory_Major
Memory_Major 68e812264ed6 major 10-28T02:23:44 worker1 POD cache-pod-0 in Namespace: smf-data has reached 50% of utilization
Memory_Major 627af1cdd01c major 10-28T02:23:44 worker1 POD cache-pod-1 in Namespace: smf-data has reached 50% of utilization
Memory_Major 394d713e294b major 10-28T02:23:44 worker1 POD gtpc-ep-n0-0 in Namespace: smf-data has reached 50% of utilization
Memory_Major bd95b1a35ef5 major 10-28T02:23:44 worker1 POD smf-rest-ep-n0-0 in Namespace: smf-data has reached 50% of utilization
Memory_Major 57254fd42f1a major 10-28T02:23:44 worker1 POD smf-udp-proxy-0 in Namespace: smf-data has reached 50% of utilization
Memory_Major 56135a34c635 major 10-28T02:23:44 worker1 POD smf-service-n0-0 in Namespace: smf-data has reached 50% of utilization
有關警報的更多說明,請參閱本檔案。
基於應用程式的警報
https://www.cisco.com/c/en/us/td/docs/wireless/ucc/smf/b_SMF/b_SMF_chapter_0110101.html
如何進行疑難排解
CLI不提供實際測量值或趨勢資料。進一步對其進行故障排除的最佳方法是使用Grafana控制面板。如上所述,警報由PromQL定義,因此可以使用相同的語法在Grafana上建立圖形。
以規則為例,此語法可用於建立圖形。
(go_memstats_heap_inuse_bytes{pod=~"rest-ep.*|smf-service.*|gtpc-ep.*|protocol.*|udp-proxy.*|cache-pod.*"}/16000000000)*100
附註:
1.刪除用作轉義序列的語法中的「\」
2.乘以100使之成為百分比代表