소개
이 문서에서는 CVIM(Cisco Virtualized Infrastructure Manager) 컴퓨팅 노드의 높은 메모리 사용량과 관련된 문제를 분석하는 절차에 대해 설명합니다.
사전 요구 사항
요구 사항
Linux의 메모리 관리 및 HugePages에 대한 지식이 있는 것이 좋습니다.
HugePages란 무엇입니까?
HugePages를 활성화하면 운영 체제에서 기본값보다 큰 메모리 페이지(일반적으로 4KB)를 지원할 수 있습니다. 매우 큰 페이지 크기를 사용하면 페이지 테이블 항목에 액세스하는 데 필요한 시스템 리소스를 줄여 시스템 성능을 향상시킬 수 있습니다. 따라서 HugePages는 일반적으로 메모리 레이턴시를 줄이기 위해 사용됩니다.
문제 설명
CVIM이 알림을 트리거하지 않은 동안 CVIM 컴퓨팅 노드에서 메모리 사용량이 많음 알림이 발생합니다. 메모리 사용률과 관련된 경고는 서드파티 모니터링 툴 또는 모니터링 대시보드를 통해 이루어질 수 있습니다.
분석
OS에서 메모리 사용률이 높은 것으로 관찰되었습니다. free
및 sar
Linux의 명령 출력입니다.
[root@cvim-computex ~]# free -m
total used free shared buff/cache available
Mem: 385410 365882 7602 3621 11925 8411
Swap: 2047 0 2047
[root@cvim-computex ~]# sar -r
Linux 4.18.0-193.81.1.el8_2.x86_64 (pod1-compute4.mx2) 08/24/2023 _x86_64_ (112 CPU)
12:00:46 AM kbmemfree kbavail kbmemused %memused kbbuffers kbcached kbcommit %commit kbactive kbinact kbdirty
12:10:34 AM 7493576 7871200 387166528 98.10 4240 9334356 12893752 3.25 4891940 6325076 68
12:20:11 AM 7503208 7883396 387156896 98.10 4240 9337364 12872708 3.24 4885008 6328096 16
12:30:34 AM 7485648 7869540 387174456 98.10 4240 9340556 12902748 3.25 4892948 6331276 36
12:40:46 AM 7494396 7880940 387165708 98.10 4240 9343636 12866964 3.24 4886908 6334364 20
12:50:34 AM 7479616 7869772 387180488 98.10 4240 9346720 12905156 3.25 4892408 6337444 56
01:00:46 AM 7490304 7883016 387169800 98.10 4240 9349832 12860152 3.24 4885308 6340500 56
01:10:34 AM 7472248 7868672 387187856 98.11 4240 9352836 12896932 3.25 4892604 6343556 28
01:20:46 AM 7484308 7883276 387175796 98.10 4240 9355948 12867972 3.24 4885172 6346676 16
01:30:34 AM 7475092 7869596 387185012 98.11 4240 9350840 12904328 3.25 4892448 6341556 44
01:40:46 AM 7485436 7882508 387174668 98.10 4240 9353932 12864252 3.24 4885148 6344660 56
01:50:34 AM 7468840 7869520 387191264 98.11 4240 9357036 12907464 3.25 4893552 6347752 164
02:00:46 AM 7479076 7882428 387181028 98.10 4240 9360124 12861892 3.24 4886044 6350844 68
이 ps
명령을 사용하여 메모리 사용량이 가장 많은 프로세스를 식별합니다.
[root@cvim-computex ~]# ps -aux --sort -rss
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
root 328199 1207 0.2 541893584 ? RLl Mar12 2948779:31 /usr/bin/vpp -c /etc/vpp/vpp.conf
root 1829 0.0 0.0 379024 227692 ? Ss Mar12 14:21 /usr/lib/systemd/systemd-journald
를 사용하여 통계를 확인하여 컨테이너 메모리 사용량을 확인합니다. podman
또는 docker
명령을 사용합니다.
[root@cvim-computex ~]# podman stats
ID NAME CPU % MEM USAGE / LIMIT MEM % NET IO BLOCK IO PIDS
2f8fdc4b63a4 fluentd_31902 -- 301.2MB / 404.1GB 0.07% -- / -- 9.265MB / 89.68GB 75
34d806a30733 novalibvirt_31902 -- 42.16MB / 404.1GB 0.01% -- / -- 589.8kB / 22.13MB 44
48292d2fa956 novassh_31902 -- 5.882MB / 404.1GB 0.00% -- / -- 475.1kB / 167.3MB 2
7b2ce84e86b3 novacompute_31902 -- 231.8MB / 404.1GB 0.06% -- / -- 761.9kB / 2.43GB 49
89c01c14ef3f neutron_vpp_31902 -- 1.209GB / 404.1GB 0.30% -- / -- 0B / 7.66MB 35
제공된 출력을 기반으로 어떤 프로세스도 높은 메모리 사용량을 나타내지 않는 것으로 보입니다. 게다가, 그 컨테이너들은 적은 양의 메모리를 활용하고 있는 것처럼 보인다.
이 free
명령은 여전히 높은 메모리 사용량을 보여줍니다.
root@cvim-computex ~]# free -m
total used free shared buff/cache available
Mem: 385410 366751 7310 3496 11348 7696
Swap: 2047 5 2042
[root@cvim-computex ~]#
문제 해결
이러한 메모리 사용률을 이해하기 위해서는 HugePage 메모리에 대한 지식이 필수적입니다.
포드가 HugePages와 함께 활성화된 경우 시스템 메모리가 VM을 시작하는 데 사용되지 않도록 올바른 버전을 사용해야 합니다. VM에 시스템 메모리를 사용하면 워크로드와 인프라가 모두 인프라에 예약된 리소스를 놓고 경쟁하기 때문에 CVIM이 불안정해질 수 있습니다.
HugePages를 확인합니다.
[root@cvim-computex ~]# tail /sys/devices/system/node/node0/hugepages/hugepages-2048kB/nr_hugepages
90001
[root@cvim-computex ~]# tail /sys/devices/system/node/node0/hugepages/hugepages-1048576kB/nr_hugepages
0
[root@cvim-computex ~]# tail /sys/devices/system/node/node1/hugepages/hugepages-2048kB/nr_hugepages
90000
[root@cvim-computex ~]# tail /sys/devices/system/node/node1/hugepages/hugepages-1048576kB/nr_hugepages
0
[root@cvim-computex ~]#
nr_hugepages
HugePages의 총 수입니다.
(90001 + 90000) x 2M = 360GB는 HugePage용으로 예약되어 있습니다.
또한 100% HugePage가 구성된 경우에도 총 물리적 메모리의 5%는 OS 사용을 위해 일반 메모리 페이지(4KB)에 예약됩니다.
385GB(무료 합계) - 360GB(HugePage용으로 예약됨) = 25GB는 일반 페이지용으로 예약되었습니다.
즉, NGFW에서 관찰한 대로 sar
및 free
명령이 필요합니다.
언급된 명령을 사용하여 실제 메모리 사용량을 확인합니다.
[root@mgmt-node ~]# ip -br -4 a s br_api
br_api UP 10.x.x.x/24
[root@mgmt-node ~]# curl -sS -g -u admin:password --cacert /var/www/mercury/mercury-ca.crt https://10.x.x.x:9090/api/v1/query --data-urlencode 'query=100 * (mem_free + mem_buffered + mem_cached) / ((mem_total - sum without(NUMAnode, pagename, pagesize) (hugepages_nr)) or mem_total)' | python -mjson.tool
sample output:
{
"status": "success",
"data": {
"resultType": "vector",
"result": [
{
"metric": {
"host": "cvim-computex",
"instance": "10.x.x.x:9273",
"job": "telegraf",
"node_type": "compute"
},
"value": [
1693479719.383,
"76.16486394450624" --> Actual available memory percentage.
]
},
{
"metric": {
"host": "cvim-computey",
"instance": "10.x.x.x:9273",
"job": "telegraf",
"node_type": "compute"
},
"value": [
1693479719.383,
"76.63431887455388"
CVIM은 사용 가능한 메모리가 10% 미만인 경우에만 알림을 트리거합니다.
경고 이름 - mem_available_percent
사용 가능한 시스템 메모리가 10% 미만입니다. 일반 4K 페이지 메모리는 시스템 및 OpenStack 인프라 서비스에서 모두 사용되며 큰 페이지는 포함하지 않습니다. 이 알림은 시스템 또는 인프라에서 RAM이 부족하거나 메모리 사용량이 비정상임을 나타낼 수 있습니다.