소개
이 문서에서는 사용자의 네트워크에서 발견된 노드 내보내기 디스크 전체 문제에 대해 설명합니다.
배경
Cluster Manager CEE(Common Execution Environment)에 대한 감사를 수행할 때 감사 결과는 노드 내보내기 디스크가 꽉 찼음을 나타냅니다.
문제
다음 24시간 내에 디스크 전체 상태가 발생할 것으로 예상되기 때문에 심각한 심각도 경고 상태가 존재하며, CEE에 이 알림이 표시되었습니다.
" 노드 내보내기 cee03/node-exporter-4dd4a4dd4a의 디바이스 /dev/sda3는 향후 24시간 내에 꽉 찰 것으로 예상됨"
분석
보고된 경고는 랙의 하드웨어 문제를 추적하고 24시간 내에 전체 디스크 상태가 발생할 것으로 예상하는 CEE에 있습니다.
cisco@deployer-cm-primary:~$ kubectl get pods -A -o wide | grep node
cee03 node-exporter-4dd4a4dd4a 1/1 Running 1 111d 10.10.1.1 deployer-cm-primary <none> <none>
root@deployer-cm-primary:/# df -h
Filesystem Size Used Avail Use% Mounted on
overlay 568G 171G 368G 32% /
tmpfs 64M 0 64M 0% /dev
tmpfs 189G 0 189G 0% /sys/fs/cgroup
tmpfs 189G 0 189G 0% /host/sys/fs/cgroup
/dev/sda1 9.8G 3.5G 5.9G 37% /host/root
udev 189G 0 189G 0% /host/root/dev
tmpfs 189G 0 189G 0% /host/root/dev/shm
tmpfs 38G 15M 38G 1% /host/root/run
tmpfs 5.0M 0 5.0M 0% /host/root/run/lock
/dev/sda3 71G 67G 435M 100% /host/root/var/log
감사를 수행하면 /dev/sda3 디스크를 채우는 것처럼 나타납니다.
root@deployer-cm-primary:/host/root/var/log# du -h --max-depth=1
76M ./sysstat
16K ./lost+found
4.0K ./containers
4.0K ./landscape
9.3M ./calico
1.1G ./apiserver
808K ./pods
5.6G ./journal
60G ./audit
36K ./apt
67G .
감사 검사에서 로그를 유지하는 것으로 나타나므로 exporter-node 디스크의 서버 조건이 가득 찰 가능성이 높습니다.
cisco@deployer-cm-primary:~$ sudo cat /etc/audit/auditd.conf
#
# This file controls the configuration of the audit daemon
#
local_events = yes
write_logs = yes
log_file = /var/log/audit/audit.log
log_group = adm
log_format = RAW
flush = INCREMENTAL_ASYNC
freq = 50
max_log_file = 8
num_logs = 5
priority_boost = 4
disp_qos = lossy
dispatcher = /sbin/audispd
name_format = NONE
##name = mydomain
max_log_file_action = keep_logs
space_left = 75
space_left_action = email
verify_email = yes
action_mail_acct = root
admin_space_left = 50
admin_space_left_action = halt
disk_full_action = SUSPEND
disk_error_action = SUSPEND
use_libwrap = yes
##tcp_listen_port = 60
tcp_listen_queue = 5
tcp_max_per_addr = 1
##tcp_client_ports = 1024-65535
tcp_client_max_idle = 0
enable_krb5 = no
krb5_principal = auditd
##krb5_key_file = /etc/audit/audit.key
distribute_network = no
cisco@deployer-cm-primary:~$
솔루션
다음 명령 코드를 deployer-cm-primary 및 deployer-cm-secondary에서 준비하여 잠재적 노드 내보내기 디스크 전체 조건을 수정합니다.
sudo vim /etc/audit/auditd.conf
그런 다음 옆에 나열된 코드를 사용하여 내부 파일을 keep_logs에서 회전하도록 변경합니다.
max_log_file_action = rotate
코드가 변경된 후 서비스를 다시 시작합니다.
sudo systemctl restart auditd.service
중요 알림이 제거되었는지 확인합니다.