概要
このドキュメントでは、ユーザのネットワークで認識されるノードエクスポータディスクのフル問題について説明します。
背景
Cluster Manager Common Execution Environment(CEE)の監査が実行されると、ノードエクスポータディスクがいっぱいになったことが監査結果に示されます。
問題
重大な重大度アラート状態が存在する理由は、次の24時間以内にディスクがいっぱいの状態が発生すると予測されるため、このアラートがCEEで認識されたためです。
" node-exporter cee03/node-exporter-4dd4a4dd4aのデバイス/dev/sda3は、24時間以内にフルになると予測されます"
分析
報告されたアラートは、CEE上でラックのハードウェアの問題を追跡し、24時間以内に発生する完全なディスク状態を予測します。
cisco@deployer-cm-primary:~$ kubectl get pods -A -o wide | grep node
cee03 node-exporter-4dd4a4dd4a 1/1 Running 1 111d 10.10.1.1 deployer-cm-primary <none> <none>
root@deployer-cm-primary:/# df -h
Filesystem Size Used Avail Use% Mounted on
overlay 568G 171G 368G 32% /
tmpfs 64M 0 64M 0% /dev
tmpfs 189G 0 189G 0% /sys/fs/cgroup
tmpfs 189G 0 189G 0% /host/sys/fs/cgroup
/dev/sda1 9.8G 3.5G 5.9G 37% /host/root
udev 189G 0 189G 0% /host/root/dev
tmpfs 189G 0 189G 0% /host/root/dev/shm
tmpfs 38G 15M 38G 1% /host/root/run
tmpfs 5.0M 0 5.0M 0% /host/root/run/lock
/dev/sda3 71G 67G 435M 100% /host/root/var/log
監査が実行されると、/dev/sda3ディスクがいっぱいであるように見えます。
root@deployer-cm-primary:/host/root/var/log# du -h --max-depth=1
76M ./sysstat
16K ./lost+found
4.0K ./containers
4.0K ./landscape
9.3M ./calico
1.1G ./apiserver
808K ./pods
5.6G ./journal
60G ./audit
36K ./apt
67G .
監査のチェックは、ログを保持していることを示します。その結果、エクスポータノードディスクがいっぱいというサーバ状態が発生する可能性が高くなります。
cisco@deployer-cm-primary:~$ sudo cat /etc/audit/auditd.conf
#
# This file controls the configuration of the audit daemon
#
local_events = yes
write_logs = yes
log_file = /var/log/audit/audit.log
log_group = adm
log_format = RAW
flush = INCREMENTAL_ASYNC
freq = 50
max_log_file = 8
num_logs = 5
priority_boost = 4
disp_qos = lossy
dispatcher = /sbin/audispd
name_format = NONE
##name = mydomain
max_log_file_action = keep_logs
space_left = 75
space_left_action = email
verify_email = yes
action_mail_acct = root
admin_space_left = 50
admin_space_left_action = halt
disk_full_action = SUSPEND
disk_error_action = SUSPEND
use_libwrap = yes
##tcp_listen_port = 60
tcp_listen_queue = 5
tcp_max_per_addr = 1
##tcp_client_ports = 1024-65535
tcp_client_max_idle = 0
enable_krb5 = no
krb5_principal = auditd
##krb5_key_file = /etc/audit/audit.key
distribute_network = no
cisco@deployer-cm-primary:~$
解決方法
deployer-cm-primaryとdeployer-cm-secondaryの両方で次に示すコマンドコードを実行して、潜在的なノードエクスポータディスクのフル状態を修復します。
sudo vim /etc/audit/auditd.conf
次に、次に示すコードを使用して、insideファイルをkeep_logsからrotateに変更します。
max_log_file_action = rotate
コードが変更されたら、サービスを再起動します。
sudo systemctl restart auditd.service
重大なアラートが削除されたことを確認します。