Introduction
Este documento descreve o problema completo do disco do exportador de nó observado na rede de um usuário.
Background
Quando uma auditoria do Ambiente de Execução Comum (CEE) do Cluster Manager é executada, o resultado da auditoria indica que o disco do exportador de nó está cheio.
Problema
Existe uma condição crítica de alerta de gravidade porque uma condição de disco cheio é projetada para ocorrer nas próximas 24 horas, este alerta foi observado em CEE:
" O dispositivo /dev/sda3 do exportador de nó cee03/node-export-4dd4a4dd4a deve estar cheio nas próximas 24 horas"
Análise
O alerta relatado está na CEE que rastreia problemas de hardware para o rack e projeta a condição completa do disco para ocorrer nas próximas 24 horas.
cisco@deployer-cm-primary:~$ kubectl get pods -A -o wide | grep node
cee03 node-exporter-4dd4a4dd4a 1/1 Running 1 111d 10.10.1.1 deployer-cm-primary <none> <none>
root@deployer-cm-primary:/# df -h
Filesystem Size Used Avail Use% Mounted on
overlay 568G 171G 368G 32% /
tmpfs 64M 0 64M 0% /dev
tmpfs 189G 0 189G 0% /sys/fs/cgroup
tmpfs 189G 0 189G 0% /host/sys/fs/cgroup
/dev/sda1 9.8G 3.5G 5.9G 37% /host/root
udev 189G 0 189G 0% /host/root/dev
tmpfs 189G 0 189G 0% /host/root/dev/shm
tmpfs 38G 15M 38G 1% /host/root/run
tmpfs 5.0M 0 5.0M 0% /host/root/run/lock
/dev/sda3 71G 67G 435M 100% /host/root/var/log
Quando uma auditoria é executada, ela parece preencher o disco /dev/sda3.
root@deployer-cm-primary:/host/root/var/log# du -h --max-depth=1
76M ./sysstat
16K ./lost+found
4.0K ./containers
4.0K ./landscape
9.3M ./calico
1.1G ./apiserver
808K ./pods
5.6G ./journal
60G ./audit
36K ./apt
67G .
Uma verificação da auditoria mostra que mantém os registros e, como resultado, é provável que a condição do servidor de disco do nó do exportador esteja cheia.
cisco@deployer-cm-primary:~$ sudo cat /etc/audit/auditd.conf
#
# This file controls the configuration of the audit daemon
#
local_events = yes
write_logs = yes
log_file = /var/log/audit/audit.log
log_group = adm
log_format = RAW
flush = INCREMENTAL_ASYNC
freq = 50
max_log_file = 8
num_logs = 5
priority_boost = 4
disp_qos = lossy
dispatcher = /sbin/audispd
name_format = NONE
##name = mydomain
max_log_file_action = keep_logs
space_left = 75
space_left_action = email
verify_email = yes
action_mail_acct = root
admin_space_left = 50
admin_space_left_action = halt
disk_full_action = SUSPEND
disk_error_action = SUSPEND
use_libwrap = yes
##tcp_listen_port = 60
tcp_listen_queue = 5
tcp_max_per_addr = 1
##tcp_client_ports = 1024-65535
tcp_client_max_idle = 0
enable_krb5 = no
krb5_principal = auditd
##krb5_key_file = /etc/audit/audit.key
distribute_network = no
cisco@deployer-cm-primary:~$
Solução
Execute o código de comando listado a seguir, tanto no Deployment-cm-primary como no Deployment-cm-secondary para corrigir a possível condição completa do disco do exportador de nó.
sudo vim /etc/audit/auditd.conf
Em seguida, use o código listado ao lado para alterar o arquivo interno de keep_logs para girar.
max_log_file_action = rotate
Depois que o código for alterado, reinicie o serviço.
sudo systemctl restart auditd.service
Verifique se o alerta crítico foi removido.