Introducción
Este documento describe el problema completo del disco de exportador de nodos observado en la red de un usuario.
Background
Cuando se realiza una auditoría del Entorno de ejecución común (CEE) de Cluster Manager, el resultado de la auditoría indica que el disco de exportador de nodos está lleno.
Problema
Existe una condición de alerta de gravedad crítica porque se prevé que se produzca una condición de estado completo del disco en las próximas 24 horas, esta alerta se notó en CEE:
"Se prevé que el dispositivo /dev/sda3 del exportador de nodos cee03/node-export-4dd4a4dd4a4a se llene en las próximas 24 horas"
Análisis
La alerta informada se encuentra en la CEE que realiza un seguimiento de los problemas de hardware del rack y proyecta que la condición completa del disco se produzca en las próximas 24 horas.
cisco@deployer-cm-primary:~$ kubectl get pods -A -o wide | grep node
cee03 node-exporter-4dd4a4dd4a 1/1 Running 1 111d 10.10.1.1 deployer-cm-primary <none> <none>
root@deployer-cm-primary:/# df -h
Filesystem Size Used Avail Use% Mounted on
overlay 568G 171G 368G 32% /
tmpfs 64M 0 64M 0% /dev
tmpfs 189G 0 189G 0% /sys/fs/cgroup
tmpfs 189G 0 189G 0% /host/sys/fs/cgroup
/dev/sda1 9.8G 3.5G 5.9G 37% /host/root
udev 189G 0 189G 0% /host/root/dev
tmpfs 189G 0 189G 0% /host/root/dev/shm
tmpfs 38G 15M 38G 1% /host/root/run
tmpfs 5.0M 0 5.0M 0% /host/root/run/lock
/dev/sda3 71G 67G 435M 100% /host/root/var/log
Cuando se realiza una auditoría, parece llenar el disco /dev/sda3.
root@deployer-cm-primary:/host/root/var/log# du -h --max-depth=1
76M ./sysstat
16K ./lost+found
4.0K ./containers
4.0K ./landscape
9.3M ./calico
1.1G ./apiserver
808K ./pods
5.6G ./journal
60G ./audit
36K ./apt
67G .
Una verificación de la auditoría muestra que mantiene los registros y, como resultado, es probable que se produzca la condición del servidor de un disco de nodo exportador lleno.
cisco@deployer-cm-primary:~$ sudo cat /etc/audit/auditd.conf
#
# This file controls the configuration of the audit daemon
#
local_events = yes
write_logs = yes
log_file = /var/log/audit/audit.log
log_group = adm
log_format = RAW
flush = INCREMENTAL_ASYNC
freq = 50
max_log_file = 8
num_logs = 5
priority_boost = 4
disp_qos = lossy
dispatcher = /sbin/audispd
name_format = NONE
##name = mydomain
max_log_file_action = keep_logs
space_left = 75
space_left_action = email
verify_email = yes
action_mail_acct = root
admin_space_left = 50
admin_space_left_action = halt
disk_full_action = SUSPEND
disk_error_action = SUSPEND
use_libwrap = yes
##tcp_listen_port = 60
tcp_listen_queue = 5
tcp_max_per_addr = 1
##tcp_client_ports = 1024-65535
tcp_client_max_idle = 0
enable_krb5 = no
krb5_principal = auditd
##krb5_key_file = /etc/audit/audit.key
distribute_network = no
cisco@deployer-cm-primary:~$
Solución
Realice el código de comando que se muestra a continuación, tanto en el implementador-cm-primary como en el implementador-cm-secondary para remediar la condición de disco de exportador de nodos potencial.
sudo vim /etc/audit/auditd.conf
A continuación, utilice el código que aparece junto para cambiar el archivo interno de keep_logs para rotar.
max_log_file_action = rotate
Después de cambiar el código, reinicie el servicio.
sudo systemctl restart auditd.service
Verifique que se haya eliminado la alerta crítica.