Introducción
Este documento describe cómo resolver un problema en el supervisor en Cisco WAN Automation Engine (WAE).
Prerequisites
Requirements
No hay requisitos específicos para este documento.
Componentes Utilizados
Este documento no tiene restricciones específicas en cuanto a versiones de software y de hardware.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. Si tiene una red en vivo, asegúrese de entender el posible impacto de cualquier comando.
Problema
En WAE 7.3, este es el problema:
[wae@ds1waenod01 etc]$ sudo systemctl status supervisord
● supervisord.service - Process Monitoring and Control Daemon
Loaded: loaded (/usr/lib/systemd/system/supervisord.service; enabled; vendor preset: disabled)
Active: failed (Result: exit-code) since Tue 2021-12-07 16:52:30 PST; 1 months 14 days ago
Process: 23468 ExecStart=/usr/bin/supervisord -c /etc/supervisord.conf (code=exited, status=1/FAILURE)
Dec 07 16:52:30 ds1waenod01.tnt.lab supervisord[23468]: d.main()
Dec 07 16:52:30 ds1waenod01.tnt.lab supervisord[23468]:
File "/usr/lib/python2.7/site-packages/supervisor/supervisord.py", line 70, in main
Dec 07 16:52:30 ds1waenod01.tnt.lab supervisord[23468]: rlimit_messages = self.options.set_rlimits()
Dec 07 16:52:30 ds1waenod01.tnt.lab supervisord[23468]:
File "/usr/lib/python2.7/site-packages/supervisor/options.py",
line 1316, in set_rlimits
Dec 07 16:52:30 ds1waenod01.tnt.lab supervisord[23468]: self.usage(msg % locals())
Dec 07 16:52:30 ds1waenod01.tnt.lab supervisord[23468]: KeyError: 'min'
Dec 07 16:52:30 ds1waenod01.tnt.lab systemd[1]: supervisord.service: control process exited,
code=exited status=1
Dec 07 16:52:30 ds1waenod01.tnt.lab systemd[1]: Failed to start Process Monitoring and Control Daemon.
Dec 07 16:52:30 ds1waenod01.tnt.lab systemd[1]: Unit supervisord.service entered failed state.
Dec 07 16:52:30 ds1waenod01.tnt.lab systemd[1]: supervisord.service failed.
Debido a esto, el supervisor se vuelve inactivo. Por lo tanto, no es hasta:
[wae@ds1waenod01 root]$ supervisorctl status
unix:///opt/supervisor/run/supervisor.sock refused connection
El intento de reiniciar el proceso WAE y el servidor no se ha realizado correctamente.
Troubleshoot
Para clasificar esto aún más, capture estos detalles:
- Versión de WAE
- Versión del sistema operativo: cat /etc/redhat-release
- Versión del supervisor
: rpm -qa supervisor
- Archivo /etc/security/limits.conf
Causa raíz
Este es un problema conocido observado en la versión 3.2 o inferior del supervisor. La versión 7.3 de WAE puede tener una versión de supervisor inferior. Para obtener información detallada, vea Problemas del supervisor.
Solución
La solución consiste en actualizar la versión de WAE y, si no es posible, actualizar el supervisor. Sin embargo, si una actualización no es una opción, utilice esta solución alternativa:
Comment these parameters in /etc/supervisord.conf and then restart supervisor/wae.
;minfds=1000000 ; (min. avail startup file descriptors;default 1024)
;minprocs=257805 ; (min. avail process descriptors;default 200)
systemctl restart supervisord.service
supervisorctl restart wae:*
Resultado esperado
El servicio WAE se inicia según lo previsto:
supervisorctl status
wae:kafka RUNNING pid 11726, uptime 0:01:06
wae:logrotate RUNNING pid 11648, uptime 0:01:07
wae:wae-monitor RUNNING pid 11667, uptime 0:01:07
wae:waectl RUNNING pid 11634, uptime 0:01:07
wae:zookeeper RUNNING pid 11633, uptime 0:01:07
Información Relacionada