Introduction
Este documento descreve como solucionar e corrigir um problema no supervisor no Cisco WAN Automation Engine (WAE).
Prerequisites
Requirements
Não existem requisitos específicos para este documento.
Componentes Utilizados
Este documento não se restringe a versões de software e hardware específicas.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. Se a rede estiver ativa, certifique-se de que você entenda o impacto potencial de qualquer comando.
Problema
No WAE 7.3, este é o problema:
[wae@ds1waenod01 etc]$ sudo systemctl status supervisord
● supervisord.service - Process Monitoring and Control Daemon
Loaded: loaded (/usr/lib/systemd/system/supervisord.service; enabled; vendor preset: disabled)
Active: failed (Result: exit-code) since Tue 2021-12-07 16:52:30 PST; 1 months 14 days ago
Process: 23468 ExecStart=/usr/bin/supervisord -c /etc/supervisord.conf (code=exited, status=1/FAILURE)
Dec 07 16:52:30 ds1waenod01.tnt.lab supervisord[23468]: d.main()
Dec 07 16:52:30 ds1waenod01.tnt.lab supervisord[23468]:
File "/usr/lib/python2.7/site-packages/supervisor/supervisord.py", line 70, in main
Dec 07 16:52:30 ds1waenod01.tnt.lab supervisord[23468]: rlimit_messages = self.options.set_rlimits()
Dec 07 16:52:30 ds1waenod01.tnt.lab supervisord[23468]:
File "/usr/lib/python2.7/site-packages/supervisor/options.py",
line 1316, in set_rlimits
Dec 07 16:52:30 ds1waenod01.tnt.lab supervisord[23468]: self.usage(msg % locals())
Dec 07 16:52:30 ds1waenod01.tnt.lab supervisord[23468]: KeyError: 'min'
Dec 07 16:52:30 ds1waenod01.tnt.lab systemd[1]: supervisord.service: control process exited,
code=exited status=1
Dec 07 16:52:30 ds1waenod01.tnt.lab systemd[1]: Failed to start Process Monitoring and Control Daemon.
Dec 07 16:52:30 ds1waenod01.tnt.lab systemd[1]: Unit supervisord.service entered failed state.
Dec 07 16:52:30 ds1waenod01.tnt.lab systemd[1]: supervisord.service failed.
Devido a isso, o supervisor é tornado inativo. Portanto, não está pronto:
[wae@ds1waenod01 root]$ supervisorctl status
unix:///opt/supervisor/run/supervisor.sock refused connection
O esforço para reiniciar o processo do WAE e a reinicialização do servidor não foi bem-sucedido.
Troubleshoot
Para fazer a triagem, capture estes detalhes:
- Versão do WAE
- Versão do SO: cat /etc/redhat-release
- Versão do supervisor
: rpm -qa supervisor
- Arquivo /etc/security/limits.conf
Causa raiz
Esse é um problema conhecido observado no supervisor versão 3.2 ou anterior. O WAE versão 7.3 pode ter uma versão de supervisor inferior. Para obter detalhes, consulte Problemas do supervisor.
Solução
A solução é atualizar a versão do WAE e, se isso não for possível, atualizar o supervisor. No entanto, se uma atualização não for uma opção, use esta solução alternativa:
Comment these parameters in /etc/supervisord.conf and then restart supervisor/wae.
;minfds=1000000 ; (min. avail startup file descriptors;default 1024)
;minprocs=257805 ; (min. avail process descriptors;default 200)
systemctl restart supervisord.service
supervisorctl restart wae:*
Resultado esperado
O serviço WAE é iniciado conforme esperado:
supervisorctl status
wae:kafka RUNNING pid 11726, uptime 0:01:06
wae:logrotate RUNNING pid 11648, uptime 0:01:07
wae:wae-monitor RUNNING pid 11667, uptime 0:01:07
wae:waectl RUNNING pid 11634, uptime 0:01:07
wae:zookeeper RUNNING pid 11633, uptime 0:01:07
Informações Relacionadas