Introdução
Este documento descreve as falhas F3545/F3544 da ACI e as etapas possíveis para ajudar a mitigar o problema.
F3545: Política de programação CAM para contratos
A falha F3545 ocorre quando o switch falha ao ativar uma regra de contrato (regra de zoneamento) devido a uma falha de programação de hardware ou software. Se você vir isso, é porque a política CAM (Content Addressable Memory) está cheia e não é possível implantar mais contratos no switch, e um conjunto diferente de contratos pode ser implantado após uma reinicialização ou atualização.
Isso pode fazer com que os serviços que funcionavam antes de uma atualização comecem a falhar após uma atualização ou uma recarga limpa do switch.
Observe que a mesma falha pode ocorrer por outros motivos, como um tipo de filtro sem suporte no(s) contrato(s) em vez do uso da política CAM. Por exemplo, os switches de primeira geração da ACI suportam EtherType IP, mas não IPv4 ou IPv6 em filtros de contrato.
Quando essa falha estiver presente, verifique a GUIOperations > Capacity Dashboard > Leaf Capacity do APIC para obter informações sobre o uso da CAM de política. Você também pode executar esse comando no leaf para obter a contagem de política atual.
vsh_lc -c "show plat internal hal health-stats" | grep -A 7 "Policy stats"
Você também pode executar o moquery (moquery -c faultInst -f 'fault.Inst.code=="F3545"') na CLI de qualquer APIC para verificar se essas falhas existem no sistema. As falhas também são visíveis na GUI.
Exemplo de falha (F3545: falha de programação da regra de zoneamento)
A próxima saída mostra um exemplo do nó 101 com falha de programação para 266 regras de contrato (zoneRuleFailed). Embora também mostre a falha de programação das sub-redes L3Out (pfxRuleFailed) no changeSet, uma falha separada F3544 é gerada para isso.
apic1# moquery -c faultInst -f 'fault.Inst.code=="F3545"'
Total Objects shown: 1
# fault.Inst
code : F3545
ack : no
annotation :
cause : actrl-resource-unavailable
changeSet : pfxRuleFailed (New: 80), zoneRuleFailed (New: 266)
childAction :
created : 2020-02-26T01:01:49.256-05:00
delegated : no
descr : 266 number of Rules failed on leaf1
dn : topology/pod-1/node-101/sys/actrl/dbgStatsReport/fault-F3545
domain : infra
extMngdBy : undefined
highestSeverity : major
lastTransition : 2020-02-26T01:03:59.849-05:00
lc : raised
modTs : never
occur : 1
origSeverity : major
prevSeverity : major
rn : fault-F3545
rule : actrl-stats-report-zone-rule-prog-failed
severity : major
status :
subject : hwprog-failed
type : operational
uid :
F3544: L3Saída da Programação de Sub-Redes para Contratos (F3544)
A falha F3544 ocorre quando o switch falha ao ativar uma entrada para mapear um prefixo para pcTag devido a uma falha de programação de hardware ou software.
Essas entradas são configuradas para sub-redes L3Out com o escopo 'Sub-redes Externas para o EPG Externo' em um EPG externo em um L3Out e usadas para mapear sub-redes L3Out para EPGs L3Out.
Se você vir isso devido à capacidade do LPM ou das rotas de host no switch, esse switch poderá ativar diferentes conjuntos de entradas após uma reinicialização ou atualização.
Isso pode fazer com que os serviços que estavam funcionais antes de uma atualização falhem depois que a atualização é iniciada ou após uma recarga limpa do switch.
Quando essa falha estiver presente, verifique a utilização dasOperations > Capacity Dashboard > Leaf Capacity rotas LPM e /32 ou /128 na GUI do APIC.
Você também pode executar este comando no leaf para obter a contagem de política atual:
vsh_lc -c "show plat internal hal health-stats" | grep -A 55 "L3 stats"
Você pode executar o moquery (moquery -c faultInst -f 'fault.Inst.code=="F3544"') na CLI de qualquer APIC para verificar se essas falhas existem no sistema. As falhas também são visíveis na GUI.
Exemplo de falha (F3544: falha de programação de sub-rede L3Out)
A próxima saída mostra um exemplo de nó 101 com falha de programação para 80 sub-redes L3Out com 'Sub-redes Externas para o EPG Externo' (pfxRuleFailed). Embora também mostre a falha de programação dos próprios contratos (zoneRuleFailed) no changeSet, uma falha separada F3545 é levantada para isso.
apic1# moquery -c faultInst -f 'fault.Inst.code=="F3544"'
Total Objects shown: 1
# fault.Inst
code : F3544
ack : no
annotation :
cause : actrl-resource-unavailable
changeSet : pfxRuleFailed (New: 80), zoneRuleFailed (New: 266)
childAction :
created : 2020-02-26T01:01:49.246-05:00
delegated : no
descr : 80 number of Prefix failed on leaf1
dn : topology/pod-1/node-101/sys/actrl/dbgStatsReport/fault-F3544
domain : infra
extMngdBy : undefined
highestSeverity : major
lastTransition : 2020-02-26T01:03:59.849-05:00
lc : raised
modTs : never
occur : 1
origSeverity : major
prevSeverity : major
rn : fault-F3544
rule : actrl-stats-report-pre-fix-prog-failed
severity : major
status :
subject : hwprog-failed
type : operational
uid :
Como lidar com as falhas?
Observação: não recarregue o switch nesse estado.
1. Verifique o uso da CAM de Política/LPM no Painel de Capacidade de Operações ou usando CLIvsh_lc -c "show plat internal hal health-stats" leaf.
2. Consulte o Guia de Escalabilidade Verificada (google Verified Scalability Guide ACI) para verificar os limites suportados para a versão e a plataforma.
3. Remova os contratos não utilizados e os filtros aplicados aos EPGs.
4. Colete um suporte técnico sob demanda que inclua os switches leaf para análise posterior pelo TAC.
Verificação de Pré-Atualização
As duas falhas F3545 e F3544 são sinalizadas pelo script do validador de pré-atualização para alertar o usuário sobre o impacto se as falhas não forem resolvidas antes da atualização.
Os detalhes do script de pré-atualização estão documentados aqui:
https://www.cisco.com/c/en/us/td/docs/dcn/aci/apic/all/apic-installation-aci-upgrade-downgrade/Cisco-APIC-Installation-ACI-Upgrade-Downgrade-Guide/m-pre-upgrade-checklists.html?bookSearch=true#Cisco_Concept.dita_1f674dd5-9ea2-4062-826b-f3c1550552dc.