简介
本文档介绍ACI故障F3545/F3544以及可能的步骤以帮助缓解此问题。
F3545:合同政策CAM编程
当交换机由于硬件或软件编程故障而无法激活合同规则(分区规则)时,就会发生F3545故障。如果您看到这一点,是因为策略内容可寻址存储器(CAM)已满,无法在交换机上部署更多合同,并且可以在重新启动或升级后部署另一组合同。
这可能会导致在升级之前运行的服务在升级之后或交换机全新重新加载后开始失败。
请注意,由于其他原因(例如合同中的过滤器类型不受支持,而不是策略CAM的使用),可能会发生相同故障。例如,第一代ACI交换机支持EtherType IP,但不支持合同过滤器中的IPv4或IPv6。
存在此故障时,请在APIC GUI中检查Operations > Capacity Dashboard > Leaf Capacity,以了解策略CAM使用情况。也可以在枝叶上执行此命令以获得当前策略计数。
vsh_lc -c "show plat internal hal health-stats" | grep -A 7 "Policy stats"
您也可以在任何APIC的CLI上运行moquery (moquery -c faultInst -f 'fault.Inst.code=="F3545"'),以检查系统中是否存在这些故障。这些故障在GUI中也可以看到。
故障示例(F3545:分区规则编程故障)
下一个输出显示了节点101的示例,其中266个合同规则(zoneRuleFailed)的编程失败。虽然它还在changeSet中显示L3Out子网(pfxRuleFailed)的编程故障,但会为此产生单独的故障F3544。
apic1# moquery -c faultInst -f 'fault.Inst.code=="F3545"'
Total Objects shown: 1
# fault.Inst
code : F3545
ack : no
annotation :
cause : actrl-resource-unavailable
changeSet : pfxRuleFailed (New: 80), zoneRuleFailed (New: 266)
childAction :
created : 2020-02-26T01:01:49.256-05:00
delegated : no
descr : 266 number of Rules failed on leaf1
dn : topology/pod-1/node-101/sys/actrl/dbgStatsReport/fault-F3545
domain : infra
extMngdBy : undefined
highestSeverity : major
lastTransition : 2020-02-26T01:03:59.849-05:00
lc : raised
modTs : never
occur : 1
origSeverity : major
prevSeverity : major
rn : fault-F3545
rule : actrl-stats-report-zone-rule-prog-failed
severity : major
status :
subject : hwprog-failed
type : operational
uid :
F3544:合同的L3Out子网编程(F3544)
当交换机由于硬件或软件编程故障而无法激活条目以将前缀映射到pcTag时,就会发生F3544故障。
这些条目在L3Out中的外部EPG下使用“外部EPG的外部子网”作用域为L3Out子网配置,用于将L3Out子网映射到L3Out EPG。
如果由于交换机的LPM或主机路由容量而看到此消息,则此类交换机可以在重新启动或升级后激活不同的条目集。
这会导致服务在升级失败之前或升级启动后重新加载交换机后正常运行。
存在此故障时,请在APIC GUI中检查Operations > Capacity Dashboard > Leaf Capacity以了解LPM和/32或/128路由使用情况。
您也可以在枝叶上执行此命令以获得当前策略计数:
vsh_lc -c "show plat internal hal health-stats" | grep -A 55 "L3 stats"
您可以在任何APIC的CLI上运行moquery (moquery -c faultInst -f 'fault.Inst.code=="F3544"),以检查系统中是否存在这些故障。这些故障在GUI中也可以看到。
故障示例(F3544:L3Out子网编程故障)
下一个输出显示节点101的示例,其中80个L3Out子网的编程失败为“外部EPG的外部子网” (pfxRuleFailed)。虽然它还在changeSet中显示合同本身(zoneRuleFailed)的编程故障,但会为此引发单独的故障F3545。
apic1# moquery -c faultInst -f 'fault.Inst.code=="F3544"'
Total Objects shown: 1
# fault.Inst
code : F3544
ack : no
annotation :
cause : actrl-resource-unavailable
changeSet : pfxRuleFailed (New: 80), zoneRuleFailed (New: 266)
childAction :
created : 2020-02-26T01:01:49.246-05:00
delegated : no
descr : 80 number of Prefix failed on leaf1
dn : topology/pod-1/node-101/sys/actrl/dbgStatsReport/fault-F3544
domain : infra
extMngdBy : undefined
highestSeverity : major
lastTransition : 2020-02-26T01:03:59.849-05:00
lc : raised
modTs : never
occur : 1
origSeverity : major
prevSeverity : major
rn : fault-F3544
rule : actrl-stats-report-pre-fix-prog-failed
severity : major
status :
subject : hwprog-failed
type : operational
uid :
如何解决这些故障?
1. 在操作容量控制面板上或使用枝叶CLI验证策略CAM使用情况/LPMvsh_lc -c "show plat internal hal health-stats"。
2. 检查经验证的可扩展性指南(google经验证的可扩展性指南ACI),以便检查版本和平台支持的限制。
3. 删除应用于EPG的未使用合同和过滤器。
4. 收集包括枝叶交换机的按需技术支持,以供TAC进一步分析。
升级前检查
升级前验证程序脚本会标记两个故障F3545和F3544,以便在升级前未解决故障时提醒用户注意影响。
升级前脚本的详细信息记录如下:
https://www.cisco.com/c/en/us/td/docs/dcn/aci/apic/all/apic-installation-aci-upgrade-downgrade/Cisco-APIC-Installation-ACI-Upgrade-Downgrade-Guide/m-pre-upgrade-checklists.html?bookSearch=true#Cisco_Concept.dita_1f674dd5-9ea2-4062-826b-f3c1550552dc。