はじめに
このドキュメントでは、ACI障害F3545/F3544と、この問題を軽減するために可能な手順について説明します。
F3545:契約のポリシーCAMプログラミング
障害F3545は、ハードウェアまたはソフトウェアのプログラミング障害が原因で、スイッチがコントラクトルール(ゾーニングルール)をアクティブにできない場合に発生します。これは、ポリシーのContent Addressable Memory(CAM;連想メモリ)がいっぱいになり、スイッチ上でこれ以上のコントラクトを展開できず、リブートまたはアップグレード後に別のコントラクトセットを展開できるためです。
これにより、アップグレード前に動作していたサービスが、アップグレードまたはスイッチのクリーンリロード後に失敗し始める可能性があります。
同じエラーは、ポリシーCAMの使用ではなく、サポートされていないタイプのフィルタがコントラクト内に存在するなど、他の理由で発生する可能性があることに注意してください。たとえば、第1世代のACIスイッチはEtherType IPをサポートしますが、契約フィルタではIPv4またはIPv6はサポートしません。
この障害が発生している場合は、APIC GUIのOperations > Capacity Dashboard > Leaf CapacityでポリシーのCAM使用率を確認します。現在のポリシーカウントを取得するために、リーフでこのコマンドを実行することもできます。
vsh_lc -c "show plat internal hal health-stats" | grep -A 7 "Policy stats"
また、APICのCLIでmoquery (moquery -c faultInst -f 'fault.Inst.code=="F3545"')を実行して、これらのエラーがシステムに存在するかどうかを確認することもできます。障害はGUIにも表示されます。
障害の例(F3545:ゾーニング・ルールのプログラミングの失敗)
次の出力は、266個のコントラクトルール(zoneRuleFailed)のプログラミングに失敗したノード101の例を示しています。changeSet内のL3Outサブネット(pfxRuleFailed)のプログラミング障害も表示されますが、この場合は別の障害F3544が発生します。
apic1# moquery -c faultInst -f 'fault.Inst.code=="F3545"'
Total Objects shown: 1
# fault.Inst
code : F3545
ack : no
annotation :
cause : actrl-resource-unavailable
changeSet : pfxRuleFailed (New: 80), zoneRuleFailed (New: 266)
childAction :
created : 2020-02-26T01:01:49.256-05:00
delegated : no
descr : 266 number of Rules failed on leaf1
dn : topology/pod-1/node-101/sys/actrl/dbgStatsReport/fault-F3545
domain : infra
extMngdBy : undefined
highestSeverity : major
lastTransition : 2020-02-26T01:03:59.849-05:00
lc : raised
modTs : never
occur : 1
origSeverity : major
prevSeverity : major
rn : fault-F3545
rule : actrl-stats-report-zone-rule-prog-failed
severity : major
status :
subject : hwprog-failed
type : operational
uid :
F3544:契約のL3Outサブネットプログラミング(F3544)
障害F3544は、ハードウェアまたはソフトウェアのプログラミング障害が原因で、プレフィクスをpcTagにマッピングするためのエントリをスイッチがアクティブにできない場合に発生します。
これらのエントリは、L3Outの外部EPGの下にある「外部EPGの外部サブネット」スコープを使用してL3Outサブネット用に設定され、L3OutサブネットをL3Out EPGにマッピングするために使用されます。
スイッチ上のLPMまたはホストルートの容量が原因でこの現象が発生する場合、リブートまたはアップグレード後に、このようなスイッチによって異なるエントリのセットがアクティブ化される可能性があります。
その結果、アップグレードが開始された後、またはスイッチのクリーンリロード後に、アップグレードが失敗する前に機能していたサービスが停止する可能性があります。
この障害が発生している場合は、APIC GUIのOperations > Capacity Dashboard > Leaf Capacityで、LPMおよび/32または/128ルートの使用状況を確認します。
現在のポリシーカウントを取得するために、リーフで次のコマンドを実行することもできます。
vsh_lc -c "show plat internal hal health-stats" | grep -A 55 "L3 stats"
APICのCLIでmoquery (moquery -c faultInst -f 'fault.Inst.code=="F3544"')を実行すると、システム上にこれらのエラーが存在するかどうかを確認できます。障害はGUIにも表示されます。
障害の例(F3544:L3Outサブネットプログラミング障害)
次の出力は、「外部EPGの外部サブネット」(pfxRuleFailed)を持つ80個のL3Outサブネットのプログラミングに失敗したノード101の例を示しています。また、changeSet内のコントラクト自体(zoneRuleFailed)のプログラミングの失敗も示されますが、この場合は別のエラーF3545が発生します。
apic1# moquery -c faultInst -f 'fault.Inst.code=="F3544"'
Total Objects shown: 1
# fault.Inst
code : F3544
ack : no
annotation :
cause : actrl-resource-unavailable
changeSet : pfxRuleFailed (New: 80), zoneRuleFailed (New: 266)
childAction :
created : 2020-02-26T01:01:49.246-05:00
delegated : no
descr : 80 number of Prefix failed on leaf1
dn : topology/pod-1/node-101/sys/actrl/dbgStatsReport/fault-F3544
domain : infra
extMngdBy : undefined
highestSeverity : major
lastTransition : 2020-02-26T01:03:59.849-05:00
lc : raised
modTs : never
occur : 1
origSeverity : major
prevSeverity : major
rn : fault-F3544
rule : actrl-stats-report-pre-fix-prog-failed
severity : major
status :
subject : hwprog-failed
type : operational
uid :
障害への対処方法
注:この状態のスイッチはリロードしないでください。
1. 操作キャパシティダッシュボードで、またはリーフCLIを使用して、ポリシーCAMの使用量またはLPMを確認しますvsh_lc -c "show plat internal hal health-stats".
2. バージョンとプラットフォームでサポートされている制限を確認するには、『検証済みスケーラビリティガイド』(Google Verified Scalability Guide ACI)を参照してください。
3. EPGに適用されている未使用のコントラクトとフィルタを削除します。
4. TACによる詳細分析のために、リーフスイッチを含むオンデマンドのtechsupportを収集します。
アップグレード前のチェック
アップグレード前に障害に対応していない場合は、アップグレード前のバリデータスクリプトによって障害F3545とF3544の両方にフラグが付けられ、ユーザに警告が行われます。
アップグレード前のスクリプトの詳細は、次のドキュメントに記載されています。
https://www.cisco.com/c/en/us/td/docs/dcn/aci/apic/all/apic-installation-aci-upgrade-downgrade/Cisco-APIC-Installation-ACI-Upgrade-Downgrade-Guide/m-pre-upgrade-checklists.html?bookSearch=true#Cisco_Concept.dita_1f674dd5-9ea2-4062-826b-f3c1550552dc