Einleitung
In diesem Dokument werden die Symptome beschrieben, die auf einer NCS4K-Plattform beobachtet werden, wenn diese von dem Cisco Bug CSCwb69873 betroffen sind.
Hintergrundinformationen
Es gibt mehrere Fälle, in denen die BFD-Sitzung (Bidirectional Forwarding Detection) zwischen zwei NCS4K-Knoten (SW 6.5.26) wechselt und schließlich in den gedämpften Zustand versetzt wird.
Gleichzeitig können beide Knoten einander pingen, ohne Paketverluste zu verursachen.
Problem
Bei einem Problemknoten befindet sich die BFD-Sitzung im INIT-Status auf dem aktiven und Standby-LC-VM:
Hu0/4/0/11/2.4001 10.55.6.180 0s 6s(2s*3) INIT
Yes 0/LC0
Hu0/4/0/11/2.4001 10.55.6.180 0s 6s(2s*3) INIT
Yes 0/LC1
In show logging output werden die folgenden Ablaufverfolgungen angezeigt:
LC/0/LC1:2022 Nov 24 11:29:37.098 UTC: fib_mgr[198]: %ROUTING-FIB-3-PLATF_UPD_FAIL : FIB platform update failed: Obj=DATA_TYPE_NHINFO[ptr=0x87c654c0,refc=0,flags=0x10000008] Action=CREATE Proto=ipv4. Cerr='Subsystem(8165)' detected the 'resource not available' condition 'Code(0)' : fib_mgr : (PID=5045) : -Traceback= 7f648e9733c7 7f648f8d546e 7f648f74cb3f 7f648f75449c 7f648f75a3c4 7f648f7cee95 7f648f8c7e58 7f648f7c623f 7f648f7ca7f4 7f648f8c841f 7f648f8fc3f7 7f648f8c7e58 7f648f7c623f 7f648f7ca7f4 7f648f8c8465 7f648f7d3028
LC/0/LC1:2022 Nov 24 11:29:52.163 UTC: fib_mgr[198]: %ROUTING-FIB-3-PLATF_UPD_FAIL : FIB platform update failed: Obj=DATA_TYPE_NHINFO[ptr=0x87c652d0,refc=0,flags=0x10000008] Action=CREATE Proto=ipv4. Cerr='Subsystem(8165)' detected the 'resource not available' condition 'Code(0)' : fib_mgr : (PID=5045) : -Traceback= 7f648e9733c7 7f648f8d546e 7f648f74cb3f 7f648f75449c 7f648f75a3c4 7f648f7cee95 7f648f8c7e58 7f648f7c623f 7f648f7ca7f4 7f648f8c841f 7f648f8fc3f7 7f648f8c7e58 7f648f7c623f 7f648f7ca7f4 7f648f8c8465 7f648f7d3028
In dem Befehl show cef platform trace all location <active LC VM> output you see:
Nov 23 21:03:03.659 dnx_fib_retry_event 0/LC1 t5851 TP764,ppinfo_send_encap_gcc,ppindex_alloc_failed,trans_id,716207282,ifh,0x800087c,rc,-806191104:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Und schließlich können Sie diese Fehler in Befehl show ppinfo productortrac alle Standorte <active LCVM> inc Ressource Ausgabe sehen:
Nov 28 07:47:20.819 ppinfo/prod/fib/ipv4/err 0/LC1 517384# t5851 ppindex alloc Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.819 ppinfo/prod/fib/ipv4/err 0/LC1 452746# t5851 indx alloc failed: Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.819 ppinfo/prod/fib/ipv4/err 0/LC1 508753# t5851 ppindex alloc Cerr: 'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.827 ppinfo/prod/fib/ipv4/err 0/LC1 504601# t5851 ppindex alloc Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.827 ppinfo/prod/fib/ipv4/err 0/LC1 619759# t5851 indx alloc failed: Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.827 ppinfo/prod/fib/ipv4/err 0/LC1 1067176# t5851 ppindex alloc Cerr: 'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.835 ppinfo/prod/fib/mpls/err 0/LC1 517116# t5851 ppindex alloc Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.835 ppinfo/prod/fib/mpls/err 0/LC1 2096661# t5851 indx alloc failed: Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.835 ppinfo/prod/fib/mpls/err 0/LC1 617742# t5851 ppindex alloc Cerr: 'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.843 ppinfo/prod/fib/mpls/err 0/LC1 1298595# t5851 ppindex alloc Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.843 ppinfo/prod/fib/mpls/err 0/LC1 190161# t5851 indx alloc failed: Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.843 ppinfo/prod/fib/mpls/err 0/LC1 1299219# t5851 ppindex alloc Cerr: 'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:35.845 ppinfo/prod/fib/ipv4/err 0/LC1 621013# t5851 ppindex alloc Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:35.845 ppinfo/prod/fib/ipv4/err 0/LC1 512881# t5851 indx alloc failed: Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Lösung
Alle diese Symptome stimmen mit dem DDTS überein:
Fehler bei der Zuweisung der Cisco Bug-ID CSCwb69873ppinfo:
Zusammenfassender Fehler
Behoben in 6.5.33.
Symptom:
Die Link-BFD-Sitzung flattert oder befindet sich im INIT-Status.
Voraussetzungen:
Das Flapping der nächsten Hop-Adresse verursacht dieses Problem.
Problemumgehung:
RP-Karten-Switchover (im Wesentlichen RP- und LC VM-Switchover). Dadurch wird der Fehler bei der PPIndex-Zuweisung behoben. Um das LINK BFD-Problem zu beheben, führen Sie einen der folgenden Schritte aus, löschen Sie die betroffene Subschnittstelle (OR) shutdown/no shutdown der betroffenen Subschnittstelle und erstellen Sie sie neu.
Weitere Problembeschreibung:
ppindex-Einträge lecken aus und führen dazu, dass alle freien Einträge verbraucht werden. Dies führt zum Problem der Ressourcenauslastung. PPindex wird freigegeben, wenn NH gelöscht wird, und ppindex wird zugewiesen, wenn NH erstellt wird. Es liegt ein Fehler vor, der bewirkt, dass NH delete ppindex nicht freigibt, wodurch das Leck verursacht wird. Wenn alle ppindex-Nummern aufgebraucht sind, gibt es keine Anrufe, um sie freizugeben, und das führt dazu, dass das System dauerhaft ausfällt und neue NHs erstellt werden. Es gibt eine Prüfung für encap_id, die zugewiesen ist oder nicht, aber der Code bekommt encap_id nicht, und verursacht den Check zu fehlschlagen und Bail-out früh, ohne ppindex_free.