Introducción
Este documento describe los síntomas observados en una plataforma NCS4K cuando se ven afectados por el Id. de bug Cisco CSCwb69873
Antecedentes
Hay varios casos en los que la sesión de detección de reenvío bidireccional (BFD) se aletea entre dos nodos de NCS4K (SW 6.5.26) y, por último, pasa al estado de amortiguación.
Al mismo tiempo, ambos nodos pueden hacer ping entre sí sin pérdida de paquetes.
Problema
En un nodo con problemas, puede ver que la sesión BFD está en estado INIT en una máquina virtual LC activa y en espera:
Hu0/4/0/11/2.4001 10.55.6.180 0s 6s(2s*3) INIT
Yes 0/LC0
Hu0/4/0/11/2.4001 10.55.6.180 0s 6s(2s*3) INIT
Yes 0/LC1
En el resultado de show logging, verá estos rastreos:
LC/0/LC1:2022 Nov 24 11:29:37.098 UTC: fib_mgr[198]: %ROUTING-FIB-3-PLATF_UPD_FAIL : FIB platform update failed: Obj=DATA_TYPE_NHINFO[ptr=0x87c654c0,refc=0,flags=0x10000008] Action=CREATE Proto=ipv4. Cerr='Subsystem(8165)' detected the 'resource not available' condition 'Code(0)' : fib_mgr : (PID=5045) : -Traceback= 7f648e9733c7 7f648f8d546e 7f648f74cb3f 7f648f75449c 7f648f75a3c4 7f648f7cee95 7f648f8c7e58 7f648f7c623f 7f648f7ca7f4 7f648f8c841f 7f648f8fc3f7 7f648f8c7e58 7f648f7c623f 7f648f7ca7f4 7f648f8c8465 7f648f7d3028
LC/0/LC1:2022 Nov 24 11:29:52.163 UTC: fib_mgr[198]: %ROUTING-FIB-3-PLATF_UPD_FAIL : FIB platform update failed: Obj=DATA_TYPE_NHINFO[ptr=0x87c652d0,refc=0,flags=0x10000008] Action=CREATE Proto=ipv4. Cerr='Subsystem(8165)' detected the 'resource not available' condition 'Code(0)' : fib_mgr : (PID=5045) : -Traceback= 7f648e9733c7 7f648f8d546e 7f648f74cb3f 7f648f75449c 7f648f75a3c4 7f648f7cee95 7f648f8c7e58 7f648f7c623f 7f648f7ca7f4 7f648f8c841f 7f648f8fc3f7 7f648f8c7e58 7f648f7c623f 7f648f7ca7f4 7f648f8c8465 7f648f7d3028
En el comando, show cef platform trace all location <active LC VM> se muestra la salida:
Nov 23 21:03:03.659 dnx_fib_retry_event 0/LC1 t5851 TP764,ppinfo_send_encap_gcc,ppindex_alloc_failed,trans_id,716207282,ifh,0x800087c,rc,-806191104:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Y finalmente, puede ver estos errores en el comando show ppinfo production trac all location <active LCVM> inc resource output:
Nov 28 07:47:20.819 ppinfo/prod/fib/ipv4/err 0/LC1 517384# t5851 ppindex alloc Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.819 ppinfo/prod/fib/ipv4/err 0/LC1 452746# t5851 indx alloc failed: Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.819 ppinfo/prod/fib/ipv4/err 0/LC1 508753# t5851 ppindex alloc Cerr: 'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.827 ppinfo/prod/fib/ipv4/err 0/LC1 504601# t5851 ppindex alloc Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.827 ppinfo/prod/fib/ipv4/err 0/LC1 619759# t5851 indx alloc failed: Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.827 ppinfo/prod/fib/ipv4/err 0/LC1 1067176# t5851 ppindex alloc Cerr: 'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.835 ppinfo/prod/fib/mpls/err 0/LC1 517116# t5851 ppindex alloc Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.835 ppinfo/prod/fib/mpls/err 0/LC1 2096661# t5851 indx alloc failed: Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.835 ppinfo/prod/fib/mpls/err 0/LC1 617742# t5851 ppindex alloc Cerr: 'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.843 ppinfo/prod/fib/mpls/err 0/LC1 1298595# t5851 ppindex alloc Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.843 ppinfo/prod/fib/mpls/err 0/LC1 190161# t5851 indx alloc failed: Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:20.843 ppinfo/prod/fib/mpls/err 0/LC1 1299219# t5851 ppindex alloc Cerr: 'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:35.845 ppinfo/prod/fib/ipv4/err 0/LC1 621013# t5851 ppindex alloc Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Nov 28 07:47:35.845 ppinfo/prod/fib/ipv4/err 0/LC1 512881# t5851 indx alloc failed: Cerr:'Subsystem(8165)' detected the 'resource not available' condition 'Code(0)'
Solución
Todos estos síntomas coinciden con este DDTS:
Error en la asignación de CSCwb69873ppinfo de error de Cisco:
Defecto de resumen
Fijo en 6.5.33.
Síntoma:
La sesión BFD de link está inestable o atascada en el estado INIT.
Condiciones:
La inestabilidad de la dirección del siguiente salto causa este problema.
Solución alternativa:
Switch over de la tarjeta RP (básicamente switchover RP y LC VM). Esto borra el error de asignación de PPIndex. Para resolver el problema de BFD de LINK, realice cualquiera de estas acciones, elimine y vuelva a crear la subinterfaz afectada (OR) shut / no shut de la subinterfaz afectada.
Descripción adicional del problema:
las entradas ppindex se filtran y provocan que se consuman todas las entradas libres, lo que provoca el problema de agotamiento de recursos. Pindex se libera cuando se elimina NH y ppindex se asigna cuando se crea NH. Hay un error que hace que NH delete no libere ppindex que causa la fuga. Una vez que todos los ppindex están agotados, no hay llamadas para liberarlos y eso hace que el sistema falle persistentemente y cree cualquier nuevo NH. Hay una verificación para encap_id que está asignada o no, pero el código no obtiene encap_id, y hace que la verificación falle y se retire pronto sin llamar a ppindex_free.