Este documento describe cómo resolver los errores de fabric notificados en la plataforma Cisco Nexus 7000. La resolución de problemas de las sumas de comprobación de redundancia cíclica (CRC) del fabric implica la recopilación de datos, el análisis de datos y un proceso de eliminación para aislar el componente problemático. Este documento cubre los tipos más comunes de errores CRC de fabric.
A continuación se muestra un diagrama de alto nivel de un módulo de fabric Nexus 7018 con tarjetas de línea M1:
La imagen anterior ofrece una descripción general de los componentes involucrados cuando un paquete atraviesa un módulo de fabric. Las fases 1 (S1), 2 (S2) y 3 (S3) son las tres fases del fabric Nexus 7000, Octopus es el motor de cola, Santa Cruz (SC) es el ASIC de fabric e las instancias 1 y 2 son las dos instancias SC en la XBAR. Este documento considera solamente una XBAR. Recuerde que la mayoría de los switches Nexus serie 7000 tienen tres o más XBAR instalados.
Suponiendo que existe un flujo unidireccional desde el Módulo 1 (M1) al Módulo 2 (M2), el Octopus-1 de entrada en M1 realiza comprobaciones de error en los paquetes que recibe del sur y el Octopus-1 de salida en M2 del norte. Si se detecta CRC en S3, también podría haber ocurrido un problema en S1 o S2, ya que no se realiza ninguna comprobación CRC en esas etapas. Por lo tanto, los dispositivos que intervienen en la ruta son el pulpo de entrada, el chasis, el fabric de barras cruzadas y el pulpo de salida.
En la arquitectura M1/Fab1, los CRC se detectan solo en la tarjeta de línea de salida (S3).
A continuación se muestra un ejemplo de mensaje de error:
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
CRC error from MOD 15 through XBAR slot 1/inst 1
Esto lo informa M1, que indica que recibió paquetes con el CRC incorrecto desde el Módulo 15 (M15) a través de la ranura 1/instancia 1 de XBAR.
Esta sección describe cuatro de los tipos más comunes de errores CRC de fabric.
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets withEsto significa que el módulo en el slot 1 detectó un error CRC desde M15 a través del slot 1/instancia 1 de XBAR. El módulo en el que se originan los errores CRC se denomina módulo de ingreso (M15 en este caso) y el módulo que notificó el problema es el módulo de egreso (M1). XBAR 1 es la barra cruzada en la que se recibió el paquete. Hay dos instancias por XBAR. En este caso, M1 detectó errores CRC desde M15 a través de la instancia 1 de la ranura 1 de XBAR.
CRC error from MOD 15 through XBAR slot 1/inst 1
%OC_USD-SLOT4-2-RF_CRC: OC2 received packets withEn este mensaje, el Módulo 4 (M4) informó el error CRC desde M1. Observe que falta la información de XBAR. El sistema no puede determinar la XBAR que atravesó el paquete. Hay muchas razones, pero las más comunes son: la información en el encabezado de fabric del paquete podría estar dañada, por lo que no se puede determinar el módulo de origen; la XBAR que se atravesó se elimina del sistema desde que se incrementó el error. Por lo tanto, no se informó en el mensaje syslog por hora.
CRC error from MOD 1
%OC_USD-2-RF_CRC: OC1 received packets withEn este caso, un dispositivo detectó una CRC desde el Módulo 16 (M16) hasta XBAR 1. Sin embargo, no hay ningún módulo de receptor. Cuando el supervisor (SUP) detecta una CRC que proviene del módulo de fabric, la información de ranura no se registra. Cuando no ve la información de ranura, el SUP detecta el problema. Esto no significa que el SUP sea malo. Al igual que cuando el módulo informa del problema, hay varios componentes que podrían haber causado el problema: M16, el chasis (no tan probable), XBAR 1 o el SUP.
CRC error from MOD 16 through XBAR slot 1/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets withEl módulo de origen se obtiene del pulpo de ingreso que originó el paquete incorrecto. El controlador que genera una interrupción para registrar este mensaje de error no siempre conoce el pulpo de ingreso desde el cual se originó el paquete incorrecto. Esto se debe a que algunos de los bits utilizados para representar el pulpo de ingreso no se utilizan. Si el sistema determina que varios módulos tienen estos bits no utilizados activados, el sistema debe asumir que cualquiera de ellos podría ser el origen, lo que hace que el mensaje de error incluya todos esos módulos. El sistema encontró que el Módulo 13 (M13) no puede tener este conflicto debido a que esos bits no se utilizan; por lo tanto, no se registra como una fuente potencial.
CRC error from MOD 11 or 12 or 14 or 15 or 16 or 17 or 18
Las nuevas tarjetas de línea (M2) y el módulo de fabric 2 (FAB2) detectan CRC en S1, S2 o S3. Cuando investiga en detalle y encuentra patrones en los mensajes de falla y registro, ayuda a aislar el componente defectuoso.
Estas son algunas de las preguntas que debe realizar:
Las respuestas a estas preguntas le permiten abordar el procedimiento de solución de problemas desde un ángulo que es más probable que conduzca a una resolución más rápida.
Esta sección establece un marco general utilizado para resolver estos problemas.
Esta sección proporciona ejemplos de cómo resolver problemas similares.
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
Durante algunas horas, se observan errores CRC en M1 y en el Módulo 3 (M3) que provienen únicamente del Módulo 7 (M7).
Hay una XBAR incorrecta o mal asentada que corrompe los paquetes que se dirigen a M7, o M7 es mala o está mal asentada.
Si tiene tres XBAR instalados, le proporciona redundancia N+1. Por lo tanto, puede apagarlos de uno en uno (nunca apague más de uno en un momento dado) con un impacto mínimo para ver si el problema se resuelve. Ingrese estos comandos para completar este proceso:
N7K(config)# poweroff xbar 1
<monitor>
N7K(config)# no poweroff xbar 1
N7K(config)# poweroff xbar 2
<monitor>
N7K(config)# no poweroff xbar 2
N7K(config)# poweroff xbar 3
N7K(config)# no poweroff xbar 3
En este caso práctico concreto, el problema no se resolvió cuando se cerraron las XBAR.
Como hay dos módulos que informan errores CRC, es poco probable que esos dos módulos (M1 y M3) sean la causa. El siguiente paso es volver a colocar M7 (módulo de ingreso), ya que es muy probable que sea el componente defectuoso. Las tarjetas de línea mal colocadas pueden causar este problema, y se recomienda volver a colocar el módulo antes de reemplazarlo.
En este caso práctico, los errores de CRC continuaron aumentando en el módulo de fabric después de una reinstalación de M7. Póngase en contacto con el centro de asistencia técnica Cisco Technical Assistance Center (TAC) en este momento (o antes de este punto) para sustituir la M7, ya que un restablecimiento no resuelve el problema.
En este caso práctico, la sustitución de M7 detuvo los mensajes de error de CRC del fabric y resolvió la pérdida de paquetes.
%OC_USD-SLOT11-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT12-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT13-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT15-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT2-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT4-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT5-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT7-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT8-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
Varios módulos informan errores CRC del Módulo 12 (M12) que pasan a través de XBAR 3.
XBAR 3 está mal colocado o mal colocado, o M12 está mal colocado o es defectuoso.
En este caso, XBAR 3 se cierra con el procedimiento descrito anteriormente (en el primer caso práctico) y se supervisa para detectar más errores. Se encontró que los errores cesaron cuando se cerró XBAR 3. En este punto, se vuelve a colocar XBAR 3 y se tiene cuidado de asegurarse de que no se doblen pines en el plano medio y de que el módulo esté insertado correctamente. Después de volver a habilitar XBAR 3, el problema nunca vuelve a aparecer. Este problema se atribuye a un módulo XBAR mal asentado.
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 7 or 13 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with CRC error from
MOD 1 or 2 or 3 or 7 or 15 or 17 through XBAR
slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 5 or 7 or 16 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
El Módulo 6 (M6) informa sobre los paquetes con errores CRC recibidos desde múltiples tarjetas de línea y XBAR.
M6 está mal colocado o es malo.
M6 es la causa más probable de este problema porque es el módulo común en todos los mensajes de error. De todos los módulos listados en los mensajes de error, el que aparece más consistentemente es M6. Por lo tanto, intente volver a colocar M6 para ver si el problema se resuelve antes de reemplazarlo.
En este caso, M6 se vuelve a colocar, pero los errores persisten. Por lo tanto, debe abrir un caso de Cisco TAC para que se reemplace M6. Después de sustituir M6, no se informa de los errores.
Esta es una lista de los comandos utilizados para resolver problemas/depurar:
Revisión | Fecha de publicación | Comentarios |
---|---|---|
1.0 |
13-Aug-2013 |
Versión inicial |