Este documento descreve como resolver erros de estrutura relatados na plataforma Cisco Nexus 7000. Uma solução de problemas de CRCs (Cyclic Redundancy Checksums, somas de verificação de redundância cíclica) envolve a coleta de dados, a análise de dados e um processo de eliminação para isolar o componente com problema. Este documento aborda os tipos mais comuns de erros de CRC de estrutura.
Este é um diagrama de alto nível de um módulo de estrutura Nexus 7018 com placas de linha M1:
A imagem anterior fornece uma visão geral dos componentes envolvidos quando um pacote atravessa um módulo de estrutura. Estágio 1 (S1), Estágio 2 (S2) e Estágio 3 (S3) são os três estágios da estrutura do Nexus 7000, Octopus é o mecanismo de fila, Santa Cruz (SC) é o ASIC de estrutura, e Instância 1 e 2 são as duas instâncias SC no XBAR. Este documento considera somente um XBAR. Lembre-se de que a maioria dos switches Nexus 7000 Series tem três ou mais XBARs instalados.
Com a suposição de que um fluxo unidirecional do Módulo 1 (M1) para o Módulo 2 (M2) está presente, o Octopus-1 de entrada em M1 executa verificações de erro em pacotes que ele recebe do sul, e o Octopus-1 de saída em M2 do norte. Se o CRC for detectado em S3, um problema também pode ter acontecido em S1 ou S2, já que nenhuma verificação de CRC é executada nesses estágios. Assim, os dispositivos envolvidos no caminho são o Octopus de entrada, chassis, tecido crossbar e Octopus de saída.
Na arquitetura M1/Fab1, os CRCs são detectados apenas na placa de linha de saída (S3).
Aqui está um exemplo de mensagem de erro:
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
CRC error from MOD 15 through XBAR slot 1/inst 1
Isso é relatado pelo M1, que indica que ele recebeu pacotes com o CRC incorreto do Módulo 15 (M15) através do slot XBAR 1/instância 1.
Esta seção descreve quatro dos tipos mais comuns de erros de CRC de estrutura.
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets withIsso significa que o módulo no slot 1 detectou um erro de CRC de M15 até o slot 1/instância 1 de XBAR. O módulo onde os erros de CRC se originam é chamado de módulo de ingresso (M15 neste caso) e o módulo que relatou o problema é o módulo de saída (M1). XBAR 1 é a barra cruzada na qual o pacote foi recebido. Há duas instâncias por XBAR. Neste caso, M1 detectou erros de CRC de M15 através da instância 1 do slot 1 XBAR.
CRC error from MOD 15 through XBAR slot 1/inst 1
%OC_USD-SLOT4-2-RF_CRC: OC2 received packets withNesta mensagem, o Módulo 4 (M4) relatou o erro de CRC de M1. Observe que as informações de XBAR estão ausentes. O sistema não consegue determinar o XBAR pelo qual o pacote passou. Há muitas razões, mas as mais comuns são: As informações no cabeçalho de estrutura do pacote podem estar corrompidas, portanto o módulo de origem não pode ser determinado; o XBAR que foi atravessado é removido do sistema desde que o erro foi incrementado. Portanto, não foi relatado na mensagem de syslog por hora.
CRC error from MOD 1
%OC_USD-2-RF_CRC: OC1 received packets withNeste exemplo, um dispositivo detectou um CRC do Módulo 16 (M16) através do XBAR 1. No entanto, não há módulo receptor. Quando o Supervisor (SUP) detecta um CRC que vem do módulo de estrutura, as informações do slot não são registradas. Quando você não vê as informações do slot, o SUP detectou o problema. Isso não quer dizer que o SUP seja ruim. Assim como quando o módulo relata o problema, existem vários componentes que podem ter causado o problema: M16, o chassi (não tão provável), XBAR 1 ou o SUP.
CRC error from MOD 16 through XBAR slot 1/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets withO módulo de origem é obtido do Octopus de entrada que originou o pacote incorreto. O driver que gera uma interrupção para registrar esta mensagem de erro nem sempre sabe o Octopus de entrada do qual o pacote incorreto se originou. Isso ocorre porque alguns dos bits usados para representar o Octopus de entrada não são usados. Se o sistema determinar que vários módulos têm esses bits não utilizados ativados, o sistema deve supor que qualquer um deles pode ser a origem, o que faz com que a mensagem de erro inclua todos esses módulos. O sistema descobriu que o Módulo 13 (M13) não pode ter esse conflito porque esses bits não estão sendo usados; portanto, ele não é registrado como uma origem em potencial.
CRC error from MOD 11 or 12 or 14 or 15 or 16 or 17 or 18
Novas placas de linha (M2) e módulo de estrutura 2 (FAB2) detectam CRCs em S1, S2 ou S3. Quando você investiga detalhadamente e encontra padrões nas mensagens de falha e de registro, isso ajuda a isolar o componente defeituoso.
Aqui estão algumas perguntas a serem feitas:
As respostas a essas perguntas permitem que você aborde o procedimento de solução de problemas de um ângulo que é mais provável que leve a uma resolução mais rápida.
Esta seção estabelece uma estrutura geral usada para solucionar esses problemas.
Esta seção fornece exemplos de como solucionar problemas semelhantes.
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
Durante algumas horas, erros de CRC são vistos em M1 e no Módulo 3 (M3) que vêm somente do Módulo 7 (M7).
Há um XBAR incorreto ou mal encaixado que corrompe os pacotes que vão para M7, ou M7 está incorreto ou mal encaixado.
Se você tiver três XBARs instalados, obterá redundância N+1. Portanto, você pode desligá-los um de cada vez (nunca desligue mais de um em um determinado momento) com impacto mínimo para ver se o problema é resolvido. Insira estes comandos para concluir este processo:
N7K(config)# poweroff xbar 1
<monitor>
N7K(config)# no poweroff xbar 1
N7K(config)# poweroff xbar 2
<monitor>
N7K(config)# no poweroff xbar 2
N7K(config)# poweroff xbar 3
N7K(config)# no poweroff xbar 3
Neste estudo de caso específico, o problema não foi resolvido quando os XBARs foram desligados.
Como há dois módulos que relatam erros de CRC, é improvável que esses dois módulos (M1 e M3) sejam a causa. A próxima etapa é recolocar o M7 (módulo de ingresso), pois provavelmente ele é o componente com defeito. Placas de linha mal encaixadas podem causar esse problema e é recomendável recolocar o módulo antes da substituição.
Neste estudo de caso, os erros de CRC continuaram a aumentar no módulo de estrutura após uma reinstalação do M7. Entre em contato com o Cisco Technical Assistance Center (TAC) neste ponto (ou antes deste ponto) para substituir o M7, já que uma reinstalação não resolve o problema.
Neste estudo de caso, a substituição de M7 interrompeu as mensagens de erro de CRC de estrutura e resolveu a perda de pacotes.
%OC_USD-SLOT11-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT12-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT13-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT15-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT2-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT4-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT5-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT7-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT8-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
Vários módulos reportam erros de CRC do Módulo 12 (M12) que passam pelo XBAR 3.
XBAR 3 está com defeito ou mal encaixado, ou M12 está mal encaixado ou com defeito.
Nesse caso, o XBAR 3 é desligado com o procedimento descrito anteriormente (no primeiro estudo de caso) e monitorado quanto a outros erros. Descobriu-se que os erros cessaram quando o XBAR 3 foi encerrado. Neste ponto, o XBAR 3 é recolocado e é tomado cuidado para garantir que nenhum pino esteja torto no midplane e que o módulo esteja inserido corretamente. Depois que o XBAR 3 for reativado, o problema nunca ocorrerá novamente. Este problema é atribuído a um módulo XBAR mal encaixado.
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 7 or 13 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with CRC error from
MOD 1 or 2 or 3 or 7 or 15 or 17 through XBAR
slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 5 or 7 or 16 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
O Módulo 6 (M6) relata pacotes com erros de CRC recebidos de várias placas de linha e XBARs.
O M6 está mal encaixado ou ruim.
O M6 é a causa mais provável desse problema, pois é o único módulo comum em todas as mensagens de erro. De todos os módulos listados nas mensagens de erro, o que aparece de forma mais consistente é o M6. Portanto, tente recolocar o M6 para ver se o problema foi resolvido antes de substituí-lo.
Nesse caso, o M6 é recolocado, mas os erros ainda persistem. Portanto, você deve abrir um caso de TAC da Cisco para que a M6 seja substituída. Depois que M6 é substituído, os erros não são relatados.
Aqui está uma lista dos comandos usados para solucionar problemas/depurar:
Revisão | Data de publicação | Comentários |
---|---|---|
1.0 |
13-Aug-2013 |
Versão inicial |