Introdução
Este documento explica as causas de erros de paridade em roteadores Cisco e como resolvê-los.
Pré-requisitos
Requisitos
A Cisco recomenda que você tenha conhecimento de como solucionar problemas de travamento de roteador.
Consulte Troubleshooting de Travamentos do Roteador para obter mais informações.
Componentes Utilizados
Este documento não se restringe a versões de software e hardware específicas.
As informações neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. Todos os dispositivos utilizados neste documento foram iniciados com uma configuração (padrão) inicial. Se a sua rede estiver ativa, certifique-se de que entende o impacto potencial de qualquer comando.
Conventions
Consulte as Convenções de Dicas Técnicas da Cisco para obter mais informações sobre convenções de documentos.
Identificar um erro de paridade
Os erros de paridade de memória ocorrem em produtos de processador baseados em MIPS (Processador de Interface Multicanal), como:
-
Roteadores Cisco 4500/4700 Series
-
Roteadores Cisco 7500 Series (RSP1, RSP2, RSP4, RSP8, VIP2-10, VIP2-15, VIP2-20, VIP2-40, VIP2-50)
-
Roteadores Cisco 7000 Series (RSP 7000)
-
Roteadores Cisco série 7200 (NPE-100, NPE-150, NPE-175, NPE-200, NPE-225, NPE-300)
-
Cisco 12000 Series Internet Router
Aqui estão algumas mensagens, todas relacionadas à detecção de paridade inválida em algum lugar do sistema (a lista não é exaustiva, mas contém as mensagens mais comuns):
-
Na saída do comando show version:
System restarted by processor memory parity error at PC 0x6014F7C0,
address 0x0
or
System restarted by shared memory parity error at PC 0x60130F40
Se você tiver a saída de um comando show version do seu dispositivo Cisco, poderá usar o Cisco CLI Analyzer para exibir problemas potenciais e correções. Para usar o Cisco CLI Analyzer, você deve ser um cliente registrado, estar conectado e ter o JavaScript habilitado.
-
Nos console logs ou nos arquivos de informação de travamento:
- *** Cache Error Exception ***
Cache Err Reg = 0xa401a65a
data reference, primary cache, data field error , error on SysAD Bus
PC = 0xbfc17950, Cause = 0x0, Status Reg = 0x3040d007
- Error: primary data cache, fields: data,
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
virtual address corresponds to main:data, cache word 0
Low Data High Data Par Low Data High Data Par
L1 Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
Low Data High Data Par Low Data High Data Par
Mem Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
- *** Shared Memory Parity Error ***
shared memory control register= 0xffe3
error(s) reported for: CPU on byte(s): 0/1
- %PAR-1-FATAL: Shared memory parity error
shared memory status register= 0xFFEF
error(s) reported for: CPU on byte(s): 0/1 2/3
- %RSP-3-ERROR: MD error 0000008000000200
%RSP-3-ERROR: QA parity error (bytes 0:3) 02
%RSP-3-ERROR: MEMD parity error condition
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA)
log 22010000, data 00000000 00000000
%RSP-3-RESTART: cbus complex
- %RSP-3-ERROR: CyBus error 01
%RSP-3-ERROR: read data parity
%RSP-3-ERROR: read parity error (bytes 0:7) 20
%RSP-3-ERROR: physical address (bits 20:15) 000000
- %RSP-3-ERROR: MD error 00800080C000C000
%RSP-3-ERROR: SRAM parity error (bytes 0:7) F0
%RSP-3-RESTART: cbus complex
Erros de paridade de software x hardware
Há dois tipos de erros de paridade:
-
Erros de paridade suaves
Esses erros ocorrem quando um nível de energia no chip (por exemplo, um um ou zero) é alterado. Quando referenciados pela CPU, esses erros fazem com que o sistema trave (se o erro estiver em uma área que não é recuperável) ou recuperam outros sistemas (por exemplo, um complexo CyBus é reiniciado se o erro estava na memória do pacote (MEMD)). No caso de um erro de paridade suave, não há necessidade de trocar a placa ou qualquer um dos componentes. Consulte a seção Informações Relacionadas para obter informações adicionais sobre erros de paridade de software.
-
Erros de paridade de hardware
Esses erros ocorrem quando há uma falha no chip ou na placa que corrompe os dados. Nesse caso, é necessário recolocar ou substituir o componente afetado, o que geralmente envolve uma troca de chip de memória ou de placa. Há um erro de paridade difícil quando ocorrem vários erros de paridade no mesmo endereço. Há casos mais complicados que são mais difíceis de identificar. Em geral, se você vir mais de um erro de paridade em uma região de memória específica em um período relativamente curto, poderá considerá-lo um erro de paridade difícil.
Estudos mostram que os erros de paridade suave são de 10 a 100 vezes mais freqüentes que os erros de paridade difícil. Portanto, a Cisco recomenda que você aguarde um segundo erro de paridade antes de substituir qualquer coisa. Isso reduz muito o impacto em sua rede.
Isole o problema
Um roteador tem memória em locais diferentes. Teoricamente, qualquer local da memória pode ser afetado pelo erro de paridade, mas a maioria dos problemas de memória ocorre na memória RAM dinâmica (DRAM) ou na RAM compartilhada (SRAM). Com base na plataforma, veja como você pode descobrir qual local de memória foi afetado e, se for um erro de paridade de hardware, que peça deve ser substituída:
Plataformas Cisco 4500 e 4700
Nas plataformas Cisco 4500 e 4700, o arquivo crashinfo não está disponível em versões anteriores ao Cisco IOS® Software Release 12.2(10) e 12.2(10)T.
Uma forma de descobrir onde o erro ocorreu é observar o "motivo da reinicialização" nos registros do console e na saída do comando show version:
-
Erro de paridade em DRAM:
Se você não recarregou manualmente o roteador após o travamento, a saída do comando show version será semelhante a esta:
System restarted by processor memory parity error at PC 0x601799C4,
address 0x0
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
Se um arquivo de informação de travamento estiver disponível, ou se os logs do console tiverem sido capturados, você também poderá ver algo como isto:
*** Cache Error Exception ***
Cache Err Reg = 0xa0255c61
data reference, primary cache, data field error , error on SysAD Bus
PC = 0xbfc0edc0, Cause = 0xb800, Status Reg = 0x34408007
A ocorrência repetida de erros de paridade na DRAM indica que a DRAM ou o chassi está com defeito. Se você removeu o chassi recentemente ou se realizou alguma alteração de configuração de hardware, recoloque os chips DRAM para resolver o problema. Caso contrário, substitua DRAM como um primeiro passo. Isso deve evitar os erros de paridade. Se o roteador ainda travar, substitua o chassi.
-
Erro de paridade em SRAM:
Se você não recarregou manualmente o roteador após o travamento, a saída do comando show version será semelhante a esta:
System restarted by shared memory parity error at PC 0x60130F40
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
Se um arquivo de informação de travamento estiver disponível, ou se os logs do console tiverem sido capturados, você também poderá ver algo como isto:
*** Shared Memory Parity Error ***
shared memory control register= 0xffe3
error(s) reported for: CPU on byte(s): 0/1
or
%PAR-1-FATAL: Shared memory parity error
shared memory status register= 0xFFEF
error(s) reported for: CPU on byte(s): 0/1 2/3
or
*** Shared Memory Parity Error ***
shared memory control register= 0xffdf
error(s) reported for: NIM1 on byte(s): 0/1 2/3
Note:
-
Se o erro for relatado para a CPU, substitua a SRAM.
-
Se o erro for relatado para NIM(x), substitua o módulo da rede no slot (x). A SRAM alocada para o slot (x) também pode ser afetada. Nesse caso, substitua a SRAM.
Erros repetidos de paridade na SRAM indicam chips SRAM defeituosos ou um módulo de rede defeituoso que gravou paridade inválida na SRAM. Se você removeu o chassi recentemente ou se fez alguma alteração de configuração de hardware, recoloque os módulos de rede e os chips SRAM para resolver o problema. Caso contrário, verifique onde o erro é relatado nos registros do console (consulte o exemplo de saída acima).
Plataformas RSP (processador de rota/Switch), NPE (Network Processing Engine) e RP (processador de rota)
Como ocorre com a série Cisco 4000, o problema pode ser devido a DRAM ou SRAM com defeito para essas plataformas. O problema também pode ser devido a uma placa de processador defeituosa (RP, RSP ou NPE). O Cisco 7000 e 7500 também podem relatar erros de paridade gerados por um processador de interface com falha ou mal encaixado (xIP ou VIP legado).
Verifique se há uma destas mensagens de erro no arquivo crashinfo e nos logs do console:
Erro de paridade em DRAM ou SRAM (MEMD)
Para o RP, RSP e NPE, você geralmente vê algo como isto:
Error: primary data cache, fields: data, (SysAD)
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
virtual address corresponds to main:data, cache word 0
ou simplesmente:
Error: primary data cache, fields: data, SysAD
phy21:3 0x201880, va14:12 0x1000, addr 63E01880
Isso indica um problema no próprio RSP. Se o problema ocorre apenas uma vez, é muito provavelmente um problema transitório.
Erro de Paridade Proveniente de SRAM
Para o RSP, a mensagem pode ter esta aparência:
%RSP-3-ERROR: MD error 0000008000000200
%RSP-3-ERROR: QA parity error (bytes 0:3) 02
%RSP-3-ERROR: MEMD parity error condition
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA)
log 22010000, data 00000000 00000000
%RSP-3-RESTART: cbus complex
or
%RSP-3-ERROR: CyBus error 01
%RSP-3-ERROR: read data parity
%RSP-3-ERROR: read parity error (bytes 0:7) 20
%RSP-3-ERROR: physical address (bits 20:15) 000000
Se não houver indicação de outro processador de interface que grave paridade inválida na SRAM (por exemplo, mensagens de erro VIP2-1-MSG), o motivo mais provável para o erro de paridade é a própria SRAM. Nesse caso, substitua o RSP.
Se outras mensagens de erro indicarem que um processador de interface grava paridade inválida, pode ser uma placa defeituosa ou mal encaixada.
Processador de interface versatile
Se você receber as mensagens %VIP2-1-MSG: slot(x) nos logs ou no arquivo crashinfo, consulte Troubleshooting de Travamentos de VIP.
Ações recomendadas
Na primeira ocorrência de um erro de paridade, não será possível diferenciar entre um erro de paridade temporário ou permanente. Por experiência, a maioria das ocorrências de paridade são erros de paridade suave e você pode geralmente ignorá-los. Se você tiver alterado algum hardware recentemente ou movido a caixa, tente recolocar a parte afetada (DRAM, SRAM, NPE, RP, RSP ou VIP). Ocorrências frequentes de paridade múltipla significam hardware defeituoso. Substitua a peça afetada (DRAM, RSP, VIP ou motherboard) com a ajuda das instruções mencionadas neste documento.
Informações a serem coletadas se você abrir um pedido de serviço de TAC
Se você ainda precisar de assistência depois de seguir as etapas de solução de problemas acima e quiser abrir uma solicitação de serviço com o Cisco TAC, certifique-se de incluir estas informações: |
- Solução de problemas executada antes de você abrir a solicitação de serviço.
- saída do comando show technical-support (no modo enable, se possível).
- saída do comando show log ou capturas do console, se disponíveis.
- arquivo crashinfo (se estiver presente e ainda não estiver incluído na saída do comando show technical-support. Se existirem vários arquivos de informação de travamento, inclua todos eles).
- Número de recarregamentos devido a erros de paridade de memória do processador que você viu e quando eles ocorreram.
Anexe os dados coletados para o seu caso em um formato não compactado e texto simples (.txt). Para anexar informações à sua solicitação de serviço, carregue-as através da TAC Service Request Tool (somente clientes registrados) . Se você não puder acessar a Ferramenta de solicitação de serviço, anexe as informações relevantes à sua solicitação de serviço e envie-a para attach@cisco.com com o número da solicitação de serviço na linha de assunto da mensagem. Observação: não recarregue manualmente ou desligue e ligue o roteador antes de coletar as informações acima, a menos que seja necessário solucionar um erro de paridade de memória do processador, pois isso pode causar a perda de informações importantes necessárias para determinar a causa raiz do problema. |
Informações Relacionadas