Introduction
Este documento descreve como identificar problemas de memória nas placas ASR5K-PSC-32G (Packet Services Card 2 (PSC2)) e ASR5K-PSC-64G (Packet Services Card 3 (PSC3)). O sintoma visto quando o problema está presente é que a placa é redefinida. Todas as informações necessárias para a solução de problemas estão disponíveis em Show Support Detail (SSD).
Prerequisites
Requirements
A Cisco recomenda que você tenha conhecimento da CLI do Aggregation Services Router 5000 (ASR5K).
Componentes Utilizados
Este documento não se restringe a versões de software e hardware específicas.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. If your network is live, make sure that you understand the potential impact of any command.
Problemas com memória
A Placa de Serviços de Pacotes 2 (PSC2 - Packet Services Card 2) ou a Placa de Serviços de Pacotes 3 (PSC3 - Packet Services Card 3) podem travar devido a um travamento de kernel ou a falta de pulsação.
Falha de Kernel
Um travamento do kernel pode ocorrer quando a placa apresenta vários erros de memória corrigíveis ou um único erro de memória incorrigível. Para identificar se o problema é o travamento do kernel, siga estas etapas:
- No SSD, marque a opção show crash list for kernel crash:
<snip>
******** show crash list *******
== =================== ======= ========== =========== ================
# Time Process Card/CPU/ SW HW_SER_NUM
PID VERSION SMC / Crash Card
== =================== ======= ========== =========== ================
86 2012-Jun-07+18:28:21 sessmgr 15/0/04453 12.2(42876) PLB30103469/PLB40098624
87 2012-Jun-15+04:02:34 kernel 16/0/NA 12.2(NA) PLB30103469/PLB39098500
88 2012-Jun-15+04:50:38 sessmgr 02/0/04372 12.2(42876) PLB30103469/PLB40098609
<snip>
-
Quando o número de travamento do kernel for identificado, verifique os detalhes do travamento para o número de travamento em show crash list. No exemplo anterior, o crash 87 aconteceu na placa 16.
<snip>
********************* CRASH #87 ***********************
2.6.38-staros-v3-hw-64 #1 SMP PREEMPT Wed Apr 18 14:32:38 EDT 2012 1 0 PLB39098500 428760, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.305831] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52569.314566] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
<4>[52579.321273] edac_mc_handle_fbd_ce: 449 callbacks suppressed
<4>[52579.326820] EDAC MC0: CE row 0, channel 0, label "": Corrected error (Socket=0 channel=0 dimm=0)
…………..
<0>[52668.605978] [Hardware Error]: CPU 0: Machine Check Exception: 4 Bank 8: fe0000000001009f
<0>[52668.614014] [Hardware Error]: TSC 66946ea1b05a ADDR 44f307280 MISC 4c43688800045941
<0>[52668.621767] [Hardware Error]: PROCESSOR 0:106a5 TIME 1339732830 SOCKET 0 APIC 0
<0>[52668.629028] [Hardware Error]: Machine check: Processor context corrupt
<0>[52668.635520] Kernel panic - not syncing: Fatal Machine check
<snip>
O "EDAC MC0: Linha CE 0, canal 0, rótulo "": Erro corrigido" junto com o travamento do ‘Kernel Panic’ indica falha de memória e uma RMA (Return Material Authorization, Autorização de devolução de material) é necessária.
Memória não detectada
A placa de linha PSC2/PSC3 pode ser reinicializada com indicação de pulsação ausente. Uma razão é que o sistema detectou DIMM com defeito. Quando um DIMM com defeito é detectado, a placa tenta reinicializar várias vezes antes de entrar no estado Offline.
Para a placa PSC2, na saída debug console card x cpu 0 encontrada no SSD, esses erros serão vistos:
1338537199.891 card 6-cpu0: ERROR: Memory size 24576 MB for cpu0 not matching with value 32768 MB in IDEEPROM 1338537199.891 card 6-cpu0:
1338537199.891 card 6-cpu0: ERROR: Bus 255 CPU 0 Chan 0 DIMM 0 NotPresent
Além disso, o syslog será preenchido com este erro:
The Packet Services Card 2 with serial number SAD154403TT in slot 6 has failed and will be brought down and brought back online. (Device=CPU_0, Reason=CARD_BOOT_TIMEOUT_EXPIRED, Status=[CPU0 MB: CFE_FAILURE] [CPU1] [CPU2] [CPU3] [GPIO_IN: 00,ff,ff,ff] [GPIO_OUT: 01,ff,00,ff]
Para a placa PSC3, na saída debug console card x cpu 0 encontrada no SSD, este erro será visto:
1412147713.299 card 7-cpu0: WARNING: Memory size 49152 MB for cpu0 not matching with value 65536 MB in IDEEPROM
A placa que apresenta esse problema precisa ser substituída.