Introducción
Este documento describe cómo resolver problemas de módulos de memoria y problemas relacionados en la solución Cisco Unified Computing System (UCS).
Prerequisites
Requirements
Cisco recomienda conocer Cisco Unified Computing System (UCS).
Componentes Utilizados
Este documento no tiene restricciones específicas en cuanto a versiones de software y de hardware.
Sin embargo, este documento aborda:
- Servidores blade de la serie B de Cisco UCS
- UCS Manager
- UCS utiliza el módulo de memoria en línea dual (DIMM) como módulos de RAM.
La información que contiene este documento se creó a partir de los dispositivos en un ambiente de laboratorio específico. Todos los dispositivos que se utilizan en este documento se pusieron en funcionamiento con una configuración verificada (predeterminada). Si tiene una red en vivo, asegúrese de entender el posible impacto de cualquier comando.
Metodología de Troubleshooting
Esta sección trata varias partes de los problemas de memoria de UCS.
- Ubicación de memoria
- Resolución de problemas de DIMM mediante UCSM y CLI
- Registros para registrar el soporte técnico
Términos y acrónimos
DIMM |
Módulo de memoria en línea dual |
ECC |
Código de corrección de errores |
LVDIMM |
DIMM de bajo voltaje |
MCA |
Arquitectura de comprobación automática |
MIEMBRO |
Prueba automática integrada de memoria |
MRC |
Código de referencia de memoria |
POST |
Prueba automática de encendido |
SPD |
Detección de presencia en serie |
DDR |
Velocidad de datos doble |
RAS |
Fiabilidad, disponibilidad y facilidad de mantenimiento |
Ubicación de memoria
La ubicación de la memoria es uno de los aspectos físicos más notables de la solución UCS.
Normalmente, el servidor incluye una memoria que se rellena previamente con una cantidad solicitada.
Sin embargo, si tiene alguna duda, consulte la guía de instalación del hardware.
Para las reglas de población de memoria, consulte las especificaciones técnicas de la serie B para la plataforma específica.
Enlace a las especificaciones técnicas de la serie B:
Hojas de datos
Errores de memoria
- Error de DIMM
- Multibit = Incorregible
- El BIOS asigna la POST; el SO no ve el DIMM.
- El tiempo de ejecución normalmente provoca el reinicio del SO.
- SingleBit = corregible
- El SO sigue viendo el DIMM.
- Error de código de corrección de errores (ECC)
- Error de paridad
- Error de Detección de presencia en serie (SPD)
- Error de configuración
- DIMM no compatibles
- Población de DIMM no admitida
- DIMM no emparejados
- Errores de discordancia
- Error de identidad no establecido
- Compruebe y actualice el catálogo.
Errores corregibles frente a errores incorregibles
La corrección o no corrección de un error determinado depende de la potencia del código ECC empleado en el sistema de memoria.
El hardware dedicado puede corregir errores corregibles cuando se producen sin que ello afecte a la ejecución del programa.
Los módulos DIMM con errores corregibles no están desactivados y están disponibles para que los utilice el sistema operativo. Total Memory
y Effective Memory
son iguales.
Estos errores corregibles se notifican en el estado de operabilidad de UCSM como Degraded
mientras que la operabilidad general es Operable
con errores corregibles.
Los errores incorregibles impiden que la aplicación o el sistema operativo continúen con la ejecución.
Los DIMM con errores incorregibles están desactivados y el SO no los ve. En este caso, el cambio de estado operativo de UCSM a Inoperable.
Resolución de problemas de DIMM mediante UCSM y CLI
Comprobar errores de la GUI
UCSM |
Registros |
Descripción |
Estado de DIMM |
Operabilidad |
SEL |
Comentarios |
Operable |
Operable |
Verifique el registro SEL para ver si hay errores relacionados con DIMM. |
Hay un módulo DIMM instalado y en funcionamiento. |
Operable |
Degradado |
Verifique que SEL no tenga errores ECC. |
Se detecta un error ECC DIMM corregible durante el tiempo de ejecución. |
Eliminado |
N/A |
No hay registros |
Un módulo DIMM no está instalado o los datos SPD están dañados. |
Inhabilitado |
Operable |
Verifique que SEL no tenga errores de identidad no establecidos. |
Comprobar y actualizar el catálogo de funciones. |
Inhabilitado |
N/A |
Verifique SEL si otro DIMM en falló en el mismo canal. |
Un módulo DIMM funciona correctamente pero está deshabilitado porque un módulo DIMM que ha fallado en el mismo canal no pudo mantener la regla de configuración. |
Inhabilitado |
N/A |
No hay registros |
Error en la regla de configuración de memoria debido a DIMM perdidos. |
Inoperable |
No funciona/Requiere sustitución |
|
Se ha detectado un error UE ECC. |
Degradado |
Inoperable |
Verifique que SEL no tenga errores ECC. |
El estado y la operabilidad de DIMM cambiaron debido a que se detectaron errores ECC antes de reiniciar el host. |
Degradado |
No funciona/Requiere sustitución |
Verifique SEL para detectar errores ECC durante POST/MRC. |
Se ha detectado un error ECC incorregible durante el tiempo de ejecución, el módulo DIMM sigue estando disponible para el SO, el SO se bloquea y vuelve a funcionar, pero aún puede utilizar este módulo DIMM. El error puede producirse de nuevo más tarde. En la mayoría de las situaciones, debe sustituirse DIMM. |
Para obtener estadísticas, vaya a Equipment > Chassis > Server > Inventory > Memory,
a continuación, haga clic con el botón derecho Memory
y seleccione show navigator.
Comprobar errores desde CLI
Estos comandos son útiles para solucionar problemas de errores de CLI.
scope server x/y -> show memory detail
scope server x/y -> show memory-array detail
scope server x/y -> scope memory-array x -> show stats history memory-array-env-stats detail
Desde el alcance de la matriz de memoria, también puede obtener acceso a DIMM.
scope server X/Y > scope memory-array Z > scope DIMM N
A partir de ahí, puede obtener estadísticas por DIMM o restablecer los contadores de errores.
UCS/chassis/server/memory-array/dimm # reset-errors
UCS /chassis/server/memory-array/dimm* # commit-buffer
UCS /chassis/server/memory-array/dimm # show stats memory-error-state
Si ve un error corregible que coincida con esta información, el problema se puede corregir restableciendo el BMC en lugar de restablecer el servidor blade.
Utilice estos comandos CLI de Cisco UCS Manager:
(El restablecimiento del BMC no afecta al sistema operativo que se ejecuta en el blade.)
To reset memory-error counters on a Cisco UCS C-Series Rack Server operating in standalone mode, run the script on the CLI:
UCS-C# scope reset-ecc
UCS-C/reset-ecc # set enabled yes
UCS-C/reset-ecc *# commit
For colusa servers:
UCS# scope chassis
UCS /chassis # scope server x
UCS /chassis/server # reset-ecc
Con las versiones 2.27 y 3.1 y superiores de UCS, se han eliminado los umbrales para los errores corregidos de memoria.
Por lo tanto, los módulos de memoria ya no se reportan como Inoperable
or Degraded
debido únicamente a errores de memoria corregidos.
Según el informe técnico Gestión de errores de memoria corregibles en servidores Cisco UCS
La demanda del sector de una mayor capacidad, un mayor ancho de banda y unos voltajes operativos más bajos se traduce en un aumento de los índices de errores de memoria.
Tradicionalmente, el sector ha tratado los errores corregibles de la misma forma que los errores incorregibles, por lo que es necesario sustituir el módulo inmediatamente después de la alerta.
Debido a la amplia investigación llevada a cabo, según la cual los errores corregibles no se correlacionan con errores incorregibles, y que los errores corregibles no afectan al rendimiento del sistema, el equipo de Cisco UCS recomienda que no se reemplace inmediatamente a los módulos con errores corregibles.
Se recomienda a los clientes que experimenten una alerta de memoria degradada en busca de errores corregibles que restablezcan el error de memoria y reanuden la operación. Esta recomendación ayuda a evitar interrupciones innecesarias en el servidor. Las futuras mejoras en la gestión de errores distinguen entre varios tipos de errores corregibles e identifican las acciones adecuadas, si las hubiera, necesarias.
Como mínimo, utilice la versión 2.1(3c) o 2.2(1b), que presenta mejoras en la gestión de errores de memoria de UCS
Archivos de registro para registrar la asistencia técnica
UCSM_X_TechSupport > sam_techsupportinfo
proporciona información sobre DIMM y matriz de memoria.
Soporte técnico de chasis/servidor
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt -> Generic tech support information about sever X.
CIMCX_TechSupport\obfl\obfl-log -> OBFL logs provide an ongoing logs about status and boot of server X.
CIMCX_TechSupport\var\log\sel -> SEL logs for server X.
En función de la plataforma/versión, desplácese hasta los archivos del paquete de soporte técnico.
var/nuova/BIOS > RankMarginTest.txt
var/nuova/BIOS > MemoryHob.txt
var/nuova/var/nuova/ BIOS > MrcOut_*.txt
Estos archivos proporcionan información sobre la memoria tal como se ve a nivel de BIOS.
Se puede hacer referencia cruzada de nuevo a la información allí con las tablas de informes de estados DIMM.
Ejemplo:
/var/nuova/BIOS/RankMarginTest.txt
- Útil para mostrar los resultados de la prueba de formación de BIOS MEMBIST.
- Busque errores.
- Compruebe si hay algún módulo DIMM planificado.
- Mostrar información específica de DIMM (proveedor/velocidad/PID).
DIMM |GB|R|MfgDate|Mod ID |DRAM ID |Reg ID |CtW Tck CLS Taa V|Freq|Part#
A1 18| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A2 26| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
La primera columna tiene dos valores:
Localizador de DIMM (F2)
Estado de DIMM (01)
A continuación se ofrece una breve descripción de cada estado:
0x00 // No instalado (sin DIMM)
0x01 // Instalado (en funcionamiento)
/// 0x02-0F (reservado)
/// Error
0x10 // Formación fallida
0x11 // Fallo en la formación del reloj
/// 0x12-17 (reservado)
0x18 // Error de MemBIST
/// 0x19-1F (reservado)
/// Omitido
0x20 // Se omite (deshabilitado desde la consola de depuración)
0x21 // Ignorado (error SPD notificado por BMC)
0x22 // Ignorado (sin RDIMM)
0x23 // Ignorado (sin ECC)
0x24 // Ignorado (No x4)
0x25 // Se omite (fallaron otros PDIMM en el mismo LDIMM)
0x26 // Ignorado (otro LDIMM en el mismo canal fallado)
0x27 // Ignorado (otro canal en LockStep o Mirror fallado)
0x28 // Ignorado (población PDIMM no válida)
0x29 // Ignorado (discordancia de organización de PDIMM)
0x2A // Ignorado (discrepancia de proveedor de registro de PDIMM)
/// 0x2B-7F (reservado)
var/nuova/BIOS > MemoryHob.txt
Muestra la memoria efectiva y fallida instalada en el servidor.
+++ BEGINNING OF FILE
Memory Speed = 1067 MHz
Memory Mode = 00
RAS Modes = 03
MRC Flags = 0000000A
Total Memory = 98304 MB
Effective Memory = 90112 MB
Failed Memory = 8192 MB
Ignored Memory = 0 MB
Redundant Memory = 0 MB
|---------------------------------|
| Memory | Channel | DIMM Status |
| Channel | Status | 1 2 |
|---------------------------------|
| A | 01 | 01 01 |
| B | 01 | 01 01 |
| C | 01 | 01 01 |
| D | 01 | 01 01 |
| E | 01 | 01 01 |
| F | 01 | 01 18 |
|---------------------------------|
18h - El estado de DIMM se marca como fallado cuando falla en la prueba de MemBist. Sustitúyalo por un módulo DIMM de funcionalidad comprobada.
Descripción del estado de DIMM
00h No instalado (sin DIMM)
01h Instalado (en funcionamiento)
02h-0Fh Reservado
10h Error (formación)
11h Error (formación del reloj)
12h-17h Reservado
Error en 18h (MemBIST)
19h-1Fh Reservado
20h Ignorado (Desactivado desde la consola de depuración)
21h ignorado (error SPD notificado por BMC)
22 horas ignoradas (sin RDIMM)
23 horas ignoradas (sin ECC)
24h ignorado (no x4)
25 horas ignoradas (fallaron otras PDIMM en el mismo LDIMM)
26h Ignorado (otro LDIMM en el mismo canal fallado)
27h Ignorado (Otro canal en LockStep o Mirror)
28h Ignorado (población de memoria no válida)
29h Omitido (Discordancia de la organización)
2 Ah ignorado (discrepancia de proveedor de registro)
2 Bh - 7 Fh Reservados
80h omitido (solución alternativa -bucle)
81h ignorado (bus I2C bloqueado)
82h - FFh reservado
Lista de bloqueo de DIMM
IN Cisco UCS Manager
, el estado de la Dual In-line Memory Module
(DIMM) se basa en registros de eventos SEL.
Cuando el BIOS encuentra un error de memoria no corregible durante la ejecución de la prueba de memoria, el DIMM se marca como defectuoso.
Un DIMM defectuoso se considera un dispositivo no funcional.
Si habilita la lista de bloqueo de DIMM, Cisco UCS Manager supervisa los mensajes de ejecución de pruebas de memoria y enumera las listas de bloqueo de cualquier DIMM que encuentre errores de memoria en los datos SPD de DIMM.
La lista de bloqueo de DIMM se introdujo como política global opcional en UCSM 2.2(2).
El firmware del servidor debe ser 2.2(1)+ para los servidores blade de la serie B y 2.2(3)+ para los servidores en rack de la serie C para implementar correctamente esta función.
En UCSM 2.2(4), el DIMM, lista de bloqueo está habilitado.
Abra el archivo de soporte técnico .../var/log/DimmBL.log
Abra el archivo /var/nuova/BIOS/MrcOut.txt si está disponible
Busque la tabla de estado de DIMM. Busque el estado de DIMM:
DIMM en la lista de bloqueo = 1E
Busque la tabla de estado de DIMM. Busque el estado de DIMM:
Estado de DIMM:
00 - No instalado
01 - Instalado
10 - Fallo (fallo de formación) borrar
1E - Fallo (el BMC enumera los módulos DIMM bloqueados)
1F - Error (error SPD)
25 - Desactivado (otro DIMM ha fallado en el mismo canal).
Ejemplo:
Estado de DIMM:
|=======================|
| Memoria | Estado de DIMM |
| Canal | 1 2 3 |
|=======================|
| R | 25 1F 25 |
| B | 01 01 01 |
| C | 1F 25 25 |
| D | 01 01 01 |
| E | 01 01 01 |
| F | 25 25 1E |
| G | 01 01 01 |
| H | 01 01 01 |
|=======================|
Estado de DIMM:
01 - Instalado
1E - Fallo (el BMC enumera los módulos DIMM bloqueados)
1F - Error (error SPD)
25 - Desactivado (otros DIMM fallaron en el mismo canal)
Métodos para borrar los errores de listas de bloqueo de DIMM
GUI de UCSM
CLI DE UCSM
UCS-B/chassis/server # reset-all-memory-errors
Información Relacionada
Errores notables
El regulador de voltaje Cisco bug ID CSCug93076 B200M3-DDR tiene ruido excesivo bajo carga ligera
El ID de error de Cisco CSCup07488 IPMI DIMM fault sensor está configurando Dimm degradado sin recuento de errores.
ID de error de Cisco CSCud22620 Precisión mejorada en la identificación de DIMM degradados
ID de error de Cisco CSCuw44524 C460M4, B260M4 o B460M4 IVB clear CMOS puede causar un error de memoria UECC
Errores ECC/UECC de la ID de error de Cisco CSCur19705 observados en B200M3
Falta la documentación de los pasos de CSCvm8847Reset ECC de la identificación de error de Cisco para los servidores Colusa independientes