Introduction
Ce document décrit comment dépanner les modules de mémoire et les problèmes associés dans la solution Cisco Unified Computing System (UCS).
Conditions préalables
Exigences
Cisco recommande de connaître Cisco Unified Computing System (UCS).
Composants utilisés
Ce document n'est pas limité à des versions de matériel et de logiciel spécifiques.
Toutefois, ce document traite des points suivants :
- Serveurs lames Cisco UCS série B
- UCS Manager
- UCS utilise un module DIMM (Dual In-line Memory Module) comme module de mémoire vive.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. Si votre réseau est en ligne, assurez-vous de bien comprendre l’incidence possible des commandes.
Méthodologie de dépannage
Cette section couvre plusieurs aspects des problèmes de mémoire UCS.
- Emplacement de mémoire
- Dépannage des DIMM via UCSM et CLI
- Journaux d'archivage du support technique
Termes et acronymes
DIMM |
Module de mémoire à double rangée de connexions |
ECC |
Code De Correction D'Erreur |
LVDIMM |
DIMM basse tension |
MCA |
Architecture de vérification des machines |
MEMBRE |
Test automatique intégré de la mémoire |
MRC |
code de référence de la mémoire |
POST |
Test automatique de mise sous tension |
SPD |
Serial Presence Detect |
DDR |
Double débit de données |
RAS |
Fiabilité, disponibilité et facilité de maintenance |
Emplacement de mémoire
L'emplacement de la mémoire est l'un des aspects physiques les plus remarquables de la solution UCS.
En général, le serveur est livré avec une mémoire pré-remplie avec une quantité demandée.
Cependant, en cas de doute, reportez-vous au guide d'installation du matériel.
Pour les règles de remplissage de mémoire, reportez-vous aux spécifications techniques de la série B pour la plate-forme spécifique.
Lien vers les spécifications techniques de la série B :
Fiches techniques
Erreurs de mémoire
- Erreur DIMM
- Multibit = Incorrigible
- L'autotest de mise sous tension est mappé par le BIOS ; le système d'exploitation ne voit pas DIMM.
- Le runtime entraîne généralement le redémarrage du système d'exploitation.
- Bit unique = corrigible
- Le système d'exploitation continue de voir le module DIMM.
- Erreur ECC (Error Correcting Code)
- Erreur de parité
- Erreur SPD (Serial Presence Detect)
- Erreur de configuration
- DIMM non pris en charge
- Remplissage DIMM non pris en charge
- DIMM non jumelés
- Erreurs de disparité
- Erreur d'identité impossible à établir
- Vérifier et mettre à jour le catalogue.
Erreurs corrigibles et erreurs non corrigibles
Le fait qu'une erreur particulière puisse être corrigée ou non dépend de la puissance du code ECC utilisé dans le système de mémoire.
Le matériel dédié est en mesure de corriger les erreurs lorsqu'elles se produisent sans impact sur l'exécution du programme.
Les modules DIMM présentant des erreurs corrigibles ne sont pas désactivés et peuvent être utilisés par le système d'exploitation. Les Total Memory
et Effective Memory
sont les mêmes.
Ces erreurs corrigibles sont signalées dans l'état d'opérabilité UCSM comme suit : Degraded
tandis que l'opérabilité globale est Operable
avec des erreurs corrigibles.
Les erreurs irréparables empêchent l'application ou le système d'exploitation de poursuivre l'exécution.
Les DIMM présentant des erreurs non corrigables sont désactivées et le système d'exploitation ne les voit pas. UCSM operState passe à Inexploitable dans ce cas.
Dépannage des barrettes DIMM via UCSM et CLI
Vérifier les erreurs de l'interface utilisateur
UCSM |
Journaux |
Description |
État DIMM |
Opérabilité |
SEL |
Commentaires |
Opérable |
Opérable |
Recherchez les erreurs DIMM dans le journal SEL. |
Une barrette DIMM est installée et fonctionne. |
Opérable |
Dégradé |
Recherchez les erreurs ECC dans SEL. |
Une erreur ECC DIMM corrigible est détectée pendant l'exécution. |
Supprimé |
S/O |
Aucun journal |
Une DIMM n'est pas installée ou les données SPD sont endommagées. |
Désactivé |
Opérable |
Vérifiez SEL pour les erreurs d'identité non déterminables. |
Vérifier et mettre à jour le catalogue de fonctionnalités. |
Désactivé |
S/O |
Cochez SEL si une autre barrette DIMM dans le même canal est défaillante. |
Une barrette DIMM est saine mais désactivée car la règle de configuration n'a pas pu être maintenue par une barrette DIMM défaillante dans le même canal. |
Désactivé |
S/O |
Aucun journal |
Échec de la règle de configuration de mémoire en raison de DIMM manqués. |
Inopérable |
Inopérable/Remplacement requis |
|
Erreur UE ECC détectée. |
Dégradé |
Inopérable |
Recherchez les erreurs ECC dans SEL. |
L'état et l'exploitabilité des DIMM ont changé en raison d'erreurs ECC détectées avant le redémarrage de l'hôte. |
Dégradé |
Inopérable/Remplacement requis |
Vérifiez SEL pour l'erreur ECC pendant POST/MRC. |
Une erreur ECC non corrigible a été détectée pendant l'exécution, DIMM reste disponible pour le système d'exploitation, le système d'exploitation tombe en panne et se remet en marche, mais peut toujours utiliser ce DIMM. Une erreur peut se reproduire ultérieurement. Le module DIMM doit être remplacé dans la plupart des cas. |
Pour obtenir des statistiques, accédez à Equipment > Chassis > Server > Inventory > Memory,
puis cliquez avec le bouton droit Memory
et sélectionnez show navigator.
Vérifier les erreurs de CLI
Ces commandes sont utiles lors du dépannage d'erreurs à partir de l'interface CLI.
scope server x/y -> show memory detail
scope server x/y -> show memory-array detail
scope server x/y -> scope memory-array x -> show stats history memory-array-env-stats detail
À partir de l'étendue de la baie de mémoire, vous pouvez également accéder à DIMM.
scope server X/Y > scope memory-array Z > scope DIMM N
À partir de là, vous pouvez obtenir des statistiques par DIMM ou réinitialiser les compteurs d'erreurs.
UCS/chassis/server/memory-array/dimm # reset-errors
UCS /chassis/server/memory-array/dimm* # commit-buffer
UCS /chassis/server/memory-array/dimm # show stats memory-error-state
Si une erreur corrigible correspondant à ces informations s'affiche, vous pouvez résoudre le problème en réinitialisant le contrôleur BMC au lieu de réinitialiser le serveur lame.
Utilisez les commandes CLI de Cisco UCS Manager suivantes :
(La réinitialisation du contrôleur BMC n'a pas d'impact sur le système d'exploitation exécuté sur la lame.)
To reset memory-error counters on a Cisco UCS C-Series Rack Server operating in standalone mode, run the script on the CLI:
UCS-C# scope reset-ecc
UCS-C/reset-ecc # set enabled yes
UCS-C/reset-ecc *# commit
For colusa servers:
UCS# scope chassis
UCS /chassis # scope server x
UCS /chassis/server # reset-ecc
Avec UCS versions 2.27, 3.1 et ultérieures, les seuils d'erreurs corrigées en mémoire ont été supprimés.
Par conséquent, les modules de mémoire ne sont plus signalés comme Inoperable
ou Degraded
uniquement en raison d'erreurs de mémoire corrigées.
Selon le livre blanc Gestion des erreurs de mémoire corrigibles sur les serveurs Cisco UCS
Les exigences du secteur en termes de capacité, de bande passante et de tension de fonctionnement augmentent les taux d'erreur de mémoire.
Traditionnellement, l'industrie traite les erreurs corrigibles de la même manière que les erreurs non corrigibles, ce qui nécessite le remplacement du module immédiatement après l'alerte.
Étant donné les recherches approfondies qui ont permis de déterminer que les erreurs corrigibles ne sont pas corrélées avec les erreurs non corrigibles et que les erreurs corrigibles ne dégradent pas les performances du système, l'équipe Cisco UCS recommande de ne pas remplacer immédiatement les modules par des erreurs corrigibles.
Les clients qui reçoivent une alerte de mémoire endommagée pour des erreurs corrigibles sont invités à réinitialiser l'erreur de mémoire et à reprendre le fonctionnement. Cette recommandation permet d'éviter toute interruption inutile du serveur. Les améliorations futures apportées à la gestion des erreurs permettront de distinguer les différents types d'erreurs corrigibles et d'identifier les actions appropriées, le cas échéant, nécessaires.
Au minimum, utilisez la version 2.1(3c) ou 2.2(1b) qui a été améliorée avec la gestion des erreurs de mémoire UCS
Fichiers journaux à archiver dans le support technique
UCSM_X_TechSupport > sam_techsupportinfo
fournit des informations sur les modules DIMM et les barrettes de mémoire.
Assistance technique châssis/serveur
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt -> Generic tech support information about sever X.
CIMCX_TechSupport\obfl\obfl-log -> OBFL logs provide an ongoing logs about status and boot of server X.
CIMCX_TechSupport\var\log\sel -> SEL logs for server X.
En fonction de la plate-forme ou de la version, accédez aux fichiers de l'offre d'assistance technique.
var/nuova/BIOS > RankMarginTest.txt
var/nuova/BIOS > MemoryHob.txt
var/nuova/var/nuova/ BIOS > MrcOut_*.txt
Ces fichiers fournissent des informations sur la mémoire telle qu'elle apparaît au niveau du BIOS.
Les informations peuvent être à nouveau référencées avec les tables de rapport d'état DIMM.
Exemple :
/var/nuova/BIOS/RankMarginTest.txt
- Utile pour afficher les résultats du test BIOS Training test MEMBIST.
- Recherchez les erreurs.
- Vérifiez si des modules DIMM sont mappés.
- Afficher les informations spécifiques aux DIMM (fournisseur/vitesse/PID).
DIMM |GB|R|MfgDate|Mod ID |DRAM ID |Reg ID |CtW Tck CLS Taa V|Freq|Part#
A1 18| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A2 26| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
La première colonne comporte deux valeurs :
Localisateur DIMM (F2)
État DIMM (01)
Voici une brève description de chaque état :
0x00 // Non installé (pas de DIMM)
0x01 // Installé (en fonctionnement)
//// 0x02-0F (Réservé)
/// Échec
0x10 // Échec de la formation
0x11 // Échec de la formation à l'horloge
/// 0x12-17 (Réservé)
0x18 // Échec de MemBIST
//// 0x19-1F (Réservé)
/// Ignoré
0x20 // Ignoré (désactivé à partir de la console de débogage)
0x21 // Ignoré (erreur SPD signalée par BMC)
0x22 // Ignoré (non-RDIMM)
0x23 // Ignoré (non ECC)
0x24 // Ignoré (Non-x4)
0x25 // Ignoré (échec de l'autre PDIMM dans le même LDIMM)
0x26 // Ignoré (échec d'une autre LDIMM dans le même canal)
0x27 // Ignoré (échec de l'autre canal dans LockStep ou Mirror)
0x28 // Ignoré (remplissage PDIMM non valide)
0x29 // Ignoré (non-concordance d'organisation PDIMM)
0x2A // Ignoré (non-concordance du fournisseur du registre PDIMM)
//// 0x2B-7F (Réservé)
var/nuova/BIOS > MemoryHob.txt
Affiche la mémoire effective et défaillante installée sur le serveur.
+++ BEGINNING OF FILE
Memory Speed = 1067 MHz
Memory Mode = 00
RAS Modes = 03
MRC Flags = 0000000A
Total Memory = 98304 MB
Effective Memory = 90112 MB
Failed Memory = 8192 MB
Ignored Memory = 0 MB
Redundant Memory = 0 MB
|---------------------------------|
| Memory | Channel | DIMM Status |
| Channel | Status | 1 2 |
|---------------------------------|
| A | 01 | 01 01 |
| B | 01 | 01 01 |
| C | 01 | 01 01 |
| D | 01 | 01 01 |
| E | 01 | 01 01 |
| F | 01 | 01 18 |
|---------------------------------|
18h - L'état de la DIMM est marqué comme défaillant en cas d'échec au test MemBist. Remplacez par un module DIMM en bon état.
Description de l'état DIMM
00h Non installé (pas de DIMM)
01h Installé (en cours)
02h-0Fh Réservé
10 h d'échec (formation)
11h Échec (formation à l'horloge)
12h-17h Réservé
Échec 18h (MemBIST)
19h-1Fh Réservé
20h Ignoré (désactivé à partir de la console de débogage)
21h Ignoré (erreur SPD signalée par BMC)
22 h Ignoré (non RDIMM)
23 h Ignoré (non ECC)
24h Ignoré (Non-x4)
25h Ignoré (échec d'un autre module PDIMM dans le même module LDIMM)
26h Ignoré (échec d'une autre LDIMM dans le même canal)
27h Ignoré (autre canal dans LockStep ou Mirror)
28h Ignoré (remplissage de mémoire non valide)
29h Ignoré (non-concordance d'organisation)
2Ah ignoré (non-concordance du fournisseur d'enregistrement)
Réservé De 2 Bh À 7 Fh
80 h ignoré ( Bouclage de contournement)
81h ignoré (bus I2C bloqué)
82h - FFh Réservé
Liste de blocage DIMM
Dans Cisco UCS Manager
, l'état de la Dual In-line Memory Module
(DIMM) est basé sur les enregistrements d'événements SEL.
Lorsque le BIOS rencontre une erreur de mémoire non corrigible pendant l'exécution du test de mémoire, le module DIMM est marqué comme défectueux.
Un module DIMM défectueux est considéré comme un périphérique non fonctionnel.
Si vous activez la liste de blocage DIMM, Cisco UCS Manager surveille les messages d'exécution des tests de mémoire et répertorie tous les modules DIMM qui rencontrent des erreurs de mémoire dans les données SPD des modules DIMM.
Le blocage des barrettes DIMM a été introduit en tant que politique globale facultative dans UCSM 2.2(2).
Le micrologiciel du serveur doit être 2.2(1)+ pour les serveurs lame série B et 2.2(3)+ pour les serveurs rack série C pour implémenter correctement cette fonctionnalité.
Dans UCSM 2.2(4), la barrette DIMM, Blocklisting est activée.
Ouvrez le fichier d'assistance technique .../var/log/DimmBL.log
Ouvrez le fichier /var/nuova/BIOS/MrcOut.txt s'il est disponible
Recherchez le tableau d'état DIMM. Recherchez l'état DIMM :
Blocage de barrettes DIMM = 1E
Recherchez le tableau d'état DIMM. Recherchez l'état DIMM :
État DIMM :
00 - Non installé
01 - Installé
10 - Échec (échec de la formation) effacer
1E - En panne (DIMM bloqué par BMC)
1F - Failed (SPD Error)
25 - Disabled (Autre DIMM défaillant dans le même canal.)
Exemple :
État DIMM :
|=======================|
| Mémoire | État DIMM |
| Canal | 1 2 3 |
|=======================|
| A | 25 1F 25 |
| B | 01 01 01 |
| C | 1F 25 25 |
| D | 01 01 01 |
| E | 01 01 01 |
| F | 25 25 1E |
| G | 01 01 01 |
| H | 01 01 01 |
|=======================|
État DIMM :
01 - Installé
1E - En panne (DIMM bloqué par BMC)
1F - Failed (SPD Error)
25 - Disabled (échec d'un autre module DIMM dans le même canal)
Méthodes de suppression des erreurs de blocage DIMM
GUI UCSM
CLI UCSM
UCS-B/chassis/server # reset-all-memory-errors
Informations connexes
Bogues notables
Le régulateur de tension Cisco bug ID CSCug93076 B200M3-DDR présente un bruit excessif sous une charge faible
Le capteur d'erreur DIMM IPMI CSCup07488 de l'ID de bogue Cisco définit Dimm Degraded sans compter les erreurs.
ID de bogue Cisco CSCud2620 Précision améliorée de l'identification des DIMM dégradés
L'ID de bogue Cisco CSCuw44524 C460M4, B260M4 ou B460M4 IVB clear CMOS peut provoquer une erreur UECC de mémoire
ID de bogue Cisco CSCur19705 Erreurs ECC/UECC observées sur B200M3
ID de bogue Cisco CSCvm8447La documentation relative aux étapes de réinitialisation d'ECC est manquante pour les serveurs Colusa autonomes