Geheugenfouten op UCS-servers oplossen

Downloadopties

PDF (1.0 MB)
Met Adobe Reader op diverse apparaten bekijken
ePub (778.1 KB)
Bekijken in diverse apps op iPhone, iPad, Android, Sony Reader of Windows Phone
Mobi (Kindle) (741.6 KB)
Op Kindle-apparaat of via Kindle-app op meerdere apparaten bekijken

Bijgewerkt:25 oktober 2024

Document-id:222546

Inclusief taalgebruik

De documentatie van dit product is waar mogelijk geschreven met inclusief taalgebruik. Inclusief taalgebruik wordt in deze documentatie gedefinieerd als taal die geen discriminatie op basis van leeftijd, handicap, gender, etniciteit, seksuele oriëntatie, sociaaleconomische status of combinaties hiervan weerspiegelt. In deze documentatie kunnen uitzonderingen voorkomen vanwege bewoordingen die in de gebruikersinterfaces van de productsoftware zijn gecodeerd, die op het taalgebruik in de RFP-documentatie zijn gebaseerd of die worden gebruikt in een product van een externe partij waarnaar wordt verwezen. Lees meer over hoe Cisco gebruikmaakt van inclusief taalgebruik.

Over deze vertaling

Cisco heeft dit document vertaald via een combinatie van machine- en menselijke technologie om onze gebruikers wereldwijd ondersteuningscontent te bieden in hun eigen taal. Houd er rekening mee dat zelfs de beste machinevertaling niet net zo nauwkeurig is als die van een professionele vertaler. Cisco Systems, Inc. is niet aansprakelijk voor de nauwkeurigheid van deze vertalingen en raadt aan altijd het oorspronkelijke Engelstalige document (link) te raadplegen.

Inhoud

Inleiding

Voorwaarden

Vereisten

Gebruikte componenten

Achtergrondinformatie

Geheugenfouten

Correceerbare fouten

Adaptieve gegevenscorrectie met twee apparaten (ADDC)

Post Package Repair (PPR)

Gedeeltelijke cachelijn-sparing (PCLS)

Probleemoplossing voor RAS-fouten

UCS Manager

Intersight beheerde modus

Cisco Integrated Management Controller (CIMC)

Stappen voor probleemoplossing

UCS M-herstartstappen

IMM-herstartstappen

CIMC-herstartstappen

Monitor voor nieuwe fouten

UCS Manager niet-corrigeerbare geheugenfout

IMM geheugen niet-corrigeerbare fout

CIMC-fout niet-corrigeerbaar geheugen

Gerelateerde informatie

Inleiding

Dit document beschrijft de stappen voor het oplossen van problemen om geheugenfouten op UCS-servers te verwerken.

Voorwaarden

Vereisten

Cisco raadt kennis van de volgende onderwerpen aan.

Basiskennis van UCS.
Basiskennis van geheugenarchitectuur.

Gebruikte componenten

De informatie in dit document is gebaseerd op de volgende software- en hardware-versies:

UCS Series servers M5, M6, M7 en hoger.
UCS Manager
Cisco Integrated Management Controller (CIMC)
Cisco Intersight beheerde mode (IMM)

De informatie in dit document is gebaseerd op de apparaten in een specifieke laboratoriumomgeving. Alle apparaten die in dit document worden beschreven, hadden een opgeschoonde (standaard)configuratie. Als uw netwerk live is, moet u zorgen dat u de potentiële impact van elke opdracht begrijpt.

Achtergrondinformatie

Geheugenfouten

Geheugenfouten worden aangetroffen wanneer wordt geprobeerd een geheugenlocatie te lezen. De waarde die uit het geheugen wordt gelezen komt niet overeen met de waarde die er zou moeten zijn. Deze fouten worden in twee categorieën ingedeeld:

1. Zachte fouten

Zachte fouten zijn van voorbijgaande aard en worden niet steeds herhaald. Deze zijn tijdelijk en kunnen vaak worden gecorrigeerd door het lezen of herschrijven van de geheugenlocatie.

2. Harde fouten

Permanente fysieke gebreken veroorzaken dit. Herschrijven van de geheugenlocatie en opnieuw proberen van de gelezen toegang voorkomt geen harde fout. Als gevolg hiervan is deze geheugenfout niet te corrigeren en moet het geheugen worden vervangen terwijl de fout zich blijft herhalen.

Correceerbare fouten

Indien fouten worden gedetecteerd en gecorrigeerd, worden zij als corrigeerbaar beschouwd. Dit kan worden bereikt door het lezen opnieuw te proberen of door het berekenen van de juiste geheugeninhoud met behulp van Error Correction Code (ECC) gegevens en het schrijven van de juiste gegevens terug in het geheugen. Nadat een fout is gedetecteerd en gecorrigeerd, registreert de Cisco Integrated Management Controller (IMC) de gebeurtenis in het systeemgebeurtenissenlogboek.

Correcteerbare fouten zijn meestal het gevolg van zachte fouten. Als de correcteerbare fouten binnen de zelfde geheugenplaats over een uitgebreide periode voortduren, kon het op een potentiële harde fout wijzen.

Adaptieve gegevenscorrectie met twee apparaten (ADDC)

ADDDC Sparing kan twee opeenvolgende DRAM-storingen corrigeren als ze in dezelfde regio voorkomen. ADDC verplaatst dynamisch gegevens van falende bits naar extra geheugen, om te voorkomen dat correcteerbare fouten oncorrigeerbaar worden. Om het mechanisme in werking te stellen is een drempel van corrigeerbare ECC-fouten vereist.

ADDC helpt in sommige scenario's waar correcteerbare ECC fouten voorafgaan Oncorrigeerbare ECC fouten.

Post Package Repair (PPR)

Post Package Repair (PPR) kan permanent storende geheugengebieden in een DIMM repareren door gebruik te maken van redundante DRAM-rijen. Deze permanente reparatie in het veld maakt een snel herstel van harde fouten mogelijk zonder dat de DIMM hoeft te worden vervangen. Om een reparatie uit te voeren, moet het systeem een ADDDC-gebeurtenis ervaren en ten minste één rebootcyclus doorlopen. Deze reparatieactiviteit heeft geen invloed op de prestaties of het totale geheugen dat beschikbaar is voor het besturingssysteem.

PPR en ADDC zijn standaard ingeschakeld, maar kunnen geconfigureerd worden. Voor PPR moet ook de ADDDC Sparing RAS-modus zijn ingeschakeld. Als de RAS-instelling anders is dan ADDC Sparing of Platform Default, is PPR niet operationeel. De enige ondersteunde PPR-modus is Hard PPR, wat betekent dat reparaties permanent zijn.

Gedeeltelijke cachelijn-sparing (PCLS)

Er is een fout-preventie mechanisme in de geheugencontroller. Het werkt door defecte kleine delen van gegevens in het geheugen te identificeren. Deze defecte locaties worden opgenomen in een speciale map, samen met back-upgegevens die ze kunnen vervangen. Wanneer het geheugen wordt benaderd, als er een fout in die defecte vlekken is, gebruikt de controller de back-upgegevens van de directory om ervoor te zorgen dat alles soepel verloopt.

Opmerking: de functies zijn beschikbaar afhankelijk van de CPU-architectuur en de firmware-versie die op de server wordt uitgevoerd. Zorg ervoor dat u in de laatst aanbevolen versie bent om de geheugenfouten beter te verwerken.

Probleemoplossing voor RAS-fouten

UCS Manager

Over het algemeen ziet u deze fouten in UCS Manager als een RAS-gebeurtenis.

In de gezondheidssamenvatting vindt u meer informatie over de fout, of PCLS of PPR is geactiveerd.

PCLS-voorbeeld

Op M6-servers en nieuwer hebt u de optie om Patrial cache line sparing (PCLS) in te schakelen als een BIOS-optie, wat een mechanisme is voor foutpreventie. De server moet zo snel mogelijk worden opgestart, zodat PPR kan beginnen en de DIMM kan repareren. Nadat de server is opgestart, controleert u op extra UCS Manager-fouten voor dezelfde DIMM.

Zoals in de waarschuwing wordt vermeld, wordt aanbevolen de server zo snel mogelijk opnieuw op te starten, aangezien er een geassocieerd risico bestaat op een niet-corrigeerbare fout en dientengevolge een onverwachte serverdowntime.

PCLS2 Example

PPR-voorbeeld

De server heeft ADDC en PPR ingeschakeld en er heeft zich een RAS-gebeurtenis voorgedaan. De fout suggereert dat de DIMM opnieuw opgestart moet worden om de PPR te kunnen repareren. De server moet zo snel mogelijk opnieuw opgestart worden om de DIMM te kunnen inschakelen en repareren.

Nadat de server is opgestart, controleert u op extra UCS Manager-fouten voor dezelfde DIMM.

PPR Example

Intersight beheerde modus

De Server heeft ADDC ingeschakeld en er is een BANK VLS-gebeurtenis opgetreden, waardoor de fout die u ziet, is ontstaan. In dit scenario is de volgende stap om een server zo snel mogelijk opnieuw op te starten om PPR te kunnen uitvoeren.

Intersight Managed Mode

Cisco Integrated Management Controller (CIMC)

De fout wordt weergegeven zoals bij gebruik van de Cisco geïntegreerde beheercontroller. Als de server ADDC heeft en er een VLS-gebeurtenis heeft plaatsgevonden, werkt dit zoals ontworpen om oncorrigeerbare fouten te voorkomen.

Cisco Integrated Management Controller

Stappen voor probleemoplossing

Controleer of er geen andere DIMM-fouten aanwezig zijn, bijvoorbeeld en Uncorrectable Error.
Plan een onderhoudsvenster.
Plaats een host in de onderhoudsmodus en start de server opnieuw om te proberen de DIMM permanent te repareren met behulp van Post Package Repair (PPR).

UCS M-herstartstappen

Opmerking: u kunt de server ook vanuit het besturingssysteem opnieuw opstarten. Dit voorbeeld gebruikt de reboot optie van de server UI.

Navigeer naar uw UCS Manager-webinterface.

Bladeserver

Ga naar Apparatuur > Chassis > Server X.

Geïntegreerde server

Ga naar Apparatuur > Rackmontage > Server X.

Klik op KVM-console.

Reboot KVM Console

klik in het KVM-venster op serveracties, selecteer Reset en klik op OK.

KVM Console

Controleer in de KVM het rebootproces en zorg ervoor dat het besturingssysteem correct opstart.

IMM-herstartstappen

Navigeer naar het tabblad Servers, identificeer de server en klik op het menu Actie (drie punten).

IMM Reboot Steps

Selecteer vervolgens het menu Aan/uit en vervolgens de optie Power Cycle.

Power Menu

Klik op de knop Aan/uit-cyclus om de actie te bevestigen.

Power Cycle Server

Bevestig de voortgang in het menu Verzoeken.

Requests Menu

CIMC-herstartstappen

Navigeer naar de Host Power optie en selecteer Power Cycle.

Start de KVM om het herstartproces te bewaken en zorg ervoor dat het besturingssysteem correct wordt opgestart.

Monitor voor nieuwe fouten

Als er na het opnieuw opstarten geen fouten optreden, wat betekent dat er geen andere RAS-gebeurtenis of fout met betrekking tot de DIMM is, is PPR succesvol geweest en kan de server opnieuw in gebruik worden genomen.

Als er nieuwe ADDC-gebeurtenissen optreden, herhaal dan het rebootproces zoals beschreven in de vorige stappen om extra permanente reparaties uit te voeren met PPR.

Als er na het opnieuw opstarten een fout optreedt die niet kan worden gecorrigeerd, geeft de fout aan dat een geheugen moet worden vervangen.

Opmerking: open een case met Cisco TAC om de DIMM te vervangen als u een van deze fouten tegenkomt.

UCS Manager niet-corrigeerbare geheugenfout

UCS Manager Uncorrectable Memory Error - 1

UCS Manager Uncorrectable Memory Error - 2

IMM geheugen niet-corrigeerbare fout

Fout die niet kan worden gecorrigeerd. De fout geeft aan dat de DIMM een niet-corrigeerbare fout heeft en moet worden vervangen.

IMM Memory Uncorrectable Error

CIMC-fout niet-corrigeerbaar geheugen

Gerelateerde informatie

Memory Technical Overview - Geheugen RAS Feat urine

Revisiegeschiedenis

Revisie	Publicatiedatum	Opmerkingen
1.0	25-Oct-2024	Eerste vrijgave

Bijgedragen door Cisco-engineers

Ricardo Martinez
Technisch leider bij klantlevering

Was dit document nuttig?

Feedback

Contact Cisco

Een ondersteuningscase openen
(Vereist een Cisco-servicecontract)

Geheugenfouten op UCS-servers oplossen

Downloadopties

Inclusief taalgebruik

Over deze vertaling

Inhoud

Inleiding

Voorwaarden

Vereisten

Gebruikte componenten

Achtergrondinformatie

Geheugenfouten

Correceerbare fouten

Adaptieve gegevenscorrectie met twee apparaten (ADDC)

Post Package Repair (PPR)

Gedeeltelijke cachelijn-sparing (PCLS)

Probleemoplossing voor RAS-fouten

UCS Manager

Intersight beheerde modus

Cisco Integrated Management Controller (CIMC)

Stappen voor probleemoplossing

UCS M-herstartstappen

IMM-herstartstappen

CIMC-herstartstappen

Monitor voor nieuwe fouten

UCS Manager niet-corrigeerbare geheugenfout

IMM geheugen niet-corrigeerbare fout

CIMC-fout niet-corrigeerbaar geheugen

Gerelateerde informatie

Revisiegeschiedenis

Bijgedragen door Cisco-engineers

Was dit document nuttig?

Contact Cisco

Dit document is van toepassing op deze producten