Inleiding
Dit document beschrijft de stappen voor het oplossen van problemen om geheugenfouten op UCS-servers te verwerken.
Voorwaarden
Vereisten
Cisco raadt kennis van de volgende onderwerpen aan.
- Basiskennis van UCS.
- Basiskennis van geheugenarchitectuur.
Gebruikte componenten
De informatie in dit document is gebaseerd op de volgende software- en hardware-versies:
- UCS Series servers M5, M6, M7 en hoger.
- UCS Manager
- Cisco Integrated Management Controller (CIMC)
- Cisco Intersight beheerde mode (IMM)
De informatie in dit document is gebaseerd op de apparaten in een specifieke laboratoriumomgeving. Alle apparaten die in dit document worden beschreven, hadden een opgeschoonde (standaard)configuratie. Als uw netwerk live is, moet u zorgen dat u de potentiële impact van elke opdracht begrijpt.
Achtergrondinformatie
Geheugenfouten
Geheugenfouten worden aangetroffen wanneer wordt geprobeerd een geheugenlocatie te lezen. De waarde die uit het geheugen wordt gelezen komt niet overeen met de waarde die er zou moeten zijn. Deze fouten worden in twee categorieën ingedeeld:
1. Zachte fouten
Zachte fouten zijn van voorbijgaande aard en worden niet steeds herhaald. Deze zijn tijdelijk en kunnen vaak worden gecorrigeerd door het lezen of herschrijven van de geheugenlocatie.
2. Harde fouten
Permanente fysieke gebreken veroorzaken dit. Herschrijven van de geheugenlocatie en opnieuw proberen van de gelezen toegang voorkomt geen harde fout. Als gevolg hiervan is deze geheugenfout niet te corrigeren en moet het geheugen worden vervangen terwijl de fout zich blijft herhalen.
Correceerbare fouten
Indien fouten worden gedetecteerd en gecorrigeerd, worden zij als corrigeerbaar beschouwd. Dit kan worden bereikt door het lezen opnieuw te proberen of door het berekenen van de juiste geheugeninhoud met behulp van Error Correction Code (ECC) gegevens en het schrijven van de juiste gegevens terug in het geheugen. Nadat een fout is gedetecteerd en gecorrigeerd, registreert de Cisco Integrated Management Controller (IMC) de gebeurtenis in het systeemgebeurtenissenlogboek.
Correcteerbare fouten zijn meestal het gevolg van zachte fouten. Als de correcteerbare fouten binnen de zelfde geheugenplaats over een uitgebreide periode voortduren, kon het op een potentiële harde fout wijzen.
Adaptieve gegevenscorrectie met twee apparaten (ADDC)
ADDDC Sparing kan twee opeenvolgende DRAM-storingen corrigeren als ze in dezelfde regio voorkomen. ADDC verplaatst dynamisch gegevens van falende bits naar extra geheugen, om te voorkomen dat correcteerbare fouten oncorrigeerbaar worden. Om het mechanisme in werking te stellen is een drempel van corrigeerbare ECC-fouten vereist.
ADDC helpt in sommige scenario's waar correcteerbare ECC fouten voorafgaan Oncorrigeerbare ECC fouten.
Post Package Repair (PPR)
Post Package Repair (PPR) kan permanent storende geheugengebieden in een DIMM repareren door gebruik te maken van redundante DRAM-rijen. Deze permanente reparatie in het veld maakt een snel herstel van harde fouten mogelijk zonder dat de DIMM hoeft te worden vervangen. Om een reparatie uit te voeren, moet het systeem een ADDDC-gebeurtenis ervaren en ten minste één rebootcyclus doorlopen. Deze reparatieactiviteit heeft geen invloed op de prestaties of het totale geheugen dat beschikbaar is voor het besturingssysteem.
PPR en ADDC zijn standaard ingeschakeld, maar kunnen geconfigureerd worden. Voor PPR moet ook de ADDDC Sparing RAS-modus zijn ingeschakeld. Als de RAS-instelling anders is dan ADDC Sparing of Platform Default, is PPR niet operationeel. De enige ondersteunde PPR-modus is Hard PPR, wat betekent dat reparaties permanent zijn.
Gedeeltelijke cachelijn-sparing (PCLS)
Er is een fout-preventie mechanisme in de geheugencontroller. Het werkt door defecte kleine delen van gegevens in het geheugen te identificeren. Deze defecte locaties worden opgenomen in een speciale map, samen met back-upgegevens die ze kunnen vervangen. Wanneer het geheugen wordt benaderd, als er een fout in die defecte vlekken is, gebruikt de controller de back-upgegevens van de directory om ervoor te zorgen dat alles soepel verloopt.
Opmerking: de functies zijn beschikbaar afhankelijk van de CPU-architectuur en de firmware-versie die op de server wordt uitgevoerd. Zorg ervoor dat u in de laatst aanbevolen versie bent om de geheugenfouten beter te verwerken.
Probleemoplossing voor RAS-fouten
UCS Manager
Over het algemeen ziet u deze fouten in UCS Manager als een RAS-gebeurtenis.
In de gezondheidssamenvatting vindt u meer informatie over de fout, of PCLS of PPR is geactiveerd.
PCLS-voorbeeld
Op M6-servers en nieuwer hebt u de optie om Patrial cache line sparing (PCLS) in te schakelen als een BIOS-optie, wat een mechanisme is voor foutpreventie. De server moet zo snel mogelijk worden opgestart, zodat PPR kan beginnen en de DIMM kan repareren. Nadat de server is opgestart, controleert u op extra UCS Manager-fouten voor dezelfde DIMM.
Zoals in de waarschuwing wordt vermeld, wordt aanbevolen de server zo snel mogelijk opnieuw op te starten, aangezien er een geassocieerd risico bestaat op een niet-corrigeerbare fout en dientengevolge een onverwachte serverdowntime.
PPR-voorbeeld
De server heeft ADDC en PPR ingeschakeld en er heeft zich een RAS-gebeurtenis voorgedaan. De fout suggereert dat de DIMM opnieuw opgestart moet worden om de PPR te kunnen repareren. De server moet zo snel mogelijk opnieuw opgestart worden om de DIMM te kunnen inschakelen en repareren.
Nadat de server is opgestart, controleert u op extra UCS Manager-fouten voor dezelfde DIMM.
Zoals in de waarschuwing wordt vermeld, wordt aanbevolen de server zo snel mogelijk opnieuw op te starten, aangezien er een geassocieerd risico bestaat op een niet-corrigeerbare fout en dientengevolge een onverwachte serverdowntime.
Intersight beheerde modus
De Server heeft ADDC ingeschakeld en er is een BANK VLS-gebeurtenis opgetreden, waardoor de fout die u ziet, is ontstaan. In dit scenario is de volgende stap om een server zo snel mogelijk opnieuw op te starten om PPR te kunnen uitvoeren.
Cisco Integrated Management Controller (CIMC)
De fout wordt weergegeven zoals bij gebruik van de Cisco geïntegreerde beheercontroller. Als de server ADDC heeft en er een VLS-gebeurtenis heeft plaatsgevonden, werkt dit zoals ontworpen om oncorrigeerbare fouten te voorkomen.
Stappen voor probleemoplossing
- Controleer of er geen andere DIMM-fouten aanwezig zijn, bijvoorbeeld en Uncorrectable Error.
- Plan een onderhoudsvenster.
- Plaats een host in de onderhoudsmodus en start de server opnieuw om te proberen de DIMM permanent te repareren met behulp van Post Package Repair (PPR).
UCS M-herstartstappen
Opmerking: u kunt de server ook vanuit het besturingssysteem opnieuw opstarten. Dit voorbeeld gebruikt de reboot optie van de server UI.
Navigeer naar uw UCS Manager-webinterface.
Bladeserver
Ga naar Apparatuur > Chassis > Server X.
Geïntegreerde server
Ga naar Apparatuur > Rackmontage > Server X.
Klik op KVM-console.
klik in het KVM-venster op serveracties, selecteer Reset en klik op OK.
Controleer in de KVM het rebootproces en zorg ervoor dat het besturingssysteem correct opstart.
IMM-herstartstappen
Navigeer naar het tabblad Servers, identificeer de server en klik op het menu Actie (drie punten).
Selecteer vervolgens het menu Aan/uit en vervolgens de optie Power Cycle.
Klik op de knop Aan/uit-cyclus om de actie te bevestigen.
Bevestig de voortgang in het menu Verzoeken.
CIMC-herstartstappen
Navigeer naar de Host Power optie en selecteer Power Cycle.
Start de KVM om het herstartproces te bewaken en zorg ervoor dat het besturingssysteem correct wordt opgestart.
Monitor voor nieuwe fouten
Als er na het opnieuw opstarten geen fouten optreden, wat betekent dat er geen andere RAS-gebeurtenis of fout met betrekking tot de DIMM is, is PPR succesvol geweest en kan de server opnieuw in gebruik worden genomen.
Als er nieuwe ADDC-gebeurtenissen optreden, herhaal dan het rebootproces zoals beschreven in de vorige stappen om extra permanente reparaties uit te voeren met PPR.
Als er na het opnieuw opstarten een fout optreedt die niet kan worden gecorrigeerd, geeft de fout aan dat een geheugen moet worden vervangen.
Opmerking: open een case met Cisco TAC om de DIMM te vervangen als u een van deze fouten tegenkomt.
UCS Manager niet-corrigeerbare geheugenfout
IMM geheugen niet-corrigeerbare fout
Fout die niet kan worden gecorrigeerd. De fout geeft aan dat de DIMM een niet-corrigeerbare fout heeft en moet worden vervangen.
CIMC-fout niet-corrigeerbaar geheugen
Gerelateerde informatie