Risoluzione dei problemi di memoria sui server UCS

Opzioni per il download

PDF (1.0 MB)
Visualizza con Adobe Reader su diversi dispositivi
ePub (778.8 KB)
Visualizza in diverse app su iPhone, iPad, Android, Sony Reader o Windows Phone
Mobi (Kindle) (742.6 KB)
Visualizza su dispositivo Kindle o tramite app Kindle su più dispositivi

Aggiornato:25 ottobre 2024

ID documento:222546

Linguaggio senza pregiudizi

La documentazione per questo prodotto è stata redatta cercando di utilizzare un linguaggio senza pregiudizi. Ai fini di questa documentazione, per linguaggio senza di pregiudizi si intende un linguaggio che non implica discriminazioni basate su età, disabilità, genere, identità razziale, identità etnica, orientamento sessuale, status socioeconomico e intersezionalità. Le eventuali eccezioni possono dipendere dal linguaggio codificato nelle interfacce utente del software del prodotto, dal linguaggio utilizzato nella documentazione RFP o dal linguaggio utilizzato in prodotti di terze parti a cui si fa riferimento. Scopri di più sul modo in cui Cisco utilizza il linguaggio inclusivo.

Informazioni su questa traduzione

Cisco ha tradotto questo documento utilizzando una combinazione di tecnologie automatiche e umane per offrire ai nostri utenti in tutto il mondo contenuti di supporto nella propria lingua. Si noti che anche la migliore traduzione automatica non sarà mai accurata come quella fornita da un traduttore professionista. Cisco Systems, Inc. non si assume alcuna responsabilità per l’accuratezza di queste traduzioni e consiglia di consultare sempre il documento originale in inglese (disponibile al link fornito).

Sommario

Introduzione

Prerequisiti

Requisiti

Componenti usati

Premesse

Errori di memoria

Errori correggibili

Adaptive Double Device Data Correction (ADDDC)

Post Package Repair (PPR)

PCLS (Partial Cache Line Sparing)

Risoluzione dei problemi relativi agli errori RAS

UCS Manager

Modalità Intersight Managed

Cisco Integrated Management Controller (CIMC)

Procedura di risoluzione dei problemi

Fasi del riavvio di UCSM

Fasi del riavvio di IMM

Procedura di riavvio di CIMC

Esegui monitoraggio per nuovi errori

Errore di memoria non correggibile di UCS Manager

Errore irreversibile della memoria IMM

Errore di memoria non correggibile CIMC

Informazioni correlate

Introduzione

In questo documento viene descritto come risolvere i problemi relativi alla gestione degli errori di memoria sui server UCS.

Prerequisiti

Requisiti

Cisco raccomanda la conoscenza dei seguenti argomenti.

Conoscenze base di UCS.
Conoscenza di base dell'architettura di memoria.

Componenti usati

Le informazioni fornite in questo documento si basano sulle seguenti versioni software e hardware:

UCS Family Server M5, M6, M7 e superiori.
UCS Manager
Cisco Integrated Management Controller (CIMC)
Cisco Intersight Managed Mode (IMM)

Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.

Premesse

Errori di memoria

Si verificano errori di memoria quando si tenta di leggere un percorso di memoria. Il valore letto dalla memoria non corrisponde al valore previsto. Questi errori sono classificati in due tipi:

1. Errori soft

Gli errori soft sono transitori e non continuano a essere ripetuti. Questi sono temporanei e possono spesso essere corretti ripetendo la lettura o riscrivendo la posizione della memoria.

2. Errori gravi

Sono causati da difetti fisici permanenti. La riscrittura del percorso della memoria e il nuovo tentativo di accesso in lettura non eliminano un errore hardware. Di conseguenza, questo errore di memoria non può essere corretto e la memoria deve essere sostituita mentre l'errore continua a ripetersi.

Errori correggibili

Gli errori rilevati e corretti sono considerati correggibili. A tale scopo, è possibile riprovare la lettura o calcolare il contenuto corretto della memoria utilizzando i dati ECC (Error Correction Code) e riscrivendo i dati corretti in memoria. Dopo aver rilevato e corretto un errore, Cisco Integrated Management Controller (IMC) registra l'evento nel registro eventi di sistema.

In genere, gli errori correggibili sono il risultato di errori soft. Se gli errori correggibili persistono nella stessa posizione di memoria per un periodo di tempo prolungato, potrebbe indicare un potenziale errore hardware.

Adaptive Double Device Data Correction (ADDDC)

ADDDC Sparing è in grado di correggere due errori DRAM consecutivi se risiedono nella stessa regione. ADDDC sposta in modo dinamico i dati dai bit con errori alla memoria di riserva, impedendo che gli errori correggibili diventino non correggibili. Per attivare il meccanismo è necessaria una soglia di errori ECC correggibili.

ADDDC è utile in alcuni scenari in cui gli errori ECC correggibili precedono gli errori ECC non correggibili.

Post Package Repair (PPR)

Post Package Repair (PPR) è in grado di riparare in modo permanente le aree di memoria in errore all'interno di un modulo DIMM sfruttando le righe DRAM ridondanti. Questa riparazione permanente sul campo consente un rapido ripristino dagli errori hardware senza la necessità di sostituire la DIMM. Per eseguire un ripristino, il sistema deve sperimentare un evento ADDDC e passare attraverso almeno un ciclo di riavvio. Questa attività di ripristino non influisce sulle prestazioni o sulla memoria totale disponibile per il sistema operativo.

PPR e ADDDC sono abilitati per impostazione predefinita, ma possono essere configurati. PPR richiede l'attivazione anche della modalità RAS di riserva ADDDC. Se l'impostazione RAS è diversa da Risparmio ADDC o Predefinito piattaforma, PPR non è operativo. L'unica modalità PPR supportata è Hard PPR, il che significa che le riparazioni sono permanenti.

PCLS (Partial Cache Line Sparing)

Il controller della memoria contiene un meccanismo di prevenzione degli errori. Funziona identificando piccole porzioni di dati difettose in memoria. Questi percorsi danneggiati vengono registrati in una directory speciale, insieme ai dati di backup che possono sostituirli. Quando si accede alla memoria, se si verifica un errore in questi punti difettosi, il controller utilizza i dati di backup della directory per garantire il corretto funzionamento di tutti gli elementi.

Nota: le funzionalità sono disponibili in base all'architettura della CPU e alla versione del firmware in esecuzione sul server. Assicurarsi di essere nell'ultima versione consigliata per gestire meglio gli errori di memoria.

Risoluzione dei problemi relativi agli errori RAS

UCS Manager

In genere, questi errori vengono visualizzati in UCS Manager come un evento RAS.

Nel riepilogo dello stato sono disponibili ulteriori informazioni sull'errore, ad esempio se è stato attivato PCLS o PPR.

Esempio di PCLS

Sui server M6 e versioni successive, è possibile abilitare il PCLS (Patrial Cache Line Sparing) come opzione del BIOS, un meccanismo di prevenzione degli errori. Il server deve essere riavviato il prima possibile, in modo che PPR possa avviare e riparare la DIMM. Una volta riavviato il server, monitorare altri errori di UCS Manager per lo stesso DIMM.

Come indicato nell'avviso, si consiglia di riavviare il server il prima possibile, poiché esiste il rischio associato di un errore irreversibile e, di conseguenza, un tempo di inattività imprevisto del server.

PCLS2 Example

esempio PPR

Nel server sono abilitati ADDDC e PPR e si è verificato un evento RAS. Il guasto suggerisce il riavvio di PPR per ripristinare la DIMM. Il server deve essere riavviato il prima possibile affinché PPR avvii e ripristini la DIMM.

Una volta riavviato il server, monitorare altri errori di UCS Manager per lo stesso DIMM.

PPR Example

Modalità Intersight Managed

Nel server è abilitato ADDDC e si è verificato un evento BANK VLS che ha causato l'errore visualizzato. In questo scenario, il passo successivo consiste nell'eseguire al più presto il riavvio del server per consentire l'esecuzione di PPR.

Intersight Managed Mode

Cisco Integrated Management Controller (CIMC)

L'errore viene visualizzato come mostrato quando si utilizza Cisco Integrated Management Controller. Se il server dispone di ADDDC e si è verificato un evento VLS, questa operazione funziona come previsto per impedire errori irreversibili.

Cisco Integrated Management Controller

Procedura di risoluzione dei problemi

Verificare che non siano presenti altri errori DIMM, ad esempio Errore irreversibile.
Pianificare una finestra di manutenzione.
Attivare la modalità di manutenzione per un host e riavviare il server per tentare di riparare definitivamente la DIMM utilizzando Post Package Repair (PPR).

Fasi del riavvio di UCSM

Nota: è possibile riavviare il server anche dal sistema operativo. In questo esempio viene utilizzata l'opzione di riavvio dell'interfaccia utente del server.

Passare all'interfaccia Web di UCS Manager.

Server blade

Passare a Apparecchiature > Chassis > Server X.

Server integrato

Selezionare Apparecchiature > Montaggi su rack > Server X.

Fare clic su Console KVM.

Reboot KVM Console

nelle finestre KVM, fare clic su azioni server, selezionare Reimposta, quindi fare clic su OK.

KVM Console

Monitorare il processo di riavvio dello switch KVM e verificare che il sistema operativo sia stato avviato correttamente.

Fasi del riavvio di IMM

Passare alla scheda Server, identificare il server e fare clic sul menu Azione (tre punti).

IMM Reboot Steps

Selezionare quindi il menu Power e l'opzione Power Cycle.

Power Menu

Fare clic sul pulsante Power Cycle per confermare l'azione.

Power Cycle Server

Convalidare l'avanzamento nel menu Richieste.

Requests Menu

Procedura di riavvio di CIMC

Passare all'opzione Alimentazione host e selezionare Ciclo alimentazione.

Avviare lo switch KVM per monitorare il processo di riavvio e verificare che il sistema operativo venga avviato correttamente.

Esegui monitoraggio per nuovi errori

Se dopo il riavvio non si verificano errori, ovvero non sono presenti altri eventi RAS o errori correlati al DIMM, il processo PPR è riuscito e il server può essere riutilizzato.

Se si verificano nuovi eventi ADDDC, ripetere il processo di riavvio descritto nei passaggi precedenti per eseguire ulteriori riparazioni permanenti con PPR.

Se dopo il riavvio si verifica un errore irreversibile o un errore irreversibile, è necessario sostituire una memoria.

Nota: aprire una richiesta di assistenza in Cisco TAC per sostituire il DIMM, in caso si verifichi uno di questi problemi.

Errore di memoria non correggibile di UCS Manager

UCS Manager Uncorrectable Memory Error - 1

UCS Manager Uncorrectable Memory Error - 2

Errore irreversibile della memoria IMM

Errore irreversibile. Il guasto indica che il DIMM presenta un errore irreversibile e deve essere sostituito.

IMM Memory Uncorrectable Error

Errore di memoria non correggibile CIMC

Informazioni correlate

Panoramica tecnica sulla memoria - Funzionalità RAS della memoria ure

Cronologia delle revisioni

Revisione	Data di pubblicazione	Commenti
1.0	25-Oct-2024	Versione iniziale

Contributo dei tecnici Cisco

Ricardo Martinez
Responsabile tecnico del Customer Delivery Engineering

Questo documento ti è stato utile?

Feedback

Contattaci

Apri una richiesta di assistenza
(Occorre un contratto di servizio Cisco)

Risoluzione dei problemi di memoria sui server UCS

Opzioni per il download

Linguaggio senza pregiudizi

Informazioni su questa traduzione

Sommario

Introduzione

Prerequisiti

Requisiti

Componenti usati

Premesse

Errori di memoria

Errori correggibili

Adaptive Double Device Data Correction (ADDDC)

Post Package Repair (PPR)

PCLS (Partial Cache Line Sparing)

Risoluzione dei problemi relativi agli errori RAS

UCS Manager

Modalità Intersight Managed

Cisco Integrated Management Controller (CIMC)

Procedura di risoluzione dei problemi

Fasi del riavvio di UCSM

Fasi del riavvio di IMM

Procedura di riavvio di CIMC

Esegui monitoraggio per nuovi errori

Errore di memoria non correggibile di UCS Manager

Errore irreversibile della memoria IMM

Errore di memoria non correggibile CIMC

Informazioni correlate

Cronologia delle revisioni

Contributo dei tecnici Cisco

Questo documento ti è stato utile?

Contattaci

Questo documento si applica a questi prodotti