Introduzione
In questo documento viene descritto il processo di ridistribuzione di un nodo offline nei cluster Cisco Hyperflex.
Prerequisiti
Requisiti
Questa funzionalità è supportata solo per i cluster Hyperflex distribuiti da Intersight e a partire dalla versione 5.0(2b). I cluster distribuiti tramite il programma di installazione Hyperflex e importati in Intersight non sono ancora supportati per questa funzionalità.
Tipo di scenari supportati per questa funzionalità Intersight:
- Cluster FI/standard, cluster Strech, cluster Edge e cluster DC-No-FI
- Cluster con SED (Self Encrypted Drive)
- Cluster distribuiti solo da Intersight
- Reimplementazione di ESXi e SCVM
- Solo ridistribuzione SCVM
Scenari non supportati
- Cluster HyperFlex Edge e Stretch 1 GbE.
- Cluster importati in Intersight
Licenze
Per la reinstallazione del nodo HyperFlex è necessaria una licenza Intersight Essentials o di livello superiore. Tutti i server nel cluster HyperFlex devono essere richiesti e configurati con Intersight Essentials o una licenza superiore.
Componenti usati
- Cisco Intersight
- Cisco UCSM (opzionale)
- Cisco UCS Server
- Cisco Hyperflex Cluster versione 5.0(2c)
- VMWare ESXi
- VMware vCenter
Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.
Premesse
Mantenere un cluster integro diventa una priorità per diversi motivi, ma il più importante è la ridondanza per garantire l'integrità dei dati nella soluzione di storage Hypercoverge. Esistono più scenari che richiedono la reinstallazione simultanea di ESXi e SCVM (Storage Controller Virtual Machine), ad esempio la sostituzione dell'unità di avvio nei nodi di convergenza.
Per i cluster distribuiti da Intersight è possibile ridistribuire la SCVM per aggiungerla nuovamente al cluster Hyperflex; questa attività può essere ora eseguita senza assistenza TAC tramite Intersight.
Avviso: è importante sottolineare che se non si esegue correttamente questo processo, è possibile che i cluster presentino più problemi imprevisti, ad esempio errori futuri di aggiornamento del cluster o errori di espansione del cluster.
Configurazione
Per questo esempio viene utilizzato un cluster a 3 nodi Edge denominato Medellin che ha danneggiato il nodo 3 a causa di un errore del disco M.2
Da Intersight il nostro punto di partenza presuppone che siano già stati affrontati un paio di aspetti:
- Lo storage M.2 è già stato sostituito
- Il cluster Hyperflex non è ancora integro perché il nodo è offline
Convalida offline nodo cluster
Come spiegato, il cluster non è integro ed è necessario ripristinare il nodo offline ora che il problema di M.2 è stato risolto
Da Intersight andare a Infrastructure Service > Hyperflex Cluster > Overview > Events (Servizio infrastruttura > Cluster Hyperflex > Panoramica > Eventi). È possibile visualizzare lo stato della resilienza
Nella stessa scheda Panoramica è possibile visualizzare anche il nodo specifico non in linea
Da vCenter viene inoltre visualizzato un avviso relativo all'integrità del cluster
Infine, dalla CLI è possibile assegnare lo stato del cluster:
hxshell:~$ hxcli cluster status
Cluster UUID : 6104001978967674717:7117835385033814973
Cluster Ready : Yes
Resiliency Health : WARNING
Operational Status : ONLINE
ZK Quorum Status : ONLINE
ZK Node Failures Tolerable : 0
hxshell:~$ hxcli cluster info
Cluster Name : Medellin
Cluster UUID : 6104001978967674717:7117835385033814973
Cluster State : ONLINE
Cluster Access Policy : Lenient
Space Status : NORMAL
Raw Capacity : 9.8 TiB
Total Capacity : 3.0 TiB
Used Capacity : 30.4 GiB
Free Capacity : 3.0 TiB
Compression Savings : 62.06%
Deduplication Savings : 0.00%
Total Savings : 62.06%
# of Nodes Configured : 3
# of Nodes Online : 2
Data IP Address : 169.254.218.1
Resiliency Health : WARNING
Policy Compliance : NON_COMPLIANT
Data Replication Factor : 3 Copies
# of node failures tolerable : 0
# of persistent device failures tolerable : 1
# of cache device failures tolerable : 1
Zone Type : Unknown
All Flash : No
Ridistribuisci passaggi
Passaggio 1. Reinstallare ESXi OS. A tale scopo, selezionare Server > Seleziona il server > Opzioni (tre punti) > Seleziona Avvia KVM.
Attenzione: è necessario scaricare un'immagine personalizzata Cisco Hyperflex per la stessa versione ESXi in cui sono in esecuzione altri nodi nel cluster. È possibile scaricarlo da qui
Una volta avviato KVM Passare a Supporto virtuale > Selezionare Attiva dispositivi virtuali
Quindi selezionare Browse> Selezionare l'immagine ISO di Hyperflex ESXi dal computer locale > Select Map Drive
Passare a Alimentazione > a seconda dello stato del server, selezionare Accensione sistema o Ripristina sistema o Ciclo di alimentazione
Suggerimento: Reset System (avvio a caldo) riavvia il sistema senza spegnerlo, mentre Power Cycle System (avvio a freddo)Spegne e riaccende il sistema. In questo scenario, con SCVM danneggiato ed ESXi reinstallato, entrambe le opzioni rispondono allo stesso scopo
È necessario eseguire l'avvio nel dispositivo virtuale CD/DVD. Selezionare Tools > Select Keyboard > When you see Boot Menu prompt premere F6
Viene visualizzato il menu di avvio e, una volta visualizzato, selezionare Cisco vKVM-Mapped vDVD1.24 e premere Invio
Selezionare Ho letto la nota precedente e desidero continuare e premere Invio
Normalmente vengono visualizzate diverse opzioni per i nodi di elaborazione a seconda del dispositivo di avvio specifico utilizzato e un'altra opzione per i nodi di convergenza, ovvero quella da selezionare qui
In seguito viene richiesto di immettere nome utente e password. Digitare username erase > premere Invio > Digitare password erase > premere Inserire
Nota: se si immette una password/nome utente errata, si torna indietro di un passaggio e si può riprovare
L'installazione inizia a questo punto ed è possibile monitorarla tramite vKVM
Passaggio 2. Passare a Servizio infrastruttura > Cluster HyperFlex > Selezionare il cluster Hyperflex > Selezionare Azioni > Selezionare Ridistribuisci nodo
Suggerimento: se solo SCVM è danneggiato e deve essere reinstallato, è necessario spegnere il server prima di selezionare Ridistribuisci. In caso contrario, si verificherà l'errore "Impossibile attivare Ridistribuisci nodo perché non sono presenti host offline in questo cluster".
Passaggio 3. Selezionare il nodo non in linea > Seleziona Continua
Passaggio 4. Verificare che i criteri di sicurezza, vCenter e Impostazioni proxy corrispondano allo stesso cluster e selezionare Avanti
Tuttavia, se solo SCVM viene ridistribuito ed ESXi è intatto, è necessario deselezionare l'opzione "L'hypervisor su questo nodo utilizza la password predefinita di fabbrica" e assicurarsi che la password ESXi corrente sia aggiornata prima di selezionare Avanti
Passaggio 5. Selezionare Convalida e ridistribuzione
Passaggio 6. Attendere il completamento del flusso di lavoro
Nota: È possibile monitorare lo stato di avanzamento, ma in genere sono necessarie alcune ore
Ridistribuzione completata e ripristino dello stato integro del cluster Medellin
Convalida stato integro cluster
Convalida da Intersight
Passare a Cluster Hyperflex > Selezionare il cluster > Selezionare la scheda Panoramica
Convalida da Hyperflex Connect
Avvio di HXDP da Intersight per convalidare lo stato
Convalida dalla CLI
Dalla CLI è possibile usare comandi come: hxcli cluster status , hxcli cluster info, hxcli cluster health, hxcli node list
hxshell:~$ hxcli cluster status
Cluster UUID : 6104001978967674717:7117835385033814973
Cluster Ready : Yes
Resiliency Health : HEALTHY
Operational Status : ONLINE
ZK Quorum Status : ONLINE
ZK Node Failures Tolerable : 1
hxshell:~$ hxcli cluster info
Cluster Name : Medellin
Cluster UUID : 6104001978967674717:7117835385033814973
Cluster State : ONLINE
Cluster Access Policy : Lenient
Space Status : NORMAL
Raw Capacity : 9.8 TiB
Total Capacity : 3.0 TiB
Used Capacity : 31.7 GiB
Free Capacity : 3.0 TiB
Compression Savings : 80.90%
Deduplication Savings : 0.00%
Total Savings : 80.90%
# of Nodes Configured : 3
# of Nodes Online : 3
Data IP Address : 169.254.218.1
Resiliency Health : HEALTHY
Policy Compliance : COMPLIANT
Data Replication Factor : 3 Copies
# of node failures tolerable : 1
# of persistent device failures tolerable : 2
# of cache device failures tolerable : 2
Zone Type : Unknown
All Flash : No
Informazioni correlate
Flusso di lavoro di ridistribuzione del nodo HyperFlex