Introdução
Este documento descreve o processo para reimplantar um nó off-line nos clusters do Cisco Hyperflex.
Pré-requisitos
Requisitos
Isso é suportado apenas para clusters Hyperflex implantados a partir do Intersight e iniciando na versão 5.0(2b). Os clusters implantados pelo instalador Hyperflex e importados para o Intersight ainda não têm suporte para esse recurso.
Tipos de cenários suportados para este recurso de Intersight:
- Cluster FI/padrão, cluster Strech, cluster Edge e cluster DC-No-FI
- Clusters com SED (unidades com autocriptografia)
- Clusters implantados somente da Intersight
- Reimplantação do ESXi e do SCVM
- Somente reimplantação de SCVM
Cenários sem suporte
- Clusters 1GbE HyperFlex Edge e Stretch.
- Clusters importados para a Intersight
Licenciamento
O Intersight Essentials ou uma licença superior é necessário para a reimplantação do nó HyperFlex. Todos os servidores no cluster HyperFlex devem ser solicitados e configurados com a licença do Intersight Essentials ou superior.
Componentes Utilizados
- Entrevista da Cisco
- Cisco UCSM (opcional)
- Servidores Cisco UCS
- Cisco Hyperflex Cluster versão 5.0(2c)
- VMware ESXi
- VMware vCenter
As informações neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. Todos os dispositivos utilizados neste documento foram iniciados com uma configuração (padrão) inicial. Se a rede estiver ativa, certifique-se de que você entenda o impacto potencial de qualquer comando.
Informações de Apoio
Manter um cluster íntegro se torna uma prioridade por vários motivos, mas o mais importante é a redundância para manter a integridade dos dados na solução de armazenamento Hypercoverge. Há vários cenários que exigem a reimplantação simultânea do ESXi e do SCVM (Storage Controller Virtual Machine, máquina virtual do controlador de armazenamento), como a substituição do drive de inicialização em nós convergentes.
Para clusters implantados da Intersight, você pode reimplantar o SCVM para adicioná-lo novamente ao cluster Hyperflex. Essa atividade agora pode ser executada sem a assistência do TAC através da Intersight.
Aviso: é importante enfatizar que não executar esse processo com êxito pode fazer com que os clusters tenham vários problemas inesperados, como falhas futuras de atualizações de cluster e falhas de expansões de cluster.
Configuração
Para este exemplo, usamos um cluster de Borda de 3 Nós chamado Medellin que foi corrompido pelo nó 3 devido a uma falha de disco M.2
Da Intersight, nosso ponto de partida supõe que alguns aspectos já foram abordados:
- M.2 O armazenamento já foi substituído
- O cluster do Hyperflex ainda não está íntegro, pois ele tem esse nó offline
Validação Offline do Nó do Cluster
Você pode ver que o cluster não está íntegro como explicado e precisa recuperar o nó que está offline agora que o problema M.2 foi corrigido
Na Intersight, vá para Infrastructure Service > Hyperflex Cluster > Overview > Events. Você pode ver o status da resiliência
Na mesma guia Visão geral, você pode ver qual nó específico está off-line também
No vCenter, também recebemos um alerta sobre a falta de integridade do cluster
Finalmente, na CLI, você também pode avaliar o status do cluster:
hxshell:~$ hxcli cluster status
Cluster UUID : 6104001978967674717:7117835385033814973
Cluster Ready : Yes
Resiliency Health : WARNING
Operational Status : ONLINE
ZK Quorum Status : ONLINE
ZK Node Failures Tolerable : 0
hxshell:~$ hxcli cluster info
Cluster Name : Medellin
Cluster UUID : 6104001978967674717:7117835385033814973
Cluster State : ONLINE
Cluster Access Policy : Lenient
Space Status : NORMAL
Raw Capacity : 9.8 TiB
Total Capacity : 3.0 TiB
Used Capacity : 30.4 GiB
Free Capacity : 3.0 TiB
Compression Savings : 62.06%
Deduplication Savings : 0.00%
Total Savings : 62.06%
# of Nodes Configured : 3
# of Nodes Online : 2
Data IP Address : 169.254.218.1
Resiliency Health : WARNING
Policy Compliance : NON_COMPLIANT
Data Replication Factor : 3 Copies
# of node failures tolerable : 0
# of persistent device failures tolerable : 1
# of cache device failures tolerable : 1
Zone Type : Unknown
All Flash : No
Etapas de Reimplantação
Etapa 1. Reinstale o sistema operacional ESXi. Para isso, você pode ir para Servers > Selecione o Servidor > Options (três pontos) > Select Launch the KVM.
Cuidado: você deve fazer download de uma imagem personalizada do Cisco Hyperflex para a mesma versão exata do ESXi que outros nós estão executando no cluster. Você pode baixá-lo aqui
Assim que o KVM for iniciado, navegue até Virtual Media > Select Ativate Virtual Devices
Em seguida, selecione Browse > Selecione a imagem do Hyperflex ESXi iso de seu computador local > Select Map Drive
Navegue até Power > dependendo do status do servidor, selecione Power on System ou Reset System ouPower Cycle System
Dica: Reset System (warm boot) reinicializa o sistema sem desligá-lo, enquanto Power Cycle System (cold boot)Desliga o sistema e depois liga-o novamente. Neste cenário, com o SCVM corrompido e o ESXi sendo reinstalado, ambas as opções têm a mesma finalidade
Você precisa inicializar no dispositivo de dispositivo virtual de CD/DVD. Navegue até Ferramentas > Selecionar Teclado > Quando vir o prompt do Menu de inicialização, pressioneF6
Você chega ao menu de inicialização e, uma vez lá, selecione Cisco vKVM-Mapped vDVD1.24 e pressione Enter
Selecione Eu li o aviso acima e desejo continuar e pressione Enter
Normalmente, você vê diferentes opções para nós de computação, dependendo do dispositivo de inicialização específico usado, e outra opção para nós de convergência, que é aquela que você tem que selecionar aqui
Depois disso, você será solicitado a inserir o nome de usuário e a senha. Digite username erase > hit Enter > Type password erase > hit Enter
Observação: se uma senha/nome de usuário incorreto for inserido, você será retomado uma etapa e poderá tentar novamente
A instalação começa neste ponto e você pode monitorá-la via vKVM
Etapa 2. Navegue para Serviço de infraestrutura > Clusters Hyperflex > Selecione seu cluster Hyperflex > Selecionar Ações > Selecionar Reimplantar nó
Dica: se apenas o SCVM estiver corrompido e precisar ser reinstalado, você deverá desligar o servidor antes de selecionar Reimplantar, caso não tenha encontrado o erro "Reimplantar nó não pode ser disparado porque não há hosts offline neste cluster."
Etapa 3. Selecione o nó off-line > Selecione Continuar
Etapa 4. Verifique se as políticas de Segurança, vCenter e Configurações de Proxy correspondem ao mesmo cluster e selecione Próximo
No entanto, se apenas o SCVM estiver sendo reimplantado e o ESXi estiver intacto, então na Política de segurança, você deve desmarcar a opção "O hipervisor neste nó usa a senha padrão de fábrica" e verificar se a senha atual do ESXi está atualizada antes de selecionar Avançar
Etapa 5. Selecione Validar e Reimplantar
Etapa 6. Aguardar a conclusão do fluxo de trabalho
Note: Você pode monitorar o progresso, mas geralmente leva algumas horas
Finalmente, reimplantar concluído e o cluster de Medellín retornar ao status de íntegro
Validação do Status de Integridade do Cluster
Validação da Intersight
Navegue até a guia Clusters Hyperflex > Selecionar o cluster > Selecionar Visão Geral
Validação do Hyperflex Connect
Iniciar HXDP da Intersight para validar o status a partir daí
Validação do CLI
Na CLI, você pode usar comandos como: hxcli cluster status , hxcli cluster info, hxcli cluster health, hxcli node list
hxshell:~$ hxcli cluster status
Cluster UUID : 6104001978967674717:7117835385033814973
Cluster Ready : Yes
Resiliency Health : HEALTHY
Operational Status : ONLINE
ZK Quorum Status : ONLINE
ZK Node Failures Tolerable : 1
hxshell:~$ hxcli cluster info
Cluster Name : Medellin
Cluster UUID : 6104001978967674717:7117835385033814973
Cluster State : ONLINE
Cluster Access Policy : Lenient
Space Status : NORMAL
Raw Capacity : 9.8 TiB
Total Capacity : 3.0 TiB
Used Capacity : 31.7 GiB
Free Capacity : 3.0 TiB
Compression Savings : 80.90%
Deduplication Savings : 0.00%
Total Savings : 80.90%
# of Nodes Configured : 3
# of Nodes Online : 3
Data IP Address : 169.254.218.1
Resiliency Health : HEALTHY
Policy Compliance : COMPLIANT
Data Replication Factor : 3 Copies
# of node failures tolerable : 1
# of persistent device failures tolerable : 2
# of cache device failures tolerable : 2
Zone Type : Unknown
All Flash : No
Informações Relacionadas
Fluxo de Trabalho de Reimplantação de Nó HyperFlex