排除CNDP群集管理器HA節點問題並重新安裝Force-VM重新部署

下載選項

PDF (422.9 KB)
在多種裝置上使用 Adobe Reader 檢視
ePub (130.6 KB)
在 iPhone、iPad、Android、Sony Reader 或 Windows Phone 上的各種應用程式中檢視
Mobi (Kindle) (119.5 KB)
在 Kindle 裝置或多部裝置的 Kindle 應用程式上檢視

已更新: 2023 年 5 月 31 日

文件 ID:220480

無偏見用語

本產品的文件集力求使用無偏見用語。針對本文件集的目的，無偏見係定義為未根據年齡、身心障礙、性別、種族身分、民族身分、性別傾向、社會經濟地位及交織性表示歧視的用語。由於本產品軟體使用者介面中硬式編碼的語言、根據 RFP 文件使用的語言，或引用第三方產品的語言，因此本文件中可能會出現例外狀況。深入瞭解思科如何使用包容性用語。

關於此翻譯

思科已使用電腦和人工技術翻譯本文件，讓全世界的使用者能夠以自己的語言理解支援內容。請注意，即使是最佳機器翻譯，也不如專業譯者翻譯的內容準確。Cisco Systems, Inc. 對這些翻譯的準確度概不負責，並建議一律查看原始英文文件（提供連結）。

簡介

本文檔介紹從雲本地部署平台(CNDP)設定中的初始伺服器中恢復集群管理器的過程。

必要條件

需求

思科建議您瞭解以下主題：

思科使用者微服務基礎架構(SMI)
5G CNDP或SMI裸機(BM)架構
分散式複製區塊裝置(DRBD)

採用元件

本文中的資訊係根據以下軟體和硬體版本：

SMI 2020.02.2.35
Kubernetes v1.21.0

本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除（預設）的組態來啟動。如果您的網路運作中，請確保您瞭解任何指令可能造成的影響。

背景資訊

什麼是SMI Cluster Manager?

集群管理器是一個雙節點保持連線的集群，用作控制平面和使用者平面集群部署的初始點。它運行一個單節點Kubernetes群集和一組POD，它們負責整個群集設定。只有主群集管理器處於活動狀態，輔助群集管理器僅在出現故障或因維護而手動關閉時進行接管。

什麼是Insight Server?

此節點執行作為基礎的群集管理器(CM)的生命週期管理，您可以在此處推送第0天配置。

此伺服器通常按區域部署或與頂層協調功能（例如NSO）位於同一資料中心，通常作為VM運行。

問題

群集管理器託管在帶有分散式複製塊裝置(DRBD)的2節點群集中，並保留為Cluster Manager主群集和Cluster Manager輔助群集。在這種情況下，在UCS中初始化/安裝作業系統時，Cluster Manager輔助伺服器會自動進入關閉狀態，這表示作業系統已損壞。

cloud-user@POD-NAME-cm-primary:~$ drbd-overview status
0:data/0 WFConnection Primary/Unknown UpToDate/DUnknown /mnt/stateful_partition ext4 568G 369G 170G 69%

維護程式

此過程有助於在CM伺服器上重新安裝作業系統。

確定主機

登入到Cluster-Manager並確定主機：

cloud-user@POD-NAME-cm-primary:~$ cat /etc/hosts | grep 'deployer-cm'
127.X.X.X POD-NAME-cm-primary POD-NAME-cm-primary
X.X.X.X POD-NAME-cm-primary
X.X.X.Y POD-NAME-cm-secondary

從啟動伺服器確定群集詳細資訊

登入到Insight伺服器並進入Deployer，然後從Cluster-Manager使用hosts-IP驗證群集名稱。

成功登入初始伺服器後，請登入運行中心，如下所示。

user@inception-server: ~$ ssh -p 2022 admin@localhost

從群集管理器SSH-IP中驗證群集名稱（ssh-ip =節點SSH IP地址= ucs-server cimc ip地址）。

[inception-server] SMI Cluster Deployer# show running-config clusters * nodes * k8s ssh-ip | select nodes * ssh-ip | select nodes * ucs-server cimc ip-address | tab
                               SSH 
NAME             NAME          IP     SSH IP           IP ADDRESS 
------------------------------------------------------------------------------
POD-NAME-deployer     cm-primary    -      X.X.X.X          10.X.X.X ---> Verify Name and SSH IP if Cluster is part of inception server SMI.
                 cm-secondary  -      X.X.X.Y          10.X.X.Y

檢查目標群集的配置。

[inception-server] SMI Cluster Deployer# show running-config clusters POD-NAME-deployer

卸下虛擬驅動器以清除伺服器上的作業系統

連線到受影響主機的CIMC，清除引導驅動器並刪除虛擬驅動器(VD)。

a) CIMC > Storage > Cisco 12G Modular Raid Controller > Storage Log > Clear Boot Drive
b) CIMC > Storage > Cisco 12G Modular Raid Controller > Virtual drive > Select the virtual drive > Delete Virtual Drive

Delete VD large copy

運行群集同步

從初始伺服器運行Cluster-Manager的預設群集同步。

[inception-server] SMI Cluster Deployer# clusters POD-NAME-deployer actions sync run debug true
This will run sync. Are you sure? [no,yes] yes
message accepted
[inception-server] SMI Cluster Deployer#

如果預設群集同步失敗，請使用force-vm redeploy選項執行群集同步，以完成重新安裝（群集同步活動可能需要約45-55分鐘才能完成，具體取決於群集上託管的節點數）

[inception-server] SMI Cluster Deployer# clusters POD-NAME-deployer actions sync run debug true force-vm-redeploy true
This will run sync. Are you sure? [no,yes] yes
message accepted
[inception-server] SMI Cluster Deployer#

監視群集同步同步日誌

[inception-server] SMI Cluster Deployer# monitor sync-logs POD-NAME-deployer
2023-02-23 10:15:07.548 DEBUG cluster_sync.POD-NAME: Cluster name: POD-NAME 
2023-02-23 10:15:07.548 DEBUG cluster_sync.POD-NAME: Force VM Redeploy: true
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: Force partition Redeploy: false 
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: reset_k8s_nodes: false 
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: purge_data_disks: false 
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: upgrade_strategy: auto 
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: sync_phase: all 
2023-02-23 10:15:07.549 DEBUG cluster_sync.POD-NAME: debug: true 
...
...
...

伺服器通過成功的群集同步重新調配和安裝。

PLAY RECAP *********************************************************************
cm-primary :   ok=535 changed=250 unreachable=0 failed=0 skipped=832 rescued=0 ignored=0 
cm-secondary : ok=299 changed=166 unreachable=0 failed=0 skipped=627 rescued=0 ignored=0 
localhost :    ok=59  changed=8   unreachable=0 failed=0 skipped=18  rescued=0 ignored=0 

Thursday 23 February 2023 13:17:24 +0000 (0:00:00.109) 0:56:20.544 *****. ---> ~56 mins to complete cluster sync

===============================================================================

2023-02-23 13:17:24.539 DEBUG cluster_sync.POD-NAME: Cluster sync successful
2023-02-23 13:17:24.546 DEBUG cluster_sync.POD-NAME: Ansible sync done
2023-02-23 13:17:24.546 INFO cluster_sync.POD-NAME: _sync finished. Opening lock

驗證

檢查受影響的Cluster Manager是否可訪問，以及主群集管理器和輔助群集管理器的DRBD概述處於UpToDate狀態。

cloud-user@POD-NAME-cm-primary:~$ ping X.X.X.Y
PING X.X.X.Y (X.X.X.Y) 56(84) bytes of data.
64 bytes from X.X.X.Y: icmp_seq=1 ttl=64 time=0.221 ms
64 bytes from X.X.X.Y: icmp_seq=2 ttl=64 time=0.165 ms
64 bytes from X.X.X.Y: icmp_seq=3 ttl=64 time=0.151 ms
64 bytes from X.X.X.Y: icmp_seq=4 ttl=64 time=0.154 ms
64 bytes from X.X.X.Y: icmp_seq=5 ttl=64 time=0.172 ms
64 bytes from X.X.X.Y: icmp_seq=6 ttl=64 time=0.165 ms
64 bytes from X.X.X.Y: icmp_seq=7 ttl=64 time=0.174 ms

--- X.X.X.Y ping statistics ---
7 packets transmitted, 7 received, 0% packet loss, time 6150ms
rtt min/avg/max/mdev = 0.151/0.171/0.221/0.026 ms

cloud-user@POD-NAME-cm-primary:~$ drbd-overview status
0:data/0 Connected Primary/Secondary UpToDate/UpToDate /mnt/stateful_partition ext4 568G 17G 523G 4%

受影響的群集管理器已安裝，並且已成功重新調配到網路。

修訂記錄

修訂	發佈日期	意見
1.0	31-May-2023	初始版本

由思科工程師貢獻

Himanshu Bisht
Cisco TAC Engineer
Adithian Arathi
Cisco Technical Leader

這份文件是否有所幫助？

意見

讓思科協助您

開啟支援問題單
(需有思科服務合約)