簡介
本文概述了在獨立模式下運行元素管理器時如何排除故障。
必要條件
需求
思科建議您瞭解以下主題:
採用元件
本文檔中的資訊基於Ultra 5.1.x版本。
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
背景資訊
Ultra-M是經過預打包和驗證的虛擬化移動資料包核心解決方案,旨在簡化VNF的部署。 OpenStack是適用於Ultra-M的虛擬化基礎架構管理器(VIM),包含以下節點型別:
- 計算
- 對象儲存磁碟 — 計算(OSD — 計算)
- 控制器
- OpenStack平台 — 導向器(OSPD)
Ultra-M的高級體系結構及涉及的元件如下圖所示:
UltraM體系結構
本文檔面向熟悉Cisco Ultra-M平台的思科人員,詳細說明了更換控制器伺服器時在OpenStack和StarOS VNF級別上執行的步驟。
縮寫
本文使用以下縮寫:
VNF |
虛擬網路功能 |
EM |
元素管理器 |
VIP |
虛擬 IP 位址 |
CLI |
命令列 |
問題:Ultra-M Health Manager顯示EM可能處於此狀態
EM: 1 is not part of HA-CLUSTER,EM is running in standalone mode
視版本而定,系統上可以運行2或3個EM。
如果您部署了3個EM,其中兩個可以正常工作,第三個可以安裝Zookeeper集群。但是並未使用。
如果2個功能性EM中的一個無法工作或無法訪問,則工作性EM將處於獨立模式。
如果已部署2個EM,則其中一個EM無法正常工作或無法訪問,其餘EM可以處於獨立模式。
本文檔介紹了發生這種情況時應該注意的事項以及如何恢復。
疑難排解和恢復步驟
步驟1.檢驗EM的狀態。
連線到EM VIP並驗證節點確實處於此狀態:
root@em-0:~# ncs_cli -u admin -C
admin connected from 127.0.0.1 using console on em-0
admin@scm# show ems
EM VNFM ID SLA SCM PROXY
3 up down up
admin@scm#
因此,從這裡您可以看到,SCM中只有一個專案 — 這是我們的節點的專案。
如果您成功連線到另一個EM,您會看到如下內容:
root@em-1# ncs_cli -u admin -C admin connected from 127.0.0.1 using
admin connected from 127.0.0.1 using console on em-1
admin@scm# show ems
% No entries found.
根據EM上的問題,NCS CLI無法訪問,或者節點可以重新啟動。
步驟2.在不加入群集的節點上檢查/var/log/em中的日誌。
檢查處於問題狀態的節點的日誌。因此,對於提到的示例,您將導航em-1 /var/log/em/zookeeper日誌:
...
2018-02-01 09:52:33,591 [myid:4] - INFO [main:QuorumPeerMain@127] - Starting quorum peer
2018-02-01 09:52:33,619 [myid:4] - INFO [main:NIOServerCnxnFactory@89] - binding to port 0.0.0.0/0.0.0.0:2181
2018-02-01 09:52:33,627 [myid:4] - INFO [main:QuorumPeer@1019] - tickTime set to 3000
2018-02-01 09:52:33,628 [myid:4] - INFO [main:QuorumPeer@1039] - minSessionTimeout set to -1
2018-02-01 09:52:33,628 [myid:4] - INFO [main:QuorumPeer@1050] - maxSessionTimeout set to -1
2018-02-01 09:52:33,628 [myid:4] - INFO [main:QuorumPeer@1065] - initLimit set to 5
2018-02-01 09:52:33,641 [myid:4] - INFO [main:FileSnap@83] - Reading snapshot /var/lib/zookeeper/data/version-2/snapshot.5000000b3
2018-02-01 09:52:33,665 [myid:4] - ERROR [main:QuorumPeer@557] - Unable to load database on disk
java.io.IOException: The current epoch, 5, is older than the last zxid, 25769803777
at org.apache.zookeeper.server.quorum.QuorumPeer.loadDataBase(QuorumPeer.java:539)
at org.apache.zookeeper.server.quorum.QuorumPeer.start(QuorumPeer.java:500)
at org.apache.zookeeper.server.quorum.QuorumPeerMain.runFromConfig(QuorumPeerMain.java:153)
at org.apache.zookeeper.server.quorum.QuorumPeerMain.initializeAndRun(QuorumPeerMain.java:111)
at org.apache.zookeeper.server.quorum.QuorumPeerMain.main(QuorumPeerMain.java:78)
2018-02-01 09:52:33,671 [myid:4] - ERROR [main:QuorumPeerMain@89] - Unexpected exception, exiting abnormally
java.lang.RuntimeException: Unable to run quorum server
at org.apache.zookeeper.server.quorum.QuorumPeer.loadDataBase(QuorumPeer.java:558)
at org.apache.zookeeper.server.quorum.QuorumPeer.start(QuorumPeer.java:500)
at org.apache.zookeeper.server.quorum.QuorumPeerMain.runFromConfig(QuorumPeerMain.java:153)
at org.apache.zookeeper.server.quorum.QuorumPeerMain.initializeAndRun(QuorumPeerMain.java:111)
at org.apache.zookeeper.server.quorum.QuorumPeerMain.main(QuorumPeerMain.java:78)
Caused by: java.io.IOException: The current epoch, 5, is older than the last zxid, 25769803777
at org.apache.zookeeper.server.quorum.QuorumPeer.loadDataBase(QuorumPeer.java:539)
步驟3.驗證有問題的快照是否存在。
導覽至/var/lib/zookeeper/data/version-2,確認步驟2中呈紅色狀態的快照是否存在。
300000042 log.500000001 snapshot.300000041 snapshot.40000003b
ubuntu@em-1:/var/lib/zookeeper/data/version-2$ ls -la
total 424
drwxrwxr-x 2 zk zk 4096 Jan 30 12:12 .
drwxr-xr-x 3 zk zk 4096 Feb 1 10:33 ..
-rw-rw-r-- 1 zk zk 1 Jan 30 12:12 acceptedEpoch
-rw-rw-r-- 1 zk zk 1 Jan 30 12:09 currentEpoch
-rw-rw-r-- 1 zk zk 1 Jan 30 12:12 currentEpoch.tmp
-rw-rw-r-- 1 zk zk 67108880 Jan 9 20:11 log.300000042
-rw-rw-r-- 1 zk zk 67108880 Jan 30 10:45 log.400000024
-rw-rw-r-- 1 zk zk 67108880 Jan 30 12:09 log.500000001
-rw-rw-r-- 1 zk zk 67108880 Jan 30 12:11 log.5000000b4
-rw-rw-r-- 1 zk zk 69734 Jan 6 05:14 snapshot.300000041
-rw-rw-r-- 1 zk zk 73332 Jan 29 09:21 snapshot.400000023
-rw-rw-r-- 1 zk zk 73877 Jan 30 11:43 snapshot.40000003b
-rw-rw-r-- 1 zk zk 84116 Jan 30 12:09 snapshot.5000000b3 ---> HERE, you see it
ubuntu@em-1:/var/lib/zookeeper/data/version-2$
步驟4.復原步驟。
1.啟用調試模式,以便EM停止重新啟動。
ubuntu@em-1:~$ sudo /opt/cisco/em-scripts/enable_debug_mode.sh
可能需要再次重新啟動VM(將自動重新啟動,您不需要執行任何操作)
2.移動縮放管理員資料。
在/var/lib/zookeeper/data中,有一個名為version-2的資料夾,其中包含資料庫的快照。以上錯誤表示無法載入,因此您將其刪除。
ubuntu@em-1:/var/lib/zookeeper/data$ sudo mv version-2 old
ubuntu@em-1:/var/lib/zookeeper/data$ ls -la
total 20
....
-rw-r--r-- 1 zk zk 2 Feb 1 10:33 myid
drwxrwxr-x 2 zk zk 4096 Jan 30 12:12 old --> so you see now old folder and you do not see version-2
-rw-rw-r-- 1 zk zk 4 Feb 1 10:33 zookeeper_server.pid
..
3.重新啟動節點。
sudo reboot
4.禁用回撥試模式。
ubuntu@em-1:~$ sudo /opt/cisco/em-scripts/disable_debug_mode.sh
這些步驟將使服務恢復問題EM。