簡介
本檔案介紹如何在Cisco Policy Suite(CPS)中的服務中軟體移轉(ISSM)失敗時疑難排解Diameter對等問題。
必要條件
需求
思科建議您瞭解以下主題:
- Linux
- CPS
- 直徑
- 開放式服務閘道計畫(OSGI)架構
附註:思科建議您必須具有對CPS CLI的超級使用者訪問許可權。
採用元件
本文中的資訊係根據以下軟體和硬體版本:
- CPS 19.4、21.1
- CentOS Linux版本8.1.1911(核心)
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
背景資訊
使用者可以選擇從CPS 19.4.0/CPS 19.5.0到CPS 21.1.0執行ISSM。此遷移允許流量在完成後繼續運行,而不會有任何影響。
ISSM到CPS 21.1.0僅支援移動高可用性(HA)和地理冗餘(GR)安裝。無法遷移其他CPS安裝型別(mog|pats|arbiter|andsf|escef)。
問題
可以觀察到,當CPS19.4到CPS21.1的ISSM由於無效而失敗時 Hosts.csv
條目,同時使用負載平衡(LB)的所有diameter對等體的連線都關閉,正常重啟無助於恢復。
[root@lab-lb02 ~]# ./show_peers.sh --all --summary
###############################################################################
[Wed Sep 21 01:57:47 CDT 2022]
SUMMARY of Peers in OKAY State:
| Gx | Re | Rx | Sh | Sy |
-------------|------|------|------|------|------|
lb01 peers | 0 | 0 | 0 | 0 | 0 |
-------------|------|------|------|------|------|
lb02 peers | 0 | 0 | 0 | 0 | 0 |
-------------|------|------|------|------|------|
這是啟用調試級別記錄器時可以在consolidated-qns.log中看到的免責宣告。
2022-09-21 08:25:00,188 [pool-3-thread-1] DEBUG c.b.d.i.server.DelayedStartManager.? - isWorkerConnected: true queueSystem.enabled: false queueSystem.available: true isUpgradeState: false
執行此步驟後,由於中的無效條目,該進程將掛起 Hosts.csv
檔案。
/mnt/iso/migrate.sh disable set 1
2022-09-21 02:52:48,913 INFO [__main__.migrate_disable_set] Waiting for build init.d background task
Replica-set Configuration
-------------------------------------------------------------------------------
The progress of this script can be monitored in the following log:
/var/log/broadhop/scripts//build_set_21092022_024648_1663728408306850218.log
-------------------------------------------------------------------------------
[ Done ] file creation [ In Progress ]
2022-09-21 02:58:16,385 INFO [__main__.migrate_disable_set] build init.d successfully.
2022-09-21 02:58:16,385 INFO [__main__.run_recipe] Performing installation stage: QuiesceClusterSet
[lab-cc02 PSZ06PCRFCC02] Executing task 'DisableArbiterVipNode'
[lab-cc02 PSZ06PCRFCC02] run: /var/qps/bin/support/disable_arbiter_vip_node.sh
Fatal error: Name lookup failed for lab-cc02 PSZ06PCRFCC02 --> Error highlight. Invalid host entry is noticed.
Underlying exception:
Name or service not known
Aborting.
2022-09-21 02:58:16,967 ERROR [__main__.<module>] Error during installation
2022-09-21 02:58:16,970 INFO [__main__.<module>] =====================
2022-09-21 02:58:16,970 INFO [__main__.<module>] FAILURE
2022-09-21 02:58:16,970 INFO [__main__.<module>] ======== END ========
2022-09-21 02:58:16,970 INFO [__main__.<module>] To have the environment variable updated, please logout and login from all opened shell on the current system
[root@lab-cm csv]#
指令碼 trigger_silo.sh
,作為 migrate.sh
執行將暫停所選LB中的所有qns進程以進行set1遷移。
2022-09-21 03:11:34,885 INFO [migrate_traffic.run] running - ['bash', '-c', 'source /var/qps/install/current/scripts/migrate/trigger_silo.sh && trigger_silo_pre_set1_upgrade /var/tmp/cluster-upgrade-set-1.txt /var/tmp/cluster-upgrade-set-2.txt /var/log/trigger_silo.log']
2022-09-21 03:17:27,594 INFO [command.execute] (stdout): LB qns process count : 7
Running pause on lb02-1
checking JMX port 9045 ....
Done - Paused qns-1
Running pause on lb02-2
checking JMX port 9046 ....
Done - Paused qns-2
Running pause on lb02-3
checking JMX port 9047 ....
Done - Paused qns-3
Running pause on lb02-4
checking JMX port 9048 ....
Done - Paused qns-4
Running pause on lb02-5
checking JMX port 9049 ....
Done - Paused qns-5
Running pause on lb02-6
checking JMX port 9050 ....
Done - Paused qns-6
Running pause on lb02-7
checking JMX port 9051 ....
Done - Paused qns-7
解決方案
升級不完整且為部分升級,ISSM過程使CPS系統處於 isUpgradeState: false
.
為了從該條件中恢復,必須設定 isUpgradeState: true
在CPS的OSGI框架中。
設定正確升級狀態的過程
步驟1.登入到Cluster Manager節點。
步驟2.連線CPS系統的OSGI框架。
[root@installer ~]# telnet qns01 9091
Trying 192.168.10.11...
Connected to qns01.
Escape character is '^]'.
osgi>
步驟3.執行此命令。
osgi> markNodeUpgraded
Upgraded status set to true
osgi>
步驟4.使用此命令正常斷開與OSGI框架的連線。
osgi> disconnect
Disconnect from console? (y/n; default=y) y
Connection closed by foreign host.
[root@installer ~]#
應用解決方案後,請使用此命令檢查diameter peer狀態並確保所有需要的對等體都處於活動狀態。
[root@lab-lb02 ~]# ./show_peers.sh --all --summary
###############################################################################
[Wed Sep 21 01:57:47 CDT 2022]
SUMMARY of Peers in OKAY State:
| Gx | Re | Rx | Sh | Sy |
-------------|------|------|------|------|------|
lb01 peers | 72 | 120 | 36 | 0 | 12 |
-------------|------|------|------|------|------|
lb02 peers | 72 | 120 | 36 | 0 | 12 |
-------------|------|------|------|------|------|