簡介
本文檔介紹對HyperFlex群集全新安裝/部署或升級到版本3.0(1c)後發生的HyperFlex外掛問題進行故障排除的步驟。
必要條件
需求
思科建議您瞭解以下主題:
- 思科HyperFlex
- VMWare vCenter
採用元件
本文中的資訊係根據以下軟體和硬體版本:
- HyperFlex版本3.0(1c)
- UCS C240M5
- VMWare vCenter 6.0或6.5
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
疑難排解步驟
步驟1.驗證您是否在vCenter Web客戶端上未看到HyperFlex外掛。導航到Home > Global Inventory List,然後檢查外掛是否在vCenter中可見。此外掛應正好位於Distributed Switches的下方,如下圖所示。
步驟2.確保vCenter登入使用者具有完全管理許可權。
步驟3.檢查從vCenter ping HX Cluster Management IP是否有效(CMIP)。
步驟4.檢查對CMIP的ping操作是否間歇性執行,以隔離重複的IP問題。
步驟5.驗證是否已通過vCenter管理對象瀏覽器(MOB)安裝該外掛。 執行此步驟之前,請先找出群集域ID。為了收集群集域ID,請將Secure Shell(SSH)傳送到CMIP並運行此命令D"stcli cluster info | grep -i domain」,如圖所示。
步驟6。在此例中,您可以看到,域ID是c122。現在,導航到vCenter MOB,並檢查是否存在此外掛的擴展。為此,請登入https://<vCenter IP或FQDN>/mob。
導航到屬性部分下的content>extensionManager,然後選擇(更多……)。在清單的底部,您將看到兩個springpath擴展。其中一個包括之前收集的域ID。
步驟7。若要進一步驗證HyperFlex外掛是否已安裝在vCenter Web客戶端上,請導航到首頁>管理>解決方案>客戶端外掛。
如果您在表中沒有看到HyperFlex(Springpath外掛),請按一下檢查新外掛下。如果存在Springpath外掛,則應填充該外掛。這將需要幾分鐘時間。
檢查新外掛之前:
檢查新外掛後:
步驟8.重新啟動vSphere Web客戶端服務(vsphere-client服務)。
Windows上的vCenter伺服器
-
在運行vCenter Server的Windows系統上開啟「伺服器管理器」。
-
導覽至Configuration > Services。
-
選擇VMware vSphere Web Client,然後按一下Restart。
vCenter伺服器裝置
-
使用SSH作為根使用者登入到vCenter Server裝置。
-
停止vSphere Web客戶端服務並運行以下命令之一。
-
藉助這些命令,重新啟動vSphere Web客戶端服務。
實驗vCenter Server裝置的命令輸出:
步驟9.從vCenter刪除extensionList ["com.springpath.sysmgmt" ] mob。
附註:請確保僅刪除未使用的域ID。如果刪除不正確的域ID,群集將離線。從步驟5中收集正確的域ID。此外,還可以從vCenter Hosts & Clusters檢視中刪除集群,刪除移動項,然後在vCenter中重新建立集群,最後重新註冊該集群。如有疑問,請先開啟TAC SR,然後再繼續。
步驟10.將HX群集重新註冊到同一個vCenter。
運行這些命令將HX重新註冊到vCenter。
root@ucs-stctlvm-116-1:~# stcli cluster reregister --vcenter-datacenter
DATACENTER --vcenter-cluster <CLUSTER> --vcenter-url <vCenterIP> --vcenter-user <USER>
步驟11.等待vSphere Web客戶端服務聯機,然後再重新登入,此過程大約需要5到10分鐘。
登入後,您應該能夠看到Cisco Hyperflex Systems下的Cisco HX Data Platform。
步驟12.如果此操作不起作用,請檢查外掛是否可從VCSA SSH控制檯下載。此測試用於隔離任何防火牆、埠問題或證書問題。
使用wget:
sup-ucs-vc:~ # wget https://<CMIP>/plugins/stGui-1.0.zip —no-check-certificate
使用Curl:
sup-ucs-vc:~ # curl-v https://<CMIP>/plugins/stGui-1.0.zip
步驟13.瀏覽至https://vCenterIPaddress/mobthen login asadministrator@vsphere.local。
導航到Content>Extension > ExtensionManager >extensionList ["com.springpath.sysmgmt" ] > Server
應該這樣看。ExtensionServerInfo顯示給定HX群集的相同URL/IP。這應該與CMIP的IP相同。
步驟14.如果伺服器移動輸出未顯示相同的URL DNS名稱,例如,如果[0]ExtensionServerInfo 和[1]ExtensionServerInfo是兩個獨立的URL DNS名稱,則可能是問題並導致問題。
查詢作為群集管理IP的URL。在CtrlVM中驗證DNS,然後執行以下步驟:
- 從HX群集禁用DNS。SSH到任何儲存CtrlVM
- 驗證DNS伺服器:#stcli services dns show(獲取DNS伺服器的IP)
- 停止DNS:#stcli services dns remove —dns <DNS server IP>
- 驗證DNS已停止:#stcli services dns show
- 從vCenter中刪除extensionList ["com.springpath.sysmgmt"]駭客(如步驟9所述)。
- 將HX群集重新註冊到vCenter(如步驟10所述)。
- 從Web客戶端註銷並重新登入。驗證外掛是否顯示。
- 將DNS伺服器新增回hx群集:#stcli services dns add —dns <DNS server IP>
- 驗證DNS伺服器是否正在運行:#stcli services dns show
日誌分析
日誌收集
1. vCenter日誌 — https://kb.vmware.com/s/article/1011641
2. Hyperflex storfs捆綁包 — https://www.cisco.com/c/en/us/support/docs/hyperconverged-infrastructure/hyperflex-hx-data-platform/210831-Visual-guide-to-collect-Tech-Support-fil.html
錯誤消息示例
1.如果vCenter與HX Cluster stMgr存在通訊問題,請檢查vCenter virgo日誌並查詢消息。
2. VCSA Virgo日誌位置:/var/log/vmware/vsphere-client/logs/vsphere_client_virgo.log
3.檢查stMgr日誌位置:/var/log/springpath/stMgr.log並查詢與Hyperflex群集或vCenter外掛對應的錯誤消息或失敗消息。
出現問題的示例日誌:
stMgr failed to return a simple cluster name,
[2016-11-15T19:48:40.542Z] [WARN ] pool-9-thread-1 70000096 100001 200001 com.storvisor.sysmgmt.service.ThriftServiceAccess Failed to get cluster name when checking for cluster access. org.apache.thrift.transport.TTransportException: java.net.UnknownHostException: cisco-storage-cluster.com
at org.apache.thrift.transport.THttpClient.flush(THttpClient.java:356)
at org.apache.thrift.TServiceClient.sendBase(TServiceClient.java:65)
at com.storvisor.sysmgmt.StMgr$Client.send_getName(StMgr.java:1308)
at com.storvisor.sysmgmt.StMgr$Client.getName(StMgr.java:1301)
at com.storvisor.sysmgmt.service.ThriftServiceAccess.hasValidAccess(ThriftServiceAccess.java:228)
at com.storvisor.sysmgmt.service.util.StorvisorServerCacheForceUpdaterThread.call(StorvisorServerCacheForceUpdaterThread.java:28)
at com.storvisor.sysmgmt.service.util.StorvisorServerCacheForceUpdaterThread.call(StorvisorServerCacheForceUpdaterThread.java:12)
at java.util.concurrent.FutureTask.run(Unknown Source)
at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source)
at java.lang.Thread.run(Unknown Source)
Caused by: java.net.UnknownHostException: cisco-storage-cluster.com
at java.net.AbstractPlainSocketImpl.connect(Unknown Source)
at java.net.SocksSocketImpl.connect(Unknown Source)
at java.net.Socket.connect(Unknown Source)
at sun.security.ssl.SSLSocketImpl.connect(Unknown Source)
4.開啟思科TAC SR(如果這無用):https://mycase.cloudapps.cisco.com/case