简介
本文档介绍在HyperFlex集群新安装/部署或升级到版本3.0(1c)后发生的HyperFlex插件问题故障排除步骤。
先决条件
要求
Cisco 建议您了解以下主题:
- 思科HyperFlex
- VMWare vCenter
使用的组件
本文档中的信息基于以下软件和硬件版本:
- HyperFlex版本3.0(1c)
- UCS C240M5
- VMWare vCenter 6.0或6.5
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
故障排除步骤
步骤1.验证您在vCenter Web客户端上未看到HyperFlex插件。导航至“主页”>“全局清单列表”,并检查插件是否在vCenter中可见。插件应位于分布式交换机的正下方,如图所示。
步骤2.确保vCenter登录用户具有完全的管理员权限。
步骤3.检查从vCenter到HX集群管理IP(CMIP)的ping是否工作。
步骤4.检查对CMIP的ping是否间歇性,以隔离重复的IP问题。
步骤5.验证插件是否通过vCenter管理对象浏览器(MOB)安装。 在执行此步骤之前,请查找群集域ID。为了收集集群域ID,Secure Shell(SSH)到CMIP并运行此命令D“stcli cluster info | grep -i域”,如图所示。
步骤6.在本例中,您可以看到,域ID是c122。现在,导航到vCenter MOB并检查此插件的扩展是否存在。为此,请登录https://<vCenter IP或FQDN>/mob。
在属性部分下导航到content>extensionManager并选择(更多……)。在列表的按钮上,您将看到两个springpath扩展。其中一个包括之前收集的域ID。
步骤7.要进一步验证vCenter Web客户端上是否安装了HyperFlex插件,请导航至“主页”>“管理”>“解决方案”>“客户端插件”。
如果未在表中看到HyperFlex(Springpath插件),请单击“检查新插件”下的。如果Springpath插件存在,应填充该插件。这需要几分钟。
在检查新插件之前:
检查新插件后:
步骤8.重新启动vSphere Web客户端服务(vsphere客户端服务)。
Windows上的vCenter Server
-
在运行vCenter Server的Windows系统上打开Server Manager。
-
导航至Configuration > Services。
-
选择“VMware vSphere Web Client”,然后单击“Restart”。
vCenter服务器设备
-
使用SSH以根用户身份登录vCenter服务器设备。
-
停止vSphere Web客户端服务并运行以下命令之一。
-
借助这些命令重新启动vSphere Web客户端服务。
实验vCenter服务器设备的命令输出:
步骤9.从vCenter删除extensionList ["com.springpath.sysmgmt" ]移动。
注意:确保仅删除未使用的域ID。如果删除不正确的域ID,群集将脱机。从步骤5中收集正确的域ID。此外,您还可以从vCenter主机和集群视图中删除集群,删除移动条目并在vCenter中重新创建集群,最后重新注册集群。如果您有疑问,请在继续之前打开TAC SR。
步骤10.将HX集群重新注册到同一vCenter。
运行这些命令以将HX重新注册到vCenter。
root@ucs-stctlvm-116-1:~# stcli cluster reregister --vcenter-datacenter
DATACENTER --vcenter-cluster <CLUSTER> --vcenter-url <vCenterIP> --vcenter-user <USER>
步骤11.等待vSphere Web客户端服务联机后,您才能重新登录,大约需要5到10分钟。
登录后,您应该能够看到Cisco Hyperflex Systems下的Cisco HX数据平台。
步骤12.如果这不起作用,请检查插件是否可从VCSA SSH控制台下载。此测试用于隔离任何防火墙、端口问题或证书问题。
使用wget:
sup-ucs-vc:~ # wget https://<CMIP>/plugins/stGui-1.0.zip — 无检查证书
使用Curl:
sup-ucs-vc:~ # curl-v https://<CMIP>/plugins/stGui-1.0.zip
步骤 13浏览到https://vCenterIPaddress/ mobthen login asadministrator@vsphere.local。
导航至Content> Extension > ExtensionManager >extensionList ["com.springpath.sysmgmt" ] > Server
这是它应该的样子。ExtensionServerInfo显示给定HX集群的相同URL/IP。这应与CMIP的IP相同。
步骤14.如果服务器移动输出不显示相同的URL DNS名称,例如,如果[0]ExtensionServerInfo和[1]ExtensionServerInfo是两个单独的URL DNS名称,则可能是问题并导致问题。
查找URL,即集群管理IP。在CtrlVM中验证DNS,然后执行以下步骤:
- 从HX集群禁用DNS。SSH至任何存储CtrlVM
- 验证DNS服务器:#stcli services dns show(获取DNS服务器的IP)
- 停止DNS:#stcli services dns remove —dns <DNS服务器IP>
- 检验DNS是否已停止:#stcli services dns show
- 从vCenter中删除extensionList ["com.springpath.sysmgmt"]移动(如步骤9所述)
- 将HX集群重新注册到vCenter(如步骤10所述)
- 从Web客户端注销并重新登录。验证插件是否显示。
- 将DNS服务器添加回hx集群:#stcli services dns add —dns <DNS服务器IP>
- 验证DNS服务器是否正在运行:#stcli services dns show
日志分析
日志收集
1. vCenter日志 — https://kb.vmware.com/s/article/1011641
2. Hyperflex storfs捆绑包 — https://www.cisco.com/c/en/us/support/docs/hyperconverged-infrastructure/hyperflex-hx-data-platform/210831-Visual-guide-to-collect-Tech-Support-fil.html
错误消息示例
1.检查vCenter虚拟机日志,如果vCenter与HX集群stMgr存在通信问题,则查找消息。
2. VCSA Virgo日志位置:/var/log/vmware/vsphere-client/logs/vsphere_client_virgo.log
3.检查stMgr日志位置:/var/log/springpath/stMgr.log,并查找与Hyperflex集群或vCenter插件对应的错误消息或失败消息。
在问题情况下记录的示例:
stMgr failed to return a simple cluster name,
[2016-11-15T19:48:40.542Z] [WARN ] pool-9-thread-1 70000096 100001 200001 com.storvisor.sysmgmt.service.ThriftServiceAccess Failed to get cluster name when checking for cluster access. org.apache.thrift.transport.TTransportException: java.net.UnknownHostException: cisco-storage-cluster.com
at org.apache.thrift.transport.THttpClient.flush(THttpClient.java:356)
at org.apache.thrift.TServiceClient.sendBase(TServiceClient.java:65)
at com.storvisor.sysmgmt.StMgr$Client.send_getName(StMgr.java:1308)
at com.storvisor.sysmgmt.StMgr$Client.getName(StMgr.java:1301)
at com.storvisor.sysmgmt.service.ThriftServiceAccess.hasValidAccess(ThriftServiceAccess.java:228)
at com.storvisor.sysmgmt.service.util.StorvisorServerCacheForceUpdaterThread.call(StorvisorServerCacheForceUpdaterThread.java:28)
at com.storvisor.sysmgmt.service.util.StorvisorServerCacheForceUpdaterThread.call(StorvisorServerCacheForceUpdaterThread.java:12)
at java.util.concurrent.FutureTask.run(Unknown Source)
at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source)
at java.lang.Thread.run(Unknown Source)
Caused by: java.net.UnknownHostException: cisco-storage-cluster.com
at java.net.AbstractPlainSocketImpl.connect(Unknown Source)
at java.net.SocksSocketImpl.connect(Unknown Source)
at java.net.Socket.connect(Unknown Source)
at sun.security.ssl.SSLSocketImpl.connect(Unknown Source)
4.如果这无助,请打开Cisco TAC SR:https://mycase.cloudapps.cisco.com/case