简介
本文档介绍UCS交换矩阵互联管理(管理)接口在与特定IP范围的通信中如何遇到间歇性连接问题。
先决条件
要求
Cisco 建议您了解以下主题:
- 统一计算系统管理器(UCSM)软件
- 统一计算系统(UCS)网络
使用的组件
本文档中的信息基于以下软件和硬件版本:
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
问题:UCS交换矩阵互联管理接口存在间歇性连接问题。
UCS交换矩阵互联管理接口会间歇性地断开连接,但只有在通信跨特定IP范围时。VLAN 10的IP范围10.128.10.0/24用于交换矩阵互联(FI)管理接口和虚拟IP(VIP)。 当与VLAN 1的IP范围10.128.1.0/24连接到FI或从FI连接时,通信会中断。因此,VLAN 1的IP范围内的任何设备都无法连接到UCSM,并且只能ping通一个FI IP。 至少一个FI IP(共三个FI-A、FI-B、VIP)始终能够通信。
拓扑
VLAN 10上的交换矩阵互联IP
FI-A: 10.128.10.84
FI-B: 10.128.10.85
VIP: 10.128.10.86
GW: 10.128.10.1
VLAN 1上有问题的设备通信
Subnet 10.128.1.0/24
GW: 10.128.1.1
故障排除
从两个交换矩阵互联的本地管理上下文,它能够到达其默认(df)网关(gw)10.128.10.1。但是,VLAN 1 IP范围10.128.1.0/24上的IP地址无法到达或从交换矩阵互联本地管理上下文访问。
首先,这似乎是网关处的路由问题,而不是UCS问题,因为这只是交换矩阵互联上的管理接口,以及它能否到达网关和任何其他IP范围。这在上游网络上表现为第3层路由问题。
当traceroute从交换矩阵互联运行到随机IP范围(以及不在VLAN 1范围内的任何其他IP范围)时(例如,来自VLAN 20的IP:10.128.20.1),traceroute上的第一跳是VLAN 10的网关10.128.10.1,ping操作成功。
当traceroute运行到已知有问题的IP范围10.128.1.x/24时,traceroute将失败。
- 这就导致了在UCS端进行调查的原因。
- 这应该不会失败,第一跳应该是管理接口的df gw, 10.128.10.1,就像测试的10个IP中的10个IP不在VLAN 10 IP范围内且不在VLAN 1 IP范围内一样。
为了进一步调查,您运行了Ethanalyzer以查看发生了什么情况,并且当对VLAN 1的IP范围执行ping操作时,ARP会表现出奇怪的行为:
EWQLOVIUCS02-A(nxos)# ethanalyzer local interface mgmt display-filter arp limit-captured-frames 0
Capturing on eth0
2019-12-17 11:45:50.807837 00:de:fb:a9:37:e1 -> ff:ff:ff:ff:ff:ff ARP Who has 10.128.1.77? Tell 10.128.0.142
2019-12-17 11:45:51.807835 00:de:fb:a9:37:e1 -> ff:ff:ff:ff:ff:ff ARP Who has 10.128.1.77? Tell 10.128.0.142
2019-12-17 11:45:52.807827 00:de:fb:a9:37:e1 -> ff:ff:ff:ff:ff:ff ARP Who has 10.128.1.77? Tell 10.128.0.142
2019-12-17 11:45:55.807829 00:de:fb:a9:37:e1 -> ff:ff:ff:ff:ff:ff ARP Who has 10.128.1.77? Tell 10.128.0.142
预期行为是询问谁拥有此VLAN 1 IP,然后告知mgmt VLAN 10的网关。
但是,当VLAN 1的IP范围被ping通时,ARP会询问谁拥有该IP并告知10.128.0.142,请遵循以下步骤:
- 这应该是“Tell 10.128.10.1”,与测试的所有其他IP一样。
- 您甚至无法识别10.128.0.x子网或IP地址。
这是FI告诉10.128.0.142的原因,在对UCS域进行调查时,发现此IP地址已应用于服务器1/5的CIMC:
EWQLOVIUCS02-B(local-mgmt)# show mgmt-ip-debug ip-tables
<SNIPPED>
Chain PREROUTING (policy ACCEPT 5303K packets, 360M bytes)
pkts bytes target prot opt in out source destination
188 9776 cimcnat tcp -- * * 0.0.0.0/0 0.0.0.0/0 tcp dpt:443
0 0 cimcnat tcp -- * * 0.0.0.0/0 0.0.0.0/0 tcp dpt:80
0 0 DNAT icmp -- * * 0.0.0.0/0 10.128.10.85 to:127.6.1.1
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.85 tcp dpt:2068 to:127.6.1.1:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.10.85 udp dpt:623 to:127.6.1.1:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.85 tcp dpt:22 to:127.6.1.1:22
449 26940 DNAT icmp -- * * 0.0.0.0/0 10.128.10.108 to:127.6.1.2
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.108 tcp dpt:2068 to:127.6.1.2:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.10.108 udp dpt:623 to:127.6.1.2:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.108 tcp dpt:22 to:127.6.1.2:22
931 55860 DNAT icmp -- * * 0.0.0.0/0 10.128.10.107 to:127.6.1.3
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.107 tcp dpt:2068 to:127.6.1.3:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.10.107 udp dpt:623 to:127.6.1.3:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.107 tcp dpt:22 to:127.6.1.3:22
0 0 DNAT icmp -- * * 0.0.0.0/0 10.128.10.104 to:127.6.1.3
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.104 tcp dpt:2068 to:127.6.1.3:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.10.104 udp dpt:623 to:127.6.1.3:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.104 tcp dpt:22 to:127.6.1.3:22
920 55200 DNAT icmp -- * * 0.0.0.0/0 10.128.10.106 to:127.6.1.4
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.106 tcp dpt:2068 to:127.6.1.4:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.10.106 udp dpt:623 to:127.6.1.4:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.106 tcp dpt:22 to:127.6.1.4:22
912 54720 DNAT icmp -- * * 0.0.0.0/0 10.128.10.105 to:127.6.1.6
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.105 tcp dpt:2068 to:127.6.1.6:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.10.105 udp dpt:623 to:127.6.1.6:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.105 tcp dpt:22 to:127.6.1.6:22
0 0 DNAT icmp -- * * 0.0.0.0/0 10.128.0.142 to:127.6.1.5 <<---- Indicates that 10.128.0.142 is the OOB KVM IP address for server 1/5.
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.0.142 tcp dpt:2068 to:127.6.1.5:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.0.142 udp dpt:623 to:127.6.1.5:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.0.142 tcp dpt:22 to:127.6.1.5:22
910 54600 DNAT icmp -- * * 0.0.0.0/0 10.128.10.102 to:127.6.1.7
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.102 tcp dpt:2068 to:127.6.1.7:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.10.102 udp dpt:623 to:127.6.1.7:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.102 tcp dpt:22 to:127.6.1.7:22
908 54480 DNAT icmp -- * * 0.0.0.0/0 10.128.10.101 to:127.6.1.8
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.101 tcp dpt:2068 to:127.6.1.8:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.10.101 udp dpt:623 to:127.6.1.8:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.101 tcp dpt:22 to:127.6.1.8:22
<SNIPPED>
根本原因
问题是服务器1/5的静态CIMC IP地址输入错误。
此外,它被置于子网255.255.248.0中
这在交换矩阵互联的路由表中创建了一个不需要的条目。在达到10.128.0.1 - 10.128.7.254范围内所有IP的默认路由之前,会达到该条件的路由
Linux(debug)# route -n
Kernel IP routing table
Destination Gateway Genmask Flags Metric Ref Use Iface
10.128.10.0 0.0.0.0 255.255.255.0 U 0 0 0 eth0
127.15.1.0 0.0.0.0 255.255.255.0 U 0 0 0 vlan4042
127.7.0.0 0.0.0.0 255.255.0.0 U 0 0 0 vlan4043
127.5.0.0 0.0.0.0 255.255.0.0 U 0 0 0 vlan4044
127.14.0.0 0.0.0.0 255.255.0.0 U 0 0 0 vlan4046
127.12.0.0 0.0.0.0 255.255.0.0 U 0 0 0 bond0
127.9.0.0 0.0.0.0 255.255.0.0 U 0 0 0 vlan4047
10.0.0.0 0.0.0.0 255.0.0.0 U 0 0 0 eth0 <<---- Undesired route entry
10.0.0.0 0.0.0.0 255.0.0.0 U 0 0 0 eth0 <<---- Undesired route entry
0.0.0.0 10.128.10.1 0.0.0.0 UG 0 0 0 eth0
解决方案
本案例的解决方案是从未受影响的IP范围浏览UCSM,并更正服务器1/5的CIMC带外(OOB)静态地址。它从OOB管理池中提取,并已设置。它应该像环境中的其他所有服务器一样使用。
其他信息
如果交换矩阵互联重新启动,它有时会工作。问题出在该服务器的管理实例。不需要的路由表条目仅在交换矩阵互联上创建。当管理实例与主交换矩阵互联是同一交换矩阵互联时,它们无法到达VIP或该交换矩阵互联。
CIMC管理IP分配应始终与交换矩阵互联的OOB IP范围处于同一IP范围内。
相关信息