簡介
本文檔介紹UCS交換矩陣互聯管理(Mgmt)介面在特定IP範圍的通訊中如何遇到間歇性連線問題。
必要條件
需求
思科建議您瞭解以下主題:
- 整合運算系統管理員(UCSM)軟體
- 整合運算系統(UCS)網路
採用元件
本文中的資訊係根據以下軟體和硬體版本:
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
問題:UCS交換矩陣互聯管理介面存在間歇性連線問題。
UCS交換矩陣互聯管理介面具有間歇性連線丟失,但僅當通訊跨越特定IP範圍時才會發生。VLAN 10的IP範圍10.128.10.0/24用於交換矩陣互聯(FI)管理介面和虛擬IP(VIP)。 當與VLAN 1的IP範圍10.128.1.0/24之間的通訊與FI之間的連線中斷時。因此,VLAN 1的IP範圍內的任何裝置都無法連線到UCSM,且只能對一個FI IP執行ping。 至少有一個FI IP(三個FI-A、FI-B、VIP)始終能夠通訊。
拓撲
VLAN 10上的交換矩陣互聯IP
FI-A: 10.128.10.84
FI-B: 10.128.10.85
VIP: 10.128.10.86
GW: 10.128.10.1
VLAN 1上的裝置通訊有問題
Subnet 10.128.1.0/24
GW: 10.128.1.1
疑難排解
從兩個交換矩陣互聯的本地管理上下文中,它可以到達其預設(df)網關(gw),10.128.10.1。但是,VLAN 1 IP範圍10.128.1.0/24上沒有IP地址可以到達或來自交換矩陣互聯的本地管理上下文。
起初,這似乎是一個網關路由問題,而不是UCS問題,因為這只是交換矩陣互聯上的管理介面,以及它是否能到達網關和任何其他IP範圍。這在上游網路中表現為第3層路由問題。
當從交換矩陣互聯到隨機IP範圍(以及不在VLAN 1範圍內的任何其他IP範圍)運行traceroute時(例如VLAN 20中的IP:10.128.20.1),traceroute上的第一跳是VLAN 10的網關10.128.10.1,ping成功。
當traceroute運行到已知有問題的IP範圍10.128.1.x/24時,traceroute失敗。
- 這就引出了在UCS端進行調查的原因。
- 這不應該失敗,而且第一跳應該是mgmt介面的df gw 10.128.10.1,就像其他10個IP中的10個IP一樣,這些被測試的IP不在VLAN 10 IP範圍內,而且不在VLAN 1 IP範圍內。
為了進一步調查,您運行了ethanalyzer來檢視發生什麼情況,以及當VLAN 1的IP範圍被ping通時,ARP會表現得很奇怪:
EWQLOVIUCS02-A(nxos)# ethanalyzer local interface mgmt display-filter arp limit-captured-frames 0
Capturing on eth0
2019-12-17 11:45:50.807837 00:de:fb:a9:37:e1 -> ff:ff:ff:ff:ff:ff ARP Who has 10.128.1.77? Tell 10.128.0.142
2019-12-17 11:45:51.807835 00:de:fb:a9:37:e1 -> ff:ff:ff:ff:ff:ff ARP Who has 10.128.1.77? Tell 10.128.0.142
2019-12-17 11:45:52.807827 00:de:fb:a9:37:e1 -> ff:ff:ff:ff:ff:ff ARP Who has 10.128.1.77? Tell 10.128.0.142
2019-12-17 11:45:55.807829 00:de:fb:a9:37:e1 -> ff:ff:ff:ff:ff:ff ARP Who has 10.128.1.77? Tell 10.128.0.142
預期行為是詢問誰擁有此VLAN 1 IP,然後告訴管理VLAN 10的網關。
但是,當VLAN 1的IP範圍是ping時,ARP會詢問誰擁有該IP並告知10.128.0.142,請遵循以下步驟:
- 這應該是「Tell 10.128.10.1」,就像測試所有其他IP時一樣。
- 您甚至無法識別10.128.0.x子網或IP地址。
這就是為什麼FI會告知10.128.0.142的問題。在調查UCS域期間,發現此IP地址已應用於伺服器1/5的CIMC:
EWQLOVIUCS02-B(local-mgmt)# show mgmt-ip-debug ip-tables
<SNIPPED>
Chain PREROUTING (policy ACCEPT 5303K packets, 360M bytes)
pkts bytes target prot opt in out source destination
188 9776 cimcnat tcp -- * * 0.0.0.0/0 0.0.0.0/0 tcp dpt:443
0 0 cimcnat tcp -- * * 0.0.0.0/0 0.0.0.0/0 tcp dpt:80
0 0 DNAT icmp -- * * 0.0.0.0/0 10.128.10.85 to:127.6.1.1
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.85 tcp dpt:2068 to:127.6.1.1:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.10.85 udp dpt:623 to:127.6.1.1:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.85 tcp dpt:22 to:127.6.1.1:22
449 26940 DNAT icmp -- * * 0.0.0.0/0 10.128.10.108 to:127.6.1.2
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.108 tcp dpt:2068 to:127.6.1.2:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.10.108 udp dpt:623 to:127.6.1.2:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.108 tcp dpt:22 to:127.6.1.2:22
931 55860 DNAT icmp -- * * 0.0.0.0/0 10.128.10.107 to:127.6.1.3
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.107 tcp dpt:2068 to:127.6.1.3:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.10.107 udp dpt:623 to:127.6.1.3:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.107 tcp dpt:22 to:127.6.1.3:22
0 0 DNAT icmp -- * * 0.0.0.0/0 10.128.10.104 to:127.6.1.3
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.104 tcp dpt:2068 to:127.6.1.3:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.10.104 udp dpt:623 to:127.6.1.3:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.104 tcp dpt:22 to:127.6.1.3:22
920 55200 DNAT icmp -- * * 0.0.0.0/0 10.128.10.106 to:127.6.1.4
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.106 tcp dpt:2068 to:127.6.1.4:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.10.106 udp dpt:623 to:127.6.1.4:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.106 tcp dpt:22 to:127.6.1.4:22
912 54720 DNAT icmp -- * * 0.0.0.0/0 10.128.10.105 to:127.6.1.6
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.105 tcp dpt:2068 to:127.6.1.6:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.10.105 udp dpt:623 to:127.6.1.6:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.105 tcp dpt:22 to:127.6.1.6:22
0 0 DNAT icmp -- * * 0.0.0.0/0 10.128.0.142 to:127.6.1.5 <<---- Indicates that 10.128.0.142 is the OOB KVM IP address for server 1/5.
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.0.142 tcp dpt:2068 to:127.6.1.5:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.0.142 udp dpt:623 to:127.6.1.5:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.0.142 tcp dpt:22 to:127.6.1.5:22
910 54600 DNAT icmp -- * * 0.0.0.0/0 10.128.10.102 to:127.6.1.7
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.102 tcp dpt:2068 to:127.6.1.7:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.10.102 udp dpt:623 to:127.6.1.7:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.102 tcp dpt:22 to:127.6.1.7:22
908 54480 DNAT icmp -- * * 0.0.0.0/0 10.128.10.101 to:127.6.1.8
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.101 tcp dpt:2068 to:127.6.1.8:2068
0 0 DNAT udp -- * * 0.0.0.0/0 10.128.10.101 udp dpt:623 to:127.6.1.8:623
0 0 DNAT tcp -- * * 0.0.0.0/0 10.128.10.101 tcp dpt:22 to:127.6.1.8:22
<SNIPPED>
根本原因
問題是伺服器1/5的靜態CIMC IP地址輸入錯誤。
此外,它被放置在255.255.248.0的子網中
這會導致交換矩陣互聯的路由表中出現不需要的條目。在10.128.0.1 - 10.128.7.254範圍內的所有IP達到預設路由之前,會達到該條件
Linux(debug)# route -n
Kernel IP routing table
Destination Gateway Genmask Flags Metric Ref Use Iface
10.128.10.0 0.0.0.0 255.255.255.0 U 0 0 0 eth0
127.15.1.0 0.0.0.0 255.255.255.0 U 0 0 0 vlan4042
127.7.0.0 0.0.0.0 255.255.0.0 U 0 0 0 vlan4043
127.5.0.0 0.0.0.0 255.255.0.0 U 0 0 0 vlan4044
127.14.0.0 0.0.0.0 255.255.0.0 U 0 0 0 vlan4046
127.12.0.0 0.0.0.0 255.255.0.0 U 0 0 0 bond0
127.9.0.0 0.0.0.0 255.255.0.0 U 0 0 0 vlan4047
10.0.0.0 0.0.0.0 255.0.0.0 U 0 0 0 eth0 <<---- Undesired route entry
10.0.0.0 0.0.0.0 255.0.0.0 U 0 0 0 eth0 <<---- Undesired route entry
0.0.0.0 10.128.10.1 0.0.0.0 UG 0 0 0 eth0
解決方案
此案例的解決方案是從不受影響的IP範圍瀏覽UCSM,並更正伺服器1/5的CIMC帶外(OOB)靜態地址。它從OOB管理池中拉出,並已設定。應像環境中其他所有伺服器一樣使用它。
其他資訊
如果交換矩陣互聯重新啟動,它有時會工作。問題是該伺服器的管理例項。不需要的路由表條目只在交換矩陣互聯上建立。當管理例項與主交換矩陣互聯為同一交換矩陣互聯時,它們無法到達VIP或該交換矩陣互聯。
CIMC管理IP分配應始終與交換矩陣互聯的OOB IP範圍處於相同的IP範圍內。
相關資訊