此产品的文档集力求使用非歧视性语言。在本文档集中,非歧视性语言是指不隐含针对年龄、残障、性别、种族身份、族群身份、性取向、社会经济地位和交叉性的歧视的语言。由于产品软件的用户界面中使用的硬编码语言、基于 RFP 文档使用的语言或引用的第三方产品使用的语言,文档中可能无法确保完全使用非歧视性语言。 深入了解思科如何使用包容性语言。
思科采用人工翻译与机器翻译相结合的方式将此文档翻译成不同语言,希望全球的用户都能通过各自的语言得到支持性的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 Cisco Systems, Inc. 对于翻译的准确性不承担任何责任,并建议您总是参考英文原始文档(已提供链接)。
本文档介绍在运行Nexus操作系统(NX-OS)版本6.0(2)的Cisco Nexus 3500系列交换机平台上执行系统运行状况检查所使用的一般过程。
要接收系统的CPU和内存使用情况概述,请输入show system resources命令:
switch# show system resources
Load average: 1 minute: 0.32 5 minutes: 0.13 15 minutes: 0.10
Processes : 366 total, 2 running
CPU states : 5.5% user, 12.0% kernel, 82.5% idle
CPU0 states : 10.0% user, 18.0% kernel, 72.0% idle
CPU1 states : 1.0% user, 6.0% kernel, 93.0% idle
Memory usage: 4117064K total, 2614356K used, 1502708K free
Switch#
如果需要有关消耗CPU周期或内存的进程的详细信息,请输入show process cpu sort和show system internal kernel memory usage命令:
switch# show process cpu sort
PID Runtime(ms) Invoked uSecs 1Sec Process
----- ----------- -------- ----- ------ -----------
3239 55236684 24663045 2239 6.3% mtc_usd
3376 776 7007 110 2.7% netstack
15 26592500 178719270 148 0.9% kacpid
3441 4173060 29561656 141 0.9% cfs
3445 7646439 6391217 1196 0.9% lacp
3507 13646757 34821232 391 0.9% hsrp_engine
1 80564 596043 135 0.0% init
2 6 302 20 0.0% kthreadd
3 1064 110904 9 0.0% migration/0
<snip>
switch# show system internal kernel memory usage
MemTotal: 4117064 kB
MemFree: 1490120 kB
Buffers: 332 kB
Cached: 1437168 kB
ShmFS: 1432684 kB
Allowed: 1029266 Pages
Free: 372530 Pages
Available: 375551 Pages
SwapCached: 0 kB
Active: 1355724 kB
Inactive: 925400 kB
HighTotal: 2394400 kB
HighFree: 135804 kB
LowTotal: 1722664 kB
LowFree: 1354316 kB
SwapTotal: 0 kB
SwapFree: 0 kB
Dirty: 12 kB
Writeback: 0 kB
AnonPages: 843624 kB
Mapped: 211144 kB
Slab: 98524 kB
SReclaimable: 7268 kB
SUnreclaim: 91256 kB
PageTables: 19604 kB
NFS_Unstable: 0 kB
Bounce: 0 kB
WritebackTmp: 0 kB
CommitLimit: 2058532 kB
Committed_AS: 10544480 kB
VmallocTotal: 284664 kB
VmallocUsed: 174444 kB
VmallocChunk: 108732 kB
HugePages_Total: 0
HugePages_Free: 0
HugePages_Rsvd: 0
HugePages_Surp: 0
Hugepagesize: 2048 kB
DirectMap4k: 2048 kB
DirectMap2M: 1787904 kB
switch#
输出显示NX-OS使用高内存区域,内核使用低内存区域。MemTotal和MemFree值提供可供交换机使用的总内存。
要生成内存使用警报,请配置交换机,如下所示:
switch(config)# system memory-thresholds minor 50 severe 70 critical 90
注意:对于本文档,值50、70和90 仅用作示例;根据您的需求选择阈值限制。
要检查硬件诊断状态,请输入show diagnostic result all命令。确保所有测试均通过,且“Overal Diagnostic Results(整体诊断结果)”为PASS(通过)。
switch# show diagnostic result all
Current bootup diagnostic level: complete
Module 1: 48x10GE Supervisor SerialNo : <serial #>
Overall Diagnostic Result for Module 1 : PASS
Diagnostic level at card bootup: complete
Test results: (. = Pass, F = Fail, I = Incomplete, U = Untested, A = Abort)
1) TestUSBFlash ------------------------> .
2) TestSPROM ---------------------------> .
3) TestPCIe ----------------------------> .
4) TestLED -----------------------------> .
5) TestOBFL ----------------------------> .
6) TestNVRAM ---------------------------> .
7) TestPowerSupply ---------------------> .
8) TestTemperatureSensor ---------------> .
9) TestFan -----------------------------> .
10) TestVoltage -------------------------> .
11) TestGPIO ----------------------------> .
12) TestInbandPort ----------------------> .
13) TestManagementPort ------------------> .
14) TestMemory --------------------------> .
15) TestForwardingEngine ----------------> .
<snip>
输入show hardware profile status命令以检查交换机上配置的当前硬件配置文件以及硬件表的使用情况:
switch# show hardware profile status
Hardware table usage:
Max Host Entries = 65535, Used = 341
Max Unicast LPM Entries = 24576, Used = 92
Max Multicast LPM Entries = 8192, Used (L2:L3) = 1836 (1:1835)
Switch#
确保主机条目和单播/组播最长前缀匹配(LPM)条目的使用在指定限制内。
注意:为了使交换机达到最佳性能,选择适当的硬件配置文件模板非常重要。
如果希望交换机在特定阈值级别生成系统日志,请配置交换机,如下所示:
switch(config)# hardware profile multicast syslog-threshold ?
<1-100> Percentage
switch(config)# hardware profile unicast syslog-threshold ?
<1-100> Percentage
注意:单播和组播的默认阈值均为90%。
有关详细信息,请参阅配置PIM Cisco文章,该文章根据已安装的许可证和启用的功能提供配置详细信息。此外,如果要优化转发表,请参阅Cisco Nexus 3000系列交换机:了解、配置和调整转发表Cisco文章。
主动缓冲区监控(ABM)提供精细的缓冲区占用数据,可更好地洞察拥塞热点。此功能支持两种操作模式:单播和组播模式。
在单播模式下,ABM监控并维护每个缓冲块的缓冲区使用数据以及所有48个端口的单播缓冲区使用。在组播模式下,它监控并维护每个缓冲区块的缓冲区使用数据以及每个缓冲区块的组播缓冲区使用率。
注意:有关详细信息,请参阅Cisco Nexus 3548主动缓冲区监控Cisco文章。图4显示缓冲区使用率在22:15:32达到峰值,持续到22:15:37。此外,直方图还显示了缓冲区使用率的突然峰值,并显示了缓冲区耗尽的速度。如果接收器速度较慢(例如10 Gbps接收器中的1 Gbps接收器),则为避免丢包,必须包括类似以下的配置:硬件配置文件组播慢接收器端口<x>。
要监控流量丢失,请输入show interface ethernet x/y命令。此命令的输出提供基本流量速率信息以及端口级丢弃/错误。
switch# show interface eth1/10
Ethernet1/10 is up
Dedicated Interface
Belongs to Po1
Hardware: 100/1000/10000 Ethernet, address: 30f7.0d9c.3b51
(bia 30f7.0d9c.3b51)
MTU 1500 bytes, BW 10000000 Kbit, DLY 10 usec
reliability 255/255, txload 1/255, rxload 1/255
Encapsulation ARPA
Port mode is trunk
full-duplex, 10 Gb/s, media type is 10G
Beacon is turned off
Input flow-control is off, output flow-control is off
Rate mode is dedicated
Switchport monitor is off
EtherType is 0x8100
Last link flapped 3d21h
Last clearing of "show interface" counters never
14766 interface resets
30 seconds input rate 47240 bits/sec, 68 packets/sec
30 seconds output rate 3120720 bits/sec, 3069 packets/sec
Load-Interval #2: 5 minute (300 seconds)
input rate 50.18 Kbps, 52 pps; output rate 3.12 Mbps, 3.05 Kpps
RX
4485822 unicast packets 175312538 multicast packets 388443 broadcast
packets
180186040 input packets 9575683853 bytes
0 jumbo packets 0 storm suppression bytes
1 runts 0 giants 1 CRC 0 no buffer
2 input error 0 short frame 0 overrun 0 underrun 0 ignored
0 watchdog 0 bad etype drop 0 bad proto drop 0 if down drop
0 input with dribble 260503 input discard
0 Rx pause
TX
159370439 unicast packets 6366799906 multicast packets 1111 broadcast
packets
6526171456 output packets 828646014117 bytes
0 jumbo packets
0 output errors 0 collision 0 deferred 0 late collision
0 lost carrier 0 no carrier 0 babble 0 output discard
0 Tx pause
switch#
如果输入或输出丢弃显示非零值,请确定丢弃的数据包是单播和/或组播:
switch# show queuing interface ethernet 1/10
Ethernet1/10 queuing information:
TX Queuing
qos-group sched-type oper-bandwidth
0 WRR 100
RX Queuing
Multicast statistics:
Mcast pkts dropped : 0
Unicast statistics:
qos-group 0
HW MTU: 1500 (1500 configured)
drop-type: drop, xon: 0, xoff: 0
Statistics:
Ucast pkts dropped : 0
switch#
输出表明丢弃的流量不是由服务质量(QoS)造成的。 现在,您必须检查硬件MAC地址统计信息:
switch# show hardware internal statistics device mac ?
all Show all stats
congestion Show congestion stats
control Show control stats
errors Show error stats
lookup Show lookup stats
pktflow Show packetflow stats
qos Show qos stats
rates Show packetflow stats
snmp Show snmp stats
当您对流量丢弃执行故障排除时,要检查的关键选项是拥塞、错误和qos。pktflow选项提供RX和TX方向的流量统计信息,以及特定的数据包大小范围。
switch# show hardware internal statistics device mac errors port 10
|------------------------------------------------------------------------|
| Device: L2/L3 forwarding ASIC Role:MAC |
|------------------------------------------------------------------------|
Instance:0
ID Name Value Ports
-- ---- ----- -----
198 MTC_MB_CRC_ERR_CNT_PORT9 0000000000000002 10 -
508 MTC_PP_CNT_PORT1_RCODE_CHAIN3 0000000000000002 10 -
526 MTC_RW_EG_PORT1_EG_CLB_DROP_FCNT_CHAIN3 000000000054da5a 10 -
3616 MTC_NI515_P1_CNT_TX 0000000000000bed 10 -
6495 TTOT_OCT 000000000005f341 10 -
7365 RTOT 0000000000000034 10 -
7366 RCRC 0000000000000001 10 -
7374 RUNT 0000000000000001 10 -
9511 ROCT 00000000000018b9 10 -
10678 PORT_EXCEPTION_ICBL_PKT_DROP 000000000003f997 10 -
注意:0x3f997十六进制值以十进制格式等于260503。
switch# show interface eth1/10
Ethernet1/10 is up
<snip> 0 input with dribble
260503 input discard
<snip>
在输出中,PORT_EXCEPTION_ICBL_PKT_DROP错误消息指示端口上收到的流量具有交换机上未启用的VLAN的Dot1Q标记。
下面是另一个示例,其中出现由于QoS导致的流量丢弃:
switch# show interface ethernet 1/11
Ethernet1/11 is up
<snip>
TX
<snip>
0 output errors 0 collision 0 deferred 0 late collision
0 lost carrier 0 no carrier 0 babble 6153699 output discard
0 Tx pause
switch#
switch# show queuing interface ethernet 1/11
Ethernet1/11 queuing information:
TX Queuing
qos-group sched-type oper-bandwidth
0 WRR 100
RX Queuing
Multicast statistics:
Mcast pkts dropped : 0
Unicast statistics:
qos-group 0
HW MTU: 1500 (1500 configured)
drop-type: drop, xon: 0, xoff: 0
Statistics:
Ucast pkts dropped : 6153699
注意:输出显示6153699个数据包在接收方向被丢弃,这是误导性的。请参阅Cisco Bug ID CSCuj20713。
switch# show hardware internal statistics device mac all | i 11|Port
(result filtered for relevant port)
ID Name Value Ports
<snip>
5596 TX_DROP 00000000005de5e3 11 - <--- 6153699 Tx Drops in Hex
<snip>
10253 UC_DROP_VL0 00000000005de5e3 11 - <--- Drops for QoS Group 0 in Hex
<snip>
总之,以下是用于捕获数据包丢弃的命令:
控制平面策略(CoPP)保护控制平面,以确保网络稳定性。有关其他详细信息,请参阅配置控制平面策略Cisco文章。
要监控CoPP统计信息,请输入show policy-map interface control-plane命令:
switch# show policy-map interface control-plane
Control Plane
service-policy input: copp-system-policy
class-map copp-s-ping (match-any)
match access-group name copp-system-acl-ping
police pps 100 , bc 0 packets
HW Matched Packets 30
SW Matched Packets 30
class-map copp-s-l3destmiss (match-any)
police pps 100 , bc 0 packets
HW Matched Packets 76
SW Matched Packets 74
class-map copp-s-glean (match-any)
police pps 500 , bc 0 packets
HW Matched Packets 103088
SW Matched Packets 51544
<snip>
在输出中,用于copp-s-ping的硬件(HW)和软件(SW)匹配的数据包相同。这意味着HW计数的数据包数量为30(全部发送到带内CPU驱动程序),而SW在将数据包发送到CPU之前会计算相同数量的数据包。这表示CoPP不会丢弃任何数据包,因为它在配置的100 p/s限制内。
当您查看copp-s-glean类(该类匹配发往地址解析协议(ARP)缓存条目不存在的IP地址的数据包)时,HW看到的数据包数为103,088,而SW仅匹配51544.这表示CoPP丢弃了51544(103088-51544)数据包,因为这些数据包的速率超过500 p/s。
SW计数器从CPU带内驱动程序获取,而HW计数器来自在HW中编程的访问控制列表(ACL)。如果遇到HW Matched Packets 等于零且SW Matched Packets 存在非零值的情况,则该特定类映射的HW中不存在ACL,这可能是正常的。另外,请注意,这两个计数器可能不会同时轮询,您应仅使用计数器值来排除差异是否显着时的故障。
CoPP统计信息可能与硬件交换的数据包不直接相关,但是如果应通过交换机发送的数据包被传送到CPU,则仍与此相关。数据包传输是由多种原因引起的,例如运行精益邻接时。
请注意,CoPP策略有三种类型:默认、第2层(L2)和第3层(L3)。 根据部署场景选择适当的策略,并根据观察结果修改CoPP策略。为了优化CoPP,请定期检查,在您获得新服务/应用或重新设计网络后进行检查。
注意:要清除计数器,请输入clear copp statistics命令。
要对bootflash文件系统执行运行状况检查,请输入system health check bootflash命令:
switch# system health check bootflash
Unmount successful...
Checking any file system errors...Please be patient...
Result: bootflash filesystem has no errors
done.
Remounting bootflash ...done.
switch#
警告:运行测试时,文件系统将卸载,测试完成后,文件系统将重新装载。确保运行测试时未访问文件系统。
警告:确保系统未遇到任何进程重置或崩溃,并且在尝试使用本节中提到的命令时不生成任何核心文件或进程日志。
输入以下命令以收集系统核心和进程日志:
switch# show cores
Module Instance Process-name PID Date(Year-Month-Day Time)
------ -------- --------------- -------- -------------------------
switch#
switch# show process log
Process PID Normal-exit Stack Core Log-create-time
--------------- ------ ----------- ----- ----- ---------------
ethpc 4217 N N N Tue Jun 4 01:57:54 2013
注意:有关此过程的更多详细信息,请参阅从Cisco Nexus交换平台检索核心文件文章。