排除NCS4016上的某些线卡(LC)故障
简介
本文档介绍如何对Cisco 4000系列网络融合系统(NCS4016)上的线卡问题、线卡卡卡的故障状态、可能的原因和恢复操作进行故障排除。
背景信息
NCS4016是16个LC(0-15插槽)机箱,每个LC容量为200G。以下是在NCS4016机箱上启动LC时的几个基本事件序列。
- LC分为9个电源区,即0到8。所有这些电源区都由CCC(卡控制器芯片)控制。
- 第一个要启动的区域是区域0,它将启动CPU复合体并启动LC的基本逻辑。
- 区域0通电后。CCC执行加电解释程序并配置基本设备,然后使CPU退出RESET状态。(如果CPU电源关闭,则其保持RESET状态)。
- 以上是LC启动期间执行的基本功能。区域1到8中是否存在任何问题,只有与它们对应的片才无法通电。但是,如果区域0中存在某些问题,则整个LC将关闭电源。
开始使用前:
在开始故障排除之前,建议您记下以下命令。
- 将(或登录)连接到sysadmin(Calvados)VM,因为无法引导的卡不会显示在XR VM中,因此只能在sysadmin VM中查看状态和故障原因。
- 只有CPU的卡才能使软件状态正常运行。否则状态为N/A(不适用),但其硬件应为“运行”
所有LC和RP都运行正常,您应该能够看到如下输出。
sysadmin-vm:0_RP0# show platform
世界协调时8月18日星期二19:57:02.631
位置卡类型硬件状态软件状态配置状态
—
0/0 NCS4K-2H-O-K操作N/A NSHUT
0/5 NCS4K-24LR-O-S操作N/A NSHUT
0/6 NCS4K-20T-O-S操作N/A NSHUT
0/8 NCS4K-2H-O-K操作N/A NSHUT
0/RP0 NCS4K-RP可操作NSHUT
0/FC1 NCS4016-FC-M操作N/A NSHUT
0/CI0 NCS4K-CRAFT运行N/A NSHUT
0/FT0 NCS4K-FTA可操作N/A NSHUT
0/FT1 NCS4K-FTA运行N/A NSHUT
0/PT0 NCS4K-AC-PEM可操作N/A NSHUT
0/PT1 NCS4K-AC-PEM可操作N/A NSHUT
0/EC0 NCS4K-ECU运行N/A NSHUT
sysadmin-vm:0_RP0#
以下是LC可能卡住的常见硬件和软件故障状态及其原因。
状态1:HW_FAILED
此状态表明卡由于某些电源问题而无法启动,或者CCC加电解释程序阻止完成加电顺序。
推荐的操作:
检查以下命令的输出。
# sysadmin-vm:0_RP1# show platform detail location <location of card>
在上述命令中,查找“Last Event”和“Last Event Reason:”,这将告诉我们失败的原因。
sysadmin-vm:0_RP1# show platform detail location 0/fc1
世界协调时7月4日星期六13:52:14.782
0/FC1的平台信息
PID: NCS4016-FC-M
描述: "NCS 4016不可知交叉连接 — 多机箱"
VID/SN: V01
硬件运行状态: 运营
SW运行状态: 不适用
配置: "NSHUT RST"
硬件版本: 1.0
上次事件: HW_EVENT_FAILURE
最后事件原因:"初始发现失败退出0,打开电源请求,但不完成ccc-pon启动power_control 0x00000001"
对于上述故障状态,您还可以检查特定位置的CCC控制器状态。您应该检查电源区域的状态,即“SET”。因为不同的LC使用不同的电源区来启动。
sysadmin-vm:0_RP0# show controller ccc power detail location 0/RP0
世界协调时8月18日星期二18:33:30.245
电源详细信息:0/RP0的区域信息:
—
|电源区 |电源状态 |电源控制 |电源故障 |
—
| 0 |确定 |设置 |-- |
| 1 |确定 |-- |-- |
| 2 |确定|设置 |-- |
| 3 |确定 |-- | — |
| 4 |确定 |设置| — |
| 5 |-- |-- |-- |
| 6 |确定 |-- |-- |
| 7 |-- |-- |-- |
| 8 |确定|设置| — |
sysadmin-vm:0_RP0#
恢复操作:
- 尝试通过执行以下命令软重置LC。
# sysadmin-vm:0_RP1# hw-module location <card位置> reload
- 如果软重置不有助于解决问题,则应完成卡的物理在线插拔(OIR)。
状态2:POWERED_ON
此状态在LC上显示,CPU较少,NCS4k中的所有LC卡CPU较少。
推荐的操作:
sysadmin-vm:0_RP1# show platform
0/FC0 NC4K-FC可操作N/A NSHUT
0/FC1 NC4K-FC POWERED_ON N/A NSHUT
0/FC2 NC4K-FC可操作N/A NSHUT
在这种情况下,交换矩阵驱动程序将尝试自行恢复卡,但如果它在3分钟内无法检测到ASIC,则卡将进入POWERED_ON状态。
检查以下输出,显示机箱中的所有现有卡都已成功通电。
sysadmin-vm:0_RP0# show controller ccc power summary
世界协调时8月18日星期二19:09:37.575
CCC电源摘要:
位置卡类型电源状态
—
0/0 NCS4K-2H-O-K开启
0/FC1 NCS4016-FC-M开启
0/5 NCS4K-24LR-O-S开启
0/6 NCS4K-20T-O-S开启
0/RP0 NCS4K-RP开启
0/8 NCS4K-2H-O-K开启
sysadmin-vm:0_RP0#
恢复操作:
- 如果任何LC/FC的状态2(POWERED_ON)继续存在,请尝试通过执行以下命令软重置LC。
# sysadmin-vm:0_RP1# hw-module location <card位置> reload
- 如果软重置不有助于解决问题,则应完成卡的物理OIR。
状态3:当前
这表示卡已被检测到并处于关闭状态。当卡配置为在配置中关闭电源时,这可能是有效状态。由于环境警报、CCC驱动程序因I2C故障而检测卡时出现故障,卡可能被强制关闭。
推荐的操作:
sysadmin-vm:0_RP1# show platform detail location <card的位置>
在以上输出中,请选中“Last Event :”和“Last Event Reason :”。
要确认警报,如果卡因任何警报条件而关闭,您也可以执行以下命令。下面的输出显示了各卡位置的警报条件。
sysadmin-vm:0_RP0# show alarms
世界协调时8月18日星期二18:03:35.421
—
活动警报
—
位置严重性组设置时间说明
—
0/PT0-PM0主环境05/22/70 04:56:45电源模块错误(PM_NO_INPUT_DETECTED)。
0/PT0-PM0主环境05/22/70 04:56:45电源模块输出已禁用(PM_OUTPUT_EN_PIN_HI)。
0/PT0-PM2主环境05/22/70 04:56:45电源模块错误(PM_NO_INPUT_DETECTED)。
0/PT0-PM2主环境05/22/70 04:56:45电源模块输出已禁用(PM_OUTPUT_EN_PIN_HI)。
0/PT0-PM3主环境05/22/70 04:56:45电源模块错误(PM_NO_INPUT_DETECTED)。
0/PT0-PM3主环境05/22/70 04:56:45电源模块输出已禁用(PM_OUTPUT_EN_PIN_HI)。
0/PT1-PM1主要环境05/22/70 04:56:45电源模块错误(PM_NO_INPUT_DETECTED)。
您也可以运行相同的命令,检查卡的各个位置的输出。
sysadmin-vm:0_RP1# show alarms brief card location < location of card>
恢复操作:
- 请尝试通过执行以下命令软重置LC。
# sysadmin-vm:0_RP1# hw-module location <card位置> reload
- 如果软重置不有助于解决问题,则应完成卡的物理OIR
状态4:未知
此状态的最常见原因是CCC驱动程序无法从卡读取IDPROM,或CCC驱动程序检测到未能检测到卡的IDPROM损坏。
sysadmin-vm:0_RP1# show platform
世界协调时7月4日星期六15:27:50.478
位置卡类型硬件状态软件状态配置状态
—
0/1未知POWERED_ON操作NSHUT
恢复操作:
- 请尝试通过执行以下命令软重置LC。
# sysadmin-vm:0_RP1# hw-module location <card位置> reload
- 如果软重置不有助于解决问题,则应完成卡的物理OIR
- 如果物理OIR无助,则建议对卡进行RMA。
状态5:SW_INACTIVE
请注意,卡要进入SW_INACTIVE状态,必须在HW状态下运行。卡进入此状态的一个常见原因是主机操作系统无法访问SSD。
推荐的操作:
检查卡是否具有控制以太网连接。
sysadmin-vm:0_RP1# show controller switch reachable
星期六7月4日16:31:33.690 UTC
机架卡交换机
—
0 RP0 RP-SW
0 RP1 RP-SW
0 LC0 LC-SW
0 LC1 LC-SW
0 LC2 LC-SW
0 LC4 LC-SW
如果卡没有控制以太网连接,则执行以下命令以检查该卡的以太网协议状态。协议的状态应为“活动”或“备用”,任何其它状态都表示连接问题。
sysadmin-vm:0_RP0# show controller switch mlap location 0/RP0/RP-SW
世界协调时8月18日星期二18:08:22.343
机架卡交换机机架序列号
—
0 RP0 RP-SW SAL19058RDF
Phys管理协议转发协议
端口状态状态状态类型连接到
—
0 Down Up Down — 内部LC15
1 Down Up Down — 内部LC7
2 Down Up Down — 内部LC13
3 Down Up Down — 内部LC12
4 Down Up Down — 内部LC14
5 Down Up Down — 内部LC11
6 Up活动转发内部LC6
7 Up活动转发内部LC5
8 Down Up Down — 内部LC1
9 Down Up Down — 内部LC4
10 Down Up Down — 内部LC3
11 Down Up Down — 内部LC10
16 Up活动转发内部LC0
17 Up活动转发内部LC8
26 Down Up Down — 内部LC2
27 Down Up Down — 内部LC9
32 Down Up Down — 内部MATESC(RP0 Ctrl)
33向下向上向下 — 内部MATESC(RP1 Ctrl)
36 Up Up主用转发内部CCC(RP0 Ctrl)
37 Up Rem托管转发内部CCC(RP1 Ctrl)
52 Down Up Down — 外部SFP+ 1
54 Down Up Down — 外部SFP+ 0
恢复操作:
如果已确认端口已关闭,则还可以尝试访问卡CPU控制台并检查卡是否响应。访问卡将发送消息,说明其进入SW_INACTIVE状态的原因。
sysadmin-vm:0_RP1# attach location <card的位置>
最后一跳应重新映像卡。
#reimage_chassis -s <slot id>,但在此步骤之前,请咨询技术专家。
相关链接:
http://www.cisco.com/c/en/us/products/collateral/optical-networking/network-convergence-system-4000-series/data_sheet_c78-729222.html#
http://www.cisco.com/c/en/us/td/docs/routers/ncs4000/software/install/guide/b_sysadmin-ig-ncs4k/b_sysadmin-ig-ncs4k_chapter_010.html