在站点隔离后解决Kubernetes Pod显示为未就绪状态

下载选项

PDF (125.1 KB)
在各种设备上使用 Adobe Reader 查看
ePub (78.9 KB)
在 iPhone、iPad、Android、Sony Reader 或 Windows Phone 上使用各种应用查看
Mobi (Kindle) (64.2 KB)
在 Kindle 设备上查看或在多个设备上使用 Kindle 应用查看

已更新: 2021 年 9 月 20 日

文档 ID:217376

非歧视性语言

此产品的文档集力求使用非歧视性语言。在本文档集中，非歧视性语言是指不隐含针对年龄、残障、性别、种族身份、族群身份、性取向、社会经济地位和交叉性的歧视的语言。由于产品软件的用户界面中使用的硬编码语言、基于 RFP 文档使用的语言或引用的第三方产品使用的语言，文档中可能无法确保完全使用非歧视性语言。深入了解思科如何使用包容性语言。

关于此翻译

思科采用人工翻译与机器翻译相结合的方式将此文档翻译成不同语言，希望全球的用户都能通过各自的语言得到支持性的内容。请注意：即使是最好的机器翻译，其准确度也不及专业翻译人员的水平。 Cisco Systems, Inc. 对于翻译的准确性不承担任何责任，并建议您总是参考英文原始文档（已提供链接）。

简介

本文档介绍当Cisco Smart Install(SMI)Pod由于Kubernetes Bug https://github.com/kubernetes/kubernetes/issues/82346而进入未就绪状态时的恢复步骤。

问题

站点隔离后，融合以太网(CEE)报告了CEE中的处理错误警报。系统就绪状态低于100%。

[site1app/pod1] cee# show alerts active 
alerts active k8s-deployment-replica-mismatch f89d8d09389c
state active
severity critical
type "Processing Error Alarm"
startsAt 2021-05-27T08:38:58.703Z
source site1app-smi-cluster-policy-oam2
labels [ "component: kube-state-metrics" "deployment: prometheus-scrapeconfigs-synch" "exported_namespace: cee-pod1" "instance: 192.0.2.37:8080" "job: kubernetes-pods" "namespace: cee-pod1" "pod: kube-state-metrics-6c476f7494-tqkrc" "pod_template_hash: 6c476f7494" "release: cee-pod1-cnat-monitoring" ]
annotations [ "summary: Deployment cee-pod1/prometheus-scrapeconfigs-synch has not matched the expected number of replicas for longer than 2 minutes." ]

[site1app/pod1] cee# show system status 
system status deployed true
system status percent-ready 92.68

ubuntu@site1app-smi-cluster-policy-mas01:~$ kubectl get rs -n cee-pod1 | grep scrape
NAME DESIRED CURRENT READY AGE 
prometheus-scrapeconfigs-synch-ccd454f76 1 1 0 395d
prometheus-scrapeconfigs-synch-f5544b4f8 0 0 0 408d

解决方案

站点隔离是Bug https://github.com/kubernetes/kubernetes/issues/82346的触发器。使这些Pod处于“就绪”状态的解决方法是重新启动受影响的Pod。此修复包含在即将发布的CEE版本中。

初始Pod和系统验证

登录CEE CLI并检查系统状态。

ssh -p 2024 admin@`kubectl get svc -A| grep " ops-center-cee" | awk '{print $4}'`

show alerts active
show system status

重启受影响的Pod

登录主节点，在主节点上运行这些命令。并标识未全部成员都处于就绪状态的守护程序集和复制副本集。

kubectl get daemonsets -A
kubectl get rs -A | grep -v '0 0 0'

将这些命令复制并粘贴到记事本中，并将所有cee-xyz替换为站点上的cee命名空间。

kubectl describe pods core-retriever -n cee-xyz | egrep "^Name:|False" | grep -B1 False
kubectl describe pods calico-node -n kube-system | egrep "^Name:|False" | grep -B1 False
kubectl describe pods csi-cinder-nodeplugin -n kube-system | egrep "^Name:|False" | grep -B1 False
kubectl describe pods maintainer -n kube-system | egrep "^Name:|False" | grep -B1 False
kubectl describe pods kube-proxy -n kube-system | egrep "^Name:|False" | grep -B1 False
kubectl describe pods path-provisioner -n cee-xyz | egrep "^Name:|False" | grep -B1 False
kubectl describe pods logs-retriever -n cee-xyz | egrep "^Name:|False" | grep -B1 False
kubectl describe pods node-exporter -n cee-xyz | egrep "^Name:|False" | grep -B1 False
kubectl describe pods keepalived -n smi-vips| egrep "^Name:|False" | grep -B1 False
kubectl describe pods prometheus-scrapeconfigs-synch -n cee-xyz | egrep "^Name:|False" | grep -B1 False

执行命令并收集结果输出。结果是，输出使用需要重新启动的相应命名空间来标识Pod名称。

在您发出这些命令（相应地替换Pod名称和命名空间）时，从之前获取的列表中重新启动所有受影响的Pod。

kubectl delete pods core-retriever-abcde -n cee-xyz
kubectl delete pods core-retriever-abcde -n cee-xyz
…

验证Pod是否已启动并运行，且没有任何问题。

kubeclt get pods -A

重新启动后验证Pod和系统状态

执行命令：

kubectl get daemonsets -A
kubectl get rs -A | grep -v '0 0 0'

确认守护程序集和复制副本集显示所有成员处于就绪状态。

登录CEE CLI，确认没有活动警报和系统状态必须为100%。

ssh -p 2024 admin@`kubectl get svc -A| grep " ops-center-cee" | awk '{print $4}'`

show alerts active
show system status

修订历史记录

版本	发布日期	备注
1.0	20-Sep-2021	初始版本

由思科工程师提供

Carlos Franco Garcia
Cisco TAC Engineer
Dennis Lanov
Cisco TAC Engineer

此文档是否有帮助?

反馈

联系我们

提交支持案例
(需要思科服务合同)