【故障排查】VMware挂起后恢复，k8s集群无法ping/curl通pod/svc/ingress-Toy模板网

这篇具有很好参考价值的文章主要介绍了【故障排查】VMware挂起后恢复，k8s集群无法ping/curl通pod/svc/ingress。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

环境简述：

31 master 。 32 node1 。 33 node2 。 34 harbor/docker。

问题现象：

一、master/node节点，去curl pod IP，一直卡着，没反应。timeout。
二、挂起恢复后，harbor服务无法正常访问503 ，需要重启harbor服务。
【故障排查】VMware挂起后恢复，k8s集群无法ping/curl通pod/svc/ingress
进容器curl localhost，是正常的。

而网络CNI 、flannel 、 coreDNS等都是running状态。（发现restarts的次数有点多） .这里的metrics-server一直失败的。

排查：

#下面两个能显示出对应的报错信息
vim /var/log/message
systemctl status kubelet -f

#此时coreDNS、、flannel、kube-proxy 的 describe/logs 日志是正常的
kubectl describe pod  （coredns/flannel/kube-proxy） -n kube-system
kubectl logs  （coredns/flannel/kube-proxy） -n kube-system

最终处理

#通过搜索/问人。有老哥说，这是VMware挂起导致的。 看messages信息，也吻合挂起时间。 （这个问题也没会想到是挂起vm的锅，报错日志也没明确的信息提示是“挂起后”导致的）
systemctl restart docker && systemctl restart kubelet
重启coreDNS、、flannel、kube-proxy。 都没用。

最终reboot重启 k8s集群的机器。


小结：所以挂起vm再唤醒机器，K8s/docker-compose起的服务，网络都可能会有故障。 优先从/var/log/message和systemctl status kubelet -f找出报错信息，提高处理问题效率。

可参考：
https://blog.csdn.net/weixin_43293361/article/details/114731838 《解决虚拟机挂起后再恢复导致的k8s集群网络问题》文章来源地址https://www.toymoban.com/news/detail-416273.html