【故障排查】VMware挂起后恢复,k8s集群无法ping/curl通pod/svc/ingress

这篇具有很好参考价值的文章主要介绍了【故障排查】VMware挂起后恢复,k8s集群无法ping/curl通pod/svc/ingress。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

环境简述:

31 master 。 32 node1 。 33 node2 。 34 harbor/docker。

问题现象:

一、master/node节点,去curl pod IP,一直卡着,没反应。timeout。
二、挂起恢复后,harbor服务无法正常访问503 ,需要重启harbor服务。
【故障排查】VMware挂起后恢复,k8s集群无法ping/curl通pod/svc/ingress
进容器curl localhost,是正常的。
【故障排查】VMware挂起后恢复,k8s集群无法ping/curl通pod/svc/ingress
而网络CNI 、flannel 、 coreDNS等都是running状态。 (发现restarts的次数有点多) .这里的metrics-server一直失败的。
【故障排查】VMware挂起后恢复,k8s集群无法ping/curl通pod/svc/ingress

排查:

#下面两个能显示出对应的报错信息
vim /var/log/message
systemctl status kubelet -f

#此时coreDNS、、flannel、kube-proxy 的 describe/logs 日志是正常的
kubectl describe pod  (coredns/flannel/kube-proxy) -n kube-system
kubectl logs  (coredns/flannel/kube-proxy) -n kube-system

最终处理

#通过搜索/问人。有老哥说,这是VMware挂起导致的。 看messages信息,也吻合挂起时间。 (这个问题也没会想到是挂起vm的锅,报错日志也没明确的信息提示是“挂起后”导致的)
systemctl restart docker && systemctl restart kubelet
重启coreDNS、、flannel、kube-proxy。 都没用。

最终reboot重启 k8s集群的机器。


小结:所以挂起vm再唤醒机器,K8s/docker-compose起的服务,网络都可能会有故障。 优先从/var/log/message和systemctl status kubelet -f找出报错信息,提高处理问题效率。

可参考:
https://blog.csdn.net/weixin_43293361/article/details/114731838 《解决 虚拟机挂起后再恢复导致的k8s集群网络问题》文章来源地址https://www.toymoban.com/news/detail-416273.html

其他-报错日志信息(待写)


到了这里,关于【故障排查】VMware挂起后恢复,k8s集群无法ping/curl通pod/svc/ingress的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • k8s发生故障,可以从哪些方面排查

    目录 第一方面:审视集群状态 第二方面:追踪事件日志 第三方面:聚焦Pod状态 第四方面:检查网络连通性 第五方面:审视存储配置 第六方面:研究容器日志 K8S的集群状态是排查故障的关键起点。使用kubectl get nodes命令来检查节点状态。如果有节点未能就绪或出现异常状态

    2024年02月13日
    浏览(33)
  • K8S - 架构、常用K8S命令、yaml资源清单部署、Ingress、故障排查、存储卷

    K8S官网文档:https://kubernetes.io/zh/docs/home/ 学习东西还是要从官方文档入手; 用于管理、扩展、自动部署容器; 其实就是 对多个跨机器的Docker集群; 服务发现和负载均衡 Kubernetes 可以使用 DNS 名称或自己的 IP 地址来暴露容器。 如果进入容器的流量很大, Kubernetes 可以负载均

    2024年02月09日
    浏览(45)
  • K8S(KubeSphere)边做边学(一)——基础故障排查

    公司系统近1年开始转变为基于微服务的k8s部署结构,使用的是kubesphere。 由于公司系统迭代更新频率较高,且不时有新的私有化客户部署搭建,更新和部署过程中经常会遇到各类问题。对于研发出生,非运维专业又是半路出家学习了解K8S的我来说,一路磕磕碰碰,边学习边积

    2024年02月08日
    浏览(26)
  • k8s故障排查个案:当Pod内存持续增长,OOM问题如何解决?

    pod 运行一段时间后,内存持续增长,甚至 oom 的情况. 容器化过程中,我们经常会发现 kubernetes 集群内 pod 的内存使用率会不停持续增长,加多少内存吃多少内存,如果对 cgroup 内存的构成不是很清楚的情况下,单纯看监控看不出什么问题。 经过一番查阅,目前总结出大致有

    2024年02月22日
    浏览(38)
  • K8S集群中PLEG问题排查

    k8s集群排障真的很麻烦 今天集群有同事找我,节点报 PLEG is not healthy 集群中有的节点出现了NotReady,这是什么原因呢? PLEG is not healthy 也是一个经常出现的问题 POD 生命周期事件生成器 先说下PLEG 这部分代码在kubelet 里,我们看一下在kubelet中的注释: 也就是说kubelet 会定时把

    2024年02月02日
    浏览(50)
  • k8s集群异常恢复

    前提、我自己的k8s采用的是单master节点+两个从节点部署,我针对单master情况进行恢复说明 场景一:正常开关虚拟机,可直接重启kubelet进行恢复 1、1、一般重启后三个节点都需要检查,输入命令检查kubelet: 2、状态不正常,输入命令启动kubelet: 3、正常情况下,启动kubelet后,

    2024年01月23日
    浏览(33)
  • nodejs前端项目部署到k8s,导致线上故障的排查与解决方法

    因我们的前后端项目都部署在k8s集群中,前端项目采用npm和node管理 事故背景: 某天前端同事在测试环境更新完一个前端服务后,访问正常,然后按照正常流程上线到生产环境,但是,在生产环境更新完成后,测试同事反馈访问报502错误,我就去服务器排查刚才发布的服务,检查pod状态

    2024年02月02日
    浏览(29)
  • 记录一次K8s 集群故障(路由&Calico)

    3节点测试集群 k8s 1.17 docker 19.03 每个节点2个网卡 : enp0s3  用来桥接无线网卡用来连接外网,因此IP不固定。 enp0s8  192.168.56.0/24 用来和其它节点互通 某一天开机 突然发现大量pod异常,异常的Pod 全部没有正常获取到IP, service也都打不开了。 检查控制平面 除了 kube-system下的a

    2024年02月22日
    浏览(34)
  • VMware虚拟机部署k8s集群

    最近在学k8s,奈何云服务器有点小贵,就尝试用VMware虚拟机搭建了k8s集群,与大家分享,欢迎指点。 VMware 下载地址:VMware下载(此处给的是16的下载地址) 安装教程可以参考VMware安装教程 CentOs7.9下载地址:CnetOs 7.9 至此算是完成一半了, Vmware 网络配置 我的设置: master节点

    2023年04月09日
    浏览(28)
  • K8s主机IP地址变更集群恢复

    k8s版本 v1.23.6 docker版本 20.10.6 节点名称 原IP 新IP k8s-master 192.168.6.100 192.168.6.200 k8s-node01 192.168.6.110 192.168.6.210 k8s-node02 192.168.6.120 192.168.6.220 未调整IP前集群信息如下: 调整k8s-master节点IP后,重启机器,显示如下: 1. 所有机器修改hosts解析文件  2. 把/etc/kubernetes/*.conf中所有的旧

    2024年04月28日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包