K8S容器的一则故障记录

这篇具有很好参考价值的文章主要介绍了K8S容器的一则故障记录。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

  关键词
  • kubelet 、pod持久化
  • metrics/vlalphal容器
  • kube-controller、apiserver

一、故障现象

    XXX反馈说某某业务服务异常,无法启动,需要进行协助排查。经常会接到这样一个需求,一开始无法清楚知道具体什么问题,需要跟一线运维人员详细做沟通,了解故障问题的细节。

    根据一线运维人员的反馈,是有一套5节点单master的k8s集群,其中一个node异常重启后,导致上面一个关键mysql服务pod(有持久化存储)无法启动,从而影响到整体业务。一线检查集群反馈服务状态都正常。

二、分析过程

     1、单pod问题?

       从当前情况看,表面现象是说mysql的pod无法启动,也没法切换。但是不是只有这一个问题呢?一开始怀疑是不是mysql做了标签绑定,只能在该node运行,检查一番并没有。

     2、单node问题?

      既然不是单单mysql容器问题,那会不会是这个故障node的问题?检查node各个服务状态和日志,看起来也没什么异常。既然日志没异常,手动做些测试看看。

       1)调度一个非持久化的pod到该节点----发现也无法调度到该节点上,表明node层确实有些问题

       2)在故障node手动创建个docker,可以运行---证明docker容器本身没问题

      3、集群问题

      单node无法调度上去,可能是node本身问题,但node相关日志检查又都无异常。怀疑是上一层集群侧有问题。先测试验证下,从其他节点调度容器或者新建容器,发现都无生产。证明了还是集群侧有问题。

    开始着重排查集群的问题,对集群各个组件进行逐一排查。PS:再温习下k8s各个组件作用

kube-apiserver : 提供了资源的增、删、改、查等操作的唯一入口,并提供认证、授权、访问控制、API注册和发现等机制;

kube-scheduler :负责资源的调度,按照预定的调度策略将Pod调度到相应的机器上;

kube-controller-manager:负责维护集群的状态,资源对象的自动化控制中心,比如故障检测、自动扩展、滚动更新、服务帐户和令牌控制器等;

etcd :k8s的所有资源对象的数据都保存在etcd中;

 1)从前面现象看,调度出了问题,和schedule有关?检查一番schedule没发现啥。

 2)  其他几个组件服务也要检查看看,第一个看到etcd的日志有很多reject connection的错误,有些可疑,开始从这个方向排查,ntp时间、证书、配置等等一一检查,发现也不是这个问题导致。

K8S容器的一则故障记录,经验分享,kubernetes,容器,云原生

 3)检查apiserver,日志中有个metrics资源报错。

memcache.go:couldn't get resource list for metrics/vlalphal: the server could not find the requested resource。

 4)检查controller,日志中看发现服务一直在重启中,且也有metric相关报错。

controllermanager.go:174] error starting controllers: failed to discover resources: unable to retrieve 
the complete list of server APIs: metrics/v1alpha1: the server could not find the requested resource

5)都指向了metric,那就检查这个pod的日志,发现有连不上其中一个节点kubelet的错误。

kubectl get pod -n kube-system -owide
kubectl logs **metric** -n kube-system

6)登到这个节点检查kubelet服务,确实服务报错没起起来,排查一通。发现这个节点上也有controller、api、schedule服务启动,等等,不是说单master架构么???怎么这里也有组件服务,后来问一线运维,这个原来是之前部署时留的坑,服务自启动没关闭,导致主机重启后服务自己启动起来,手动把这些服务关闭掉,再重启kubelet,咋还是不行?再来各种检查,发现kubelet的配置文件没有,一线运维之前做了文件备份,但原配置文件居然不在,不知道是不是用的MV命令而不是CP命令......;重新cp了下,再来重启kubelet,kubelet好了。

7)既然kubelet好了,再去看看metric容器,之前连不上的错误没了,但是还是有一堆报错。索性重启下这个pod,然后等了几分钟,集群恢复了,应用啥啥都好使了,game over!

三、经验总结

    在处理k8s类似集群问题故障时,确实需要关注的点会有很多,有的是自上而下的检查,有的会是自下而上的检查。自上而下的方式,有时可能会很快发现组件问题直接解决了底层故障现象,但检查过程中,多个组件多个日志,稍不注意可能就错过了关键信息;并且容易带着不明确的意识(不确认怀疑哪个服务有问题,检查的可能不是很仔细)来检查各类服务。自下而上的方式,有一种拨开云雾见日出的感觉,一层一层来排除确认,最终定位到直接原因,对整个故障原因会有比较直接的因果关系。但这种方式通常处理时间可能会拖的比较长。所以处理类似故障,可以根据情况来选择哪种方式,但建议最优的方式,是可以先仔细(仔细、仔细,重要的事情说三遍)的自上而下的方式检查一遍,如果确实找不到问题所在,再来自下而上再走一遍。

    显然这次故障问题还是前人的一系列骚操作留下来的坑,故障原因分析下来比较简单。不过整个过程处理下来还是有所收获的,经验值又增加了一点,记录一下,日后可以参考。

    最后,如果觉得本文对你有帮助,欢迎点赞、收藏、评论!

    There are many things that can not be broken!文章来源地址https://www.toymoban.com/news/detail-785934.html

到了这里,关于K8S容器的一则故障记录的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Kubernetes(K8s):容器化应用的航空母舰

    Kubernetes(K8s)是一个开源的容器编排系统,它的出现就像是为容器化应用提供了一艘强大的航空母舰。在这艘母舰上,你的应用容器就像是一架架战斗机,Kubernetes负责指挥它们起飞、飞行、降落,确保它们能在正确的时间、正确的地点执行任务。 Pod: Kubernetes的基本飞行编队

    2024年04月08日
    浏览(67)
  • Kubernetes(k8s)容器编排Pod介绍和使用

    Pod是kubernetes中你可以创建和部署的最小也是最简的单位,一个Pod代表着集群中运行的一个进程。 Pod有两个必须知道的特点 通过yaml文件或者json描述Pod和其内容器的运行环境和期望状态,例如一个最简单的运行nginx应用的pod,定义如下 3.1.1 参数描述 下面简要分析一下上面的

    2024年02月08日
    浏览(85)
  • 云原生Kubernetes: Ubuntu 安装 K8S 1.23版本(单Master架构) 及故障恢复

    目录 一、实验 1.环境 2.安装 Ubuntu 3.连接Ubuntu 4.master节点安装docker 5.node节点安装docker 6.master节点安装K8S 7.添加K8S工作节点 8.安装网络插件calico 9.故障 10.故障恢复 11.测试k8s网络和coredns 二、问题 1.Ubuntu如何修改镜像源 2.Ubuntu和Windows之间如何实现复制粘贴 3.Ubuntu如何开启openssh

    2024年02月21日
    浏览(42)
  • kubernetes(k8s)为容器和 Pod 分配内存资源

    展示如何将内存请求(request)和内存限制(limit)分配给一个容器。 我们保障容器拥有它请求数量的内存,但不允许使用超过限制数量的内存。 创建新的命名空间 编辑yaml文件 配置文件的 args 部分提供了容器启动时的参数。 “–vm-bytes”, “150M” 参数告知容器尝试分配 15

    2024年02月15日
    浏览(58)
  • Kubernetes (K8s) 解读:微服务与容器编排的未来

    🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🐅🐾猫头虎建议程序员必备技术栈一览表📖: 🛠️ 全栈技术 Full Stack : 📚 MERN/MEAN/MEVN Stack | 🌐 Jamstack | 🌍 GraphQL | 🔁 RESTful API | ⚡ WebSockets | 🔄 CI/CD | 🌐 Git Version Control | 🔧 DevOps 🌐 前端技术 Frontend : 🖋️ HTML CSS |

    2024年02月09日
    浏览(42)
  • 【Kubernetes】k8s中容器之间、pod之间如何进行网络通信?

    首先来回顾一下Pod: Pod 是用于构建应用程序的最小可部署对象。单个 Pod 代表集群中正在运行的工作负载,并 封装一个或多个 Docker 容器、任何所需的存储以及唯一的 IP 地址 。 集群中每一个 Pod 都会获得自己的、 独一无二的 IP 地址。一个Pod里的一组容器共享相同的IP地址。

    2024年04月28日
    浏览(74)
  • kubernetes(k8s)大白学习02:容器和docker基础、使用、架构学习

    简单说:容器(container)就是计算机上的一个沙盒进程,它与计算机上的所有其它进程相隔离。 这种隔离是怎么做到的呢?它利用了内核提供的 namespace 和 cgroup 这 2 种技术。这些技术能力在 Linux 中已经存在了很长时间。而 Docker 或容器技术致力于将这些功能更易于使用和更

    2024年02月07日
    浏览(69)
  • k8s容器部署mysql5.7全流程分享

    有些人只是部署了一个kubernetes(简称k8s),mysql自然是也是想部署到该容器底座中。但是为了方便,一般只是想部署一个单机版本的mysql。该教程主要是分享,如何把mysql5.7单机版快速的部署到k8s中,并且方便修改my.cnf配置,同时修改密码,适用于中小型项目中。 文章最后附

    2024年02月03日
    浏览(55)
  • 【云原生 | Kubernetes 系列】— 部署K8S 1.28版本集群部署(基于Containerd容器运行)

    主机名 IP地址 备注 k8s-master01 192.168.0.109 master k8s-node1 192.168.0.108 node1 k8s-node2 192.168.0.107 node1 k8s-node3 192.168.0.105 node1 1、主机配置 2、升级内核 3、配置内核转发以及过滤 4、安装ipset ipvsadm,IPVS(IP Virtual Server)是一个用于负载均衡的 Linux 内核模块,它可以用来替代 kube-proxy 默认的

    2024年02月20日
    浏览(85)
  • 云上攻防-云原生篇&Kubernetes&K8s安全&API&Kubelet未授权访问&容器执行

    Kubernetes是一个开源的, 用于编排云平台中多个主机上的容器化的应用,目标是让部署容器化的应用能简单并且高效的使用, 提供了应用部署,规划,更新,维护的一种机制 。其核心的特点就是能够自主的管理容器来保证云平台中的容器按照用户的期望状态运行着,管理员可

    2024年02月08日
    浏览(87)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包