集群重启后发现node1节点出现notready状态,问题排查及解决(kubelet与docker的cgroup驱动不同导致)

这篇具有很好参考价值的文章主要介绍了集群重启后发现node1节点出现notready状态,问题排查及解决(kubelet与docker的cgroup驱动不同导致)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

集群重启后发现node1节点出现notready状态
集群重启后发现node1节点出现notready状态,问题排查及解决(kubelet与docker的cgroup驱动不同导致)
排查:
1、查看服务器的物理环境
free -mh/df -h
2、查看内存是否溢出,磁盘空间是否够用,经查均在正常使用范围内;
3、top查看cpu使用状态,在可用范围内;
4、再查master组件scheduer,controller-manager,apiserver等都在正常运行;
5、查看node详细信息
[root@master ~]# kubectl describe nodes node1

Name:               node1
Roles:              <none>
Labels:             beta.kubernetes.io/arch=amd64
                    beta.kubernetes.io/os=linux
                    disk=ssd
                    kubernetes.io/arch=amd64
                    kubernetes.io/hostname=node1
                    kubernetes.io/os=linux
Annotations:        flannel.alpha.coreos.com/backend-data: {"VNI":1,"VtepMAC":"76:06:85:be:2e:f1"}
                    flannel.alpha.coreos.com/backend-type: vxlan
                    flannel.alpha.coreos.com/kube-subnet-manager: true
                    flannel.alpha.coreos.com/public-ip: 192.168.213.183
                    kubeadm.alpha.kubernetes.io/cri-socket: /var/run/dockershim.sock
                    node.alpha.kubernetes.io/ttl: 0
                    volumes.kubernetes.io/controller-managed-attach-detach: true
CreationTimestamp:  Sun, 27 Nov 2022 10:18:28 +0800
Taints:             node.kubernetes.io/unreachable:NoExecute
                    node.kubernetes.io/unreachable:NoSchedule
Unschedulable:      false
Lease:
  HolderIdentity:  node1
  AcquireTime:     <unset>
  RenewTime:       Thu, 09 Feb 2023 14:30:01 +0800
Conditions:
  Type                 Status    LastHeartbeatTime                 LastTransitionTime                Reason              Message
  ----                 ------    -----------------                 ------------------                ------              -------
  NetworkUnavailable   False     Wed, 08 Feb 2023 14:38:51 +0800   Wed, 08 Feb 2023 14:38:51 +0800   FlannelIsUp         Flannel is running on this node
  MemoryPressure       Unknown   Thu, 09 Feb 2023 14:26:23 +0800   Mon, 13 Feb 2023 09:15:51 +0800   NodeStatusUnknown   Kubelet stopped posting node status.
  DiskPressure         Unknown   Thu, 09 Feb 2023 14:26:23 +0800   Mon, 13 Feb 2023 09:15:51 +0800   NodeStatusUnknown   Kubelet stopped posting node status.
  PIDPressure          Unknown   Thu, 09 Feb 2023 14:26:23 +0800   Mon, 13 Feb 2023 09:15:51 +0800   NodeStatusUnknown   Kubelet stopped posting node status.
  Ready                Unknown   Thu, 09 Feb 2023 14:26:23 +0800   Mon, 13 Feb 2023 09:15:51 +0800   NodeStatusUnknown   Kubelet stopped posting node status.
Addresses:
  InternalIP:  192.168.213.139
  Hostname:    node1
Capacity:
  cpu:                2
  ephemeral-storage:  17394Mi
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             4002416Ki
  pods:               110
Allocatable:
  cpu:                2
  ephemeral-storage:  16415037823
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             3900016Ki
  pods:               110
System Info:
  Machine ID:                 7f16913a43d84397bd33fc081680947a
  System UUID:                41fc4d56-275d-b583-b585-db862b9a5cc8
  Boot ID:                    e3856941-2c2c-4afc-ae83-572b98bb1c82
  Kernel Version:             5.4.221-1.el7.elrepo.x86_64
  OS Image:                   CentOS Linux 7 (Core)
  Operating System:           linux
  Architecture:               amd64
  Container Runtime Version:  docker://19.3.15
  Kubelet Version:            v1.21.0
  Kube-Proxy Version:         v1.21.0
PodCIDR:                      10.244.1.0/24
PodCIDRs:                     10.244.1.0/24
Non-terminated Pods:          (4 in total)
  Namespace                   Name                      CPU Requests  CPU Limits  Memory Requests  Memory Limits  Age
  ---------                   ----                      ------------  ----------  ---------------  -------------  ---
  default                     nginx-6799fc88d8-j2f5v    0 (0%)        0 (0%)      0 (0%)           0 (0%)         5d20h
  default                     nginx-6799fc88d8-xstkz    0 (0%)        0 (0%)      0 (0%)           0 (0%)         5d20h
  kube-system                 kube-flannel-ds-kvx26     100m (5%)     100m (5%)   50Mi (1%)        50Mi (1%)      79d
  kube-system                 kube-proxy-gj29x          0 (0%)        0 (0%)      0 (0%)           0 (0%)         79d
Allocated resources:
  (Total limits may be over 100 percent, i.e., overcommitted.)
  Resource           Requests   Limits
  --------           --------   ------
  cpu                100m (5%)  100m (5%)
  memory             50Mi (1%)  50Mi (1%)
  ephemeral-storage  0 (0%)     0 (0%)
  hugepages-1Gi      0 (0%)     0 (0%)
  hugepages-2Mi      0 (0%)     0 (0%)
Events:              <none>

由此一直kubelet已经不再工作,无法将node节点的状态信息提供给master。
7、登录node所在机器
查看kubelet状态
集群重启后发现node1节点出现notready状态,问题排查及解决(kubelet与docker的cgroup驱动不同导致)
虽显示启动状态,但下面的事项说明中表名他其实是启动失败了的。
查看日志:[root@node1 ~]# journalctl -u kubelet
集群重启后发现node1节点出现notready状态,问题排查及解决(kubelet与docker的cgroup驱动不同导致)
发现报错:

"Failed to run kubelet" err="failed to run Kubelet: misconfiguration: kubelet cgroup driver: \"systemd\" is different from docker cgroup driver: \"cgroupfs\""

由此可知,kubernets所使用的驱动与docker所使用驱动不同,导致kubelet启动失败。
这里我们将docker驱动修改与kubelet驱动一致即可解决。
修改配置文件:
[root@node1 ~]# vim /etc/docker/daemon.json
添加如下配置即可
集群重启后发现node1节点出现notready状态,问题排查及解决(kubelet与docker的cgroup驱动不同导致)
最后重启docker,kubelet即可
[root@node1 ~]# systemctl daemon-reload
[root@node1 ~]# systemctl restart docker
[root@node1 ~]# systemctl restart kubelet
回到master节点进行查验
集群重启后发现node1节点出现notready状态,问题排查及解决(kubelet与docker的cgroup驱动不同导致)
node已为ready状态。文章来源地址https://www.toymoban.com/news/detail-500621.html

到了这里,关于集群重启后发现node1节点出现notready状态,问题排查及解决(kubelet与docker的cgroup驱动不同导致)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • K8S集群Node节点NotReay状态故障排查思路

    在K8S集群中,经常会出现Node节点处于NotReady的状态,当Node节点处于NotReady状态时,会导致该Node节点上的所有Pod资源停止服务,对整体应用程序会产生一定的影响。 在一个Node节点中可以运行多个Pod资源,每一个Pod资源中可以运行一个容器或者多个容器,同时共享一个网络存储

    2024年01月22日
    浏览(39)
  • ·[K8S:使用calico网络插件]:解决集群节点NotReady问题

    执行: wget --no-check-certificate https://projectcalico.docs.tigera.io/archive/v3.25/manifests/calico.yaml 1.2.1:查看本机ip 网卡相关信息: 1.2.2:修改calico.yaml网卡interface相关信息 1.3.1:异常日志抛出: 1.3.2:场景一:执行K8S admin config配置文件替换相关操作: 1.3.2:场景二:执行K8S admin config配置文

    2024年02月14日
    浏览(47)
  • kubeadm 安装k8s集群后,master节点notready问题解决方案

    使用kubeadm 安装k8s集群后,加载calico cni 网络组件后,master节点notready问题 表现为: 使用命令查看日志:journalctl -f -u kubelet 报错如下: Failed to start ContainerManager failed to initialize top level QOS containers: failed to update top level Burstable QOS cgroup : failed to set supported cgroup subsystems for cgroup

    2024年01月22日
    浏览(39)
  • K8s集群某节点出现异常,新分配到node上面的pod不能ping通外部pod,同节点pod、宿主机IP也不行,外部pod也不可以ping通IP

    K8s集群某节点出现异常,新分配到node上面的pod不能ping通外部pod,同节点pod、宿主机IP也不行,外部pod也不可以ping通IP IP地址和集群的dns地址一致,通过该节点其他pod对这个问题pod进行ping,发现还是不通,ping同节点其他pod是正常的,问题定位在这个pod上面,接着怀疑是svc未绑

    2024年02月03日
    浏览(38)
  • kafka集群节点重启后未被topic识别

    1.案例 kafka集群的节点重启后,topic为apex的主题识别不到重启后的broker节点id,但是还能识别到副本集还在原来的broker节点上 在kafka manager上查看  继续往下查看  2.查看kafka日志报错原因 以下是两个不同的broker节点报错的报错日志  tail -f /etc/kafka/kafka/logs/kafkaServer.out  这是b

    2023年04月18日
    浏览(26)
  • 不可用的ES节点重启后重新加入集群

    如果一个之前不可用的ES节点重启后重新加入集群,而该节点上还有旧的数据,ES会做以下几件事: ES会发现node2上有旧的数据分片 会将node2上的分片标记为不可分配(unassigned) 会将node2上的分片数据与其他 Master eligible 节点上的 primary/replica 数据对比 如果数据不一致,ES会: 保留其他节

    2024年02月16日
    浏览(22)
  • k8s的node节点重启后pod不正常运行

    同事在k8s集群中的node3跑算法时候,把node3打崩了,导致kubelet服务不能正常运行和集群通信。 先将node节点打上不可调度标签,然后执行驱逐。 已经看到pod在其他节点创建出来的,但是node3上面的pod仍然处于terminating状态。 刚开始我以为是磁盘io仍然太高,导致它延迟,等同事

    2024年02月07日
    浏览(34)
  • Kubernetes系列-如何在k8s集群中发现节点是主节点还是工作节点

    在K8s集群中,每个集群都有一组节点,其中一些是master节点,另一些是工作节点,那么如何区别哪些是master节点,哪些是工作节点?有三种判断方式: 1 进程方式 根据系统进程确认,运行 api-server 、 kube-controller-management 和 kube-scheduler 的 node 是 master 节点。运行kubelet和kube-p

    2024年02月13日
    浏览(33)
  • K8s集群重启与恢复-Master节点启停

    1 应用场景 场景 :在实际工作中,可能某个 Master 节点需要维护,迁移,我们需要平滑的停止、启动该节点,尽量减少启停中对集群造成的影响 注意 : 为了确保 K8s 集群能够安全恢复,请在操作前对 K8s 数据进行备份 为了确保重启 Master 节点期间 K8s 集群能够使用,集群中

    2023年04月08日
    浏览(36)
  • 记一次MySQL从节点服务器宕机重启后,从节点出现主键冲突异常的处理

    MySQL 5.7 非GTID模式多线程复制。 某MySQL数据库从节点因故障宕机(因故障直接宕机,非正常关闭),重启之后发现复制状态异常,show slave的结果中Slave_SQL_Running为No,错误代码为1062 error code,从系统表performance_schema.replication_applier_status_by_worker以及error log中显示某条数据因为已

    2024年02月19日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包