ES踩坑记录之集群间通信异常造成节点无法加入

这篇具有很好参考价值的文章主要介绍了ES踩坑记录之集群间通信异常造成节点无法加入。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

问题描述

公司新搭了一套ES集群,4台机器,ES版本7.5.0,前期搭建十分顺利,但集群运行一段时间后会出现问题。问题具体体现为节点间通讯异常,集群会重新选主,但选主之后只能通过新的主节点进行集群操作,其他节点无法加入主节点。

通过查询ES的日志,我们发现如下报错:

[WARN ][o.e.c.s.MasterService    ] [node-1] failing [elected-as-master ([2] nodes joined)[{node-2}{lY51PsdiSW-kBOYQFYjQQw}{HtVGqYX2QRyEjVwQJQEVvA}{134.85.21.43}{134.85.21.43:9303}{dilmrt}{ml.machine_memory=67385552896, ml.max_open_jobs=20, xpack.installed=true, transform.node=true} elect leader, {node-1}{8hu8HMjLRJSJoDNtxtJ1LQ}{bT_S2fTXSeq8GfCwsHUsAA}{134.85.21.42}{134.85.21.42:9303}{dilmrt}{ml.machine_memory=67385552896, xpack.installed=true, transform.node=true, ml.max_open_jobs=20} elect leader, _BECOME_MASTER_TASK_, _FINISH_ELECTION_]]: failed to commit cluster state version [986]
org.elasticsearch.cluster.coordination.FailedToCommitClusterStateException: publication failed
 at org.elasticsearch.cluster.coordination.Coordinator$CoordinatorPublication$4.onFailure(Coordinator.java:1467) ~[elasticsearch-7.9.0.jar:7.9.0]
 at org.elasticsearch.action.ActionRunnable.onFailure(ActionRunnable.java:88) ~[elasticsearch-7.9.0.jar:7.9.0]
 at org.elasticsearch.common.util.concurrent.AbstractRunnable.run(AbstractRunnable.java:39) ~[elasticsearch-7.9.0.jar:7.9.0]
 at org.elasticsearch.common.util.concurrent.EsExecutors$DirectExecutorService.execute(EsExecutors.java:226) ~[elasticsearch-7.9.0.jar:7.9.0]
 at org.elasticsearch.common.util.concurrent.ListenableFuture.notifyListener(ListenableFuture.java:106) ~[elasticsearch-7.9.0.jar:7.9.0]
 at org.elasticsearch.common.util.concurrent.ListenableFuture.addListener(ListenableFuture.java:68) ~[elasticsearch-7.9.0.jar:7.9.0]
 at org.elasticsearch.cluster.coordination.Coordinator$CoordinatorPublication.onCompletion(Coordinator.java:1390) ~[elasticsearch-7.9.0.jar:7.9.0]
 at org.elasticsearch.cluster.coordination.Publication.onPossibleCompletion(Publication.java:125) ~[elasticsearch-7.9.0.jar:7.9.0]
 at org.elasticsearch.cluster.coordination.Publication.onPossibleCommitFailure(Publication.java:173) ~[elasticsearch-7.9.0.jar:7.9.0]
 at org.elasticsearch.cluster.coordination.Publication.access$500(Publication.java:42) ~[elasticsearch-7.9.0.jar:7.9.0]

大体意思就是说node-1无法加入node-2为主节点的集群。

这里有两个问题,首先node-1原本是主节点,为什么它要加入别人的节点?其次,为什么node-1无法加入集群?

问题分析

从现象上看,集群中原本node-1为主节点,现在node-2成了主节点,也就是说原本主节点出现了问题,导致集群重新选主。但通过对日志的观察,我们没有看到集群有明显的错误。

通过在网络上的搜到的解决办法,可以调整ES集群的连接超时时间配置

cluster.publish.timeout: 15s
cluster.fault_detection.leader_check.timeout: 5s
cluster.fault_detection.follower_check.timeout: 5s
cluster.follower_lag.timeout: 10s

修改之后还是没有效果,集群正常运行一段时间后还是会发生异常。

经过一阵研究我们发现,原来还是主机之间的通讯有些问题,我们需要修改一下主机之间的通讯保持参数。/etc/sysctl.conf:

net.ipv4.tcp_keepalive_time = 600
net.ipv4.tcp_keepalive_probes = 3 
net.ipv4.tcp_keepalive_intvl = 60 

执行命令试配置生效:文章来源地址https://www.toymoban.com/news/detail-659866.html

sysctl -p

到了这里,关于ES踩坑记录之集群间通信异常造成节点无法加入的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Es三节点+vip集群搭建部署方案

    Es 集群架构图 ! 官网教程: https://elasticsearch.bookhub.tech/set_up_elasticsearch/installing_elasticsearch/ 确定 Es 安装目录 机器名 内网IP Es 版本 重点目录 es-node01 192.18.233.240 7.15.1 安装目录: /home/work/elasticsearch/ 数据目录: /mnt/es/esdata 快照仓库: /mnt/es/snapshot 日志目录: /mnt/logs/eslogs es-no

    2024年02月04日
    浏览(33)
  • 不可用的ES节点重启后重新加入集群

    如果一个之前不可用的ES节点重启后重新加入集群,而该节点上还有旧的数据,ES会做以下几件事: ES会发现node2上有旧的数据分片 会将node2上的分片标记为不可分配(unassigned) 会将node2上的分片数据与其他 Master eligible 节点上的 primary/replica 数据对比 如果数据不一致,ES会: 保留其他节

    2024年02月16日
    浏览(22)
  • [Elasticsearch] ES更新问题踩坑记录,直面秋招

    基本可以定位是在es更新这块出问题了 看对应代码 final TableDocBean docBean = baseSearchService.getById(id); setValueForBean(afterColumns, docBean); log.info(“update table data to es: {}”, JSON.toJSONString(docBean)); baseSearchService.update(docBean); 代码先通过表id 获取对应ES文档,然后赋值 执行更新数据操作 这块

    2024年03月25日
    浏览(41)
  • S7-1200PLC Modbus通信踩坑记录

    先放结论,两个大坑: 1.数据地址加4万或40万,来帮助PLC确定Modbus功能代码; 2.和某些设备通信时,需要给数据地址+1。 本文内容 :帮读者找到通信失败的原因,不是完整的教程。 硬件设备 :CPU1212C,485通信模块CM1241,Modbus从机(比如变送器,变频器)。 编程软件 :TIA P

    2024年02月04日
    浏览(34)
  • 关于集群分布式torchrun命令踩坑记录(自用)

    在训练或者微调模型的过程中,单节点的显存溢出,或者单节点的显卡较少,算力有限。需要跨节点用多个节点多块显卡来运行这项任务。这里就需要使用分布式命令,将这项任务分布到多个节点上来处理。 在此我仅记录我在运行分布式过程中遇到的一些问题。 首先,对于

    2024年02月12日
    浏览(30)
  • ES集群磁盘I/O异常修复

    用户在例行巡检过程发现es有data节点处于停止状态,进行启动后,页面进度条显示绿色已完成,但实际进程启动失败了。 排查节点日志,发现不能访问数据路径,报错关键内容如下: Unable to access ‘path.data’ (/mnt/elasticsearch/slave/data)…… 检查挂载磁盘, df -Th 或 lsblk -f 发现磁

    2024年02月06日
    浏览(23)
  • VirtualBox Ubuntu无法安装增强功能以及无法复制粘贴踩坑记录

    在VirtualBox安装增强功能想要和主机双向复制粘贴,中间查了很多资料,终于是弄好了。记录一下过程,可能对后来人也有帮助,我把我参考的几篇主要的博客都贴上来了,如果觉得我哪里讲得不清楚的,可以去对应的博客去看,讲得更加详细。 报错:未能加载虚拟光盘…到

    2024年02月14日
    浏览(34)
  • docker容器中快速部署ES集群的详细操作步骤(6个节点)

    ElasticSearch集群 1.集群原理 ElasticSearch是天生支持集群的,他不需要依赖其他的服务发现和注册的组件,如zookeeper这些,因为他内置了一个名字叫ZenDiscovery的模块,是ElasticSearch自己实现的一套用于节点发现和选主等功能的组件,所以ElasticSearch做起集群来非常简单,不需要太多

    2024年02月09日
    浏览(35)
  • 踩坑记录:xorm的sql()函数后无法使用FindAndCount()

    懒省事想用 sql 写个有连表操作的分页查询语句,看到 xorm 中 sql 要和代码紧密纠缠在一起就不爽,所有就想用 xorm 中的 session.SQL(sql).Limit(size, offset).FindAndCount() 方法解决。不曾想。。。 ??? 这里是直接将 sql 语句赋值给 RawSQL 了 FindAndCount() 方法调用的 Find() 方法没问题,直

    2024年02月15日
    浏览(43)
  • 【踩坑日志】SpringBoot读取nacos配置信息并提取信息中的IP地址(配置属性解析异常+排错记录)

    缘起 :项目需读取nacos中动态的TDengine数据库连接信息并提取IP,一个并不复杂的操作,但作为一个nacos知识浅薄的菜鸡,我愣是捯饬了几个小时……惭愧惭愧…… 异常代码 报错信息 报错核心: Injection of autowired dependencies failed; nested exception is java.lang.IllegalArgumentException: Coul

    2024年01月19日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包