Elasticsearch:解决并发写入导致版本冲突异常version_conflict_engine_exception

这篇具有很好参考价值的文章主要介绍了Elasticsearch:解决并发写入导致版本冲突异常version_conflict_engine_exception。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

「问题描述:」


     数据同步中,在使用阿里云Elasticsearch7.10.0版本的集群作为目标数据源时,在连续写入同一文档(document)出现版本冲突问题。

注意:以下所述均以阿里云7.10.0版本的Elasticsearch集群为前提(不同版本可能会稍有不同)

「异常信息:」


      以生产环境的错误日志信息为例:

ElasticsearchStatusException[Elasticsearch exception [type=version_conflict_engine_exception,

reason=[2738052]: version conflict, required seqNo [3628871], primary term [14]. current document has seqNo [3629907] and primary term [14]]]

    当Elasticsearch在写入或者删除的时候出现错误version_conflict_engine_exception时,表示当前写入或删除存在版本冲突。此时,status为409.

注意:在异常信息中返回的信息中,存在两个名词,它们的名称和含义分别是(新版本中会建议我们使用):

_seq_no:文档版本号,作用同_version。

_primary_term:文档所在位置。

「版本冲突的实质:」


     理解版本冲突的实质,首先要理解elasticsearch的写入流程:Elasticsearch之图解写入流程    

     一般我们在更新文档时,主要的操作流程是:读取文档->修改->提交保存。数据中心等保存的都是最新一次提交的内容。

    正常来说没什么问题,但是如果两个或者更多的请求并发修改同一个文档时,很容易产生冲突。如果按照先后顺序,则最后被处理的请求可能覆盖首先被处理的请求作出的操作和变更,从而导致其数据变更丢失(最后被处理的请求也不一定是最后发起的,可能会受到网络传输等因素影响)。

    在并发冲突的时候,我们有常用的两种策略:

1.悲观锁并发策略:

        在关系型数据库中,通过阻塞并排队的方式,来避免发生冲突。例如在读取数据时阻塞,来保证正在修改行数据的请求完成正常操作后,能够读取到最新的数据。这种方式的前提假设是数据冲突更有可能发生。

优点:方便,直接加锁,对应用程序来说透明,不需要额外的操作。

缺点:并发能力很低,同一时间只有一条线程操作数据。

2.乐观锁并发策略:

        乐观锁假设多用户并发的事务在处理时不会互相影响,各事务能够在不产生锁的情况下处理各自影响的那部分数据,在提交数据更新之前,每个事务会先检查在该事务读取数据后,有没有其他事务又修改了该数据。如果其它事务有更新的话,正在提交的事务会进行回滚。相对于悲观锁,在对数据库进行处理的时候,乐观锁并不会使用数据库提供的锁机制。一般实现乐观锁的方式就是记录数据版本

        数据版本是为数据增加一个版本标识,当读取数据时,将版本标识的值一同读出数据每更新一次,同时对版本标识进行更新。当我们提交更新的时候,判断数据库表对应记录的当前版本信息与第一次取出来的版本标识进行比对,如果数据库表当前版本号与第一次取出来的版本标识值相当,则予以更新,否则认为是过期数据。

实现数据版本有两种方式,第一种是使用版本号,第二种是使用时间戳。

优点:并发能力很高,不给数据加锁,可以进行大量线程并发操作。

缺点:麻烦,每次更新的时间都要先比对版本号,然后可能需要重新加载数据,再次修改,再写;这个过程可能要重复好几次。

Elasticsearch中采用的是乐观锁的并发策略,这种方式的前提假设是数据冲突一般不会发生,从而避免阻塞数据请求。然而,在读和写之间,如果数据发生改变,更新就失败了,然后由程序决定如何进行后续的处理。

3.Elasticsearch 内部如何基于_version进行乐观锁并发控制:

    Elasticsearch的修改,如果没有带上version的时候,直接替换原来的文档,没有查询过程,多线程操作,不区分执行的先后顺序。这时候Elasticsearch并不阻止别的线程修改这条数据,极大的可能会出现数据回流或数据覆盖。

    Elasticsearch是分布式的,文档的创建/变更等都会同步到其他节点。由于其异步性和并发的特点,这些同步请求都是并行的,因此并不能保证数据是按照修改顺序依次到达的。Elasticsearch保证了一个老版本的数据永远无法重写或覆盖新版本的数据。

        在index get 和 delete 请求中,都存在一个_version 字段。数据的变更会导致_version的值递增。第一次创建一个document的时候,它的_version内部版本号就是1;以后,每次对这个document执行修改或者删除操作,都会对这个_version版本号自动加1。哪怕是删除,也对这条数据的版本号加1。

    其实,每次删除一个document并不是立即进行物理删除的,因为它的一些版本号信息还保留着,比如先删除一条document,再重新创建这条document,会发现新建的这条document的_version版本号的值取自删除时_version的值再加1.

具体demo:ElasticSearch如何处理并发冲突

「解决方案:」


方案一:retry策略

    retry策略,Elasticsearch再次获取document数据和最新版本号,成功就更新,失败再试;比如,设置尝试5次更新,retry_on_conflict=5,代表着最大更新5次,5次后不再尝试写入并且抛出异常。需要注意的是,retry策略在增量操作的无关顺序的场景中更适用,比如计数操作,数据写入的先后顺序对最终结果关系不大。其它的一些场景,比如库存的变化,订单的状态,直接更新为指定数值的,retry策略都不适用。除非可以在业务中将数据写入由顺序有关转化成顺序无关,才可以使用retry策略。

方案二:回调写入

    简单粗暴的方式,如果遇到status=409的异常直接回调当前写入方法重新写入,直到写入成功为止。以java代码为例,捕获到的异常为ElasticsearchStatusException。本以为当前方案会对Elasticsearch集群造成一定不良影响,但经过一周的观察,Elasticsearch集群的监控指标(包含GC频次)并无异常,但不能保证在更大的数据量级中不会发生其它异常。

优点:开发成本低,可以解决retry策略无法解决的顺序写入的问题,回调写入方法即可。

缺点:

        1.尝试写入的次数很高,且无法预估在大数据量级中直接回调写入会对集群性能造成何种影响,即使对集群进行扩容升级,也会变相提高成本。

         2.线程消亡或者等待队列溢出会造成数据丢失。

         3.如果当前写入执行了多次的回调写入,那么势必会影响分配到当前线程的其它写入,造成数据延迟,当然也可以通过加大线程池、升级服务器的方式提高性能,但毕竟是治标不治本的方法,一旦产生业务侧不可接受的延迟依然很麻烦。

方案三:延时写入

    直接回调写入会造成更多的版本冲突发生,虽然可以解决问题但依然存在风险。结合对Elasticsearch的写入机制的深入理解,尝试跳出Elasticsearch本身,在业务侧解决Elasticsearch频繁更新同一document时出现的版本冲突异常。

延时写入,见文知意,即将写入请求延迟处理。

一、使用Redis作为中间缓存,将一段时间内的同一document的写入请求缓存,key为documentID,value为变更字段的k-v格式。在这段时间内,后写入的覆盖先写入的,也就是将写入请求合并,只更新一次。

二、将写入失败的数据发送到rocketmq的队列中,按照documentID分区,做延时写入,顺序消费。

优点:1.实现顺序写入,写入频次降低,大大降低并发冲突的发生。

           2.将数据存储在缓存和消息队列,保证数据不会丢失。

缺点:

        1.在本就存在显示延迟的基础上,加大了延迟,具体的延迟指标需要结合集群规格,数据量级等综合考虑。

        2.容易造成消息堆积,如果消费出现异常需要重新消费。

方案四:Redis 外部版本号 + setNx锁 + rocketmq

流程图如下: 

Elasticsearch:解决并发写入导致版本冲突异常version_conflict_engine_exception

        将采集到的binlog写入rocketmq的队列中(多队列),然后并发消费这些数据。使用表名为key,binlogID为value,在每次写入之前校验当前binlogID与Redis中存储的binlogID的大小,作为判断是否同步的条件,之后用Redis的setNx锁,锁住docID,目的是保证并发条件下,同一doc只有一次更新。如果以上两次校验有任何一次发生版本号异常,那么将此条消息原封不动的发送至队尾,并设置延迟消费(延迟级别根据具体情况分析),执行写入方法后catch出版本号异常,如仍存在版本号异常,即同样将消息发送至队列队尾,延迟消费。

        以上简述的方案,虽然不能从根本上解决版本号异常的问题,但是却可以大大减少版本号异常发生的频次,同时也可以降低写入次数,并且当前文档更新的阻塞不会影响后续的数据同步,基本上解决了版本号异常对数据同步造成的堆积延迟。

        目前使用的这种方案,还未出现数据丢失或者延迟过高的情况,集群状态也比较健康。在此方案中,需要注意的是延迟消费的级别与幂等锁的时间(我所使用的延迟消费级别为:2(5s),幂等锁时间:1500ms).

        经过多次时间,以上四种方案中,方案四最为稳妥。如各同僚有更好的方案,或者对文档中的内容有什么疑惑,可以留言或者私信。文章来源地址https://www.toymoban.com/news/detail-479522.html

到了这里,关于Elasticsearch:解决并发写入导致版本冲突异常version_conflict_engine_exception的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【现网】记一次并发冲突导致流量放大的生产问题

    目录 事故现象 转账 业务背景介绍 背景一:转账流程 转账流程 转账异常处理 转账异常处理流程图 背景二:账户系统合并 实际全流程: 背景三:扣内存数据库逻辑 背景四:调用方重试逻辑 问题定位 总结  资料获取方法 生产环境,转账相关请求失败量暴增。 直接原因 现网

    2024年02月14日
    浏览(35)
  • 解决在使用 Elasticsearch(ES)多线程批量操作时导致并发一致性的问题!!

    先说一下什么是数据库数据库中 并发一致性 问题! 1、在并发环境下,事务的隔离性很难保证,因此会出现很多并发一致性问题。 数据丢失 T1 和 T2 两个事务都对一个数据进行修改,T1 先修改,T2 随后修改,T2 的修改覆盖了 T1 的修改。 读脏数据 T1 修改一个数据,T2 随后读取

    2024年02月04日
    浏览(42)
  • docker导致远程主机无法访问,docker网段冲突导致主机网络异常无法访问

    背景:         公司分配的虚拟机是172网段的,在上面部署了docker、docker-compose、mysql、redis,程序用docker-compose管理,也平稳运行了一个多周,某天用FinalShell连主机重启docker容器,忽然断开连接,然后虚拟机就无法远程连接了,公司平台组通过后台连接虚拟机正常,网络正常

    2024年02月06日
    浏览(30)
  • 中间件中防止数据上下文并发导致异常

    在ASP.NET Core中,如果你想在中间件中只使用一个实例的数据库上下文(DbContext),你需要确保这个上下文在整个请求中是可用的,并且中间件在处理请求时能够访问它。以下是如何做到这一点的步骤: 注册DbContext为Scoped : 在Startup.cs的 ConfigureServices 方法中,你需要将你的D

    2024年01月24日
    浏览(32)
  • springboot引入minio导致的okhttp、kotlin的版本冲突问题

    问题背景 项目中需要引入minio,添加了如下依赖 结果运行报错: 解决过程 1. 看到 Unsupported OkHttp library found. Must use okhttp = 4.8.1 ,以为是之前引入的okhttp的版本太低,于是将   okhttp  升到   4.8.1  ,还是报同样错误 2. 上网查了一下,说需要在minio的依赖中排除okhttp依赖,再引

    2024年04月26日
    浏览(22)
  • Elasticsearch 为什么会产生文档版本冲突?如何避免?

    先让大家直观的看到 Elasticsearch 文档版本冲突。 1.1 场景1:create 场景 1.2 场景2:批量更新场景模拟 模拟脚本1:循环写入数据 index.sh。 模拟脚本2:循环update_by_query 批量更新数据 update.sh。 由于:写入脚本 index.sh 比更新脚本 update.sh (执行一次,休眠1秒)执行要快,所以更新

    2023年04月08日
    浏览(32)
  • es-并发写入报错及解决

    众所周知,es经常被用于存储日志数据,其中在某些场景下,日志产生的时机不同,并且需要将多类具备关联关系的日志写入同一个document,就会带来同一个文档可能会被其它文档覆盖,或者missing等问题。 大家都知道es是不支持事务的,同时也不具备像关系型数据库那样可以

    2024年02月02日
    浏览(46)
  • 可能导致balenaEtcher写入出错的原因以及如何解决这些问题

    balenaEtcher是一款流行的免费开源烧录软件,它能够帮助用户将ISO映像文件或者img文件烧录到USB闪存驱动器或SD卡上。尽管balenaEtcher使用简单,但有时候在烧录过程中可能会出现错误。下面是一些可能导致balenaEtcher写入出错的原因以及如何解决这些问题: 1.不正确的映像文件:

    2024年02月05日
    浏览(105)
  • 【问题处理】GIT合并解决冲突后,导致其他人代码遗失的排查

    📕作者简介:战斧,从事金融IT行业,有着多年一线开发、架构经验;爱好广泛,乐于分享,致力于创作更多高质量内容 📗本文收录于 GIT 专栏,有需要者,可直接订阅专栏实时获取更新 📘高质量专栏 云原生、RabbitMQ、Spring全家桶 等仍在更新,欢迎指导 📙Zookeeper Redis ka

    2024年02月08日
    浏览(40)
  • ES 异常写入解决流程

    问题说明 一天下午,在北京客户现场的同学反馈我们elasticsearch出现的大量的异常,他反馈说他使用多线程写入大量数据到elasticsearch集群时,隔一段时间之后就会出现CircuitBreakingException,多尝试几次后,他就把问题反馈到我们这边了 解决思路 1.降低并发度 看到这个问题我首

    2024年02月02日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包