Kafka如何解决消息丢失的问题

这篇具有很好参考价值的文章主要介绍了Kafka如何解决消息丢失的问题。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在 Kafka 的整个架构中可以总结出消息有三次传递的过程:

  1. Producer 端发送消息给 Broker 端
  2. Broker 将消息进行并持久化数据
  3. Consumer 端从 Broker 将消息拉取并进行消费

在以上这三步中每一步都可能会出现丢失数据的情况, 那么 Kafka 到底在什么情况下才能保证消息不丢失呢?

Producer 端丢失

Producer 端为了提升发送效率,减少 IO 操作,发送消息的时候是将多个请求异步发送出去,所以 Producer 端消息丢失更多是因为消息根本就没有发送到 Broker 端。

导致 Producer 端没有发送消息成功的有以下原因:

  • 网络原因:由于网络抖动导致数据没发到 Broker 端
  • 数据原因:消息体太大超出 Broker 承受范围导致 Broker 拒收消息

解决方案

Producer 端数据丢失是因为通过异步的方式进行发送的,所以如果此时使用发后即焚的方式发送,即调用 Producer.send(msg) 会立即返回,由于没有回调,可能因网络原因导致 Broker 并没有收到消息,此时就丢失了。

因此可以从以下几方面进行解决 Producer 端消息丢失问题:

  • 使用带回调通知函数的方法进行发送消息
  • ACK 确认机制
  • 重试次数

Producer 端通过 ACK 配置来确认消息是否生产成功,配置参数如下:

  • 0:由于发送后就自认为发送成功,这时如果发生网络抖动,会造成数据丢失
  • 1:消息发送 Leader 分区并接收成功就表示发送成功,只要 Leader 分区不挂掉,就可以保证数据不丢数据,但是如果 Leader 分区挂掉了,Follower 分区还未同步完数据且没有 ACK,这时就会丢数据
  • -1 或者 all: 消息发送需要等待 ISR 中 Leader 分区和所有的 Follower 分区都确认收到消息才算发送成功, 可靠性最高,但也不能保证不丢数据,比如:当 ISR 中只有 Leader 分区, 这样就变成 acks = 1 的情况了

Broker 端丢失

Broker 接收到数据后会将消息进行持久化到磁盘存储,为了提高吞吐量和性能,采用的是异步批量刷盘的策略,也就是说按照一定的消息量和间隔时间进行刷盘。

首先会将数据存储到 PageCache 中,至于什么时候将 Cache 中的数据刷盘是由操作系统根据自己的策略决定或者调用 fsync 命令进行强制刷盘。如果在同步到 Follower 分区前 Broker 宕机掉,且选举了一个新的 Leader 分区,那么落后的消息数据就会丢失。

既然 Broker 端消息存储是通过异步批量刷盘的,那么就有可能会丢数据。由于 Kafka 中并没有提供同步刷盘的方式,所以单个 Broker 还是很有可能丢失数据的。

kafka 通过多分区多副本机制已经可以最大限度的保证数据不丢失,如果数据已经写入 PageCache 中但是还没来得及刷写到磁盘,此时如果所在 Broker 突然宕机挂掉或者停电,极端情况还是会造成数据丢失。

解决方案

Broker 端丢失消息是因为通过异步批量刷盘的策略,先将数据存储到 PageCache,再进行异步刷盘。

因此 Kafka 是通过多分区多副本的方式来最大限度的保证数据不丢失。可以通过以下参数配合来保证:

  • unclean.leader.election.enable:该参数表示有哪些 Follower 可以有资格被选举为 Leader , 如果一个 Follower 的数据落后 Leader 太多,那么一旦它被选举为新的 Leader, 数据就会丢失,因此我们要将其设置为false,防止此类情况发生。
  • replication.factor:该参数表示分区副本的个数。建议设置 replication.factor >=3, 这样如果 Leader 副本挂掉,Follower 副本会被选举为新的 Leader 副本继续提供服务。
  • min.insync.replicas:该参数表示消息至少要被写入成功到 ISR 多少个副本才算”已提交”,建议设置min.insync.replicas > 1, 这样才可以提升消息持久性,保证数据不丢失。

另外还需要确保一下 replication.factor > min.insync.replicas,如果相等,只要有一个副本挂掉,整个分区就无法正常工作了,因此推荐设置成: replication.factor = min.insync.replicas +1, 最大限度保证系统可用性。

Consumer 端丢失

消息消费流程主要分为两个阶段:

  • 从 Broker 上拉取数据
  • 处理消息,并提交 Offset 记录

Consumer 拉取后消息后需要提交 Offset, 那么这里就可能会丢数据的。丢失原因如下:

  • 可能使用的自动提交 Offset 方式
  • 拉取消息后先提交 Offset,后处理消息,如果此时处理消息的时候异常宕机,由于 Offset 已经提交了, 待 Consumer 重启后,会从之前已提交的 Offset 下一个位置重新开始消费, 之前未处理完成的消息不会被再次处理,对于该 Consumer 来说消息就丢失了。
  • 拉取消息后先处理消息,在进行提交 Offset, 如果此时在提交之前发生异常宕机,由于没有提交成功 Offset, 待下次 Consumer 重启后还会从上次的 Offset 重新拉取消息,不会出现消息丢失的情况, 但是会出现重复消费的情况,这里只能业务自己保证幂等性。

解决方案

Consumer 端丢失消息是因为在拉取完消息后提交 Offset 造成的,因此为了不丢数据,正确的做法是:拉取数据、业务逻辑处理、提交消费 Offset 位移信息。

同时还需要设置参数 enable.auto.commit = false,采用手动提交位移的方式。另外对于消费消息重复的情况,业务自己保证幂等性, 保证只成功消费一次即可。文章来源地址https://www.toymoban.com/news/detail-653289.html

到了这里,关于Kafka如何解决消息丢失的问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Kafka 如何保证消息不丢失

    1.1 丢失原因: kafka生产端异步发送消息后,不管broker是否响应,立即返回,伪代码producer.send(msg),由于网络抖动,导致消息压根就没有发送到broker端; kafka生产端发送消息超出大小限制,broker端接到以后没法进行存储; 1.2 解决方案: 1、生产者调用异步回调消息。伪代码如

    2024年02月13日
    浏览(48)
  • kafka消息丢失解决方案

    目录 一、生产端数据丢失 二、存储端消息丢失 三、消费端数据丢失 四、小结 一条消息从生产到消费完成这个过程,可以划分三个阶段,为了方便描述,我给每个阶段分别起了个名字。 生产阶段: 在这个阶段,从消息在 Producer 创建出来,经过网络传输发送到 Broker 端。 存储

    2023年04月26日
    浏览(40)
  • kafka消息丢失面试题,RocketMQ消息丢失场景及解决办法

    互联网行业更新换代非常快,行业常态便是不断学习,因此这些主流技术你一个都不能落下! ①并发编程 Java并发编程是整个Java开发体系中最难以理解,但也是最重要的知识点之一,因此学习起来比较费劲,从而导致很多人望而却步,但是无论是职场面试还是高并发高流量的

    2024年03月17日
    浏览(45)
  • 2023-07-10:Kafka如何做到消息不丢失?

    2023-07-10:Kafka如何做到消息不丢失? 答案2023-07-10: Kafka采用多种机制来确保消息的不丢失,其中包括副本机制、ISR(In-Sync Replicas)机制以及ACK机制等。 1.副本机制 Kafka通过副本机制来确保消息不会丢失。在Kafka中,每个分区都可以配置多个副本,每个副本保存分区的完整拷

    2024年02月15日
    浏览(41)
  • [kafka消息生产被阻塞] - 如何解决Kafka生产者阻塞的问题

    [kafka消息生产被阻塞] - 如何解决Kafka生产者阻塞的问题 Kafka是一个高度可扩展的分布式流平台,用于构建实时数据管道和流处理应用程序。作为一个广泛使用的消息代理系统,Kafka在数据传输方面表现出色,但是在极端情况下,它可能会出现生产者阻塞的问题。这可能会导致

    2024年02月11日
    浏览(49)
  • Kafka消息丢失:原因、解决方案和零丢失的配置

    在使用Apache Kafka作为分布式消息系统时,消息丢失是一种常见的问题。消息丢失可能会导致数据不一致或功能故障,因此对于许多应用程序来说是不可接受的。本文将介绍Kafka消息丢失的原因、解决方案以及如何配置Kafka以实现零丢失。 Kafka消息丢失可能由多种原因引起。下面

    2024年02月13日
    浏览(34)
  • 一线大厂面试真题-Kafka如何保证消息不丢失

    目录 问题解答 面试点评 (如图) kafka 是 一个用来实现异步消息通信的中间件,它的整个架构由Producer、 Consumer 、 Broker组成。 所以,对于 kafka 如 何保证消息不丢失这个问题,可以从三个方面来考虑和实现 : 首先 是Producer端,需要确保消息能够到达Broker并实现消息存储,在这

    2024年02月01日
    浏览(61)
  • 一文彻底搞懂Kafka如何保证消息不丢失

    Producer:生产者,发送消息的一方。生产者负责创建消息,然后将其发送到 Kafka。 Consumer:消费者,接受消息的一方。消费者连接到 Kafka 上并接收消息,进而进行相应的业务逻辑处理。 Consumer Group:将多个消费者组成一个消费者组,一个消费者组可以包含一个或多个消费者。

    2024年04月22日
    浏览(43)
  • 94、Kafka消息丢失的场景及解决方案

    1、ack=0,不重试 producer发送消息完,不管结果了,如果发送失败也就丢失了。 2、ack=1,leader crash producer发送消息完,只等待 leader 写入成功就返回了,leader crash了,这时follower没来及同步,消息丢失, 3、unclean .leader .election .enable 配置true 允许选举ISR以外的副本作为leader,会导

    2024年02月16日
    浏览(45)
  • Spring-Kafka如何实现批量消费消息并且不丢失数据

    先给答案: 某个业务对象由多张表关联而成,要创建该对象需要向多张表插入数据,基于canal的监控就会有多次该对象的变更记录,而Kafka消费的时候也会多次处理同一个对象(虽然不同表,但是同一个对象的不同部分),原有的Kafka消费者是一次处理一条,这将造成重复对同

    2024年02月13日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包