Flink 消费Kafka每日不定时积压(非重启不能解决)问题排查解决

这篇具有很好参考价值的文章主要介绍了Flink 消费Kafka每日不定时积压(非重启不能解决)问题排查解决。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 背景

        接手了一个问题排查的工作,有个Flink任务每天不定时会出现数据积压,无论是白天还是数据量很少的夜里,且积压的数据量会越来越多,得不到缓解,只能每日在积压告警后重启,重启之后消费能力一点毛病没有,积压迅速缓解,然而,问题会周而复始的出现,无论是周末还是节假日,忍不了

2. 现象

        1. 当积压时,最明显的是kafka积压不断升高

Flink 消费Kafka每日不定时积压(非重启不能解决)问题排查解决

         2. Flink ProcessFunction(主要处理逻辑)中多个代码块处理时间变长

        为了定位问题,在processFunction多个代码块加了处理时间的计算,结果发现,无论是简单的json处理部分还是与外部Redis,Mysql交互部分,都会有执行时间久的记录,另外这个任务Sink的地方是神策接口,接口设置的有超时时间,所以也会看到很多Sink TimeOut的记录

Flink 消费Kafka每日不定时积压(非重启不能解决)问题排查解决

2. 解决历程

        1. 调整读取kafka消息数量

ConsumerConfig.MAX_POLL_RECORDS_CONFIG,"300"

        2.调整Sink端接口的超时时间等

        3. 调整任务资源

上面三个调整,前面两个没啥用,后面这个任务由原来一天一次不定时积压变成了2-3天积压

问题还是要解决的,彻底解决的

其实一直没找到真正的原因

后面发现了,当任务积压时,TaskManager所在的机器CPU会突然升高,且一直持续,直到任务重启

Flink 消费Kafka每日不定时积压(非重启不能解决)问题排查解决

 好吧,这里就是最终的决赛场了

3. 问题解决

接下来就是分析CPU升高的原因,可以参考另外一篇博客线上java程序CPU占用过高问题排查_vioao的博客-CSDN博客_java程序cpu占用过高

去查看任务pid的一些相关信息,这里放两张图

Flink 消费Kafka每日不定时积压(非重启不能解决)问题排查解决

Flink 消费Kafka每日不定时积压(非重启不能解决)问题排查解决

这么频繁的FGC,那问题就很明显了,FGC的时候,CPU升高,对应代码里CPU片段走到哪就停到哪,然后这一块的执行时间就变成,有的是5s,有的是15s

最后就是分析频繁FGC的原因,从上面第一张图也大概能看出来,ResultSetImpl是执行Mysql查询结果返回的对象类型,为了问题的排查,还是借助一下专业的工具

把内存文件dump下来分析一下

Flink 消费Kafka每日不定时积压(非重启不能解决)问题排查解决

 排查代码,发现与外部Mysql交互的时候,前面开发的同学大意,没做close,好吧,加上吧。

finally {
			if (rs != null) {
				try {
					rs.close();
				} catch (SQLException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				}
			}
			if (prepStatement != null) {
				try {
					prepStatement.close();
				} catch (SQLException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				}
			}
			if (conn != null) {
				try {
					conn.close();
				} catch (SQLException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				}
			}
		}

太不容易了,这么一个小问题折磨了前面同事这么久,到此结束。文章来源地址https://www.toymoban.com/news/detail-490478.html

到了这里,关于Flink 消费Kafka每日不定时积压(非重启不能解决)问题排查解决的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 使用javaApi监控 kafka 集群的环境下消费组的积压信息

    需求:提供一个能够监控 kafka 集群的环境下消费组的积压信息。当某个消费组积压的信息超过设定的阈值的时候,程序主动告警提醒。 难点: 集群环境,有多个机器。 每个机器上存在多个主题,多个消费组。 使用javaapi查询 思路: 1。先获取集群环境下某台机子下的所有主

    2024年02月12日
    浏览(13)
  • 【Kafka每日一问】Kafka消费者故障,出现活锁问题如何解决?

    在Kafka中,消费者的“活锁”通常是指消费者实例持续失败并重新加入消费者组,但却始终无法成功处理消息。这种现象可能会导致消费者组不断触发重平衡(rebalance),而消息却没有被实际消费。以下是一些解决或缓解活锁问题的策略: 1. 优化消息处理逻辑 消费者可能由于

    2024年01月20日
    浏览(24)
  • Kafka系列之:记录一次Kafka Topic分区扩容,但是下游flink消费者没有自动消费新的分区的解决方法

    生产环境Kafka集群压力大,Topic读写压力大,消费的lag比较大,因此通过扩容Topic的分区,增大Topic的读写性能 理论上下游消费者应该能够自动消费到新的分区,例如flume消费到了新的分区,但是实际情况是存在flink消费者没有消费到新的分区 出现无法消费topic新的分区这种情况

    2024年02月14日
    浏览(24)
  • Kafka 消息不能正常消费问题排查

    事情的起因是用户在 app 上查不到订单了,而订单数据是从 mysql 的 order_search 表查询的,order_search 表的数据是从 oracle 的 order 表同步过来的,查不到说明同步有问题 首先重启,同步数据,问题解决,然后查找原因。首先看日志,有如下两种情况 有的容器消费消息的日志正常

    2024年01月18日
    浏览(22)
  • kafka千万级数据积压原因以及解决方案

    一、原因 kafka作为消息队列,其中数据积压也是经常遇到的问题之一。 我们都知道,数据积压的直接原因,一定是系统中的某个部分出现了性能问题,来不及处理上游发送的数据,才会导致数据积压。 那么我们就需要分析在使用kafka时,如何通过优化代码以及参数配置来最大

    2024年02月12日
    浏览(31)
  • kafka(五)大数量消息持续积压几个小时如何解决

          发生了线上故障,几千万条数据在 MQ 里积压很久。是修复 consumer 的问题,让他恢 复消费速度,然后等待几个小时消费完毕?这是个解决方案。不过有时候我们还会进行临时 紧急扩容。        一个消费者一秒是 1000 条,一秒 3 个消费者是 3000 条,一分钟是 18 万条。

    2024年02月13日
    浏览(21)
  • flink正常消费kafka数据,flink没有做checkpoint,kafka位点没有提交

    1、背景 flink消费kafka数据,多并发,实现双流join 2、现象 (1)flink任务消费kafka数据,其中数据正常消费,kafka显示消息堆积,位点没有提交,并且flink任务没有做checkpoint (2)其中一个流的subtask显示finished (3)无背压 3、问题原因 (1)其中一个topic分区为1 (2)配置的并行

    2024年02月13日
    浏览(21)
  • springboot 消费kafka 定时拉取固定条数

    springboot消费kafka,频率限制 背景 上游预警信息发送到kafka,springboot消费后,进行推送到企业微信机器人。 企微机器人有个限制,每分钟最多20条,其余被丢掉。 两种方案 1 消费kafka时,控制速度,每分钟去拉取一次,每次拉取2条 2 直接消费kafka后,存表,每分钟的定时任务

    2023年04月17日
    浏览(12)
  • Flink 中kafka broker缩容导致Task一直重启

    Flink版本 1.12.2 Kafka 客户端 2.4.1 在公司的Flink平台运行了一个读Kafka计算DAU的流程序,由于公司Kafka的缩容,直接导致了该程序一直在重启,重启了一个小时都还没恢复(具体的所容操作是下掉了四台kafka broker,而当时flink配置了12台kafka broker),当时具体的现场如下: 当时Fl

    2024年02月07日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包