如何处理 Flink 作业频繁重启问题？

9月前作者：学一次分类：Toy博客阅读(38) 违法举报

这篇具有很好参考价值的文章主要介绍了如何处理 Flink 作业频繁重启问题？。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

分析&回答

Flink 实现了多种重启策略

固定延迟重启策略（Fixed Delay Restart Strategy）
故障率重启策略（Failure Rate Restart Strategy）
没有重启策略（No Restart Strategy）
Fallback重启策略（Fallback Restart Strategy）

反思&扩展

Flink支持不同的重启策略，以在故障发生时控制作业如何重启
默认的重启策略：如果没有启用 checkpointing，则使用无重启 (no restart) 策略。如果启用了 checkpointing，但没有配置重启策略，则使用固定间隔 (fixed-delay) 策略
如果在工作提交时指定了一个重启策略，该策略会覆盖集群的默认策略默认的重启策略可以通过 Flink 的配置文件 flink-conf.yaml 指定。配置参数 restart-strategy 定义了哪个策略被使用。
常用的重启：
1. 策略固定间隔 (Fixed delay)
2. 失败率 (Failure rate)
3. 无重启 (No restart)
重启策略可以在flink-conf.yaml中配置，表示全局的配置。也可以在应用代码中动态指定，会覆盖全局配置

喵呜面试助手：一站式解决面试问题，你可以搜索微信小程序 [喵呜面试助手] 或关注 [喵呜刷题] -> 面试助手 免费刷题。如有好的面试知识或技巧期待您的共享！文章来源地址https://www.toymoban.com/news/detail-686850.html

到了这里，关于如何处理 Flink 作业频繁重启问题？的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

说说FLINK细粒度滑动窗口如何处理

Flink的窗口机制是其底层核心之一，也是高效流处理的关键。Flink窗口分配的基类是WindowAssigner抽象类，下面的类图示出了Flink能够提供的所有窗口类型。 Flink窗口分为滚动（tumbling）、滑动（sliding）和会话（session）窗口三大类，本文要说的是滑动窗口。下图示出一个典型的统

2024年02月10日
浏览(37)
Flink之Task重启策略

Task重启策略 1 策略API noRestart 无参数,task失败后不重启,整个job同时失败,默认策略. 代码示例 fixedDelayRestart 参数注释 restartAttempts 最大重启次数 delayBetweenAttempts 重启时间间隔代码示例 exponentialDelayRestart 参数注释 initialBackoff 重启间隔惩罚时长初始值(重启延迟时间) maxBackoff 重

2024年02月03日
浏览(37)
flink kafka消费者如何处理kafka主题的rebalance

我们日常使用kafka客户端消费kafka主题的消息时，当消费者退出/加入消费者组，kafka主题分区数有变等事件发生时，都会导致rebalance的发生，此时一般情况下，如果我们不自己处理offset，我们不需要理会这个rebalance的，当rebalance完成后，每个消费者会从__consumer_offsets中获取每个

2024年02月14日
浏览(35)
现场问题排查-k8s（docker）上某服务pod频繁自动重启

根因：应用内存占用不合理（个人认为）+现场配置内存不够导致频繁触发OOM引发该现象。为啥要写这个文章？之前没有k8s下pod频繁重启的问题处理经验，这次实战沉淀思路及过程，供后续自己处理相同问题提供参考资料为其他遇到类似问题的人提供一些排查思路现场反馈

2024年02月03日
浏览(39)
Flink流批一体计算（3）：FLink作业调度

架构所有的分布式计算引擎都需要有集群的资源管理器，例如：可以把MapReduce、Spark程序运行在YARN集群中、或者是Mesos中。Flink也是一个分布式计算引擎，要运行Flink程序，也需要一个资源管理器。而学习每一种分布式计算引擎，首先需要搞清楚的就是：我们开发的分布式应用

2024年02月10日
浏览(45)
【flink】使用flink-web-ui提交作业报错

使用WebUI提交作业出现错误。错误截图：弹框信息：在弹框中是无法看到具体错误信息的。需要去 job-manager/logs中看详细信息： Failed to create checkpoint storage at checkpoint coordinator side 无法在检查点协调器端创建检查点存储怎么还没有办法创建呢？？？？看一下我的StateBa

2024年02月14日
浏览(50)
flink作业提交流程

目录作业提交流程独立模式 YARN模式会话模式单作业模式应用模式（1）一般情况下，由客户端（App）通过分发器提供的 REST 接口，将作业提交给JobManager。（2）由分发器启动 JobMaster，并将作业（包含 JobGraph）提交给 JobMaster。（3）JobMaster 将 JobGraph 解析为可执行的 Exec

2024年02月12日
浏览(40)
Flink｜《Flink 官方文档 - 部署 - 命令行界面 - 提交 PyFlink 作业》学习笔记

学习文档：《Flink 官方文档 - 部署 - 命令行界面 - 提交 PyFlink 作业》学习笔记如下：当前，用户可以通过 CLI 提交 PyFlink 作业。对于通过 flink run 提交的 Python 作业，Flink 会执行 python 命令。因此，在启动 Python 作业前，需要先确定当前环境中的 python 命令指向 3.7+ 版本的 Pyt

2024年02月22日
浏览(63)
记一次 Flink 作业启动缓慢

应用发现，Hadoop集群的hdfs较之前更加缓慢，且离线ELT任务也以前晚半个多小时才能跑完。此前一直没有找到突破口所以没有管他，推测应该重启一下Hadoop集群就可以了。今天突然要重启一个Flink作业，发现有一个过程卡了五分钟。由上图可知09:36到09:41这两个过程中间花了五

2024年02月21日
浏览(45)
Flink 中kafka broker缩容导致Task一直重启

Flink版本 1.12.2 Kafka 客户端 2.4.1 在公司的Flink平台运行了一个读Kafka计算DAU的流程序，由于公司Kafka的缩容，直接导致了该程序一直在重启，重启了一个小时都还没恢复（具体的所容操作是下掉了四台kafka broker，而当时flink配置了12台kafka broker），当时具体的现场如下：当时Fl

2024年02月07日
浏览(48)