Flink - checkpoint Failure reason: Not all required tasks are currently running

这篇具有很好参考价值的文章主要介绍了Flink - checkpoint Failure reason: Not all required tasks are currently running。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

问题:任务正常运行,但是一直没有触发检查点,或者检查点失败各task检查点进度为0,手动触发检查点报错。

原因:任务有两个source,source1 运行几秒后相应的task 变为finished 状态,而存储 checkpoint 需要所有 task 处于 Running 状态。虽然无法存储 checkpoint ,但是不会影响任务的执行,所以没有曝出error信息。

解决:修改自定义source1 中重写的 run() 方法,加上while(true) 使source 保持running 状态。

附:

Flink Checkpoint 流程与原理

主要内容:

  1. 预检查,比如检查最大并发的 Checkpoint 数,最小的 Checkpoint 之间的时间间隔。默认情况下,最大并发的 Checkpoint 数为 1,最小的 Checkpoint 之间的时间间隔为 0.

  1. 判断所有 Source 算子的 Subtask (Execution) 是否都处于运行状态,同时检查所有待确认的算子的 SubTask(Execution)是否是运行状态,非running 状态报错。

  1. 创建 PendingCheckpoint,同时为该次 Checkpoint 创建一个 Runnable,即超时取消线程,默认 Checkpoint 十分钟超时。

  1. 循环遍历所有 Source 算子的 Subtask(Execution),最底层调用 Task 的triggerCheckpointBarrier, 广播 CheckBarrier 到下游 ,同时 Checkpoint 其状态。

  1. 下游的输入中有 CheckpointBarrierHandler 类来处理 CheckpoinBarrier,然后会调用 notifyCheckpoint 方法,通知 Operator SubTask 进行 Checkpoint。

  1. 每当 Operator SubTask 完成 Checkpoint 时,都会向 CheckpointCoordoritor 发送确认消息。CheckpointCoordinator 的 receiveAcknowledgeMessage 方法会进行处理。

  1. 在一次 Checkpoint 过程中,当所有从 Source 端到 Sink 端的算子 SubTask 都完成之后,CheckpointCoordoritor 会通知算子进行 notifyCheckpointCompleted 方法。

参考:https://blog.csdn.net/u013474436/article/details/122204110文章来源地址https://www.toymoban.com/news/detail-626496.html

到了这里,关于Flink - checkpoint Failure reason: Not all required tasks are currently running的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ES删除索引问题 【Wildcard expressions or all indices are not allowed】

    ES 执行操作 DELETE /dmtv_20230415* 出现一下问题 问题解决: Elasticsearch文档说: 删除索引 API 也可以应用于多个索引,方法是使用逗号分隔列表,或者使用 _all 或 *as 索引应用于所有索引(小心!)。 为了禁用允许通过通配符或 _all 删除索引,请将配置中的 action.destructive_require

    2024年02月05日
    浏览(41)
  • 已解决ERROR: pip‘s dependency resolver does not currently take into account all the packages that are i

    已解决(pip安装ddddocr验证码识别模块报错)ERROR: pip’s dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts. scipy 1.7.3 requires numpy1.23.0,=1.16.5, but you have numpy 1.23.5 which is incompatible. 粉丝群里面的一个粉丝想用

    2024年02月19日
    浏览(48)
  • upstream connect error or disconnect/reset before headers.reset reason:connection failure,transport

    upstream connect error or disconnect/reset before headers.reset reason:connection failure,transport failure reason:TLS error:268435581:SSL routines:OPENSSL_internal:CERTIFICATE_VERIFY_FAILED 这个问题的原因是 SSL 证书验证失败,可能是证书过期、证书不受信任、证书链不完整等原因导致的。可以采取以下步骤进行定位:

    2024年02月06日
    浏览(45)
  • Elasticsearch exception [type=search_phase_execution_exception, reason=all shards failed]

    Elasticsearch exception [type=search_phase_execution_exception, reason=all shards failed] 今天在做项目遇到这个问题,Es那边出现了问题,谷粒商城去Es中查数据的时候,根据品牌id去查询数据报错。   {\\\"error\\\":{\\\"root_cause\\\":[{ \\\"type\\\":\\\"query_shard_exception\\\",\\\"reason\\\":\\\"failed to create query: {n  \\\"bool\\\" : {n    \\\"fil

    2024年02月02日
    浏览(44)
  • Flink非对齐checkpoint原理(Flink Unaligned Checkpoint)

    为什么提出Unaligned Checkpoint(UC)? 因为反压严重时会导致Checkpoint失败,可能导致如下问题 恢复时间长-服务效率低 非幂等和非事务会导致数据重复 持续反压导致任务加入死循环(可能导致数据丢失,例如超过kafka的过期时间无法重置offset) UC的原理 UC有两个阶段(UC主要是

    2024年02月14日
    浏览(50)
  • 【flink】Checkpoint expired before completing. 使用flink同步数据出现错误Checkpoint expired before completing.

    任务超时了: 重新把任务配置参数,配置如下: 或者修改 flink的 配置文件flink-conf.yaml 

    2024年02月12日
    浏览(51)
  • Flink: checkPoint

    依据1.17.1 最新版本的内容研究下期运作原理,总的来说其实就是设置一些参数,这些参数就会影响到如何存储checkpoint的问题.用起来没什么难的,参数配置的组合到是挺多cuiyaonan2000@163.com 参考资料: Checkpointing | Apache Flink State Backends | Apache Flink Flink 中的每个方法或算子都能够是 有

    2024年02月12日
    浏览(36)
  • Flink本地checkpoint测试

    在本地IDEA测试中,使用本地文件存储系统,作为checkpoint的存储系统,将备份数据存储到本地文件中,作业停止后,从本地备份数据启动Flink程序。 主要分为两步: 1)备份数据 2)从备份数据启动 备份数据的配置,和使用HDFS文件体统类似,只不过路径填写成本地文件系统的

    2024年02月15日
    浏览(45)
  • 【论文阅读】One For All: Toward Training One Graph Model for All Classification Tasks

    会议: 2024-ICLR-UNDER_REVIEW 评分:6,6,6,10 作者:Anonymous authors 文章链接:ONE FOR ALL: TOWARDS TRAINING ONE GRAPHMODEL FOR ALL CLASSIFICATION TASKS 代码链接:ONE FOR ALL: TOWARDS TRAINING ONE GRAPHMODEL FOR ALL CLASSIFICATION TASKS  设计一个能够解决多个任务的模型是人工智能长期发展的一个目标。最近,

    2024年01月18日
    浏览(52)
  • Flink 学习八 Flink 容错机制 & checkpoint & savepoint

    https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/concepts/stateful-stream-processing/ 上一节讲述 状态后端 ;Flink是一个 带状态stateful 的数据处理系统,在处理数据的过程中,各个算子的记录的状态会随着算子处理的状态而改变 ; 状态后端 负责将状态保存在内存或外部持久化存储中 (内存

    2024年02月09日
    浏览(79)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包