flink执行任务运行10h以后挂掉并且报错

这篇具有很好参考价值的文章主要介绍了flink执行任务运行10h以后挂掉并且报错。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

问题描述

flink运行jar包任务,运行几个小时或者1天以后,任务就会挂掉!!!

第一个错误是

2023-02-01 23:43:08,083 INFO org.apache.flink.runtime.executiongraph.ExecutionGraph [] - Window(TumblingEventTimeWindows(60000), EventTimeTrigger, getHvcDownLine) -> Sink: Unnamed (1/1) (8672ad64cfc4ddce37756e60242432be) switched from RUNNING to FAILED on 11.11.1.102:40227-006cac @ flinkc (dataPort=37255).

java.util.concurrent.TimeoutException: Heartbeat of TaskManager with id 11.11.1.102:40227-006cac timed out.

第二个错误是

2023-02-01 23:43:08,111 INFO org.apache.flink.runtime.executiongraph.ExecutionGraph [] - Job T4301_productDownLine (fef0fb9f856277bc9d9da05df7d63bf6) switched from state FAILING to FAILED.

org.apache.flink.runtime.JobException: Recovery is suppressed by NoRestartBackoffTimeStrategy

第三个错误是

2023-02-03 23:42:35,875 ERROR akka.remote.Remoting [] - Association to [akka.tcp://flink-metrics@11.11.1.102:34546] with UID [-1590851144] irrecoverably failed. Quarantining address.

java.util.concurrent.TimeoutException: Remote system has been silent for too long. (more than 48.0 hours)

百度的建议是:

  1. java程序里面添加重启策略

  1. java程序的jar包版本与flink集群有冲突

  1. flink集群的slot分配有问题

  1. flink集群的心跳设置太短了,设置长一点 heartbeat.timeout: 180000

  1. flink中flink-conf.yaml 优先使用flink集群有的jar包

flink程序运行一会就结束了,flink,flink,java,大数据,Powered by 金山文档
flink程序运行一会就结束了,flink,flink,java,大数据,Powered by 金山文档
flink程序运行一会就结束了,flink,flink,java,大数据,Powered by 金山文档

隔了大概2个月以后,再次评论 2023-03-27日

我用了hadoop的集群的yarn,以及分析了taskmanager和jobmanager的内存大小、以及分析每个错误的原因。

我觉得可能是1、因为代码错误运行时间长了有bug,这个是最有可能的(90%) 当时默认的内存是1G,不可能存在着内存不够的原因。以上百度的解决方案,我后面一个都没有用到,依然健壮

2、没仔细分析Log日志,很多时候想要节省时间走捷径,但是发现走的都是弯路文章来源地址https://www.toymoban.com/news/detail-684785.html

到了这里,关于flink执行任务运行10h以后挂掉并且报错的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 十三、Flink使用local模式执行任务 并开启Flink的webUI

    1、概述 1)webUI依赖 2)调用StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(configuration); 3)可以通过configuration配置webUI的端口号 2、代码实现 3、执行结果 1)输入测试数据 控制台输出执行结果 2)localhost:8081查看webUI

    2024年02月10日
    浏览(28)
  • Flink 深入理解任务执行计划,即Graph生成过程(源码解读)

    我们先看一下,Flink 是如何描述作业的执行计划的。以这个 DataStream 作业为例,Flink 会基于它先生成一个 StreamGraph。这是一个有向无环图,图中的节点对应着计算逻辑,图中的边则对应着数据的分发方式。 Flink 会根据节点的并行度以及他们之间的连边方式,把一些计算节点进

    2024年02月22日
    浏览(35)
  • Flink的API分层、架构与组件原理、并行度、任务执行计划

            Apache Flink的API分为四个层次,每个层次都提供不同的抽象和功能,以满足不同场景下的数据处理需求。下面是这四个层次的具体介绍: CEP API: Flink API 最底层的抽象为有状态实时流处理。其抽象实现是Process Function,并且Process Function被  框架集成到了DataStream API中

    2024年02月05日
    浏览(34)
  • flink客户端提交任务报错

    { “errors”: [ “org.apache.flink.runtime.rest.handler.RestHandlerException: Could not execute application.ntat org.apache.flink.runtime.webmonitor.handlers.JarRunHandler.lambda$handleRequest KaTeX parse error: Undefined control sequence: n at position 26: …ndler.java:110)̲n̲tat java.util.… UniHandle.tryFire(CompletableFuture.java:797)ntat j

    2024年02月15日
    浏览(33)
  • 【斩虫】Hadoop中作业执行刚开始就挂掉的两种情况

    开门见山。 最近在搭建基于 Hadoop 3.3.6 的高可用集群时,遇到了虽然守护进程能正常启动,但是提交 WordCount 示例程序后作业没有办法启动执行的情况(刚开始就挂了),查看日志发现主要是以下两种情况: 提示 /bin/java 文件不存在。 启动 MRAppMaster 失败,原因是其抛出了 j

    2024年02月19日
    浏览(30)
  • MSP432学习笔记10:串口接收字符串命令并执行任务

    今日终于得以继续我的MSP432电赛速通之路: 串口通信是单片机需要学习深入的一个很重要的板块,通过串口,我们可以实现许多数据收发与调试工作,可谓是非常方便快捷。 今日就跟随我的脚步,逐步扎实地学习 如何编程MSP432串口接收字符串命令 ,并使其执行一些任务,

    2024年02月10日
    浏览(61)
  • Flink报错:未找到ExecutorFactory来执行应用程序

    Flink报错:未找到ExecutorFactory来执行应用程序 大数据处理是当前互联网时代的核心需求之一。Apache Flink作为一种流式处理引擎,被广泛应用于大规模数据处理和实时分析场景中。然而,在使用Flink时,有时会遇到一些错误和异常。本文将详细探讨一种常见的错误:未找到Exec

    2024年01月17日
    浏览(31)
  • Flink Get Start MVN 命令执行报错

    执行新建工程命令后报错: 可能由以下三个原因引起: 命令不能换行,需要放在一行; cmd命令行或PowerShell,需要用引号包装参数(某些机器不需要) 命令中存在不必要的空格,比如等号两边存在空格 根据以上修改后的命令运行正常:

    2024年04月13日
    浏览(25)
  • 关于kafka总是运行没多久就挂掉的问题

    先后启动了zookeeper和kafka,结果kafka运行没多久就自动挂掉。 先是按网上的说法,打开了kafka/config/server.properties文件,并没有发现broker.id设置错误的情况。 最后打开kafka/logs/server.log(这是一个日志文件),报错的结果如下: 问题是没有找到主机路由,导致连接超时。 最后问

    2024年04月27日
    浏览(24)
  • ApacheStreamPark2.1.0部署及执行flink-cdc任务同步mysql表的数据到es的实践

    ApacheStreamPark是流处理极速开发框架,流批一体 湖仓一体的云原生平台,一站式流处理计算平台。   特性中的简单易用和文档详尽这两点我也是深有体会的,部署一点都不简单,照着官方文档都不一定能搞出来,下面部署环节慢慢来吐槽吧。   之前我们写 Flink SQL 基本上

    2024年02月11日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包