Flink1.19版本生产环境应用解读!

这篇具有很好参考价值的文章主要介绍了Flink1.19版本生产环境应用解读!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

flink1.19,linq,c#300万字!全网最全大数据学习面试社区等你来!

Flink1.19版本更新了,我们按例对最新版本的Flink中的核心能力进行一下解读。

我们的重点还是生产环境应用和需要注意的问题,以及对未来的一些判断。

本次更新涉及到SQL/Runtime/CheckPoint这三个方面的改进,这也是目前整个引擎开发最重要的几个方向。

SQL能力优化

SQL能力上的优化需要大家特别关注的三个能力分别是:源表自定义并行度、sql hint配置TTL、Regular Join支持MiniBatch优化。

源表自定义并行度

Flink 1.19版本中开始支持通过设置scan.parallelism这样的参数来配置并行度,不过目前支持的连接器是DataGen,还没有大范围的支持。

源表的并行度支持是非常重要的一个能力,对不同的source源,并行度解决的问题不尽相同。

我们在消费数据时,增大消费的并行度可以有效解决数据的消费速度和关联效率;对于RocketMQ、Mysql、Redis这样的数据源尤其明显,如果你的数据规模较大,消费延迟,最有效的办法之一就是加大消费并行度;

但是Kafka是个特例,因为Kafka connector的独特的设计,一般在生产环境我们建议消费并行度和Kafka的Partition保持一致,如果不设置的话会默认当前Flink任务的最大并行度。

官方预计下个版本优先支持Kafka,但是我建议社区可以换个其他的source connetcor优先实现。

SQL Hint配置TTL

官方给出了一个案例:

-- set state ttl for join
SELECT /*+ STATE_TTL('Orders'= '1d', 'Customers' = '20d') */ *
FROM Orders LEFT OUTER JOIN Customers
    ON Orders.o_custkey = Customers.c_custkey;

-- set state ttl for aggregation
SELECT /*+ STATE_TTL('o' = '1d') */ o_orderkey, SUM(o_totalprice) AS revenue
FROM Orders AS o
GROUP BY o_orderkey;

在Flink1.18的基础上,1.19版本使TTL的设置变得更加易用,是个很大的提升,我的判断是大家基本上可以在生产环境尝试使用了。对于减少state大小和降低任务资源消耗有很大帮助。

Regular Join支持MiniBatch优化

关于Regular Join相信大家都陌生了,Regular Join在生产环境中的几个非常严重的问题其中之一就是性能问题。因为需要频繁访问状态,如果你的任务状态很大或者对状态的访问非常频繁,那么就会遇到性能瓶颈,Regular Join支持MiniBatch优化在一定程度上能解决这个问题,本质上就是一个批次去重的过程。

Rumtime优化

Flink1.19中开始支持批作业的源表动态并行度推导,允许源连接器根据实际消耗的数据量动态推断并行度。在实际使用中,批任务的并行度的动态推导是提高批作业性能的重要的手段,大家可以尝试小范围使用。不过现在还需要做一点定制开发,源连接器需要实现推理接口,以启用动态并行度推理。目前已经支持FileSource连接器。

Checkpoint

1.19版本支持了一个能力,可以通过设置参数来设置Flink任务在读取不同数据源数据的checkpointing.interval能力。什么意思呢?例如你的代码需要先读一个Hive表,再接着消费Kafka的数据。这两个阶段就可以设置不同的checkpointing.interval。

execution.checkpointing.interval: 30sec
execution.checkpointing.interval-during-backlog: 30min

以上就1.19版本需要关注的新的能力,我们下个版本再见。

如果这个文章对你有帮助,不要忘记 「在看」 「点赞」 「收藏」 三连啊喂!

flink1.19,linq,c#

flink1.19,linq,c#

全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学,大数据专业

我们在学习Flink的时候,到底在学习什么?

193篇文章暴揍Flink,这个合集你需要关注一下

Flink生产环境TOP难题与优化,阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他!| Flink CDC线上问题小盘点

我们在学习Spark的时候,到底在学习什么?

在所有Spark模块中,我愿称SparkSQL为最强!

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么?「硬刚Hive续集」文章来源地址https://www.toymoban.com/news/detail-853988.html

到了这里,关于Flink1.19版本生产环境应用解读!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python 编写 Flink 应用程序经验记录(Flink1.17.1)

    目录 官方API文档 提交作业到集群运行 官方示例 环境 编写一个 Flink Python Table API 程序 执行一个 Flink Python Table API 程序 实例处理Kafka后入库到Mysql 下载依赖 flink-kafka jar 读取kafka数据 写入mysql数据 flink-mysql jar https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/python/overview/

    2024年02月08日
    浏览(47)
  • flink1.17安装

    官网地址: https://nightlies.apache.org/flink/flink-docs-release-1.17/zh//docs/try-flink/local_installation/ ps:只能安装openjdk11,昨天安装的oracle jdk17,结果怎么也运行不起来。 创建安装的目录,我是安装在/opt/software下,可以自己选择 web地址 :http://localhost:8081/ 查看

    2024年02月07日
    浏览(41)
  • Flink1.17 基础知识

    来源:B站尚硅谷 Flink 概述 Flink 是什么 Flink的核心目标是“ 数据流上的有状态计算 ” (Stateful Computations over Data Streams)。 具体来说:Apache Flink是一个 框架式和分布式处理引擎 ,用于对无界和有界数据流进行有 状态计算 。 Flink特点 处理数据的目标是: 低延迟、高吞吐、结

    2024年01月25日
    浏览(114)
  • Flink1.17.0数据流

    官网介绍 Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计为在所有常见的集群环境中运行,以内存中的速度和任何规模执行计算。 1.无限流有一个开始,但没有定义的结束。它们不会在生成数据时终止并提供数据。必须连续处

    2024年02月11日
    浏览(54)
  • flink1.18.0 flink维表join新思路

    弊端:         虽然缓存可以减轻维表负担,但是如果事实表数据量很大,每秒千万条,维度表只有百万条,也就是说 你会看到大量的无法关联的数据仍然需要查询维度表.  cache缓存千万数据量内存压力又比较大, 那么怎么减轻维表数据库压力,还能做到低延迟. 以往双流join ; a joi

    2024年01月24日
    浏览(44)
  • 在JDK17尝鲜Flink1.17

    在JDK17尝鲜Flink1.17 还没玩明白老版本,Flink1.17就来了!!!总还是要向前看的。。。 根据官网文档:https://nightlies.apache.org/flink/flink-docs-release-1.17/docs/try-flink/local_installation/ Flink runs on all UNIX-like environments, i.e. Linux, Mac OS X, and Cygwin (for Windows). You need to have Java 11 installed 所以JD

    2024年02月12日
    浏览(45)
  • flink1.17 eventWindow不要配置processTrigger

    理论上可以eventtime processtime混用,但是下面代码测试发现bug,输入一条数据会一直输出. flink github无法提bug/问题. apache jira账户新建后竟然flink又需要一个账户,放弃 idea运行代码后 往source kafka发送一条数据   可以看到无限输出: 理论上时间语义不建议混用,但是在rich函数中的确可

    2024年02月14日
    浏览(44)
  • Flink1.14 Standalone独立集群模式安装

    一、下载 在Flink 官网下载Flink 1.14,完整的安装包名是:flink-1.14.4-bin-scala_2.11.tgz。 二、master 配置 解压安装包,编辑conf/flink-conf.yaml文件: jobmanager.rpc.address 为master机器的IP,也可以是master的机器名;taskmanager.numberOfTaskSlots 为在master上运行几个taskslots,可以根据机器的配置来确

    2023年04月18日
    浏览(37)
  • flink1.17 自定义trigger ContinuousEventTimeTrigger

    在 ContinuousEventTimeTrigger 的基础上新增了timeout,如果超时后窗口都没关闭,那么就硬输出一波,避免间断数据,留存窗口太久. ContinuousEventTimeTrigger连续事件时间触发器与ContinuousProcessingTimeTrigger连续处理时间触发器,指定一个固定时间间隔interval,不需要等到窗口结束才能获取结果

    2024年02月14日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包