07-Flink的keyby怎么实现的分区?分区、分组的区别是什么?

这篇具有很好参考价值的文章主要介绍了07-Flink的keyby怎么实现的分区?分区、分组的区别是什么?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一:题目

Flink的keyby怎么实现的分区?分区、分组的区别是什么?

二:答案

Keyby实现原理:
对指定的key调用自身的hashCode方法=》hash1
调用murmruhash算法,进行第二次hash =》键组ID
通过一个公式,计算出当前数据应该去往哪个下游分区:
键组id * 下游算子并行度 / 最大并行度(默认128)

分区:算子的一个并行实例可以理解成一个分区,是物理上的资源
分组:数据根据key进行区分,是一个逻辑上的划分
一个分区可以有多个分组,同一个分组的数据肯定在同一个分区文章来源地址https://www.toymoban.com/news/detail-504059.html

到了这里,关于07-Flink的keyby怎么实现的分区?分区、分组的区别是什么?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 什么是分区以及Android的分区结构是怎么样的?

    分区是逻辑层存储单元用来区分设备内部的永久性存储结构。常见的分区有 Boot、Data、Recovery、Cache分区。 BootLoader 分区 它的作用相当于PC的BIOS,在手机进入系统之前初始化软硬件环境、加载设备硬件设备,最终让手机启动成功。各大厂商为了保障手机能有稳定的运行环境、

    2024年02月08日
    浏览(40)
  • 2023-06-07:Redis 持久化方式有哪些?以及有什么区别?

    2023-06-07:Redis 持久化方式有哪些?以及有什么区别? 答案2023-06-07: Redis提供了两种持久化机制:RDB和AOF。 RDB持久化是将Redis当前进程中的数据生成快照并保存到硬盘的过程。快照指的是Redis在某一时刻的内存状态的记录,类似于拍照一样把数据保存下来,因此也被称为Redi

    2024年02月08日
    浏览(52)
  • Kafka消费分组和分区分配策略

    同一个消费组里的消费者不能消费同一个分区,不同消费组的消费组可以消费同一个分区 (即同一个消费组里面的消费者只能在一个分区中) 用过 Kafka 的同学用过都知道,每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息,我们也可能会启动多个 Consumer

    2024年02月05日
    浏览(52)
  • MapReduce实战小案例(自定义排序、二次排序、分组、分区)

    MapReduce是什么? 我们来看官方文档的解释(我们下载的hadoop中有离线文档:hadoop-2.10.1/share/doc) Hadoop MapReduce 是一个易于编写应用程序的软件框架,它以可靠、容错的方式并行处理商业硬件的大型集群(数千个节点)上的大量数据(数 TB 数据集)。 这里我们可以提炼一下MapReduce的

    2024年02月07日
    浏览(41)
  • 腾讯云服务器地域有什么区别怎么选择?

    腾讯云服务器地域有什么区别?怎么选择比较好?地域选择就近原则,距离地域越近网络延迟越低,速度越快。关于地域的选择还有很多因素,地域节点选择还要考虑到网络延迟速度方面、内网连接、是否需要备案、不同地域价格因素,可用区还要考虑到高容灾、高可用因素

    2024年02月13日
    浏览(55)
  • 读SQL学习指南(第3版)笔记07_分组和子查询

    2.1.1.1. 查询返回的每个值都是由聚合函数生成的 2.1.1.2. 没有使用group by子句 2.1.1.3. 只有一个隐式分组 2.1.1.3.1. payment数据表中的所有行 2.2.1.1. 添加一个group by子句来指定聚合函数应该应用于哪个分组 2.6.2.1. 因为在评估where子句时,分组尚未生成,因而必须将分组过滤条件

    2024年02月11日
    浏览(39)
  • 【状态管理|概述】Flink的状态管理:为什么需要state、怎么保存state、对于state过大怎么处理

    按照数据的划分和扩张方式,Flink中大致分为2类: Keyed States:记录每个Key对应的状态值 因为一个任务的并行度有多少,就会有多少个子任务,当key的范围大于并行度时,就会出现一个subTask上可能包含多个Key(),但不同Task上不会出现相同的Key(解决了shuffle的问题?)   常

    2024年02月01日
    浏览(55)
  • 云计算平台与传统平台的区别是什么?怎么理解?

    云计算已经风靡全球,且应用越来越广。生活中我们经常可以听到云计算这个词,但到底什么是云计算?云计算平台与传统平台的区别是什么?怎么理解? 什么是云计算? 准确的说,云计算只是一种计算的方式,不是租用资源的方式,但是云计算资源服务我们能以租用的形

    2024年02月11日
    浏览(40)
  • 为什么说新一代流处理器Flink是第三代流处理器(论点:发展历史、区别、适用场景)

           Flink 被认为是第三代流处理器,这是因为 Flink 在设计时参考了前两代流处理器的经验教训并引入了一些新的技术和思想,从而使得 Flink 具有更高的性能和更广泛的应用场景。下面我带大家了解一下流处理器从第一代到第三代的发展历史。        对于有状态的流

    2024年02月03日
    浏览(48)
  • 后缀xls和xlsx有什么区别,xls和xlsx怎么转换

    两种后缀名 都是office excel的生成文件; 其中xls是早期的office生成的文件;office2010之前的版本; xlsx是office2010之后的版本excel生成的文件; office 安装包 含新版本 如果你想相互转化,那就通过另存为,保存对应的后缀名即可; 新建的Excel保存时,需要指定保存类型。目前主流

    2024年02月07日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包