hudi的bucket.index相关配置

这篇具有很好参考价值的文章主要介绍了hudi的bucket.index相关配置。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

hudi的bucket.index相关配置的源码文件为 HoodieIndexConfig.java 。

  • 通用配置
配置项名 默认值 说明 引入版本
hoodie.index.type 默认值和引擎有关,Flink上默认值为FLINK_STATE,Spark上默认值为SIMPLE,Java应用的默认值为INMEMORY 索引类型,可取值:HBASE、INMEMORY、BLOOM、GLOBAL_BLOOM、SIMPLE、GLOBAL_SIMPLE、BUCKET、FLINK_STATE
hoodie.index.class “” 指定索引类,必须为 HoodieIndex 的子类,自带的有 SparkHoodieHBaseIndex、HoodieBloomIndex、FlinkInMemoryStateIndex、HoodieSimpleBucketIndex、HoodieSparkConsistentBucketIndex
  • BUCKET索引配置
配置项名 默认值 说明 引入版本
hoodie.index.bucket.engine SIMPLE 用于指定 BUCKET 索引类型 0.11.0,可取值 SIMPLE 或 CONSISTENT_HASHING
hoodie.bucket.index.hash.field 无默认值 用来分桶的字段名,如果没有设置则使用 hoodie.datasource.write.recordkey.field 的值
hoodie.bucket.index.num.buckets 桶的个数
hoodie.bucket.index.min.num.buckets 最小桶数,仅针对一致性哈希BUCKET索引有效 0.13.0
hoodie.bucket.index.max.num.buckets 最大桶数,仅针对一致性哈希BUCKET索引有效 0.13.0
hoodie.bucket.index.split.threshold 2.0 控制一致性哈希索引的分裂,如果一个文件大小达到 hoodie.xxxx.max.file.size * threshold 则触发分裂 0.13.0
hoodie.bucket.index.merge.threshold 0.2 控制一致性哈希索引的合并,如果一个文件大小小于 hoodie.xxxx.max.file.size * threshold 则触发合并 0.13.0

上表中的 xxxx 可取值:parquet、orc、hfile,相关定义的文件 HoodieStorageConfig.java 中。文章来源地址https://www.toymoban.com/news/detail-438011.html

到了这里,关于hudi的bucket.index相关配置的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【CS202计算机组成原理】一次性搞懂cache中size, block, index, offset, tag相关计算

    首先应该弄懂一个概念叫:按字节编址或寻址。 指的是存储空间的 最小编址单位是字节(byte) ,也就是说一个地址对应1 byte的内存空间。同理,按字编址,是指存储空间的最小编址单位是字(word)。 以下举例均为(Direct Mapped Cache)。 Memory Size :就是内存的大小,最小单位根据(

    2024年02月02日
    浏览(43)
  • ES-index索引配置

      index索引配置项使用。 index_options   Index 有4中配置,可以控制倒排索引的内容。   Text类型默认记录positions,其他默认docs。记录的内容越多,所占用的空间越大。   Index 有4中配置如下: docs   记录 doc id 。 freqs   记录 doc id 和 term frequencies 。 positions   记录

    2023年04月08日
    浏览(37)
  • Elasticsearch之Index Setting:索引的静态配置与动态配置

            索引的配置项按是否可以更改分为静态配置与动态配置,所谓的 静态配置即索引创建后不能修改。 索引静态配置  【索引创建后不能修改】 index.number_of_shards:索引分片的数量。在ES层面可以通过es.index.max_number_of_shards属性设置索引最大的分片数,默认为1024,in

    2024年02月16日
    浏览(47)
  • [C++项目] Boost文档 站内搜索引擎(4): 搜索的相关接口的实现、线程安全的单例index接口、cppjieba分词库的使用、综合调试...

    有关 Boost 文档搜索引擎的项目的前三篇文章, 已经分别介绍分析了: 项目背景: 🫦[C++项目] Boost文档 站内搜索引擎(1): 项目背景介绍、相关技术栈、相关概念介绍… 文档解析、处理模块 parser 的实现: 🫦[C++项目] Boost文档 站内搜索引擎(2): 文档文本解析模块parser的实现、如何对

    2024年02月14日
    浏览(51)
  • Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?

    请教老师, 上面的是我在es保存的数据, 想写一个dsl, 求出来 beijing 占比 50%, shanghai 占比 50%。 死磕Elasticsearch知识星球 https://t.zsxq.com/0bqpcJiLL 类似问题,样例数据单看计算不复杂,“beijing” 2 个,“上海” 2 个,“beijing”占比: 2/(2+2) = 50%; \\\"shanghai\\\"同样计算,占比 50%。 业

    2023年04月09日
    浏览(52)
  • 基于数据湖的流批一体:flink1.15.3与Hudi0.12.1集成,并配置基于CDH6.3.2的hive catalog

    前言:为实现基于数据湖的流批一体,采用业内主流技术栈hudi、flink、CDH(hive、spark)。flink使用sql client与hive的catalog打通,可以与hive共享元数据,使用sql client可操作hive中的表,实现批流一体;flink与hudi集成可以实现数据实时入湖;hudi与hive集成可以实现湖仓一体,用flink实

    2024年02月12日
    浏览(56)
  • Failed to resolve import “@/views/index.vue“ from “src\router\index.ts“ vue3 路由配置@找不到文件

     在main.ts中引入router 报错提示找不到路径 解决: 修改vite.config.ts配置 安装 path模块 三种方式,我用的第一种。 配置完成以后运行 解决,撒花!

    2024年02月06日
    浏览(55)
  • MongoDB聚合:$bucket

    $bucket 将输入文档按照指定的表达式和边界进行分组,每个分组为一个文档,称为“桶”,每个桶都有一个唯一的 _id ,其值为文件桶的下线。每个桶中至少要包含一个输入文档,也就是没有空桶。 语法 groupBy 对文档进行分组的表达式。若指定字段路径,需要在字段名前加上

    2024年01月23日
    浏览(44)
  • 【算法】桶排序(Bucket Sort)详解

    桶排序(Bucket Sort)又称箱排序,是一种比较常用的排序算法。其算法原理是将数组分到有限数量的桶里,再对每个桶分别排好序(可以是递归使用桶排序,也可以是使用其他排序算法将每个桶分别排好序),最后一次将每个桶中排好序的数输出。 桶排序的思想就是把待排序

    2024年01月24日
    浏览(43)
  • 4EVER-Bucket 优于市场的优势

    分散存储 用户可以将数据存储在去中心化存储系统中,而无需考虑数据的中央孤岛。此外,与集中式存储解决方案相比,分散化有助于提高隐私和安全性。此外,它利用运营商和用户的对等网络来管理数据。 因此,它有助于在存储和传输过程中确保数据安全。它还使用了基

    2024年02月02日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包