hudi的bucket.index相关配置

10月前作者：一见分类：Toy博客阅读(31) 违法举报

这篇具有很好参考价值的文章主要介绍了hudi的bucket.index相关配置。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

hudi的bucket.index相关配置的源码文件为 HoodieIndexConfig.java 。

通用配置

配置项名	默认值	说明	引入版本
hoodie.index.type	默认值和引擎有关，Flink上默认值为FLINK_STATE，Spark上默认值为SIMPLE，Java应用的默认值为INMEMORY	索引类型，可取值：HBASE、INMEMORY、BLOOM、GLOBAL_BLOOM、SIMPLE、GLOBAL_SIMPLE、BUCKET、FLINK_STATE
hoodie.index.class	“”	指定索引类，必须为 HoodieIndex 的子类，自带的有 SparkHoodieHBaseIndex、HoodieBloomIndex、FlinkInMemoryStateIndex、HoodieSimpleBucketIndex、HoodieSparkConsistentBucketIndex

BUCKET索引配置

配置项名	默认值	说明	引入版本
hoodie.index.bucket.engine	SIMPLE	用于指定 BUCKET 索引类型	0.11.0，可取值 SIMPLE 或 CONSISTENT_HASHING
hoodie.bucket.index.hash.field	无默认值	用来分桶的字段名，如果没有设置则使用 hoodie.datasource.write.recordkey.field 的值
hoodie.bucket.index.num.buckets		桶的个数
hoodie.bucket.index.min.num.buckets		最小桶数，仅针对一致性哈希BUCKET索引有效	0.13.0
hoodie.bucket.index.max.num.buckets		最大桶数，仅针对一致性哈希BUCKET索引有效	0.13.0
hoodie.bucket.index.split.threshold	2.0	控制一致性哈希索引的分裂，如果一个文件大小达到 `hoodie.xxxx.max.file.size` * threshold 则触发分裂	0.13.0
hoodie.bucket.index.merge.threshold	0.2	控制一致性哈希索引的合并，如果一个文件大小小于 `hoodie.xxxx.max.file.size` * threshold 则触发合并	0.13.0

上表中的 xxxx 可取值：parquet、orc、hfile，相关定义的文件 HoodieStorageConfig.java 中。文章来源地址https://www.toymoban.com/news/detail-438011.html

到了这里，关于hudi的bucket.index相关配置的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【CS202计算机组成原理】一次性搞懂cache中size, block, index, offset, tag相关计算

首先应该弄懂一个概念叫：按字节编址或寻址。指的是存储空间的最小编址单位是字节(byte) ，也就是说一个地址对应1 byte的内存空间。同理，按字编址，是指存储空间的最小编址单位是字(word)。以下举例均为(Direct Mapped Cache)。 Memory Size ：就是内存的大小，最小单位根据（

2024年02月02日
浏览(44)
ES-index索引配置

index索引配置项使用。 index_options Index 有4中配置，可以控制倒排索引的内容。 Text类型默认记录positions，其他默认docs。记录的内容越多，所占用的空间越大。 Index 有4中配置如下： docs 记录 doc id 。 freqs 记录 doc id 和 term frequencies 。 positions 记录

2023年04月08日
浏览(38)
Elasticsearch之Index Setting:索引的静态配置与动态配置

索引的配置项按是否可以更改分为静态配置与动态配置，所谓的静态配置即索引创建后不能修改。索引静态配置【索引创建后不能修改】 index.number_of_shards：索引分片的数量。在ES层面可以通过es.index.max_number_of_shards属性设置索引最大的分片数，默认为1024，in

2024年02月16日
浏览(47)
[C++项目] Boost文档站内搜索引擎(4): 搜索的相关接口的实现、线程安全的单例index接口、cppjieba分词库的使用、综合调试...

有关 Boost 文档搜索引擎的项目的前三篇文章, 已经分别介绍分析了: 项目背景: 🫦[C++项目] Boost文档站内搜索引擎(1): 项目背景介绍、相关技术栈、相关概念介绍… 文档解析、处理模块 parser 的实现: 🫦[C++项目] Boost文档站内搜索引擎(2): 文档文本解析模块parser的实现、如何对

2024年02月14日
浏览(54)
Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景？

请教老师，上面的是我在es保存的数据，想写一个dsl，求出来 beijing 占比 50%， shanghai 占比 50%。死磕Elasticsearch知识星球 https://t.zsxq.com/0bqpcJiLL 类似问题，样例数据单看计算不复杂，“beijing” 2 个，“上海” 2 个，“beijing”占比: 2/(2+2) = 50%; \\\"shanghai\\\"同样计算，占比 50%。业

2023年04月09日
浏览(55)
基于数据湖的流批一体：flink1.15.3与Hudi0.12.1集成，并配置基于CDH6.3.2的hive catalog

前言：为实现基于数据湖的流批一体，采用业内主流技术栈hudi、flink、CDH（hive、spark）。flink使用sql client与hive的catalog打通，可以与hive共享元数据，使用sql client可操作hive中的表，实现批流一体；flink与hudi集成可以实现数据实时入湖；hudi与hive集成可以实现湖仓一体，用flink实

2024年02月12日
浏览(57)
Failed to resolve import “@/views/index.vue“ from “src\router\index.ts“ vue3 路由配置@找不到文件

在main.ts中引入router 报错提示找不到路径解决：修改vite.config.ts配置安装 path模块三种方式，我用的第一种。配置完成以后运行解决，撒花！

2024年02月06日
浏览(56)
MongoDB聚合：$bucket

$bucket 将输入文档按照指定的表达式和边界进行分组，每个分组为一个文档，称为“桶”，每个桶都有一个唯一的 _id ，其值为文件桶的下线。每个桶中至少要包含一个输入文档，也就是没有空桶。语法 groupBy 对文档进行分组的表达式。若指定字段路径，需要在字段名前加上

2024年01月23日
浏览(45)
【算法】桶排序（Bucket Sort）详解

桶排序（Bucket Sort）又称箱排序，是一种比较常用的排序算法。其算法原理是将数组分到有限数量的桶里，再对每个桶分别排好序（可以是递归使用桶排序，也可以是使用其他排序算法将每个桶分别排好序），最后一次将每个桶中排好序的数输出。桶排序的思想就是把待排序

2024年01月24日
浏览(43)
AWS S3 bucket 的 ACL 控制

在新的 AWS S3 控制中，启用了一个默认的配置。这个默认的配置能够阻止用户的访问。首先需要对 Object 所有者进行修改。在打开的界面中，选择 ACLs 启用。然后选择选项。然后单击保存。随后，就可以对 ACL 进行编辑了。通常可以通过这个配置来完成对参考的默认访问

2024年02月13日
浏览(37)