Hudi核心概念

10月前作者：奔跑如风分类：Toy博客阅读(39) 违法举报

这篇具有很好参考价值的文章主要介绍了Hudi核心概念。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1.TImeline元数据

Instant由3个部分组成：（1）Timestamp，时间戳，什么时候做的操作

（2）Action，操作，具体做了什么操作，COMMIT（提交，COW）、DELTA_COMMIT（提交，MOR）、CLEAN（清理）、COMPACTION（压缩）

（3）State，这一个操作具体到哪个步骤了（REQUESTED（请求发起）、INFLIGHT（请求进行中）、COMPLETED（请求完成））

Data Format数据格式

Hudi提供了两种类型的文件格式来管理数据：

avro，日志文件，log文件
parquet，压缩文件，base文件
层级关系如下：

Hudi表 -> partition（分区）-> FileGroup（文件组）->FileSlice（文件片）->1或1个log+1个parquet文件组成

2.index索引

Hudi提供了多种索引，如下：

Bloom Index（布隆索引，默认）
HBase Index（HBase索引）
Simple Index（简单索引）
Custom Index（自定义索引）
Bloom Filter介绍：

A Bloom filter, named for its creator, Burton Howard Bloom, is a data structure which is designed to predict whether a given element is a member of a set of data. A positive result from a Bloom filter is not always accurate, but a negative result is guaranteed to be accurate.

布隆过滤器，用创建者的名字命名，是一个用来判定元素是否在集合中的一种数据结果。返回值有两种：

正数：元素可能在集合中

负数：元素一定不在集合中

小结：

布隆过滤器，可能会出现误判，但是官网也在尽量减少误判。

3.读取数据的方式

计算模型有三种：

批量模型（Batch）
流式模型（Stream）
增量模型（Incremental）

Batch

延迟较高
数据完整度较好
资源消耗低

Stream

延迟较低
数据完整度较差
资源消耗较高

Incremental

Uber公司根据自身业务场景，并且结合了批量处理和流式处理的优点。提出了增量模型。

相比批而言，更加高效（降低延迟）
相比流而言，更加经济（省资源）

具体就是以Mini-batch来实现的。文章来源地址https://www.toymoban.com/news/detail-462672.html

到了这里，关于Hudi核心概念的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Java NIO FileChannel：BIO与NIO区别、核心组成部分和常用方方法

深入探讨Java NIO中的FileChannel，包括BIO与NIO的区别、NIO的核心组成部分（Channels、Buffers、Selectors）、FileChannel的常用方法以及示例代码。了解如何使用FileChannel进行文件数据读写操作。

2024年01月25日
浏览(49)
数据湖——Hudi基本概念

传送门可插拔索引机制支持快速的Upsert/Delete 支持增量拉取表变更以进行处理支持事务提交及回滚，并发控制支持spark、presto、hive、flink等引擎的sql读写自动管理小文件，数据聚簇、压缩、清理流式摄入，内置CDC 内置可扩展存储访问的元数据跟踪向后兼容的方式实现表结

2024年02月10日
浏览(36)
【大数据】Hudi 核心知识点详解（二）

😊 如果您觉得这篇文章有用 ✔️ 的话，请给博主一个一键三连 🚀🚀🚀 吧（点赞 🧡、关注 💛、收藏 💚）！！！您的支持 💖💖💖 将激励 🔥 博主输出更多优质内容！！！ Hudi 核心知识点详解（一） Hudi 核心知识点详解（二） Hudi 提供了 Hudi 表的概念，这些表支持

2024年02月03日
浏览(40)
基于数据湖的多流拼接方案-HUDI概念篇

目录一、为什么需要HUDI？ 1. 传统技术选型存在哪些问题？ 2. Hudi有什么优点？基于 Hudi Payload 机制的多流拼接方案：二、HUDI的应用场景 1. 什么场景适合使用hudi？ 2. 什么场景不适合使用hudi？三、什么是HUDI？HUDI能做什么？ 1. 什么是HUDI？ 2. HUDI能做什么（特性）？四、HU

2024年02月11日
浏览(43)
解决Unity打包后Timeline里部分特效没显示的bug

比较诡异的问题，美术同学给过来的特效资源，在Edtior里是正常播放的，但打包后特效里应该落下来的光柱却消失了。考虑到打包后的环境和Editor环境的区别 AssetBundle 通过在Editor里加载AssetBundle来播放，发现也是正常的，应该不是资源问题。 ParticleSystem的Culling Mode 粒子系统

2023年04月08日
浏览(44)
SQL语言的四大组成部分——DCL（数据控制语言）

SQL语言中的DCL（Data Control Language）是一组用于控制数据库用户访问权限的语言，主要包括GRANT、REVOKE、DENY等。在SQL语言中， DCL（数据控制语言）与 DML（数据操作语言）、 DQL（数据查询语言）和 DDL（数据定义语言）一样，是SQL语言的四大基本组成部分。 DCL语言可

2024年02月09日
浏览(37)
详解【计算机类&面试真题】军队文职考试——第4期（真题+解析）：网络时延的组成部分和产生，使用Python来计算传输时延和传播时延 | TIP/IP网络协议的核心是什么？| DNS域名系统的工作原理

决定放弃了的事，就请放弃得干干净净，那些决定再也不见面的人，就真的不要再见面了。 🎯作者主页：追光者♂🔥 🌸个人简介： 💖[1] 计算机专业硕士研究生💖 🌟[2] 2022年度博客之星人工智能领域TOP4🌟 🏅[3] 阿里云社区特邀专家博主🏅

2024年02月09日
浏览(68)
Apache hudi 核心功能点分析

文中部分代码对应 0.14.0 版本初始的需求是Uber公司会有很多记录级别的更新场景，Hudi 在Uber 内部主要的一个场景，就是乘客打车下单和司机接单的匹配，乘客和司机分别是两条数据流，通过 Hudi 的 Upsert 能力和增量读取功能，可以分钟级地将这两条数据流进行拼接，得到乘客

2024年02月02日
浏览(33)
数据仓库-核心概念

数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、

2024年02月06日
浏览(44)
大数据课程K5——Spark的框架核心概念

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州 ⚪ 了解Spark的框架核心概念； ⚪ 掌握Spark的Spark集群模式安装； ⚪ 掌握Spark的Spark架构； ⚪ 掌握Spark的Spark调度模块； 1. RDD。弹性分布式数据集，是Spark最核心的数据结构。有分区机制，所以可以分布式进行处

2024年02月11日
浏览(35)