Hudi学习笔记(一)

10月前作者：一一|一一一亅分类：Toy博客阅读(18) 违法举报

这篇具有很好参考价值的文章主要介绍了Hudi学习笔记(一)。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大数据发展背景

Hudi用于管理分布式文件系统上大型分析数据集存储，支持Spark和Flink整合。它能够是DFS数据集在分钟级时延内支持变更，也支持下游系统对这个数据集的增量处理。

学习目标

什么是数据湖
为什么使用数据湖
Hudi基本功能
如何编译Hudi源码
Hudi与Spark集成管理
Hudi中COW和ROW不同类型表功能
Hudi的三种查询方式
Hudi中不同表数据写入流程

数据仓库

数据仓库是一个用于存储、分析、报告的数据系统。目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持。

数据仓库本身不生产数据，也不消费数据
企业根据业务需求分成不同层次，数据层（ODS）\仓库层（DW)\应用层（DA）

数据湖

数据湖是一个集中式的数据存储库，用于存储大量的原始数据。
以原始格式存储数据的系统或存储库，可以包括结构化数据、半结构化数据、非结构化数据和二进制数据。
查询应用数据的时候才会开始分析数据需求和应用架构，用于报告、可视化、高级分析和机器学习等任务。

数据仓库是优化的数据库，用于分析业务的关系数据。数据湖数据来自关系数据和非关系数据。

特性	数据仓库	数据湖
数据	分析业务的关系数据	关系数据和非关系数据
Schame	在写入数据仓库	读取schema
性价比	更快查询较高存储成本（空间代替时间，冗余存储）	更快查询只需较低成本
数据质量	便于管理	难以监控
用户	业务分析师	数据科学家、数据开发人员和业务分析师
分析	批处理、BI	机器学习、预测分析、数据发现

数据湖框架

delta Lake
支持update/delete/merge
Iceberg
Hudi(Hadoop upsert and incrementals)
fast upsert/delete/compaction功能，管理存储在Hdfs上的数据。支持快速upsert/delete。

Hudi功能

Hudi是在大数据存储上的一个数据集，可以将Change Logs通过upsert的方式合并进hudi。
可以暴露成普通的Hive或Spark表，通过API或命令行可以获取增量修改的信息，供下游消费。
Hudi保管修改历史，可以时间旅行或回退。
内部有主键到文件级的索引，默认是记录到文件的布隆过滤器。
提供了两种方式的原语言：
-Update/delete记录：使用细粒度的文件/记录级别索引支持update/delete记录，同时保证写操作的事务保证，查询会处理最后一个提交的快照，并基于此输出结果。
-变更流：Hudi对过去数据变更提供了一流的支持：可以从给定时间点获取给定表中update/insert/deleted的所有记录的增量流，并解锁新的查询姿势。

Hudi基础架构

将数据摄取到数据湖存储，使用HDFS作为数据湖的数据存储。
基于HDFS构建Hudi的数据湖。
Hudi提供统一的访问Spark和Flink数据源
外部通过不同引擎访问接口。

Hudi版本

Hudi 0.5版本
支持Spark，将数据批量和流式写入
Hudi 0.6版本
逐渐添加新特性和功能
Hudi 0.7.0版本
Flink计算引擎成熟，Flink1.12
Hudi 0.8
支持Flink SQL client操作Hudi数据
Hudi 0.9
重构与Flink的集成，支持CDC的能力，数据流式入湖。流式查询Hudi数据。
Hudi 0.10
支持更多的数据源：如Mysql和Kafka文章来源地址https://www.toymoban.com/news/detail-823257.html

到了这里，关于Hudi学习笔记(一)的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Hudi系列13:Hudi集成Hive

Hudi 源表对应一份 HDFS数据，通过Spark，Flink组件或者Hudi CLI，可以将Hudi表的数据映射为Hive外部表，基于该外部表，Hive可以方便的进行实时视图，读优化视图以及增量的查询。以 Hive 3.1.2、hudi 0.12.0 为例。 2.1.1 拷贝编译好的hudi的jar包将hudi-hive-sync-bundle-0.12.0.jar 和 hudi-hadoop-m

2024年02月03日
浏览(30)
数据湖架构Hudi（二）Hudi版本0.12源码编译、Hudi集成spark、使用IDEA与spark对hudi表增删改查

Hadoop 3.1.3 Hive 3.1.2 Flink 1.13.6，scala-2.12 Spark 3.2.2，scala-2.12 2.1.1 环境准备 2.1.2 下载源码包 2.1.3 在pom文件中新增repository加速依赖下载在pom文件中修改依赖的组件版本： 2.1.4 修改源码兼容hadoop3并添加kafka依赖 Hudi默认依赖的hadoop2，要兼容hadoop3，除了修改版本，还需要修改如下代

2024年02月06日
浏览(57)
Hudi（16）：Hudi集成Flink之读取方式

目录 0. 相关文章链接 1. 流读（Streaming Query） 2. 增量读取（Incremental Query） 3. 限流 Hudi文章汇总当前表默认是快照读取，即读取最新的全量快照数据并一次性返回。通过参数read.streaming.enabled 参数开启流读模式，通过 read.start-commit 参数指定起始消费位置，支

2024年02月06日
浏览(67)
Hudi（17）：Hudi集成Flink之写入方式

目录 0. 相关文章链接 1. CDC 数据同步 1.1. 准备MySQL表 1.2. flink读取mysql binlog并写入kafka 1.3. flink读取kafka数据并写入hudi数据湖 1.4. 使用datafaker插入数据 1.5. 统计数据入Hudi情况 1.6. 实时查看数据入湖情况 2. 离线批量导入 2.1. 原理 2.2. WITH 参数 2.3. 案例 3. 全量接增量 3.1.

2024年02月05日
浏览(41)
Hudi系列15:Hudi元数据同步到Hive

使用DataSource writer或HoodieDeltaStreamer写入数据支持将表的最新模式同步到Hive metastore，这样查询就可以获得新的列和分区。在这种情况下，最好从命令行或在一个独立的jvm中运行，Hudi提供了一个HiveSyncTool，一旦你构建了Hudi -hive模块，就可以如下所示调用它。以下是我们如何同步

2024年02月02日
浏览(44)
Hudi（19）：Hudi集成Flink之索引和Catalog

目录 0. 相关文章链接 1. Bucket索引（从 0.11 开始支持） 1.1. WITH参数 1.2. 和 state 索引的对比 2. Hudi Catalog（从 0.12.0 开始支持） 2.1. 概述 2.2. WITH 参数 2.3. 使用dfs方式 Hudi文章汇总默认的 flink 流式写入使用 state 存储索引信息：primary key 到 fileId 的映射关系。当

2024年02月05日
浏览(40)
Hudi（7）：Hudi集成Spark之spark-sql方式

目录 0. 相关文章链接 1. 创建表 1.1. 启动spark-sql 1.2. 建表参数 1.3. 创建非分区表 1.4. 创建分区表 1.5. 在已有的hudi表上创建新表 1.6. 通过CTAS (Create Table As Select)建表 2. 插入数据 2.1. 向非分区表插入数据 2.2. 向分区表动态分区插入数据 2.3. 向分区表静态分区插入数据 2.4

2024年02月06日
浏览(44)
Apache Hudi初探(十)(与spark的结合)--hudi的Compaction操作

在之前的文章Apache Hudi初探(六)(与spark的结合) 中，我们没有过多的解释Spark中 hudi Compaction 的实现，在这里详细说一下注意：在hudi中有同步，异步Compaction的概念，为了保证写入的及时性和数据读取的时效性，hudi在一步compaction的过程中会引入一个后台线程进行compaction，所以异

2024年02月15日
浏览(35)
04_Hudi 集成 Spark、保存数据至Hudi、集成Hive查询、MergeInto 语句

本文来自\\\"黑马程序员\\\"hudi课程 4.第四章 Hudi 集成 Spark 4.1 环境准备 4.1.1 安装MySQL 5.7.31 4.1.2 安装Hive 2.1 4.1.3 安装Zookeeper 3.4.6 4.1.4 安装Kafka 2.4.1 4.2 滴滴运营分析 4.2.1 需求说明 4.2.2 环境准备 4.2.2.1 工具类SparkUtils 4.2.2.2 日期转换星期 4.2.3 数据ETL保存 4.2.3.1 开发步骤 4.2.3.2 加载CS

2024年02月13日
浏览(48)
Apache Hudi初探(五)(与flink的结合)--Flink 中hudi clean操作

本文主要是具体说说Flink中的clean操作的实现在flink中主要是 CleanFunction 函数： open函数 writeClient =FlinkWriteClients.createWriteClient(conf, getRuntimeContext()) 创建FlinkWriteClient,用于写hudi数据 this.executor = NonThrownExecutor.builder(LOG).waitForTasksFinish(true).build(); 创建一个只有一个线程的线程池，改

2024年02月06日
浏览(39)