Hudi核心概念

这篇具有很好参考价值的文章主要介绍了Hudi核心概念。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.TImeline元数据

Instant由3个部分组成: (1)Timestamp,时间戳,什么时候做的操作

(2)Action,操作,具体做了什么操作,COMMIT(提交,COW)、DELTA_COMMIT(提交,MOR)、CLEAN(清理)、COMPACTION(压缩)

(3)State,这一个操作具体到哪个步骤了(REQUESTED(请求发起)、INFLIGHT(请求进行中)、COMPLETED(请求完成))

Data Format数据格式

Hudi提供了两种类型的文件格式来管理数据:

  • avro,日志文件,log文件
  • parquet,压缩文件,base文件
  • 层级关系如下:

    Hudi表 -> partition(分区)-> FileGroup(文件组)->FileSlice(文件片)->1或1个log+1个parquet文件组成

2.index索引

Hudi提供了多种索引,如下:

  • Bloom Index(布隆索引,默认)
  • HBase Index(HBase索引)
  • Simple Index(简单索引)
  • Custom Index(自定义索引)

    Bloom Filter介绍:

    A Bloom filter, named for its creator, Burton Howard Bloom, is a data structure which is designed to predict whether a given element is a member of a set of data. A positive result from a Bloom filter is not always accurate, but a negative result is guaranteed to be accurate.

    布隆过滤器,用创建者的名字命名,是一个用来判定元素是否在集合中的一种数据结果。返回值有两种:

    正数:元素可能在集合中

    负数:元素一定不在集合中

    小结:

    布隆过滤器,可能会出现误判,但是官网也在尽量减少误判。

3.读取数据的方式

计算模型有三种:

  • 批量模型(Batch)
  • 流式模型(Stream)
  • 增量模型(Incremental)

Batch

  • 延迟较高
  • 数据完整度较好
  • 资源消耗低

Stream

  • 延迟较低

  • 数据完整度较差

  • 资源消耗较高

Incremental

Uber公司根据自身业务场景,并且结合了批量处理和流式处理的优点。提出了增量模型。

  • 相比批而言,更加高效(降低延迟)

  • 相比流而言,更加经济(省资源)

具体就是以Mini-batch来实现的。文章来源地址https://www.toymoban.com/news/detail-462672.html

到了这里,关于Hudi核心概念的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Java NIO FileChannel:BIO与NIO区别、核心组成部分和常用方方法

    深入探讨Java NIO中的FileChannel,包括BIO与NIO的区别、NIO的核心组成部分(Channels、Buffers、Selectors)、FileChannel的常用方法以及示例代码。了解如何使用FileChannel进行文件数据读写操作。

    2024年01月25日
    浏览(49)
  • 数据湖——Hudi基本概念

    传送门 可插拔索引机制支持快速的Upsert/Delete 支持增量拉取表变更以进行处理 支持事务提交及回滚,并发控制 支持spark、presto、hive、flink等引擎的sql读写 自动管理小文件,数据聚簇、压缩、清理 流式摄入,内置CDC 内置可扩展存储访问的元数据跟踪 向后兼容的方式实现表结

    2024年02月10日
    浏览(36)
  • 【大数据】Hudi 核心知识点详解(二)

    😊 如果您觉得这篇文章有用 ✔️ 的话,请给博主一个一键三连 🚀🚀🚀 吧 (点赞 🧡、关注 💛、收藏 💚)!!!您的支持 💖💖💖 将激励 🔥 博主输出更多优质内容!!! Hudi 核心知识点详解(一) Hudi 核心知识点详解(二) Hudi 提供了 Hudi 表的概念,这些表支持

    2024年02月03日
    浏览(40)
  • 基于数据湖的多流拼接方案-HUDI概念篇

    目录 一、为什么需要HUDI? 1. 传统技术选型存在哪些问题? 2. Hudi有什么优点? 基于 Hudi Payload 机制的多流拼接方案: 二、HUDI的应用场景 1. 什么场景适合使用hudi? 2. 什么场景不适合使用hudi? 三、什么是HUDI?HUDI能做什么? 1. 什么是HUDI? 2. HUDI能做什么(特性)? 四、HU

    2024年02月11日
    浏览(43)
  • 解决Unity打包后Timeline里部分特效没显示的bug

    比较诡异的问题,美术同学给过来的特效资源,在Edtior里是正常播放的,但打包后特效里应该落下来的光柱却消失了。 考虑到打包后的环境和Editor环境的区别 AssetBundle 通过在Editor里加载AssetBundle来播放,发现也是正常的,应该不是资源问题。 ParticleSystem的Culling Mode 粒子系统

    2023年04月08日
    浏览(44)
  • SQL语言的四大组成部分——DCL(数据控制语言)

    SQL语言中的DCL(Data Control Language)是一组用于控制数据库用户访问权限的语言,主要包括GRANT、REVOKE、DENY等。 在SQL语言中, DCL(数据控制语言) 与 DML(数据操作语言) 、 DQL(数据查询语言) 和 DDL(数据定义语言) 一样,是SQL语言的四大基本组成部分。 DCL语言 可

    2024年02月09日
    浏览(37)
  • 详解【计算机类&面试真题】军队文职考试——第4期(真题+解析):网络时延的组成部分和产生,使用Python来计算传输时延和传播时延 | TIP/IP网络协议的核心是什么?| DNS域名系统的工作原理

      决定放弃了的事,就请放弃得干干净净,那些决定再也不见面的人,就真的不要再见面了。     🎯作者主页: 追光者♂🔥          🌸个人简介:   💖[1] 计算机专业硕士研究生💖   🌟[2] 2022年度博客之星人工智能领域TOP4🌟   🏅[3] 阿里云社区特邀专家博主🏅  

    2024年02月09日
    浏览(68)
  • Apache hudi 核心功能点分析

    文中部分代码对应 0.14.0 版本 初始的需求是Uber公司会有很多记录级别的更新场景,Hudi 在Uber 内部主要的一个场景,就是乘客打车下单和司机接单的匹配,乘客和司机分别是两条数据流,通过 Hudi 的 Upsert 能力和增量读取功能,可以分钟级地将这两条数据流进行拼接,得到乘客

    2024年02月02日
    浏览(33)
  • 数据仓库-核心概念

           数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、

    2024年02月06日
    浏览(44)
  • 大数据课程K5——Spark的框架核心概念

    文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州 ⚪ 了解Spark的框架核心概念; ⚪ 掌握Spark的Spark集群模式安装; ⚪ 掌握Spark的Spark架构; ⚪ 掌握Spark的Spark调度模块; 1. RDD。弹性分布式数据集,是Spark最核心的数据结构。有分区机制,所以可以分布式进行处

    2024年02月11日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包