Hudi学习笔记(2)

这篇具有很好参考价值的文章主要介绍了Hudi学习笔记(2)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

https://hudi.apache.org/docs/configurations

Hudi配置分类

  • Spark Datasource Configs

Spark Datasource 的配置。

  • Flink Sql Configs

Flink SQL source/sink connectors 的配置,如:index.type、write.tasks、write.operation、clean.policy、clean.retain_commits、clean.retain_hours、compaction.max_memory、hive_sync.db、hive_sync.table、hive_sync.metastore.uris、write.retry.times、write.task.max.size 等。

  • Write Client Configs

控制 Hudi 使用 RDD 的 HoodieWriteClient API 的配置。

  • Metastore and Catalog Sync Configs

同步外部元数据的配置。

  • Metrics Configs

度量配置。

  • Record Payload Config

低级别定制配置,比如设置 Payload 的配置 hoodie.compaction.payload.class 等。

  • Kafka Connect Configs

使用 Kafka 作为 Sink Connector 的写 Hudi 表的配置。

  • Amazon Web Services Configs

亚马逊 Web Service 配置。

Write Client Configs

  • Layout Configs

  • Clean Configs

  • Memory Configurations

  • Archival Configs

  • Metadata Configs

  • Consistency Guard Configurations

  • FileSystem Guard Configurations

  • Write Configurations

  • Metastore Configs

  • Key Generator Options

  • Storage Configs

  • Compaction Configs

  • File System View Storage Configurations

  • Clustering Configs

  • Common Configurations

  • Bootstrap Configs

  • Commit Callback Configs

  • Lock Configs

  • Index Configs

Metastore and Catalog Sync Configs

  • Common Metadata Sync Configs

  • Global Hive Sync Configs

  • DataHub Sync Configs

  • BigQuery Sync Configs

  • Hive Sync Configs

Metrics Configs

  • Metrics Configurations for Datadog reporter

  • Metrics Configurations for Amazon CloudWatch

  • Metrics Configurations

  • Metrics Configurations for Jmx

  • Metrics Configurations for Prometheus

  • Metrics Configurations for Graphite文章来源地址https://www.toymoban.com/news/detail-435356.html

Record Payload Config

  • Payload Configurations
配置项 是否必须 默认值 配置说明
hoodie.compaction.payload.class N org.apache.hudi.common.model.OverwriteWithLatestAvroPayload
hoodie.payload.event.time.field N ts
hoodie.payload.ordering.field N ts 在合并和写入存储之前,对相同主键进行排序的字段名,默认为 ts。

Kafka Connect Configs

  • Kafka Sink Connect Configurations
配置项 是否必须 默认值 配置说明
hadoop.conf.dir Y N/A
hadoop.home Y N/A
bootstrap.servers N bootstrap.servers Kafka 集群的 bootstrap.servers
hoodie.kafka.control.topic N hudi-control-topic
hoodie.meta.sync.classes N org.apache.hudi.hive.HiveSyncTool
hoodie.meta.sync.enable N false
hoodie.meta.sync.enable N org.apache.hudi.schema.FilebasedSchemaProvider
hoodie.kafka.coordinator.write.timeout.secs N 300
hoodie.kafka.compaction.async.enable N true

Amazon Web Services Configs

配置项 是否必须 默认值 配置说明
hoodie.aws.access.key Y N/A AWS access key id
hoodie.aws.secret.key Y N/A AWS secret key
hoodie.aws.session.token N N/A AWS session token

到了这里,关于Hudi学习笔记(2)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Apache Hudi初探(五)(与flink的结合)--Flink 中hudi clean操作

    本文主要是具体说说Flink中的clean操作的实现 在flink中主要是 CleanFunction 函数: open函数 writeClient =FlinkWriteClients.createWriteClient(conf, getRuntimeContext()) 创建FlinkWriteClient,用于写hudi数据 this.executor = NonThrownExecutor.builder(LOG).waitForTasksFinish(true).build(); 创建一个只有一个线程的线程池,改

    2024年02月06日
    浏览(36)
  • Apache hudi 核心功能点分析

    文中部分代码对应 0.14.0 版本 初始的需求是Uber公司会有很多记录级别的更新场景,Hudi 在Uber 内部主要的一个场景,就是乘客打车下单和司机接单的匹配,乘客和司机分别是两条数据流,通过 Hudi 的 Upsert 能力和增量读取功能,可以分钟级地将这两条数据流进行拼接,得到乘客

    2024年02月02日
    浏览(32)
  • Apache Hudi Timeline Server介绍

    Hudi 有一个中央时间线服务器,在驱动程序节点中运行并作为 Rest 服务。它有多种好处,第一个用例是提供 FileSystemView api。 Hudi 的核心是维护一个 TableFileSystemView,它暴露 API 来获取给定数据集的文件状态,驱动程序和执行程序将在写入和表服务生命周期的不同时间点查询该状

    2024年02月12日
    浏览(29)
  • Apache Hudi初探(三)(与flink的结合)--flink写hudi的操作(真正的写数据)

    在之前的文章中Apache Hudi初探(二)(与flink的结合)–flink写hudi的操作(JobManager端的提交操作) 有说到写hudi数据会涉及到 写hudi真实数据 以及 写hudi元数据 ,这篇文章来说一下具体的实现 这里的操作就是在 HoodieFlinkWriteClient.upsert 方法: initTable 初始化HoodieFlinkTable preWrite 在这里几乎没

    2024年02月10日
    浏览(35)
  • Apache Hudi初探(二)(与flink的结合)--flink写hudi的操作(JobManager端的提交操作)

    在Apache Hudi初探(一)(与flink的结合)中,我们提到了 Pipelines.hoodieStreamWrite 写hudi文件 ,这个操作真正写hudi是在 Pipelines.hoodieStreamWrite 方法下的 transform(opName(\\\"stream_write\\\", conf), TypeInformation.of(Object.class), operatorFactory) ,具体分析一下写入的过程。 对于 transform(opName(\\\"stream_write\\\", conf), Ty

    2024年02月12日
    浏览(37)
  • Apache Hudi初探(一)(与flink的结合)

    和 Spark 的使用方式不同, flink 结合 hudi 的方式,是以 SPI 的方式,所以不需要像使用 Spark 的方式一样, Spark 的方式如下: (这里不包括 org.apache.spark.sql.sources.DataSourceRegister ) Flink 结合 Hudi 的方式,只需要引入了对应的jar包即可,以 SPI 的方式: 其中 HoodieTableFactory 是读写 H

    2024年02月16日
    浏览(35)
  • 提升 Apache Hudi Upsert 性能的三个建议

    Apache Hudi 社区一直在快速发展,各公司正在寻找方法来利用其强大的功能来有效地摄取和管理大规模数据集。 每周社区都会收到一些常见问题,最常见的问题与 Hudi 如何执行更新插入有关,以确保以低延迟访问最新数据。 快速更新插入的主要考虑因素之一是选择正确的存储

    2024年02月05日
    浏览(44)
  • Apache Hudi 1.x 版本重磅功能展望与讨论

    Apache Hudi 社区正在对Apache Hudi 1.x版本功能进行讨论,欢迎感兴趣同学参与讨论,PR链接:https://github.com/apache/hudi/pull/8679/files 此 RFC 提议对 Hudi 中的事务数据库层进行令人兴奋和强大的重构,以推动未来几年整个社区的持续创新。 在过去的几年里,社区成长(https://git-contributo

    2024年02月07日
    浏览(71)
  • Apache Hudi 在袋鼠云数据湖平台的设计与实践

    在大数据处理中,实时数据分析是一个重要的需求。随着数据量的不断增长,对于实时分析的挑战也在不断加大,传统的批处理方式已经不能满足实时数据处理的需求,需要一种更加高效的技术来解决这个问题。Apache Hudi(Hadoop Upserts Deletes and Incremental Processing)就是这样一种

    2024年02月06日
    浏览(42)
  • 大数据Hadoop之——Apache Hudi 数据湖实战操作(FlinkCDC)

    Hudi(Hadoop Upserts Deletes and Incrementals) ,简称 Hudi ,是一个 流式数据湖平台 ,关于Hudi的更多介绍可以参考我以下几篇文章: 大数据Hadoop之——新一代流式数据湖平台 Apache Hudi 大数据Hadoop之——Apache Hudi 数据湖实战操作(Spark,Flink与Hudi整合) 这里主要讲解Hive、Trino、Starr

    2023年04月20日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包