记录几个Hudi Flink使用问题及解决方法

9月前作者：董可伦分类：Toy博客阅读(34) 违法举报

这篇具有很好参考价值的文章主要介绍了记录几个Hudi Flink使用问题及解决方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站：https://www.captainai.net/dongkelun

前言

如题，记录几个Hudi Flink使用问题，学习和使用Hudi Flink有一段时间，虽然目前用的还不够深入，但是目前也遇到了几个问题，现在将遇到的这几个问题以及解决方式记录一下

版本

Flink 1.15.4
Hudi 0.13.0

流写

流写Hudi,必须要开启Checkpoint，这个我在之前的文章:Flink SQL Checkpoint 学习总结提到过。

如果不设置Checkpoint，不会生成commit，感觉像是卡住一样，具体表现为只生成.commit.requested和.inflight,然后不写文件、不生成.commit也不报错，对于新手来说很费劲，很难找到解决方法。

索引

hudi-flink 仅支持两种索引：FLINK_STATE和BUCKET，默认FLINK_STATE。

最开始使用hudi是用的spark,hudi-spark支持BL文章来源地址https://www.toymoban.com/news/detail-669363.html

到了这里，关于记录几个Hudi Flink使用问题及解决方法的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Apache Hudi初探(二)(与flink的结合)--flink写hudi的操作(JobManager端的提交操作)

在Apache Hudi初探(一)(与flink的结合)中，我们提到了 Pipelines.hoodieStreamWrite 写hudi文件 ,这个操作真正写hudi是在 Pipelines.hoodieStreamWrite 方法下的 transform(opName(\\\"stream_write\\\", conf), TypeInformation.of(Object.class), operatorFactory) ,具体分析一下写入的过程。对于 transform(opName(\\\"stream_write\\\", conf), Ty

2024年02月12日
浏览(38)
Apache Hudi初探(三)(与flink的结合)--flink写hudi的操作(真正的写数据)

在之前的文章中Apache Hudi初探(二)(与flink的结合)–flink写hudi的操作(JobManager端的提交操作) 有说到写hudi数据会涉及到写hudi真实数据以及写hudi元数据 ,这篇文章来说一下具体的实现这里的操作就是在 HoodieFlinkWriteClient.upsert 方法: initTable 初始化HoodieFlinkTable preWrite 在这里几乎没

2024年02月10日
浏览(36)
Hudi（16）：Hudi集成Flink之读取方式

目录 0. 相关文章链接 1. 流读（Streaming Query） 2. 增量读取（Incremental Query） 3. 限流 Hudi文章汇总当前表默认是快照读取，即读取最新的全量快照数据并一次性返回。通过参数read.streaming.enabled 参数开启流读模式，通过 read.start-commit 参数指定起始消费位置，支

2024年02月06日
浏览(67)
Hudi（17）：Hudi集成Flink之写入方式

目录 0. 相关文章链接 1. CDC 数据同步 1.1. 准备MySQL表 1.2. flink读取mysql binlog并写入kafka 1.3. flink读取kafka数据并写入hudi数据湖 1.4. 使用datafaker插入数据 1.5. 统计数据入Hudi情况 1.6. 实时查看数据入湖情况 2. 离线批量导入 2.1. 原理 2.2. WITH 参数 2.3. 案例 3. 全量接增量 3.1.

2024年02月05日
浏览(40)
Hudi集成Flink

安装Maven 1）上传apache-maven-3.6.3-bin.tar.gz到/opt/software目录，并解压更名 tar -zxvf apache-maven-3.6. 3 -bin.tar.gz -C /opt/module/ mv apache -maven-3.6. 3 maven 2）添加环境变量到/etc/profile中 sudo vim /etc/profile #MAVEN_HOME export MAVEN_HOME=/opt/module/maven export PATH=$PATH:$MAVEN_HOME/bin 3）测试安装结果 sourc

2023年04月13日
浏览(34)
Hudi（四）集成Flink（2）

当前表默认是快照读取，即读取最新的全量快照数据并一次性返回。通过参数 read.streaming.enabled 参数开启流读模式，通过 read.start-commit 参数指定起始消费位置，支持指定 earliest 从最早消费。 1、WITH参数名称 Required 默认值说明 read.streaming.enabled false false 设置

2024年02月07日
浏览(37)
Hudi（19）：Hudi集成Flink之索引和Catalog

目录 0. 相关文章链接 1. Bucket索引（从 0.11 开始支持） 1.1. WITH参数 1.2. 和 state 索引的对比 2. Hudi Catalog（从 0.12.0 开始支持） 2.1. 概述 2.2. WITH 参数 2.3. 使用dfs方式 Hudi文章汇总默认的 flink 流式写入使用 state 存储索引信息：primary key 到 fileId 的映射关系。当

2024年02月05日
浏览(39)
Hudi的Flink配置项（1）

FallbackKeys 备选 keys，可理解为别名，当指定的 key 不存在是，则找备选 keys，在这里指配置项的名字。 FlinkOptions HoodieTableFactory 可有多个备选 keys，下表中的反斜杠“/”两侧分别为不同的备选 keys，应用时任选其一即可。 Flink配置项名备选的配置项名默认值作用 table.type hoo

2024年02月03日
浏览(42)
Kafka系列之：记录一次Kafka Topic分区扩容，但是下游flink消费者没有自动消费新的分区的解决方法

生产环境Kafka集群压力大，Topic读写压力大，消费的lag比较大，因此通过扩容Topic的分区，增大Topic的读写性能理论上下游消费者应该能够自动消费到新的分区，例如flume消费到了新的分区，但是实际情况是存在flink消费者没有消费到新的分区出现无法消费topic新的分区这种情况

2024年02月14日
浏览(56)
实时数据湖 Flink Hudi 实践探索

导读：首先做个自我介绍，我目前在阿里云云计算平台，从事研究 Flink 和 Hudi 结合方向的相关工作。目前，Flink + Hudi 的方案推广大概已经有了一年半的时间，在国内流行度也已比较高，主流的公司也会尝试去迭代他们的数仓方案。所以，今天我介绍的主题是 Flink 和 Hudi 在

2024年01月16日
浏览(51)