什么是metadata表
Metadata表即Hudi元数据表,是一种特殊的Hudi表,对用户隐藏。该表用于存放普通Hudi表的元数据信息。
Metadata表包含在普通Hudi表内部,与Hudi表是一一对应关系。
元数据表的作用
ApacheHudi元数据表可以显著提高查询的读/写性能。元数据表的主要目的是消除“列出文件”操作的要求。
读取和写入数据时,会执行文件列表操作,以获取文件系统的当前视图。当数据集较大时,列出所有文件可能是性能瓶颈,但更重要的是,在AWS S3等云存储系统中,由于某些请求限制,大量文件列出请求有时会导致限制。元数据表将主动维护文件列表,并消除递归文件列表操作的需要。
Metadata表把当前Hudi表的分区信息,以及分区目录下的文件信息作为元数据信息,存储在一张特殊的Hudi表里面,这样当查询引擎需要list表分区文件时只需要访问这张特殊的表即可,由于元数据信息数据量本身不大,所以查询起来可以大大降低HDFS的rpc压力。
Metadata表的实现使用了Hudi MOR表,这意味着和其他任何Hudi表一样,可以被压缩(Compaction)、清理(Clean)、增量更新(incrementally updated)。 而且与其他项目中的类似实现不同,我们选择将文件列表等信息索引为HFile格式(格式可插拔),HFile提供了很好的点查性能,可以高效获取分区文件列表等信息。
文章来源:https://www.toymoban.com/news/detail-793079.html
相关测试
运行TPCDS基准测试时,文章来源地址https://www.toymoban.com/news/detail-793079.html
到了这里,关于Hudi metadata table(元数据表)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!