1)概述
Paimon 和 Flink 一样使用了插件式的 file systems,如果使用Flink引擎,用户可以根据 plugin 机制配置 plugin 结构。
然而,对于 Spark 引擎 和 Hive 引擎,它们提供的 Jars 可能与 Flink 提供的产生冲突,不能直接使用,因此 Paimon 自己也提供了FileSystem插件,供用户从Spark或Hive端查询表。
支持的文件系统
FileSystem | URI Scheme | Pluggable | Description |
---|---|---|---|
Local File System | file:// | N | 内置支持 |
HDFS | hdfs:// | N | 内置支持, 确保集群处于 hadoop environment |
Aliyun OSS | oss:// | Y | |
S3 | s3:// | Y |
2)HDFS
1.HDFS 配置
对于 Flink/Java API:需要配置 Hadoop 环境。
设置环境变量HADOOP_HOME或HADOOP_CONF_DIR。
在paimon catalog中配置'hadoop-conf-dir'
通过paimon catalog中的前缀'hadoop.'配置Hadoop选项。
对于 Spark/Hive:HDFS配置可直接通过集群获得。
2.Hadoop-compatible file systems (HCFS)
当Hadoop libraries在类路径上时,所有Hadoop文件系统都会自动可用。
通过这种方式,Paimon无缝支持所有实现org.apache.hadoop.fs.FileSystem
接口的Hadoop文件系统,以及所有与Hadoop兼容的文件系统(HCFS)。
- HDFS
- Alluxio(见下面的配置细节)
- XtreemFS
- …
Hadoop配置必须在core-site.xml
文件中有一个用于所需文件系统实现的配置。文章来源:https://www.toymoban.com/news/detail-838828.html
对于Alluxio支持,请在core-site.xml文件中添加以下配置:文章来源地址https://www.toymoban.com/news/detail-838828.html
<property>
<name>fs.alluxio.impl</name>
<value>alluxio.hadoop.FileSystem</value>
</property>
到了这里,关于Apache Paimon 使用之文件系统配置的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!