【大数据】-- 创建 Paimon 外部表

这篇具有很好参考价值的文章主要介绍了【大数据】-- 创建 Paimon 外部表。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

       如今,在数据湖三剑客(delta lake、hudi、iceberg)之上,又新出一派: apache paimon。我们恰好在工作中遇到,以下介绍在 dataworks 上,使用 maxcompute odps sql 创建 apache paimon 外部表的一些操作和注意事项。参考:创建MaxCompute Paimon外部表_云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心

1、前提条件

  • 当前执行操作的账号已具备创建MaxCompute表(CreateTable)的权限。更多表权限信息,请参见MaxCompute权限。

  • 已创建MaxCompute项目。具体操作,请参见创建MaxCompute项目。

  • 已创建存储空间(Bucket)以及对应的文件目录。具体操作,请参见创建存储空间。

2、注意事项

  • 当前MaxCompute仅支持对Paimon外部表的读取操作。要创建Paimon外部表,您可以使用阿里云实时计算Flink版或开源大数据平台E-MapReduce。

  • Paimon当前暂时不支持开启了Schema操作的MaxCompute项目。

  • Paimon外部表不支持cluster属性。

3、步骤

步骤一:在MaxCompute项目中上传Paimon插件

选择以下其中一种方式,在已创建的MaxCompute项目中上传Paimon插件。

方法一:在 dataworks 上创建

【大数据】-- 创建 Paimon 外部表,odps,大数据,odps

方法二:在 odpscmd 客户端创建

【大数据】-- 创建 Paimon 外部表,odps,大数据,odps

步骤二:通过Flink创建MaxCompute Paimon外部表

  1. 登录实时计算控制台,创建自定义Catalog类型。创建自定义Catalog类型操作详情,请参见创建自定义Catalog类型。

    说明

    创建自定义Catalog类型,需要上传Paimon自定义catalog插件。Paimon自定义catalog插件的下载链接,请参见下载链接。

  2. 在创建完自定义Catalog类型后,在自定义Catalog页签,单击刚创建好的自定义Catalog类型 paimon-06-1,然后单击下一步

  3. 填写Catalog代码信息及参数值后,单击确定

CREATE CATALOG `<catalog name>` WITH (
  'type' = 'paimon-06-1',
  'metastore' = 'maxcompute',
  'warehouse' = '<warehouse>',
  'fs.oss.endpoint' = '<oss endpoint>',
  'fs.oss.accessKeyId' = '<oss access key id>',
  'fs.oss.accessKeySecret' = '<oss access key secret>',
  'maxcompute.endpoint' = '<maxcompute endpoint>',
  'maxcompute.accessid' = '<maxcompute access id>',
  'maxcompute.accesskey' = '<maxcompute access key>',
  'maxcompute.project' = '<maxcompute project>',
  'maxcompute.oss.endpoint' = '<maxcompute oss endpoint>'
);

4.创建Paimon外部表。

  1. 云数据管理页面,选择paimon-06-1 > default,然后单击创建表,如下图所示。

    【大数据】-- 创建 Paimon 外部表,odps,大数据,odps

  2. 添加表对话框,选择Apache Paimon连接器,然后单击下一步

  3. 执行以下语句,单击确定。本文以创建test_tbl为例。

    CREATE TABLE `catalogname`.`default`.test_tbl (
        dt STRING,
        id BIGINT,
        data STRING,
        PRIMARY KEY (dt, id) NOT ENFORCED
    ) PARTITIONED BY (dt);
  4. SQL 开发页面,创建包含如下语句的SQL作业,部署并运行作业。关于如何创建并运行SQL作业详情,请参见SQL作业开发。

    INSERT INTO `catalogname`.`default`.test_tbl VALUES ('2023-04-21', 1, 'AAA'), ('2023-04-21', 2, 'BBB'), ('2023-04-22', 1, 'CCC'), ('2023-04-22', 2, 'DDD');

    说明

    • 请确认SQL作业的引擎版本为vvr-8.0.1-flink-1.17及以上版本。

    • 若SQL作业有限流作业(例如执行INSERT INTO ... VALUES ...语句),需要在作业运维页面,编辑运行参数配置,在其他配置设置execution.checkpointing.checkpoints-after-tasks-finish.enabled: true代码。关于如何配置作业的运行参数详情,请参见配置作业部署信息。

步骤三:通过MaxCompute读取Paimon外部表

  1. 通过使用本地客户端(odpscmd)连接或其他可以运行MaxCompute SQL的工具,执行以下命令。

    SET odps.sql.common.table.planner.ext.hive.bridge = true;
    SET odps.sql.hive.compatible = true;
  2. 执行以下命令,查询MaxCompute Paimon外部表test_tbl。

    SELECT * FROM test_tbl WHERE dt = '2024-02-21';

    返回结果如下。文章来源地址https://www.toymoban.com/news/detail-839107.html

    +------------+------------+------------+
    | id         | data       | dt         |
    +------------+------------+------------+
    | 1          | AAABB        | 2024-02-21 |
    | 2          | BBBCC        | 2024-02-21 |
    +------------+------------+------------+

到了这里,关于【大数据】-- 创建 Paimon 外部表的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 聊聊流式数据湖Paimon(二)

    Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture) 数据的入湖;CDC 数据来自数据库。一般来说,分析需求是不会直接查询数据库的。 容易对业务造成影响,一般分析需求会查询全表,这可能导致数据库负载过高,影响业务 分析性能不太好,业务数据库一般不是列存,查

    2024年02月03日
    浏览(29)
  • 聊聊流式数据湖Paimon(四)

    数据打宽 通过不同的流写不同的字段,打宽了数据的维度,填充了数据内容;如下所示: 完整的Changlog Paimon中的表被多流填充数据且打宽维度后,支持流读、批读的方式提供完整的Changelog给下游。 Sequence-Group 配置: \\\'fields.G.sequence-group\\\'=\\\'A,B\\\' 由字段 G 控制是否更新字段 A, B ;

    2024年02月03日
    浏览(62)
  • 聊聊流式数据湖Paimon(五)

    从Demo入手,了解Paimon/Flink项目搭建的全过程。记录下采坑之旅。 在IDEA中创建Flink项目,由于没有Flink的archetype,因此需要手动创建一下。 参考:idea快速创建flink项目,至此Flink的项目框架就搭建起来了。 注意:必须注释掉pom文件中的 provided ;否则运行时会报错: Error: A JN

    2024年02月03日
    浏览(41)
  • 聊聊流式数据湖Paimon(三)

    如果表没有定义主键,则默认情况下它是仅追加 表类型(Append Only Table)。 根据桶(Bucket)的定义,我们有两种不同的仅追加模式:\\\"Append For Scalable Table\\\"和\\\"Append For Queue\\\";两种模式支持不同的场景,提供不同的功能。 只能向表中插入一条完整的记录。 不支持删除或更新,并且不能

    2024年02月03日
    浏览(48)
  • Flink + Paimon数据 CDC 入湖最佳实践

    Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture)数据的入湖,看完这篇文章可以了解到: 1、为什么 CDC 入Hive迁移到 Paimon? 2、CDC 入 Paimon 怎么样做到成本最低? 3、Paimon 对比 Hudi有什么样的优势?  Paimon 从 CDC 入湖场景出发,希望提供给你 简单、低成本、低延时 的

    2024年01月16日
    浏览(44)
  • Paimon+StarRocks 湖仓一体数据分析方案

    摘要:本文整理自阿里云高级开发工程师曾庆栋(曦乐)在 Streaming Lakehouse Meetup 的分享。内容主要分为四个部分: 传统数据仓库分析实现方案简介 Paimon+StarRocks 构建湖仓一体数据分析实现方案 StarRocks 与 Paimon 结合的使用方式与实现原理 StarRocks 社区湖仓分析未来规划 点击查

    2024年02月10日
    浏览(42)
  • 4 Paimon数据湖之Hive Catalog的使用

    更多Paimon数据湖内容请关注 :https://edu.51cto.com/course/35051.html Paimon提供了两种类型的Catalog: Filesystem Catalog 和 Hive Catalog 。 Filesystem Catalog:会把元数据信息存储到文件系统里面。 Hive Catalog:则会把元数据信息存储到Hive的Metastore里面,这样就可以直接在Hive中访问Paimon表了。注

    2024年02月02日
    浏览(43)
  • ODPS是什么,阿里云ODPS前世今生

    前言: ODPS(Open Data Processing Service),原是阿里云从 09年开始自研的大规模批量计算引擎,2016 年更名为MaxCompute。2022云栖大会上,阿里云ODPS全新升级为一体化大数据平台,存储、调度、元数据一体化融合 ,从 Processing 升级为 Platform,即 Open Data Platform and Service。提供了离线计

    2024年02月16日
    浏览(34)
  • 流数据湖平台Apache Paimon(四)集成 Hive 引擎

    前面与Flink集成时,通过使用 paimon Hive Catalog,可以从 Flink 创建、删除、查询和插入到 paimon 表中。这些操作直接影响相应的Hive元存储。以这种方式创建的表也可以直接从 Hive 访问。 更进一步的与 Hive 集成,可以使用 Hive SQL创建、查询Paimon表。 Paimon 目前支持 Hive 3.1、2.3、2

    2024年02月14日
    浏览(55)
  • 流数据湖平台Apache Paimon(三)Flink进阶使用

    2.9.1 写入性能 Paimon的写入性能与检查点密切相关,因此需要更大的写入吞吐量: 增加检查点间隔,或者仅使用批处理模式。 增加写入缓冲区大小。 启用写缓冲区溢出。 如果您使用固定存储桶模式,请重新调整存储桶数量。 2.9.1.1 并行度 建议sink的并行度小于等于bucket的数量

    2024年02月09日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包