【开源项目】轻量元数据管理解决方案——Marquez

这篇具有很好参考价值的文章主要介绍了【开源项目】轻量元数据管理解决方案——Marquez。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【开源项目】轻量元数据管理解决方案——Marquez

大家好,我是独孤风。

又到了本周的开源项目推荐。最近推荐的元数据管理项目很多,但是很多元数据管理平台的功能复杂难用。
那么有没有轻量一点的元数据管理项目呢?
今天为大家推荐的开源项目,就是一个轻量级的元数据管理工具。虽然轻量,但是元数据的收集、展示、数据血缘等功能都是支持的。
让我们一起来看看吧~

【开源项目】轻量元数据管理解决方案——Marquez

Marquez概述

今天为大家推荐的开源项目名为Marquez。这是WeWork开源的元数据管理工具,可以对元数据进行收集,聚合和可视化。
Marquez提供了开源的元数据服务,用于数据生态系统元数据的收集、聚合和可视化。通过它可以对数据集整体的产生和消费情况进行把控。
并提供数据处理全过程的数据可视化,并可以对数据集的生命周期进行集中管理。

【开源项目】轻量元数据管理解决方案——Marquez

该项目还在蓬勃发展中,目前标星数为1.5K,最新版本为三周前发布的0.43.1。主要开发语言为Java和TS。
Marquez的部署与Java项目类似,只要启动对应的Web端服务和API服务就可以了。
特别强调一下Marquez的血缘API非常的简洁,可以轻松建立数据血缘依赖关系,这可以为数据质量等原因分析提供保证。

可在大数据流动后台回复“Marquez”获取安装包,源代码与学习资料。

功能演示

请参考大数据流动视频号的功能演示:

如何安装?

可以docker快速安装,需要至少满足如下版本。

  • Docker 17.05+
  • Docker Compose

拉取项目

$ git clone https://github.com/MarquezProject/marquez && cd marquez

可以用下面的命令启动

$ ./docker/up.sh --seed

请通过访问http://localhost:3000浏览到 UI 。然后,使用页面右上角的搜索栏搜索该职位etl_delivery_7_days。要查看 的沿袭元数据etl_delivery_7_days,请从下拉列表中单击该作业:

【开源项目】轻量元数据管理解决方案——Marquez

您应该看到作业namespacename和数据集,input并且output作业运行标记为COMPLETED

【开源项目】轻量元数据管理解决方案——Marquez

最后,单击 的输出数据public.delivery_7_daysetl_delivery_7_days。您应该看到数据集nameschemadescription

【开源项目】轻量元数据管理解决方案——Marquez

API的使用

项目启动后就可以调用API了。

下面是一个简单的例子,首先我们要启动一个血缘事件。

$ curl -X POST http://localhost:5000/api/v1/lineage \
  -i -H 'Content-Type: application/json' \
  -d '{
        "eventType": "START",
        "eventTime": "2020-12-28T19:52:00.001+10:00",
        "run": {
          "runId": "d46e465b-d358-4d32-83d4-df660ff614dd"
        },
        "job": {
          "namespace": "my-namespace",
          "name": "my-job"
        },
        "inputs": [{
          "namespace": "my-namespace",
          "name": "my-input"
        }],  
        "producer": "https://github.com/OpenLineage/OpenLineage/blob/v1-0-0/client",
        "schemaURL": "https://openlineage.io/spec/1-0-5/OpenLineage.json#/definitions/RunEvent"
      }'

随后完成该任务。

$ curl -X POST http://localhost:5000/api/v1/lineage \
  -i -H 'Content-Type: application/json' \
  -d '{
        "eventType": "COMPLETE",
        "eventTime": "2020-12-28T20:52:00.001+10:00",
        "run": {
          "runId": "d46e465b-d358-4d32-83d4-df660ff614dd"
        },
        "job": {
          "namespace": "my-namespace",
          "name": "my-job"
        },
        "outputs": [{
          "namespace": "my-namespace",
          "name": "my-output",
          "facets": {
            "schema": {
              "_producer": "https://github.com/OpenLineage/OpenLineage/blob/v1-0-0/client",
              "_schemaURL": "https://github.com/OpenLineage/OpenLineage/blob/v1-0-0/spec/OpenLineage.json#/definitions/SchemaDatasetFacet",
              "fields": [
                { "name": "a", "type": "VARCHAR"},
                { "name": "b", "type": "VARCHAR"}
              ]
            }
          }
        }],     
        "producer": "https://github.com/OpenLineage/OpenLineage/blob/v1-0-0/client",
        "schemaURL": "https://openlineage.io/spec/1-0-5/OpenLineage.json#/definitions/RunEvent"
      }'

注意运行正常的话我们应该接到201 CREATED的响应。

在页面搜索,将得到血缘展示。

【开源项目】轻量元数据管理解决方案——Marquez

这只是Marquez的基本用法。

Marquez提供元数据采集的一个标准方案,目前支持Spark,Airflow的表级别和列级别的数据血缘收集。
而Flink暂时只支持表级别的血缘收集。
相信Marquez未来会支持越来越多的数据源,让我们一起期待一下吧~文章来源地址https://www.toymoban.com/news/detail-777400.html

到了这里,关于【开源项目】轻量元数据管理解决方案——Marquez的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 破局数据分析滞后难题,赋能企业高速增长的指标管理解决方案

    指标是什么? 业务发展过程中,企业内外部都会产生很多的业务数据,对这些数据进行采集、计算、落库、分析后,形成的统计结果称为指标。简单来说,指标是业务被拆解、量化后形成的数量特征,企业利用数据指标对业务进行精准的号脉,实现对业务的科学管理和有效优

    2024年03月09日
    浏览(39)
  • HarmonyOS学习路之开发篇—数据管理(轻量级数据存储)

    轻量级数据存储适用于对Key-Value结构的数据进行存取和持久化操作。应用获取某个轻量级存储对象后,该存储对象中的数据将会被缓存在内存中,以便应用获得更快的数据存取速度。应用也可以将缓存的数据再次写回文本文件中进行持久化存储,由于文件读写将产生不可避免

    2024年02月13日
    浏览(34)
  • Python学习:[Microsoft][ODBC 驱动程序管理器] 未发现数据源名称并且未指定默认驱动程序 的解决方案

    使用的操作系统(Win10)是64bit的,但是装的 office365是32bit的。之前学习Python装的是64bit的Python 3.7, 今天在试验写数据到Access数据库时,发现无论是win32com.client还是pyodbc,都会提示错误: [IM002] [Microsoft][ODBC 驱动程序管理器] 未发现数据源名称并且未指定默认驱动程序 首先检查Micr

    2024年02月04日
    浏览(40)
  • 开源大数据管理平台

              目前两大开源大数据平台CDH和HDP已闭源,国内也涌现出了一些开源的大数据平台,比如:apache bigtop 和 DataSophon。当前这两个产品都是完全开源的,并且这两个项目提供了源码和编译文档自助可控。 一、apache bigtop 项目地址:https://bigtop.apache.org         Ap

    2024年02月22日
    浏览(31)
  • 开源数据资产(元数据)管理平台选型对比

    尽管数据行业的新词热度,由大数据平台-数据治理-数据中台-数字化转型(现代数据技术栈)转换,做为这些新词的基础组成部分,数据资产管理平台/元数据管理平台/数据目录管理平台等技术方案,依旧处于Gartner曲线的爬升恢复期,相关平台百花齐放,一统江湖的开源平台

    2024年01月24日
    浏览(35)
  • 开源大数据管理平台选型

    随着CDH和HDP的闭源,还有国内信创需求,经过前期调研和后期实践,目前主要有两个产品满足要求:apache bigtop 和 DataSophon 符合要求。因为这两个产品都是完全开源的,自助可控。 项目地址:https://bigtop.apache.org Apache Bigtop 是一个开源项目,旨在提供一套完整的开源软件栈,用

    2024年02月21日
    浏览(31)
  • 一个开源、免费在线数据建模、元数据管理平台,简单易用

    一、开源项目简介 ERD Online 是一个开源、免费在线数据建模、元数据管理平台。提供简单易用的元数据设计、关系图设计、SQL查询等功能,辅以版本、导入、导出、数据源、SQL解析、审计、团队协作等功能、方便我们快速、安全的管理数据库中的元数据。 使用AGPL-3.0开源协议

    2024年02月02日
    浏览(38)
  • 12款开源数据资产(元数据)管理平台选型分析(三)

    如上,是ChatGPT的百度指数和微信指数,继2022年12月上旬技术圈火热之后,因为微软、谷歌等巨头的推广加持,ChatGPT成为全球大众热源的话题。各大媒体都在消费这波舆论红利,打开微信公众号,劈天盖地各种姿势的ChatGPT推文。关于ChatGPT是否会替代人类的文章,在各个领域和

    2023年04月22日
    浏览(50)
  • 开源元数据管理平台OpenMetadata开发环境搭建

    开源的元数据管理平台很多。开源元数据管理平台是一种用于收集、存储和管理数据的工具,它们提供了一种可扩展的方式来组织和维护数据的元数据信息。以下是一些常见的开源元数据管理平台: Apache Atlas:Apache Atlas是一个开源的大数据元数据管理和数据治理平台,旨在帮

    2024年02月20日
    浏览(31)
  • 数据中台开源技术栈:一图看懂全面的数据管理与应用架构

          随着数字化时代的到来,数据管理和应用架构变得越来越重要。数据平台作为一个集中管理和利用数据的架构,为组织提供了促进数据驱动决策和业务创新的能力。本文通过一幅图表,将数据平台技术栈的组成部分清晰呈现,助您深入了解数据中台的全面数据管理与应

    2024年04月10日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包