如何构建数据血缘系统

这篇具有很好参考价值的文章主要介绍了如何构建数据血缘系统。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、明确需求,确定边界

在进行血缘系统构建之前,需要进行需求调研,明确血缘系统的主要功能,从而确定血缘系统的最细节点粒度,实体边界范围。

例如节点粒度是否需要精确到字段级,或是表级。一般来说,表级粒度血缘可以解决75%左右的痛点需求, 字段级血缘复杂度较表级血缘高出许多,如果部门人数较少,可以考虑只精确到表级粒度血缘。

常见的实体节点包括:任务节点、库节点、表节点、字段节点、指标节点、报表节点、部门节点等。血缘系统可以扩展数据相关的实体节点,可以从不同的场景查看数据走向,例如表与指标,指标与报表的血缘关系。但是实体节点的范围需要明确,不可无限制的扩展下去。

明确需求,确定节点粒度与范围之后,才可根据痛点问题给出准确的解决方案,不至于血缘系统越建越臃肿,提高ROI(投入产出比)

2、构建元数据管理系统

目前市面上所有的血缘系统都需要依赖于元数据管理系统而存在。

元数据作为血缘的基础,一是用于构建节点间的关联关系,二是用于填充节点的属性,三是血缘系统的应用需要基于元数据才能发挥出最大的价值。所以构建血缘系统的前提一定是有一个较全面的元数据。

3、技术选型:图数据库

目前业内通常采用图数据库进行血缘关系的存储。

对于血缘关系这种层级较深,嵌套次数较多的应用场景,关系型数据库必须进行表连接的操作,表连接次数随着查询的深度增大而增多,会极大影响查询的响应速度。

而在图数据库中,应用程序不必使用外键约束实现表间的相互引用,而是利用关系作为连接跳板进行查询,在查询关系时性能极佳,而且利用图的方式来表达血缘关系更为直接。

4、血缘关系录入:自动解析and手动登记

自动解析:

获取到元数据之后,首先可以根据元数据表中的SQL抽取语句,通过SQL解析器可自动化获取到当前表的来源表【SQL解析器推荐jsqlparse】,并进行血缘关系录入。

手动登记:

如果当前表无SQL抽取语句,数据来源为手动导入、代码写入、SparkRDD方式等无法通过自动化方式确定来源表的时候,我们需要对来源表进行手动登记,然后进行血缘关系的录入。

5、血缘可视化

血缘系统构建完成后,为了能够更好的体现血缘价值,量化产出,需要进行血缘可视化的开发,分为两步:

1)链路-属性展示:

根据具体节点,通过点击操作,逐级展示血缘节点间的链路走向与涉及到的节点属性信息。

2)节点操作:

基于可视化的血缘节点与当前节点附带的元数据属性,我们可以设想一些自动化操作例如:

节点调度:直接基于血缘开启当前表节点的调度任务 

属性修改:通过前端修改当前节点的元数据属性并保存

6、血缘统计分析

数据血缘构建完成后,我们可以做一些统计分析的操作,从不同层面查看数据的分布与使用情况,从而支撑业务更好更快更清晰。

以我们团队举例,在工作过程中,我们需要以下血缘统计用于支撑数据业务,例如:

数据节点下游节点数量排序,用于评估数据价值及其影响范围

查询当前节点的所有上游节点,用于业务追踪溯源

数据节点输出报表信息详情统计,用于报表的上架与更新

查询孤岛节点,即无上下游节点的节点,用于数据删除的依据文章来源地址https://www.toymoban.com/news/detail-429166.html

到了这里,关于如何构建数据血缘系统的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 如何构建大数据指标分析系统

    前言 :技术是为了需求服务。技术的第一性原则是解决问题,不同的技术方案都能实现同样的需求,那在公司原有技术架构上,如何设计技术架构,尽量用最少的大数据组件解决多种应用场景问题。分析分为实事状态分析和预测分析(特征工程),本文用对事实状态指标分析

    2024年01月20日
    浏览(41)
  • 如何确定NetApp FAS存储系统是否正常识别到了boot device?

    近期处理了几个NetApp FAS存储控制器宕机的案例,其中部分有代表性的就是其实控制器并没有物理故障,问题是控制器里面的boot device的SSD盘出现了问题。这里给大家share一下如何确定系统是否成功识别到了boot device设备。 对于很多非专业人士来说,看到NetApp的一个控制器take

    2023年04月16日
    浏览(50)
  • 分布式数据库系统:如何利用HBase构建微博搜索引擎?

    作者:禅与计算机程序设计艺术 随着互联网的蓬勃发展,用户数量和社交活动呈爆炸式增长。因此,基于互联网的新型应用正在崭露头角,例如新浪微博、微信朋友圈、QQ空间、知乎、搜狐新闻等。这些网站拥有庞大的用户群体,每天产生海量的数据,极大的 challenges 要如何

    2024年02月04日
    浏览(57)
  • 如何正确提出数据需求

    当下,数据在业务中扮演着越来越重要的角色,没有数据不知道业务进展如何,没有数据不知道如何决策,企业将数据视为风向标,也将数据视为源动力。 在企业内部数据的流动环节,最为频繁的就是不同角色表达对数据的需求。 本文将分享一个数据需求表达的范式,通过

    2024年02月16日
    浏览(31)
  • 小薛读论文04:嵌入加速策略的逐步对冲( Progressive Hedging)算法求解带需求不确定性的集成规划和调度问题

    目录 1 摘要 2 背景概述 2.1 问题背景 2.2 方法概述 2.2.1 逐步对冲算法

    2024年02月12日
    浏览(40)
  • SaaS系统平台,如何兼顾客户的个性化需求?

    在当今数字化的商业环境中,SaaS系统已经成为企业运营的重要组成部分之一。 SaaS系统平台的好处是显而易见的,可以将业务流程数字化,从而帮助企业提高效率并节省成本。 但是,由于 每个企业的业务都不尽相同 ,所以在选择SaaS系统时,企业需要 考虑系统的个性化定制

    2024年02月06日
    浏览(92)
  • 从探索到明确,比特币与美股等传统资产相关性如何?

       早期阶段,比特币经历了一段摸索和模仿的时期,这是因为当比特币刚刚出现时,比特币的价值和用途在这一阶段并不明确,人们对其性质和潜力还不太了解。     然而,随着时间的推移,比特币去中心化、固定供应上限等特点吸引了越来越多的关注和信任,尽管比特

    2024年02月11日
    浏览(36)
  • 数据血缘管理

    作为数据分析师,充分认识业务数据流,可以大大提高数据分析效率。 1.什么是数据血缘管理? 数据血缘管理是元数据管理的重要组成部门,它描述数据的上下游关系。 按血缘对象来分,可分为系统级血缘、表级血缘、字段(列)级血缘。不管是结构化数据还是非结构化数

    2024年02月04日
    浏览(39)
  • DataHub调研&数据血缘

    回答: 不是 DataHub是由Linkedin开源的,官方喊出的口号为:The Metadata Platform for the Modern Data Stack - 为现代数据栈而生的元数据平台。官方网站A Metadata Platform for the Modern Data Stack | DataHub。目的就是为了解决多种多样数据生态系统的元数据管理问题,它提供元数据检索、数据发现

    2024年02月07日
    浏览(38)
  • 数据仓库表级血缘应用

    在数据仓库的建设过程中,伴随着时间的迁移或多或少会遇到一些问题: 1、模型越来越多,表也越来越多,运维压力愈来愈大,当一大波问题来临时,感觉每张表都需要保障,但对优先保障哪些表没有数据支撑 2、业务口径的变化导致需要对下游数据链路进行改造,但数据链

    2024年02月03日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包