数据仓库表级血缘应用

这篇具有很好参考价值的文章主要介绍了数据仓库表级血缘应用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

数仓血缘应用(一):表血缘热度



前言

在数据仓库的建设过程中,伴随着时间的迁移或多或少会遇到一些问题:
1、模型越来越多,表也越来越多,运维压力愈来愈大,当一大波问题来临时,感觉每张表都需要保障,但对优先保障哪些表没有数据支撑
2、业务口径的变化导致需要对下游数据链路进行改造,但数据链路较多,优先保障哪些链路、那些表没有数据支撑
3、数仓应用层报表在业务侧实际的使用情况如何?哪些模型可以下线?(减少人力成本与资源消耗成本)

面对这些问题我们怎么应用数据去提供更好的支持?


一、价值衡量指标——应用层

数据仓库的价值在于提供数据整合和一致性、支持决策制定、提供业务洞察力、提升工作效率和改善风险管理能力。它为企业提供了一个强大的数据分析和管理平台,帮助企业更好地理解和运营其业务。

数仓的价值在于为企业、为相关业务提供强大的数据分析能力。而如何衡量数仓哪些模型更重要——无外乎业务应用的更加频繁。呢么通过BI的pv、uv数据我们就可以获取到数仓应用层报表的重要程度。
数据仓库表级血缘应用,数据仓库,大数据,spark,数据库,数据分析
结论:从上图来看,应用层的报表从左到右访问量逐级递减。我们很清晰的可以知道表A对业务的帮助是最大的。

二、血缘节点应用——热度

1、指标透传(应用层——>数仓)

业务需要分析的数据一般在数仓中加工完成后通过ads层出库至应用层数据库并通过BI工具配置成相关报表呈现给业务进行分析,也就是上图我们展示的表A~F。

这里我们仅做一个简单的模型模型分析(忽略配置BI工具时的多表关联等情况),可以近似的认为应用层BI报表与数仓ads层表存在一一映射的关系。这样我们就可以将应用层的价值指标pv、uv透传至数仓表,为每一个数仓表打上热度标签。
数据仓库表级血缘应用,数据仓库,大数据,spark,数据库,数据分析

2、指标应用(热度)

2.1、数仓血缘节点关系

数据血缘也称为数据血统或谱系,是来描述数据的来源和派生关系。说白了就是这个数据是怎么来的,从那个表来到那个表去。即下图所示的表节点间关系
数据仓库表级血缘应用,数据仓库,大数据,spark,数据库,数据分析

2.2、热度

通过结合数仓血缘节点关系与应用层指标,我们可以获取数仓各层级表的应用热度,为我们的运维工作提供相应的数据支持。

注:这里热度仅通过简单的加法运算处理。实际应用中在数仓不同的层级间还需计算相关的层级系数,保障热度数据更有效。

数据仓库表级血缘应用,数据仓库,大数据,spark,数据库,数据分析

2.3、热度应用

表名 热度 top
dws1 1300 1
ads_A 1000 2
dws2 800 3
ads_B 500 4
dws3 450 5
ads_C 300 6
ads_D 100 7
ads_E 50 8
dws4 10 9
ads_F 10 10

结论:根据数据热度我们可以得出表dws1时在当前模型中的影响较大,保障优先级最高!


总结

本文仅仅简单介绍了数据血缘在数仓中的一种应用场景。而血缘的价值远非如此。期待和大家一起交流学习。文章来源地址https://www.toymoban.com/news/detail-776851.html

到了这里,关于数据仓库表级血缘应用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 支持可视化呈现数据库字段级和血缘关系的工具,太强了吧!

    SQLFlow 可跟踪超过 20 种主要数据库(包括 Snowflake、Hive、SparkSQL、Teradata、Oracle、SQL Server、AWS Redshift、BigQuery 等)的字段级数据血缘。 从查询历史记录、ETL 脚本、Github/Bitbucket、本地文件系统和远程数据库中的 SQL 语法创建和可视化血缘关系。 使用交互式图表或通过 Restful API 或

    2024年02月05日
    浏览(59)
  • 分析型数据库:分布式分析型数据库

    分析型数据库的另外一个发展方向就是以分布式技术来代替MPP的并行计算,一方面分布式技术比MPP有更好的可扩展性,对底层的异构软硬件支持度更好,可以解决MPP数据库的几个关键架构问题。本文介绍分布式分析型数据库。 — 背景介绍— 目前在分布式分析型数据库领域,

    2023年04月14日
    浏览(61)
  • 人大金仓分析型数据库配置数据库参数

    目录 前言 设置配置参数 设置本地配置参数 设置master配置参数  设置系统级别参数  设置数据库级别参数  设置角色级别参数  设置会话级别参数  查看服务器配置参数设置          据库的配置文件postgresql.conf 位于数据库实例的数据目录之下。master和每一个 实例都有自

    2024年02月09日
    浏览(59)
  • 【数据库原理】(29)数据库设计-需求分析阶段

    需求分析就是调查、收集、分析、最后定义用户对数据库的各种要求。它是整个数据库设计的基础和出发点,其结果将直接影响后面各步的设计,甚至决定着最终设计的数据库的好坏与成败。为此,首先必须知道需求分析的任务是什么,以及采用什么样的方法进行需求分析。 这阶

    2024年01月17日
    浏览(58)
  • Spark在数据科学中的应用案例分析

    Spark在数据科学中的应用案例分析 在数据科学领域,Apache Spark已经成为一个不可或缺的工具。其强大的分布式计算能力和丰富的数据处理功能使得数据科学家能够高效地处理大规模数据集,并从中提取有价值的信息。本文将通过几个具体的应用案例来分析Spark在数据科学中的

    2024年02月02日
    浏览(57)
  • 【数据库】sql优化有哪些?从query层面和数据库层面分析

    这类型问题可以称为:Query Optimization,从清华AI4DB的paper list中,该类问题大致可以分为: Query Rewriter Cardinality Estimation Cost Estimation Plan Optimization 从中文的角度理解那就是: 查询重写 基数估计 成本估计 执行计划优化 可以发现,这类型的优化问题,大多数从sql本身,或者说从

    2024年01月17日
    浏览(54)
  • Python数据分析之读取Excel数据并导入数据库

    曾某年某一天某地 时间如静止的空气 你的不羁 给我惊喜 ——《谁愿放手》陈慧琳 入职新公司两个多月,发现这边的数据基础很差,很多数据甚至没有系统承载,大量的Excel表,大量的人工处理工作,现阶段被迫“面向Excel”编程。本文主要介绍使用Python读取Excel数据并导入

    2024年01月25日
    浏览(54)
  • 数据库,数据仓库,数据湖

    数据仓库 四层分层 ODS——原始数据层 :存放原始数据 ODS层即操作数据存储,是 最接近数据源中数据的一层 ,数据源中的数据,经过抽取、洗净、传输,也就说传说中的ETL之后,装入本层;一般来说ODS层的数据和源系统的数据是同构的, 主要目的是简化后续数据加工处理的

    2024年02月16日
    浏览(53)
  • AI人工智能培训老师叶梓:大数据治理的关键工具:开源数据血缘分析系统

    在大数据时代,数据的产生和传播速度日益加快,数据之间的关系也变得日益复杂。为了更好地管理和理解数据之间的关系,数据血缘分析系统应运而生。本文将介绍几个开源的数据血缘分析系统,它们在数据治理、数据质量管理和数据隐私保护等方面发挥着重要作用。 血缘

    2024年04月23日
    浏览(78)
  • 数据库、数据仓库相关

    1. 数据库与数据仓库的区别 数据库 Database (Oracle, Mysql, PostgreSQL)主要用于事务处理。 数据仓库 Datawarehouse (Amazon Redshift, Hive)主要用于数据分析。 数据库和数据仓库是两种不同的数据存储方式,它们的设计目的和使用场景也有所不同。数据库通常用于存储和管理应用程序的事务

    2024年02月06日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包