BDCC - 闲聊数据仓库的架构

这篇具有很好参考价值的文章主要介绍了BDCC - 闲聊数据仓库的架构。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

BDCC - 闲聊数据仓库的架构,【大数据&云计算】,数据仓库


典型数据仓库架构图

BDCC - 闲聊数据仓库的架构,【大数据&云计算】,数据仓库

按自下而上的顺序,分别为

  • ETL(Extract-Transform-Load)层
  • ODS(Operational Data Store)层
  • CDM(Common Dimensional Model)层
  • ADS(Application Data Store)层。

其中CDM层主要包括DWD层(Data Warehouse Detail)和DWS层(Data Warehouse Summary)两部分。

ODS(Operational Data Store):操作数据存储,主要用于存放实时的、操作性的数据,通常是来自不同源系统的数据,用于支持企业的业务操作和实时查询。

DWD(Data Warehouse Detail):数据仓库明细,是数据仓库中存储的最细粒度的数据,通常是事实表,用于支持企业的报表分析和数据挖掘。

DWS(Data Warehouse Summary):数据仓库汇总,是基于 DWD 事实表进行汇总、聚合生成的数据,通常以主题为单位组织,用于支持企业的决策分析。

ADS(Application Data Store):应用数据存储,主要用于存放为特定应用或业务场景定制的数据,通常包括模型、指标、维度等,用于支持企业的特定分析需求。

这些术语通常用于描述数据仓库和商业智能系统的不同层次和组成部分。在实际应用中,它们可能根据企业的具体需求和实现方式有所不同。

BDCC - 闲聊数据仓库的架构,【大数据&云计算】,数据仓库


数据仓库ETL vs ELT

ETL

数据仓库ETL主要用于完成数据接入的过程,即从业务系统或其他数据源中提取数据,并进行数据清洗、转换和加载到目的地系统(如数据仓库)中的过程。该过程中,数据会经历抽取(Extract)、转换(Transform)和加载(Load)三个阶段,最终达到数据从源头流动到目标端的目的。

  • 提取(Extract):从不同的数据源中提取需要的数据,如数据库连接、文件导入、API 调用等。
  • 转换(Transform):对提取出来的数据进行转换和清洗,以满足数据仓库的需求。这包括数据格式转换、数据清洗、数据合并等。
  • 加载(Load):将经过转换和清洗的数据加载到数据仓库中,用于后续的数据分析和挖掘。

BDCC - 闲聊数据仓库的架构,【大数据&云计算】,数据仓库

ELT

数据仓库ELT指的是将数据抽取出来后,直接进行加载,最后再进行数据转换的一种数据集成和处理方式。与传统的 ETL不同,ELT将数据的处理和加工过程转移到了数据仓库中,利用数据仓库的数据计算能力和分布式处理能力来处理和转换数据。

  • 提取(Extract):从不同的数据源中提取需要的数据,如数据库连接、文件导入、API 调用等。
  • 加载(Load):将提取出来的数据直接加载到数据仓库中,用于后续的数据分析和挖掘。
  • 转换(Transform):对加载到数据仓库中的数据进行转换和清洗,以满足数据分析的需求。

区别联系

总结来说,ETL 和 ELT 的主要区别在于数据转换和加载的顺序。ETL 方法在将数据加载到数据仓库之前进行数据清洗和转换,而 ELT 方法则在将数据加载到数据仓库之后进行数据清洗和转换。

在实际应用中,选择 ETL 还是 ELT 需要根据具体的业务需求和数据处理需求来决定。一般来说,如果数据质量要求较高,或者需要对数据进行复杂的转换和清洗,ETL 方法可能更为合适;而如果数据质量相对较好,或者需要更快地将数据加载到数据仓库中,ELT 方法可能更为合适。

BDCC - 闲聊数据仓库的架构,【大数据&云计算】,数据仓库


数据仓库分层

(1)数据仓库ODS层

数据仓库ODS层也称为操作数据源层,是数据仓库中的一个核心组成部分。该层主要用于保存原始数据,完成数据积存,通常反映了企业业务系统中的最新操作,同时也是进行数据仓库的基础。

数据仓库ODS层通常采用可靠的数据仓库ETL工具为数据仓库提供数据,以此使源数据和数据仓库之间保持同步。

BDCC - 闲聊数据仓库的架构,【大数据&云计算】,数据仓库
同时,数据仓库ODS层的数据被保存在磁盘中,直接体现了数据仓库的一个特性——非易失性(,即在停机或崩溃的情况下,数据不会丢失。


(2)数据仓库CDM层

CDM层是指公共维度模型层,是数据仓库中最核心和最关键的一层。主要用于提供标准化、共享的维度模型,为数据分析提供便利。CDM层通常包括**数据明细层(DWD)和数据汇总层(DWS)**两个部分。

DWD数据明细层

DWD层指数据明细层,通常接收数据仓库ODS层的原始数据,并进行清洗、标准化、维度退化、异常数据剔除等操作,进行统一处理,为数据分析提供支持。DWD层一般按照业务主题建模,包含多个维度和事实表,维度表可以用来描述业务数据的特征,而事实表则包含了关键数据指标(如销量、价格等)。

DWS数据汇总层

DWS层指数据汇总层,其主要作用是通过聚合和汇总,将DWD层中的数据按照主题进行汇总,形成宽表,进而提升数据分析性能。DWS层通常包含多个宽表,每个宽表都是由多个事实表和维度表经过聚合和分组运算生成的。DWS层中的宽表可以满足特定主题和不同维度的分析需求,减少了对其他表的操作,提升数据分析性能。

BDCC - 闲聊数据仓库的架构,【大数据&云计算】,数据仓库


(3)数据仓库ADS层

ADS层也称为数据应用层,其主要功能是保存结果数据,为外部系统提供查询接口,基于数据仓库的数据为企业提供增值应用,并将数据仓库的数据应用于企业决策、报表、分析、控制等领域。ADS层通常采用OLAP(Online Analytical Processing)技术,用于快速访问和查询数据。

ADS层一般包括多个宽表,用于支持与企业应用有关的查询、分析、报告、控制、决策等操作。这些宽表一般可以通过BI工具或自定义应用程序查询和访问,以满足企业的各种数据需求。为了提高访问和查询速度,ADS层通常使用数据索引、缓存和预聚合等技术。

有时为了更好地管理和维护数据仓库,可以将ADS层从数据仓库中独立出去,成为一个独立的数据集市层(Data Mart)。数据集市层专门为某一特定业务需求而建立,可以基于某一个特定的主题或者某个业务领域建模,以满足该领域的数据分析和查询需求。

BDCC - 闲聊数据仓库的架构,【大数据&云计算】,数据仓库文章来源地址https://www.toymoban.com/news/detail-689477.html

到了这里,关于BDCC - 闲聊数据仓库的架构的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据架构之关系型数据仓库——解读大数据架构(二)

    本文对关系型数据仓库(RDW)进行了简要的介绍说明,包括什么是关系型数据仓库,以及为什么要使用关系型数据仓库,其优缺点有哪些,如何增量更新数据等,最后还讨论了关系型数据仓库是否会消失的问题,以及哪些人会继续使用关系型数据仓库。 关系型数仓(RDW 是集

    2024年04月13日
    浏览(42)
  • 第4天:基础入门-30余种加密编码进制&;Web&;数据库&;系统&;代码&;参数值

    1.了解加密编码进制在安全测试中的存在 2.掌握常见的加密解密编码解码进制互转的操作 3.了解常见的加密解密编码解密进制互转的影响 旨在解决类似疑问,提供思路: 你是否碰到不知道的加密方式? 你是否碰到无法找到的解密平台? 你是否碰到不知道如何解密的字符串?

    2024年02月06日
    浏览(40)
  • 数据仓库架构详解

    数据仓库 ( Data Warehouse )是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力, 为企业指定决策,帮助企业改进业务流程、提高产品数量 一般数仓分为离线数仓(spark)和实时数仓(flink) 数据采集 数据

    2024年02月16日
    浏览(20)
  • 浅谈数据仓库架构设计

    个人认为数据中台本质上是一种新的适配大数据技术发展的新的“数据仓库-决策支持(商业智能)”架构。这个架构是构建在传统的架构基础之上,对传统架构的一种新的发展。 数据中台从企业的视角出发,要求企业在构建数据仓库到决策支持系统的过程中构建一个服务型

    2024年02月15日
    浏览(48)
  • 数据仓库【2】:架构

    将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程 构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先 定义好的数据仓库模型,将数据加载到数据仓库中去 ETL 规则的设计和实施约占整个数据仓库搭

    2024年02月04日
    浏览(26)
  • 010-基础入门-HTTP数据包&;Postman构造&;请求方法&;请求头修改&;状态码判断

    2、Cookie-身份替换 见上图 首先抓取PC浏览器网站登录上去的数据包 再抓取模拟机上登录失败的数据包 把数据包中的cookie进行替换,发现模拟机上从登陆失败变成登陆成功 结论: Response状态码 选中抓取数据包,发送至repeater( Repeater 是一个手动修改并补发个别 HTTP 请求,并分

    2024年04月23日
    浏览(28)
  • 银行数据仓库体系实践(2)--系统架构

            UML对系统架构的定义是:系统的组织结构,包括系统分解的组成部分,它们的关联性,交互,机制和指导原则,例如对系统群就是定义各子系统的功能和职责,如贷款系统群可能分为进件申请、核额、交易账务、贷后管理、管理台等子系统,对于系统就是定义各模

    2024年01月18日
    浏览(38)
  • 从数据仓库到数据结构:数据架构的演变之路

    在上个世纪,从电子商务巨头到医疗服务机构和政府部门,数据已成为每家组织的生命线。有效地收集和管理这些数据可以为组织提供宝贵的洞察力,以帮助决策,然而这是一项艰巨的任务。 尽管数据很重要,但CIOinsight声称,只有10%的组织认为自己擅长数据分析管理。组织

    2024年02月13日
    浏览(25)
  • 微信万亿数据仓库架构设计与实现

    安全策略开发流程 安全业务的核心逻辑在安全策略中实现。整个的策略开发流程包括特征数据的收集,安全策略的编写实现,和策略的反馈评估。其中特征数据的收集是必不可少的环节,数据的质量将直接影响安全策略的效果。 特征数据收集 主要包括:数据接入、特征的计

    2024年02月16日
    浏览(30)
  • 数据仓库系列:StarRocks 下一代高性能分析数据仓库的架构、数据存储及表设计

    本文是学习StarRocks的读书笔记,让你快速理解下一代高性能分析数据仓库的架构、数据存储及表设计。 StarRocks的架构相对简单。 整个系统只包含两种类型的组件,前端(FE)和后端(BE),StarRocks不依赖任何外部组件,简化了部署和维护。 FE和BE可以在不停机的情况下横向扩展。

    2024年02月16日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包