数据仓库基础介绍

这篇具有很好参考价值的文章主要介绍了数据仓库基础介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

定义

Data warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内的完整的理论体系。

数据仓库的方案建设的目的,是为前端查询和分析作为基础,主要应用于OLAP(on-line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。目前行业比较流行的有:AWS Redshift,Greenplum,Hive等。

数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包含:清洗、转义、分类、重组、合并、拆分、统计等

一、数仓分层

ODS:数据运营层(Operation Data Store ),也称为贴源层
存放原始数据,没有经过处理的,日志表、离线数据。

DWD:数据细节层(data warehouse details)
该层是业务层和数据仓库的隔离层,保持和ODS层一样的数据颗粒度,保证口径一致性;主要是对ODS数据层做一些数据的初步清洗和规范化的操作,比如去除空数据、脏数据、离群值等。

DWB:数据主题划分。

DWM:数据中间层(Data Warehouse Middle)
该层是在DWD层的数据基础上,对数据做一些轻微的聚合操作,生成一些列的中间结果表,提升公共指标的复用性,减少重复加工的工作。
简单来说,对通用的核心维度进行聚合操作,算出相应的统计指标。

DWS:数据服务层(Data Warehouse Service)
该层是基于DWM上的基础数据,整合汇总成分析某一个主题域的数据服务层,用于提供后续的业务查询,OLAP分析,数据分发等。一般来说,该层的数据表会相对较少;一张表会涵盖比较多的业务内容,有很多维度,计算指标,由于其字段较多,因此一般也会称该层的表为宽表。

ADS:数据应用层(Application Data Service)
该层主要是提供给数据产品和数据分析使用的数据,一般会存放在ES、Redis、PostgreSql等系统中供线上系统使用;也可能存放在hive或者Druid中,供数据分析和数据挖掘使用,比如常用的数据报表就是存在这里的。

DIM:维度表(Dimension Table)或维表
是与事实表相对应的一种表,它保存了维度的属性值,可以跟事实表做关联,相当于将事实表上经常重复出现的属性抽取、规范出来用一张表进行管理。维度表主要是包含两个部分:
(1)高基数维度数据:一般是用户资料表、商品资料表类似的资料表,数据量可能是千万级或者上亿级别
(2)低基数维度数据:一般是配置表,比如枚举字段对应的中文含义,或者日期维表等;数据量可能就是个位数或者几千几万。

二、为什么分层

1、拆分计算逻辑,按照路径追踪数据,可溯源;
2、减少重复开发、有中间层的数据,可以复用计算结果;

三、数仓建模方式

范式建模:
关系型数据库,遵循第三范式3NF,数据冗余少,但效率低。

维度建模:
星型模型-以事实表为中心,所有维表连在事实表上,维表之间没有关联;(有冗余)
雪花模型-维表之间有关联;
星座模型-多个维表多个事实表关联;

四、数仓表设计

按照时间分区(天pdate、小时phour)、大类分区(pdev_big_type_cd)、上报方式6d7d(pdata_type)等等。
事实表:具有业务含义的、实际发生的、数据表。
①增量表:某时间段内有变化的上报数据,每次更新放到一个单独的分区中。
增量表适用于数据体量大、数据变更不大。
②全量表:每天更新所有的数据、不管是否变化都报,存到每天的分区中。
全量表适用数据量不很大的。
③拉链表:一个事务从开始到当前状态所有变化的信息,这张表有当前最新的状态和之前的历史数据。
拉链表适用于数据量大、但是变化少、但要统计状态,拉链表节省空间。

五、关于时间

1、如果是对历史数据的过滤,则分区采用t-1天
2、如果是对历史数据进行的聚合处理,分区采用t天文章来源地址https://www.toymoban.com/news/detail-423159.html

到了这里,关于数据仓库基础介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • YOLOV3 SPP 目标检测项目(针对xml或者yolo标注的自定义数据集)

    项目下载地址:YOLOV3 SPP网络对自定义数据集的目标检测(标注方式包括xml或者yolo格式) 目标检测边界框的表现形式有两种: YOLO(txt) : 第一个为类别,后面四个为边界框,x,y中心点坐标以及h,w的相对值  xml文件:类似于网页的标注文件,里面会存放图像名称、高度宽度信息

    2024年02月04日
    浏览(44)
  • 数据仓库(数仓)介绍

    1 )数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 2 )数

    2024年02月06日
    浏览(43)
  • Hive 数据仓库介绍

    目录 ​编辑 一、Hive 概述 1.1 Hive产生的原因 1.2 Hive是什么? 1.3 Hive 特点 1.4 Hive生态链关系 二、Hive架构 2.1 架构图 2.2 架构组件说明 2.2.1 Interface 2.2.1.1 CLI 2.2.1.2 JDBC/ODBC 2.2.1.3 WebUI 2.2.2 MetaData 2.2.3 MetaStore 2.2.4 Hiveserver2 2.2.5 Driver 2.2.5.1 解释器 2.2.5.2 编译器 2.2.5.3 优化器 2.2.5.4 执行

    2024年02月07日
    浏览(42)
  • 四、数据仓库详细介绍(规范)

    大家好,这是数据仓库系列的第三个话题,排序在架构之后、建模之前。为什么会提的这么靠前呢? 因为规范约束的是数仓建设的全流程,以及后续的迭代和运维。事实上,数仓规范文档,应该随着架构设计文档,在数仓开发启动之前,分发给所有相关人员,且是所有人都必

    2024年02月07日
    浏览(37)
  • 数据仓库介绍(DW)

    第一章:了解DW 1.1什么是数据仓库? 数据仓库(Data Warehouse) ,简称DW。数据仓库顾名思义,是⼀个 很⼤的数据存储集合 ,出于企业的 分析性报告 和 决策⽀持 ⽬的⽽创建, 对多样的业务数据进⾏筛选与整合 。它能为企业提供⼀定的BI(商业智能:例如数据挖掘、数据分析和

    2023年04月13日
    浏览(40)
  • 【数据仓库】Apache Doris介绍

    Apache Doris应用场景 Apache Doris核心特性 Apache Doris架构 Aggregate模型介绍   Uniq模型介绍          在某些多维分析场景下,用户更关注的是如何保证Key的唯一性Key 唯一性约束。因此,我们引入了 Unig 的数据模型。该模型本质上是聚合模型的一个特例,也是一种简化的表结构表

    2024年02月12日
    浏览(65)
  • 八、数据仓库详细介绍(监控告警)

    在前边的章节,我们设计完存储模型,开发了 ETL 任务,并且配置好流程依赖,然后上调度系统,至此我们的数据仓库基本搭建完成,而且所有流程任务都可以自动化运转了。 随着公司上线的数据处理任务越来越多,我们可以安排专门的运维人员定时监控任务执行情况,定时

    2024年02月07日
    浏览(35)
  • WMS产品实时数据仓库介绍

          目标以ERP、跨境电商ERP 、 WMS(仓储管理系统)为核心,搭建融合商业智能BI、新零售、订货系统等为一体的产品矩阵,帮助电商企业快速布局 跨境 和 新零售,提升订单处理效率,实现数字化业务管理,为企业降本增效。       Hologres是阿里巴巴自主研发的一站式

    2024年02月06日
    浏览(39)
  • 【数据仓库设计基础(四)】数据仓库实施步骤

    实施一个数据仓库项目的主要步骤是: 定义项目范围 收集并确认业务需求和技术需求 逻辑设计 物理设计 从源系统向数据仓库装载数据 使数据可以被访问以辅助决策 管理和维护数据仓库 项目范围定义了一个数据仓库项目的边界。典型的范围定义是组织、地区、应用、业务

    2024年02月08日
    浏览(44)
  • 定义现代化实时数据仓库,SelectDB 全新产品形态全面发布

    导读:9 月 25 日,2023 飞轮科技产品发布会在线上正式召开,本次产品发布会以 “新内核、新图景” 为主题,飞轮科技 CEO 马如悦全面解析了现代化数据仓库的演进趋势, 宣布立足于多云之上的 SelectDB Cloud 云服务全面开放 , 增加了全新的私有仓库(BYOC)产品模式,同时发

    2024年02月07日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包