1.数据仓库基本理论

这篇具有很好参考价值的文章主要介绍了1.数据仓库基本理论。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.数据仓库

概念
数据仓库是一个用于存储、分析、报告的数据系统
数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策

特点
数据仓库本身并不“生产”任何数据,其数据来源与不同外部系统
同时数据仓库自身不需要“消费”任何数据,其结果开放给各个外部应用使用

1.1 数据仓库的主要特征

面向主题:数据仓库是面向主题的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。
集成性:数据通常分布在多个操作型系统中,彼此分散、独立、异构。因此需要经过统一与综合,对数据进行抽取、清理、转换和汇总。
非易失性:数据仓库的数据反应的是一段相当长的时间内历史数据的内容。数据仓库中一般有大量的查询操作,但修改和删除操作很少。
时变性:数据仓库的数据需要随着时间更新,以适应决策的需要。

2.OLTP、OLAP

概念
联机事务处理OLTP(On-Line Transaction Processing):传统的关系型数据库系统(RDBMS)
联机分析处理OLAP(On-Line Analytical Processing):数据仓库是OLAP系统的一个典型示例,主要用于数据分析

数据仓库和数据库的区别

  • 数据仓库不是大型的数据库,虽然数据仓库存储数据规模大
  • 数据仓库的出现,并不是要取代数据库
  • 数据库是面向事务的设计,数据仓库是面向主题设计的
  • 数据库一般存储业务数据,数据仓库存储的一般是历史数据
  • 数据库是为捕获数据而设计,数据仓库是为分析数据而设计

数据仓库和数据集市的区别

  • 数据仓库是面向整个集团组织的数据,数据集市是面向单个部门使用的
  • 可以认为数据集市是数据仓库的子集,也有人把数据集市叫做小型数据仓库

3.数据仓库分层架构

按照数据流入流出对数仓的过程进行分层。
每个企业根据子集的业务需求可以分成不同的层次。但最基础的分层思想,理论上分为三层:操作型数据层(ODS)、数据仓库层(DW)和数据应用层(DA)

ODS层

操作型数据层,也称之为源数据层、数据引入层、数据暂存层、临时缓存层。
此层存放未经过处理的原始数据至数据仓库系统,结构上与源系统保持一致

DW层
数据仓库层,由ODS层数据加工而成。主要完成数据加工与整合,建立一致性的数据维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。
内部具体划分如下:
公共维度层、公共汇总粒度事实层、明细粒度事实层

DA层(或ADS层)
数据应用层,面向最终用户,面向业务指定提供给产品和数据分析使用的数据。

数据仓库分层的好处
分层的主要原因是在管理数据的时候,能对数据有一个更加清晰的掌控,详细来说主要是以下几个原因:
清晰数据结构
数据血缘追踪
减少重复开发
把复杂问题简单化
屏蔽原始数据的异常

4.ETL、ELT

数据仓库从个数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra,转化Transfer,装载Load)的过程
但在实际操作中将数据加载到仓库却产生了两种不同的做法:ETL和ELT

ETL概念
首先从数据源池中提取数据,这些数据源通常是事务性数据库。数据保存在临时缓存数据库(ODS)。然后执行转换操作,将数据结构化转换为适合目标数据仓库系统的形式。然后将结构化数据加载到仓库中,以备分析。

ELT概念
使用ELT,数据在从源数据池中提取后立即加载。没有专门的临时数据库(ODS),这意味着数据会立即加载到单一的集中存储库中。数据在数据仓库系统中进行转换,以便与商业智能工具(BI工具)一起使用。大数据时代的数仓这个特点很明显。文章来源地址https://www.toymoban.com/news/detail-513264.html

到了这里,关于1.数据仓库基本理论的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据仓库之建模理论以及仓库设计思想

    数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十

    2023年04月15日
    浏览(63)
  • 数据仓库表设计理论

    数仓顾名思义是数据仓库,其数据来源大多来自于业务数据(例如:关系型数据库),当设计数仓中表类型时(拉链表、增量表、全量表、流水表、切片表)时,应先观察业务数据的特点再设计数仓表结构 首先业务数据是会不断增长的-即增量,而在不断增长的前提下业务数据又可以

    2024年02月16日
    浏览(38)
  • 数据仓库理论

    数据仓库(Data Warehouse,简称 数仓 、 DW ),是一种用于存储。分析、报告的数据系统,其目的是构建 面向分析 的集成化数据环境,分析结果为企业提供决策支持 数据集仓库 本身并不生产任何数据 ,其数据来源于不同外部系统。同时数据 仓库自身也不需要消费任何的数据 ,其

    2024年02月08日
    浏览(34)
  • 数据仓库设计理论

    1.1、数据仓库介绍 数据仓库是一个用于集成、存储和分析大量结构化和非结构化数据的中心化数据存储系统。它旨在支持企业的决策制定和业务分析活动。 1.2、基本特征 主题导向:数据仓库围绕特定的主题或业务领域进行建模和组织,例如销售、客户、供应链等。这种主题

    2024年02月16日
    浏览(35)
  • 数据仓库DW-理论知识储备

    数据仓库具备 采集数据、存储数据、分析和计算 的功能,最后得出一些有用的数据,一些目标数据来使用。 采集来自不同源的数据,然后对这些数据进行分析和计算得出一些有用的指标,提供数据决策支持。 数据的来源有:系统的业务数据、用户的行为数据、爬虫数据等。

    2024年02月07日
    浏览(42)
  • 企业级数据仓库-理论知识

    大数据中间件 Hive:将SQL转化成分布式Map/Reduce进行运算,也支持转换成Spark,需要单独安装Hive集群才能访问Spark,支持60%的SQL,延迟比较大。 SparkSQL:属于Spark生态圈,Hive on Sqark。 HBase: NoSQL,高并发读,适合表结构频繁变动。 Impala: MPP架构的数据查询引擎,低层兼容Hive、Spark SQL,

    2024年02月07日
    浏览(46)
  • 数据仓库从0到1之数仓建模理论

    从ODS层到ADS层,数据是越来越少的,数据分析都是以大量的数据为基础,对数据进行汇总聚合运算,抽丝剥茧,越往后数据的汇总层度越高,最后得到汇总的指标。 数仓分层原因 将复杂问题简化,将复杂的任务分解成多层来完成,每一层只处理简单的任务,方便定位问题;

    2024年01月20日
    浏览(36)
  • 数据仓库的概念和作用?如何搭建数据仓库?

    随着企业规模的扩大和数据量的爆炸性增长,有效管理和分析海量数据成为企业数字化转型的关键。而在互联网的普及过程中,信息技术已深入渗透各行业,逐渐融入企业的日常运营。然而,企业在信息化建设中面临了一系列困境和挑战,具体有什么呢? 我们今天一起来看看

    2024年04月15日
    浏览(30)
  • 创造一个自己的gitee仓库——Git的基本操作

    1.基础设置 2.关联仓库 设置姓名和邮箱地址 关联本地仓库到gitee 3.git基本知识 git init——初始化仓库 git status——查看仓库的状态 git add——向暂存区中添加文件 git commit——保存仓库的历史记录 git push——推送至远程仓库 git log——查看提交日志 git diff——查看更改

    2024年02月04日
    浏览(59)
  • 【数仓基础(一)】基础概念:数据仓库【用于决策的数据集合】的概念、建立数据仓库的原因与好处

    数据仓库的主要作用: 数据仓库概念主要是解决多重数据复制带来的高成本问题。 在没有数据仓库的时代,需要大量的冗余数据来支撑多个决策支持环境。尽管每个环境服务于不同的用户,但这些环境经常需要大量相同的数据。 数据仓库的概念: 数据仓库描述为一个 面向主

    2024年02月10日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包