数据库和数据仓库的区别

这篇具有很好参考价值的文章主要介绍了数据库和数据仓库的区别。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.项目课程和技术课程的区别

​ 项目课程:实现特殊的项目功能。

​ 技术深度不够。

​ 技术广度可以。

技术课程:trim()不会去掉全角空格。

​ 技术深度够。

​ 技术广度不够。

2.采集项目和数仓项目关系

​ 采集项目和数仓项目就是企业中数据管理两个功能模块。

​ 采集项目:采集和传输数据(用户行为数据,业务数据)。

​ 技术清单:Flume+Maxwell+DataX + Kafka + HDFS。

​ 数据 =>binlog顺序写 => 内存 => file

​ 数仓项目:。对数据进行加工处理(统计分析) 数据,可以临时存储数据。

​ HDFS + Hive(MR)+ Spark +Flink

​ 数仓分为:离线数仓(Spark) + 实时数仓(Flink)

​ 离线数仓计算延迟以天为单位。

3.数据库和数据仓库的区别

3.1 从名字(英文)上进行区分

​ 数据库:database (完整单词)=> data + base

​ 存储的数据应该为基础核心的业务数据。

​ 数据仓库:data warehose (不是完整的单词)

​ Warehose:货栈(大商店,小卖部)。

3.2 从数据源的角度

​ 数据库:全企业的所有业务数据。

​ 数据仓库:数据库的数据。

3.3 从数据存储的角度

​ 数据库:主要用于数据的查询处理。

​ 索引提高效率。

​ 不能存储海量数据。

​ 行式存储。

​ 数据仓库:主要用于数据的统计分析

​ 没索引。

​ 可以存储海量数据。

​ 列式存储,有利于压缩。

3.4 从数据价值的角度

​ 数据库:支撑企业中业务系统的执行。

​ 数据仓库:统计结果可以为企业经营决策提供数据依据。

​ 数据仓库并不是数据流转的终点。

​ 数据流转的终点应该是数据可视化平台。

4.数据仓库

​ 数据仓库的核心功能是对数据进行统计分析(Hive on Spark)

​ Spark的核心功能是对数据进行计算(Spak on Hive : SparkSQL)

​ 二者计算的基本步骤:

​ 数据源 =》 加工数据 =》 统计数据 =》分析数据(排序,取前多少条)

4.1 数据仓库是否可以将业务数据库直接作为数据源使用?

​ 1.业务数据库是为了数据仓库服务的吗?

​ 不是,业务数据库不是为了数据仓库服务,所以数据仓库直接访问数据库

​ 同时会影响业务系统。

​ 栈溢出 :死递归,压栈,小格子不够。Stack

​ 栈内存溢出 :多线程,没有足够的内存空间去开辟栈内存空间,用户太多。

​ 2.数据库能存海量数据?

​ 数据库不能存海量数据,查询效率会慢,不能直接作为数据统计分析的数据源,数据太少。

​ 3.数据库采用行式存储,不利于统计分析。

​ 数据仓库应该采用列式存储,方便统计分析。

​ 4.数据仓库应该有自己的数据源。

​ 数据仓库自己的数据源来自业务数据库的数据,不断汇总业务数据库的数据,

​ 需要周期性将业务数据库的数据同步到数据仓库的数据源中,这个同步的过程叫采集。

4.5 数据仓库和Spark的计算非常类似的

​ Spark中存在shuffle操作的,所谓的shuffle其实就是将数据落盘,

​ 前一段的任务如果不执行完,那么下阶段的任务无法进行。

​ 数据仓库数据流转过程也存在同样的处理方式

​ 数据仓库计算步骤不称之为阶段(Stage),称之为层。

文章来源地址https://www.toymoban.com/news/detail-839394.html

5.数据仓库建层

5.1 数据源:不断汇总业务数据库的数据以及日志数据。

​ 同步数据效率:尽可能保证数据不变

​ 1)数据格式 (压缩格式,文件格式同一)

​ 2)数据量 (数据量不能减少)

一般这层称之为 Operate Data Store(ODS)(需要操作的数据)

​ 全量数据一般用于分析数据结果。

​ 增量数据一般用于统计数据。

​ 一张表可能是全量和增量。

5.2 加工数据

​ 对数据源中的数据进行加工处理,为了后面的数据统计分析做准备。

​ 加工数据S

​ 数据的有效性,数据的非空校验,敏感数据。

一般这层称之为 Data Warehouse Detail ,简称为DWD。

5.3统计数据

​ 对加工后的数据做统计。

一般这层称之为 Data Warehouse Summary ,简称为DWS。

5.4分析数据

​ 对统计后的结果做进一步的分析。

一般这层称之为Application Data Service,简称为ADS。

​ Application Data:应用数据。

​ 数据仓库的统计结果数据。

​ service:对外提供数据服务。

5.5共通层

DIM(共通维度层):dimension(维度)。

​ 所谓的维度,其实就是分析数据的角度。

​ 性别的角度。

到了这里,关于数据库和数据仓库的区别的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark、RDD、Hive 、Hadoop-Hive 和传统关系型数据库区别

    Hive Hadoop Hive 和传统关系型数据库区别 Spark 概念 基于内存的分布式计算框架 只负责算 不负责存 spark 在离线计算 功能上 类似于mapreduce的作用 MapReduce的缺点 运行速度慢 (没有充分利用内存) 接口比较简单,仅支持Map Reduce 功能比较单一 只能做离线计算 Spark优势 运行速度快

    2024年02月13日
    浏览(37)
  • 处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术

    2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开 测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库 这oracle比sql安全,强大多了,所以你需要学

    2024年02月08日
    浏览(47)
  • 数据库,数据仓库,数据湖

    数据仓库 四层分层 ODS——原始数据层 :存放原始数据 ODS层即操作数据存储,是 最接近数据源中数据的一层 ,数据源中的数据,经过抽取、洗净、传输,也就说传说中的ETL之后,装入本层;一般来说ODS层的数据和源系统的数据是同构的, 主要目的是简化后续数据加工处理的

    2024年02月16日
    浏览(40)
  • 数据库、数据仓库相关

    1. 数据库与数据仓库的区别 数据库 Database (Oracle, Mysql, PostgreSQL)主要用于事务处理。 数据仓库 Datawarehouse (Amazon Redshift, Hive)主要用于数据分析。 数据库和数据仓库是两种不同的数据存储方式,它们的设计目的和使用场景也有所不同。数据库通常用于存储和管理应用程序的事务

    2024年02月06日
    浏览(33)
  • 【数据库原理】(38)数据仓库

    数据仓库(Data Warehouse, DW)是为了满足企业决策分析需求而设计的数据环境,它与传统数据库有明显的不同。 定义 : 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持企业管理和决策制定过程。 它专注于存储大量的历史数据,以便进行

    2024年01月22日
    浏览(27)
  • Elasticsearch的数据库与数据仓库整合

    Elasticsearch是一个开源的搜索和分析引擎,基于Lucene库,具有实时搜索、文本分析、数据聚合等功能。在大数据时代,Elasticsearch在数据库和数据仓库领域得到了广泛的应用。本文将从以下几个方面进行讨论: 背景介绍 核心概念与联系 核心算法原理和具体操作步骤以及数学模

    2024年02月21日
    浏览(34)
  • 一文了解数据库,数据仓库,数据湖,数据集市,数据湖仓

    目录 一、定义 1. 数据库(Database) 2. 数据仓库(Data Warehouse) 3. 数据湖(Data Lake) 4. 数据集市(Data Mart) 5. 数据湖仓(Data Lakehouse) 二、相同、异同 2.1 相同点 2.2 不同点 三、常见的工具 数据库: 数据仓库: 数据湖: 数据集市: 数据湖仓: 当然,以下是关于数据库、数

    2024年01月17日
    浏览(39)
  • 8月《中国数据库行业分析报告》已发布,聚焦数据仓库、首发【全球数据仓库产业图谱】

    为了帮助大家及时了解中国数据库行业发展现状、梳理当前数据库市场环境和产品生态等情况,从2022年4月起,墨天轮社区行业分析研究团队出品将持续每月为大家推出最新《中国数据库行业分析报告》, 持续传播数据技术知识、努力促进技术创新与行业生态发展 ,目前已更

    2024年02月10日
    浏览(52)
  • 一文了解数据库vs数据仓库vs数据湖

    大家好,我是KD,一名10年以上大数据架构研发经验从业者,目前主要从事云原生大数据方向设计,擅长云原生技术、数据架构、数据平台构建、大数据组件性能调优 以下是本文目录: 什么是数据库? 为什么会有数据仓库? 拆解几个OLAP核心概念 大数据技术架构演进过程 什

    2024年01月23日
    浏览(52)
  • 4 万字全面掌握数据库、数据仓库、数据集市、数据湖、数据中台

    如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。 随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关

    2024年04月11日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包