数据仓库(2)-认识数仓

这篇具有很好参考价值的文章主要介绍了数据仓库(2)-认识数仓。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、数据仓库是什么

数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。

下图是本文后续要介绍的认识数据仓库的相关内容。
数据仓库(2)-认识数仓,数据仓库,数据仓库,spark,大数据

2、大数据相关岗位

大数据相关岗位包括数据仓库,数据平台,数据分析,数据产品。各自职能不同,本文重点介绍数据仓库相关。

2.1数据仓库技术分组

数据仓库作为大数据相关技术栈之一,相关岗位和工作内容可见如下:数据仓库按照技术能力划分,分为离线开发组,实时开发组,数据治理组,数据安全组。
数据仓库(2)-认识数仓,数据仓库,数据仓库,spark,大数据

离线开发组
数据仓库(2)-认识数仓,数据仓库,数据仓库,spark,大数据

实时开发组
数据仓库(2)-认识数仓,数据仓库,数据仓库,spark,大数据

数据治理组
数据仓库(2)-认识数仓,数据仓库,数据仓库,spark,大数据

数据安全组
数据仓库(2)-认识数仓,数据仓库,数据仓库,spark,大数据

3、数据仓库在大数据生态中的定位

数据仓库在大数据生态中定位:承接各种数据源,**通过采(对数据源数据采集)、建(数据资产/模型建设)、管(数据管理、数据服务)、用(如何利用数据为下游创造更多应用价值分析)**的方式实现下游需求内容为数据分析、运营、风控等业务提供数据支撑.

4、数据仓库变化历史

数据仓库演变可以分为3个时代,从2000-2013是1.0时代,从2013到现在是2.0时代(仍有很多公司使用),从2016到现在也是3.0时代。
数据仓库(2)-认识数仓,数据仓库,数据仓库,spark,大数据
1.0时代
数据仓库(2)-认识数仓,数据仓库,数据仓库,spark,大数据
2.0时代
数据仓库(2)-认识数仓,数据仓库,数据仓库,spark,大数据
3.0时代
数据仓库(2)-认识数仓,数据仓库,数据仓库,spark,大数据

5、数据仓库建设版图

数据仓库(2)-认识数仓,数据仓库,数据仓库,spark,大数据

6、数据仓库组件及架构

组件,如下图
数据仓库(2)-认识数仓,数据仓库,数据仓库,spark,大数据

架构-Lambda架构
数据仓库(2)-认识数仓,数据仓库,数据仓库,spark,大数据
架构-Kappa架构
数据仓库(2)-认识数仓,数据仓库,数据仓库,spark,大数据
图1中的1.2和1.7内容,本文不做介绍文章来源地址https://www.toymoban.com/news/detail-810165.html

到了这里,关于数据仓库(2)-认识数仓的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 离线数仓(五)【数据仓库建模】

            今天开始正式数据仓库的内容了, 前面我们把生产数据 , 数据上传到 HDFS , Kafka 的通道都已经搭建完毕了, 数据也就正式进入数据仓库了, 解下来的数仓建模是重中之重 , 是将来吃饭的家伙 ! 以及 Hive SQL 必须熟练到像喝水一样 !         数据仓库 (dataware,简称 DW) 是

    2024年03月26日
    浏览(51)
  • 【数仓建设系列之一】什么是数据仓库?

    一、什么是数据仓库? 数据仓库(Data Warehouse,简称DW)简单来讲,它是一个存储和管理大量结构化和非结构化数据的存储集合,它以主题为向导,通过整合来自不同数据源下的数据(比如各业务数据,日志文件数据等),解决企业数据孤岛,为企业提供统一的数据视图。通过构建

    2024年02月12日
    浏览(28)
  • 数仓学习---15、数据仓库工作流调度

    工具部署链接 1.2.1 用户行为日志 1、启动日志采集通道,包括Kafka、Flume等 (1)启动Zookeeper (2)启动Kafka (3)启动Flume 2、修改日志模拟器配置文件 修改hadoop102和hadoop103两台节点中的/opt/module/applog/application.yml文件,修改mock.date参数如下。 3、执行日志生成脚本 4、观察HDFS上

    2024年02月15日
    浏览(28)
  • 数据仓库内容分享(十二):数仓和大数据的双向奔赴

    在 MapReduce 流行这些年之后,针对大数据集的 分布式批处理执行引擎 已经逐渐成熟。到现在(2017年)已经有比较成熟的基础设施可以在上千台机器上处理 PB 量级的数据。因此,针对这个量级的 基本数据处理问题 可以认为已经被解决,大家的注意力开始转到其他问题上: 完

    2024年02月22日
    浏览(31)
  • 最详细数据仓库项目实现:从0到1的电商数仓建设(数仓部分)

    数据仓库是一个为数据分析而设计的企业级数据管理系统 ,它是一个系统,不是一个框架。可以独立运行的,不需要你参与,只要运行起来就可以自己运行。 数据仓库不是为了存储(但是能存),而是为了统计分析 数据仓库可集中、整合多个信息源的大量数据,借助数据仓

    2024年03月23日
    浏览(29)
  • 数据仓库从0到1之数仓建模理论

    从ODS层到ADS层,数据是越来越少的,数据分析都是以大量的数据为基础,对数据进行汇总聚合运算,抽丝剥茧,越往后数据的汇总层度越高,最后得到汇总的指标。 数仓分层原因 将复杂问题简化,将复杂的任务分解成多层来完成,每一层只处理简单的任务,方便定位问题;

    2024年01月20日
    浏览(29)
  • 【数仓基础(一)】基础概念:数据仓库【用于决策的数据集合】的概念、建立数据仓库的原因与好处

    数据仓库的主要作用: 数据仓库概念主要是解决多重数据复制带来的高成本问题。 在没有数据仓库的时代,需要大量的冗余数据来支撑多个决策支持环境。尽管每个环境服务于不同的用户,但这些环境经常需要大量相同的数据。 数据仓库的概念: 数据仓库描述为一个 面向主

    2024年02月10日
    浏览(29)
  • 腾讯云对象存储联合DataBend云数仓打通数据湖和数据仓库

    随着数字化进程不断深入,数据呈大规模、多样性的爆发式增长。为满足更多样、更复杂的业务数据处理分析的诉求,湖仓一体应运而生。在Gartner发布的《Hype Cycle for Data Management 2021》中,湖仓一体(Lake house)首次被纳入到技术成熟度曲线中。 伴随多场景的成功落地, 腾讯

    2024年02月13日
    浏览(23)
  • 【大数据】Doris 构建实时数仓落地方案详解(一):实时数据仓库概述

    本系列包含: Doris 构建实时数仓落地方案详解(一):实时数据仓库概述 Doris 构建实时数仓落地方案详解(二):Doris 核心功能解读 Doris 构建实时数仓落地方案详解(三):Doris 实时数仓设计 数据仓库的概念可以追溯到 20 世纪 80 年代,当时 IBM 的研究人员提出了商业数据

    2024年02月04日
    浏览(36)
  • 【从0开始离线数仓项目】——数据仓库的环境搭建(1)

    目录 一、服务器环境准备 1.2 编写集群分发脚本xsync 1.3 SSH无密登录配置 1.4 JDK准备 1.5 环境变量配置说明 二、集群所有进程查看脚本 三、Zookeeper安装 3.1 分布式安装部署 3.2 ZK集群启动停止脚本 3.3 客户端命令行操作 CentOS 7 怎么从命令行模式切换到图形界面模式 切换至root权限

    2024年02月13日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包