【数据仓库-零】数据仓库知识体系 ing

这篇具有很好参考价值的文章主要介绍了【数据仓库-零】数据仓库知识体系 ing。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

通过熟悉构建数仓整体的过程,可以系统的了解

  • 数仓构建理论:能够站在全局角度看数仓的运行架构,数仓执行流程。
  • 了解到构建数仓的每一步对应使用哪些技术;

总之学习数仓为我们提供了构建、管理和优化大数据架构的关键技能和知识。

接下来我们了解下数据仓库都有哪些知识点需要我们进行学习:

一. 数仓基本概念

  • 数据仓库基础概念、建立数据仓库的由来
  • 数据仓库架构:
    1.数据集市、2.immon企业工厂架构、3. Kimball数据仓库架构、4.混合型数据架构
  • 数据仓库常见术语解析:维度模型和事实表
  • 数据仓库中ETL的概念
  • 数据仓库需求有哪些

【数仓基础(一)】基础概念:数据仓库【用于决策的数据集合】的概念、建立数据仓库的原因与好处

【数据仓库基础(二)】数据仓库架构

【数据仓库基础(三)】抽取-转换-装载

【数据仓库基础(四)】数据仓库需求:基本需求和数据需求

 文章来源地址https://www.toymoban.com/news/detail-720315.html

二. 离线数仓建设方法论

  1. 数仓分层方法
  2. 数仓建模方法:有如下三种方法:
    –(三)范式法
    – 维度建模法
    – 实体建模法
  3. 维度建模详解
  4. 数仓实施步骤

【数据仓库】数仓分层方法详解与层次调用规范

【数据仓库设计基础(一)】关系数据模型理论与数据仓库Inmon方法论

【数据仓库设计基础(二)】维度数据模型

【数据仓库设计基础(三)】数据集市

【数据仓库设计基础(四)】数据仓库实施步骤

维度建模和星型雪花模型的原则

 

三. hadoop与数据仓库的配合

  1. hadoop生态圈与数据仓库
  2. 了解数据抽取、转换和加载的概念
  3. ETL工具都有哪些:flink、hive等
  4. 如何进行数据的(ETL)清洗、转换和汇总

【数据仓库-9】hadoop生态圈与数据仓库

 

四. 数仓规范建设指南

  1. 数仓公共开发规范,见如下开发规范
    – 层次调用规范
    – 数据类型规范
    – 数据冗余规范
    – NULL字段处理规范
    – 指标口径规范
    – 数据表处理规范
    – 表的生命周期管理
  2. 数仓各层开发规范,见如下规范
    – ODS层设计规范
    – 公共维度层设计规范
    – DWD明细层设计规范
    – DWS公共汇总层设计规范
  3. 数仓命名规范:词根设计规范

【数据仓库】数仓分层方法详解与层次调用规范
 

五. 数据可视化

常见的数据可视化工具
如何设计仪表板和报表

 

到了这里,关于【数据仓库-零】数据仓库知识体系 ing的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 异地容灾系统和数据仓库系统设计和体系结构

    ( 1)生产系统数据同步到异地容灾系统 生产系统与异地容灾系统之间是通过百兆网连接的;生产系统的数据库是 Oracle 9i RAC,总的数据量大约为 3 TB,涉及五千多张表。对这些表进行分析归 类,发现容灾系统真正需要实时同步的表大约只有五百张,数据量约为 1 TB,只 要能

    2024年02月09日
    浏览(46)
  • DAMA数据管理知识体系-数据治理工程师(CDGA)

    本专栏为数据治理专栏,里面的内容主要是本人参加数据治理考试(CDGA)前做的笔记,包括一些考题或者易错点。其中加粗的文字为考试中常考的。 CDGA就是数据治理工程师(Certified Data Governance Associate),“DAMA中国”组织的数据治理方面的职业认证考试。 CDGA是DAMA中国组织的

    2024年02月09日
    浏览(41)
  • 一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

    一文看懂大数据生态圈完整知识体系 徐葳 随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步 ,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。 目前大数据生态圈中的核心技术

    2024年02月11日
    浏览(50)
  • 数据仓库基础知识

    我要了解企业目前的运转情况!(实时监控) 我要知道某地区近5年内的销售情况以制定未来的发展策略!(决策支持) 我要知道哪些是值得发展的优质的顾客!(预测) BI是Business Intelligence的英文缩写,中文解释为商务智能, 用来帮助企业更好地利用数据提高决策质量的技

    2024年02月11日
    浏览(47)
  • 干货:数据仓库基础知识(全)

    权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 1)数据仓库是用于支持决策、面向分析型数据处理; 2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据

    2024年02月07日
    浏览(40)
  • 数据仓库DW-理论知识储备

    数据仓库具备 采集数据、存储数据、分析和计算 的功能,最后得出一些有用的数据,一些目标数据来使用。 采集来自不同源的数据,然后对这些数据进行分析和计算得出一些有用的指标,提供数据决策支持。 数据的来源有:系统的业务数据、用户的行为数据、爬虫数据等。

    2024年02月07日
    浏览(42)
  • 企业级数据仓库-理论知识

    大数据中间件 Hive:将SQL转化成分布式Map/Reduce进行运算,也支持转换成Spark,需要单独安装Hive集群才能访问Spark,支持60%的SQL,延迟比较大。 SparkSQL:属于Spark生态圈,Hive on Sqark。 HBase: NoSQL,高并发读,适合表结构频繁变动。 Impala: MPP架构的数据查询引擎,低层兼容Hive、Spark SQL,

    2024年02月07日
    浏览(46)
  • 线性代数的学习和整理2:线性代数的基础知识(整理ing)

    目录 1 写在前面的话 1.1 为什么要先总结一些EXCEL计算矩阵的工具性知识, 而不是一开始就从基础学起呢?  1.2 关于线性代数入门时的各种灵魂发问: 1.3 学习资料 2 什么是线性(关系)? 2.1 线性的到底是一种什么关系: 线性关系=正比例/正相关关系 ≠ 直线型关系 2.2 一次函数

    2024年02月14日
    浏览(69)
  • 推理数据集(持续更新ing…)

    诸神缄默不语-个人CSDN博文目录 这两部分因为与GitHub上的有所重合,所以我全都归到那边了,这边的内容也放到那边了:PolarisRisingWar/Numerical_Reasoning_Collection: A collection for numerical reasoning, including datasets, algorithms and so on. LogiQA(中英文) 原始论文:(2020 IJCAI) LogiQA: A Challenge Da

    2024年02月10日
    浏览(76)
  • ElasticSearch知识体系详解

    ElasticSearch是基于Lucene的开源搜索及分析引擎,使用Java语言开发的搜索引擎库类,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。 它可以被下面这样准确的形容: 一个分布式的实时文档存储,每个字段可以被索引与搜索。 一个分布式实时分析搜索引

    2024年02月05日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包