数据仓库架构详解

这篇具有很好参考价值的文章主要介绍了数据仓库架构详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、基本概念

数据仓库Data Warehouse)是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,为企业指定决策,帮助企业改进业务流程、提高产品数量

一般数仓分为离线数仓(spark)和实时数仓(flink)

二、核心框架

数据仓库架构,大数据,数据仓库,架构
数据采集

数据通过DataX或者sqoop可以将业务数据等导入到数据仓库,通过Flume可以将用户行为数据等导入到数据仓库;

数据分析

数据通过处理获取有用的数据指标

  • ODS层:原始数据层,用来数据备份
  • DWD层:明细数据层,用来数据清洗
  • DWS层: 汇总数据层,用来数据预聚合
  • ADS层:数据应用层,用来数据统计和计算
  • DIM层:公共维度层,用来数据分类的

数据可视化

将处理好的数据指标用在各种模块中

  1. 可视化的报表
  2. 用户画像
  3. 推荐系统
  4. 机器学习

三、数仓大数据架构详解(流程)

流程图
数据仓库架构,大数据,数据仓库,架构

数据采集

  1. 业务数据通过Nginx采集到业务服务器(Springboot)然后再写到mysql中,用户行为数据通过Nginx采集到日志服务器(Springboot)写入到日志文件中(注:主要由JavaWeb人员负责)
  2. 日志文件的用户行为数据通过Flume将数据先写入kafka(主要作用为消峰),再通过Flume将kafka的数据写入到hdfs
  3. Mysql的业务行为数据通过DataX(全量的同步)将数据写入到hdfs中,也可以使用Maxwell(增量同步)将数据写入到hdfs中

离线数仓

  1. 将HDFS中的数据进行建模 进行各种数据分层处理 如: ODS层、DIM层、DWD层、DWS层、ADS层等,(基本上都是Sql语句),所以需要DolphinScheduler进行任务调度管理
  2. 处理之后数据,通过DataX(每日同步)结果数据写入到MySQL中
  3. 然后再通过Superset的可视化工具进行数据的展示

实时数仓文章来源地址https://www.toymoban.com/news/detail-579636.html

  1. Flink读取kakfa中的数据,而kafka中主题数据即为ODS层
  2. Flink从kafka中读取的数据进行清洗即为DWD层,再次写回到kafka中
  3. Flink读取kafka中DWD层的数据,进行维数数据的处理,通过Hbase存储处理的数据,由于Flume和kafka会造成数据的重复,那么Flink在消费kafka数据的时候可以进行精准一次去重。如果数据量比较小可以不用Flink,而使用Redis旁路缓存去重,即为DIM层
  4. 维度的数据可以通过Redis或者Hbase进行查询
  5. Flink将上面数据写入到ClickHouse进行预聚合,即为DWS层
  6. 最后对ClickHouse数据进行查询,然后通过Springboot(JavaWeb)数据接口服务将查询数据写入到Sugar,进行实时数据的可视化

到了这里,关于数据仓库架构详解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 浅谈数据仓库架构设计

    个人认为数据中台本质上是一种新的适配大数据技术发展的新的“数据仓库-决策支持(商业智能)”架构。这个架构是构建在传统的架构基础之上,对传统架构的一种新的发展。 数据中台从企业的视角出发,要求企业在构建数据仓库到决策支持系统的过程中构建一个服务型

    2024年02月15日
    浏览(48)
  • 数据仓库【2】:架构

    将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程 构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先 定义好的数据仓库模型,将数据加载到数据仓库中去 ETL 规则的设计和实施约占整个数据仓库搭

    2024年02月04日
    浏览(25)
  • BDCC - 闲聊数据仓库的架构

    按自下而上的顺序,分别为 ETL(Extract-Transform-Load)层 ODS(Operational Data Store)层 CDM(Common Dimensional Model)层 ADS(Application Data Store)层。 其中CDM层主要包括DWD层(Data Warehouse Detail)和DWS层(Data Warehouse Summary)两部分。 ODS(Operational Data Store):操作数据存储,主要用于存放

    2024年02月10日
    浏览(18)
  • 银行数据仓库体系实践(2)--系统架构

            UML对系统架构的定义是:系统的组织结构,包括系统分解的组成部分,它们的关联性,交互,机制和指导原则,例如对系统群就是定义各子系统的功能和职责,如贷款系统群可能分为进件申请、核额、交易账务、贷后管理、管理台等子系统,对于系统就是定义各模

    2024年01月18日
    浏览(38)
  • 从数据仓库到数据结构:数据架构的演变之路

    在上个世纪,从电子商务巨头到医疗服务机构和政府部门,数据已成为每家组织的生命线。有效地收集和管理这些数据可以为组织提供宝贵的洞察力,以帮助决策,然而这是一项艰巨的任务。 尽管数据很重要,但CIOinsight声称,只有10%的组织认为自己擅长数据分析管理。组织

    2024年02月13日
    浏览(25)
  • 微信万亿数据仓库架构设计与实现

    安全策略开发流程 安全业务的核心逻辑在安全策略中实现。整个的策略开发流程包括特征数据的收集,安全策略的编写实现,和策略的反馈评估。其中特征数据的收集是必不可少的环节,数据的质量将直接影响安全策略的效果。 特征数据收集 主要包括:数据接入、特征的计

    2024年02月16日
    浏览(30)
  • 数据仓库系列:StarRocks 下一代高性能分析数据仓库的架构、数据存储及表设计

    本文是学习StarRocks的读书笔记,让你快速理解下一代高性能分析数据仓库的架构、数据存储及表设计。 StarRocks的架构相对简单。 整个系统只包含两种类型的组件,前端(FE)和后端(BE),StarRocks不依赖任何外部组件,简化了部署和维护。 FE和BE可以在不停机的情况下横向扩展。

    2024年02月16日
    浏览(45)
  • 高效数据湖构建与数据仓库融合:大规模数据架构最佳实践

    🎉欢迎来到云计算技术应用专栏~高效数据湖构建与数据仓库融合:大规模数据架构最佳实践 ☆* o(≧▽≦)o *☆嗨~我是IT·陈寒🍹 ✨博客主页:IT·陈寒的博客 🎈该系列文章专栏:云计算技术应用 📜其他专栏:Java学习路线 Java面试技巧 Java实战项目 AIGC人工智能 数据结构学习

    2024年02月09日
    浏览(32)
  • 数据仓库、数据集市、数据湖,你的企业更适合哪种数据管理架构?

    建设企业级数据平台,首先需要了解企业数据,确认管理需求,并选择一个数据管理架构。那么面对纷繁复杂的数据来源,多元化的数据结构,以及他们的管理使用需求,企业数据平台建设该从何处入手呢?哪个数据管理架构适合自己的企业呢?本篇将介绍数据仓库、数据集

    2023年04月09日
    浏览(27)
  • [架构之路-174]-《软考-系统分析师》-5-数据库系统-7-数据仓库技术与数据挖掘技术

    数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。近年来,人们对数据仓库技术的关注程度越来越尚,其原因是过去的几十年中 ,建设了无数的应用系统,积累了大量的数据,但这些数据没有得到很好的利用,有时反而成为企

    2023年04月23日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包