数据仓库架构详解-Toy模板网

这篇具有很好参考价值的文章主要介绍了数据仓库架构详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、基本概念

数据仓库（Data Warehouse）是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据，借助数据仓库的分析能力，为企业指定决策，帮助企业改进业务流程、提高产品数量

一般数仓分为离线数仓（spark）和实时数仓（flink）

数据仓库架构,大数据,数据仓库,架构
数据采集

数据通过DataX或者sqoop可以将业务数据等导入到数据仓库，通过Flume可以将用户行为数据等导入到数据仓库；

数据分析

数据通过处理获取有用的数据指标

数据可视化

将处理好的数据指标用在各种模块中

流程图
数据仓库架构,大数据,数据仓库,架构

数据采集

业务数据通过Nginx采集到业务服务器（Springboot）然后再写到mysql中，用户行为数据通过Nginx采集到日志服务器（Springboot）写入到日志文件中（注：主要由JavaWeb人员负责）
日志文件的用户行为数据通过Flume将数据先写入kafka（主要作用为消峰），再通过Flume将kafka的数据写入到hdfs
Mysql的业务行为数据通过DataX（全量的同步）将数据写入到hdfs中，也可以使用Maxwell（增量同步）将数据写入到hdfs中

离线数仓

将HDFS中的数据进行建模进行各种数据分层处理如： ODS层、DIM层、DWD层、DWS层、ADS层等，（基本上都是Sql语句），所以需要DolphinScheduler进行任务调度管理
处理之后数据，通过DataX（每日同步）结果数据写入到MySQL中
然后再通过Superset的可视化工具进行数据的展示

实时数仓文章来源地址https://www.toymoban.com/news/detail-579636.html

Flink读取kakfa中的数据，而kafka中主题数据即为ODS层
Flink从kafka中读取的数据进行清洗即为DWD层，再次写回到kafka中
Flink读取kafka中DWD层的数据，进行维数数据的处理，通过Hbase存储处理的数据，由于Flume和kafka会造成数据的重复，那么Flink在消费kafka数据的时候可以进行精准一次去重。如果数据量比较小可以不用Flink，而使用Redis旁路缓存去重，即为DIM层
维度的数据可以通过Redis或者Hbase进行查询
Flink将上面数据写入到ClickHouse进行预聚合，即为DWS层
最后对ClickHouse数据进行查询，然后通过Springboot（JavaWeb）数据接口服务将查询数据写入到Sugar，进行实时数据的可视化

到了这里，关于数据仓库架构详解的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！