离线和实时数仓技术架构梳理

这篇具有很好参考价值的文章主要介绍了离线和实时数仓技术架构梳理。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1.离线数仓

离线数仓架构基本都是基于 Hive进行构建，数据分层方式如下：

ODS
Operational Data store，贴源层（原始数据层）

从各个业务系统、数据库或消息队列采集的原始数据，只做简单处理，尽可能维持数据原貌
DWD

Data Warehouse Detail，数据明细层

将贴源层的原始数据进行清洗补全后存入该层，数据粒度保持不变
DIM
Dimension，维度层

根据数据的实际情况抽取不同的维度数据，比如人员维度、产品维度
DWS

Data Warehouse Detail，数据服务层

基于明细层和维度层的数据，按业务需要汇总成一个个的主题数据，供数据分析使用
ADS

Application Data Service，应用数据层

根据业务需求形成了可供直接查询和使用的数据，可以存放在ES、HBase、Redis和MySQL等中

一个较为通用的离线数仓架构如下：

离线和实时数仓技术架构梳理

2.实时数仓

通过阅读多家业内头部公司的实时数仓建设方案，总结下来其核心都是 flink+kafka，对比离线数仓，其分层方式要简单一些。

这里也总结几个经典的技术选型案例：

Flink+Kafka+ClickHouse

离线和实时数仓技术架构梳理

这种架构方案其实是将数据源作为 ods层了，可以看作其实没有存真正完全未处理过的原始数据，对比离线数仓分层，也就少了一层。在 kafka中放 dwd和 dws的数据，使用 redis存放维度数据，再借助 flink实现不同层之间数据的抽取转换。另外，ads层用的 ClickHouse，也可以换成别的支持实时查询的存储，比如 Elasticsearch、Doris、StarRocks。

Flink+Kafka+HBase

这种架构方式把 dws层给简化了，目的是缩短数据链条，增强分析结果的实时性。由于 kafka中存储了 ods的数据，对 kafka来说压力就比较大了，需要多注意 kafka集群的设计与后期维护了。另外，这里维度数据存放在 hbase中，适合维度数据较多的业务场景。
Flink+Kafka+Iceberg+Presto

离线和实时数仓技术架构梳理

这种架构方式对比前两种，变化就比较大了。首先，引入了数据湖的理念和技术。其次，弱化了 kafka的地位，ods、dwd、dws三层的数据全部存在 Iceberg中，由 flink来完成不同层数据之间的流动。最后，由 Presto使用 sql直接查询 Iceberg中的数据，数据链条被进一步缩短了，当然实时性更强了。文章来源地址https://www.toymoban.com/news/detail-408595.html

到了这里，关于离线和实时数仓技术架构梳理的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！