离线和实时数仓技术架构梳理

这篇具有很好参考价值的文章主要介绍了离线和实时数仓技术架构梳理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.离线数仓

离线数仓架构基本都是基于 Hive进行构建,数据分层方式如下:

  • ODS
    Operational Data store,贴源层(原始数据层)

    从各个业务系统、数据库或消息队列采集的原始数据,只做简单处理,尽可能维持数据原貌

  • DWD

    Data Warehouse Detail,数据明细层

    将贴源层的原始数据进行清洗补全后存入该层,数据粒度保持不变

  • DIM
    Dimension,维度层

    根据数据的实际情况抽取不同的维度数据,比如 人员维度、产品维度

  • DWS

    Data Warehouse Detail,数据服务层

    基于明细层和维度层的数据,按业务需要汇总成一个个的主题数据,供数据分析使用

  • ADS

    Application Data Service,应用数据层

    根据业务需求形成了可供直接查询和使用的数据,可以存放在ES、HBase、Redis和MySQL等中

一个较为通用的离线数仓架构如下:

离线和实时数仓技术架构梳理

2.实时数仓

通过阅读多家业内头部公司的实时数仓建设方案,总结下来其核心都是 flink+kafka,对比离线数仓,其分层方式要简单一些。

这里也总结几个经典的技术选型案例:

  1. Flink+Kafka+ClickHouse

离线和实时数仓技术架构梳理

这种架构方案其实是将数据源作为 ods层了,可以看作其实没有存真正完全未处理过的原始数据,对比离线数仓分层,也就少了一层。在 kafka中放 dwd和 dws的数据,使用 redis存放维度数据,再借助 flink实现不同层之间数据的抽取转换。另外,ads层用的 ClickHouse,也可以换成别的支持实时查询的存储,比如 Elasticsearch、Doris、StarRocks。

  1. Flink+Kafka+HBase

    离线和实时数仓技术架构梳理

    这种架构方式把 dws层给简化了,目的是缩短数据链条,增强分析结果的实时性。由于 kafka中存储了 ods的数据,对 kafka来说压力就比较大了,需要多注意 kafka集群的设计与后期维护了。另外,这里维度数据存放在 hbase中,适合维度数据较多的业务场景。

  2. Flink+Kafka+Iceberg+Presto

离线和实时数仓技术架构梳理

这种架构方式对比前两种,变化就比较大了。首先,引入了数据湖的理念和技术。其次,弱化了 kafka的地位,ods、dwd、dws三层的数据全部存在 Iceberg中,由 flink来完成不同层数据之间的流动。最后,由 Presto使用 sql直接查询 Iceberg中的数据,数据链条被进一步缩短了,当然实时性更强了。文章来源地址https://www.toymoban.com/news/detail-408595.html

到了这里,关于离线和实时数仓技术架构梳理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 离线数仓-数据仓库系统

    ODS层(Operational Data Store) :运营数据存储层,用于存储来自操作型系统的原始数据,是数据仓库中的第一层。 DWD层(Data Warehouse Detail) :数据仓库细节层,用于存储经过清洗和加工的详细数据,保留了原始数据的细节信息。 DWS层(Data Warehouse Summary) :数据仓库汇总层,用

    2024年04月11日
    浏览(32)
  • 离线数仓分层

    1、清晰数据结构 :数仓每一层都有对应的作用,方便在使用时更好定位与了解 2、数据血缘追踪 :清晰知道表/任务上下游,方便排查问题,知道下游哪个模块在使用,提升开发效率及后期管理维护 3、减少重复开发 :完善数仓好中间层,减少后期不必要的开发,从而减少资

    2024年02月06日
    浏览(25)
  • 离线数仓同步数据1

    com.atguigu.gmall.flume.interceptor.TimestampInterceptor$Builder

    2024年02月10日
    浏览(25)
  • 离线数仓(五)【数据仓库建模】

            今天开始正式数据仓库的内容了, 前面我们把生产数据 , 数据上传到 HDFS , Kafka 的通道都已经搭建完毕了, 数据也就正式进入数据仓库了, 解下来的数仓建模是重中之重 , 是将来吃饭的家伙 ! 以及 Hive SQL 必须熟练到像喝水一样 !         数据仓库 (dataware,简称 DW) 是

    2024年03月26日
    浏览(45)
  • 阿里云生态离线数仓

            功能齐全:10多年大数据建设沉淀完整的平台,覆盖数据开发治理的全生命周期         简单易用:全图形化界面,SQL为主的数据开发方式         安全稳定:双11日千万级任务稳定调度,金融级数据安全保障         开放兼容: 支持多种大数据引擎绑定,开放

    2024年02月05日
    浏览(22)
  • 离线数仓建设之数据导出

    为了方便报表应用使用数据,需将ADS各项指标统计结果导出到MySQL,方便熟悉 SQL 人员使用。 创建car_data_report数据库: 1.1.2 创建表 ① 里程相关统计 创建ads_mileage_stat_last_month表,存储里程相关统计数据。 ② 告警相关统计 创建ads_alarm_stat_last_month表,存储告警相关的统计数据。

    2024年03月16日
    浏览(33)
  • 【从0开始离线数仓项目】——新能源汽车数仓项目介绍

    目录 1、数据仓库概念 2、项目需求及架构设计 3、集群资源规划设计  4、车辆日志字段说明 数据仓库(Data Warehouse)是为企业提供数据支持,用以协助企业制定决策、改进业务流程和提高产品质量等方面的工具。它可以接收多种类型的输入数据,如业务数据、日志数据和爬虫

    2024年02月13日
    浏览(28)
  • 1000W用户1Wqps高并发签到系统的架构和实操

    在尼恩的(50+)读者社群中,经常有小伙伴面试的时候,遇到一个一个高并发 架构方面的问题,比如: (1) 高并发秒杀系统如何架构? (2) 高并发签到系统如何架构? (3) 等等等等… 刚刚,在尼恩的读者社区(50+)中,有小伙伴又问了这个问题。 尼恩作为技术中台的架构师,

    2024年02月05日
    浏览(26)
  • 深入数仓离线数据同步:问题分析与优化措施

    在数据仓库领域,离线数仓和实时数仓是常见的两种架构类型。离线数仓一般通过定时任务在特定时间点(通常是凌晨)将业务数据同步到数据仓库中。这种方式适用于对数据实时性要求不高,更侧重于历史数据分析和报告生成的场景。 然而,采用离线同步方式可能会引发业

    2024年01月23日
    浏览(77)
  • 离线数仓中,为什么用两个flume,一个kafka

    实时数仓中,为什么没有零点漂移问题? 因为flink直接取的事件时间 用kafka是为了速度快,并且数据不丢,那为什么既用了kafkachannel,也用了kafka,而不只用kafkachannel呢? 因为需要削峰填谷 离线数仓中,为什么用两个flume,一个kafka,直接用taildirsource,kafkachannel,hdfssink不行吗?

    2024年02月14日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包