[选型] 实时数仓之技术选型

这篇具有很好参考价值的文章主要介绍了[选型] 实时数仓之技术选型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

数仓技术路线选型

对于已有的hive数据仓,怎样改造成实时数仓的要求呢?

2.关于实时数仓的选型

  • 如果选择hbase,建议选择kudu

  • 如果选择kudu, 还可以选择doris

  • 如果选择doris,建议选择iceberg

以上三种选择,要配合具体的场景;

技术选型方案

方案一:doris作为实时数仓,hive作为离线数仓

其中doris作为实时数仓,可以设计存储n天的(doris紫自身能够自动就行数据生命周期的管理);然后hive数据仓仍然作为T+1的离线数仓使用;

优点:继承以往的hadoop生态的hive遗产,只用新加入doris一个组件即可,满足实时性数仓的要求;

缺点:该架构缺点也很明显,早期的lamda架构;1.数据重复存储2份,导致存储资源的浪费;2.两套架构需要两套维护系统,需要跟多的人员和经理投入;

方案二:以doris构建实时数仓

doris完全取代hive数仓,作为离线和实时统一的数仓使用;一般常常和clickhouse对比;

doris自身是一个存算一体的mpp架构的olap引擎,PB 级别大数据集,秒级/毫秒级查询,对标准sql的支持很好;能够应付大规模数据数据的实时和离线数据查询;现实中有许多公司将doris作为事实的实时实仓工具;显示中对多维分析和报表查询都有良好的支持;

优点:

1. 使用更简单,如建表更简单,SQL标准支持更好, Join性能更好,导数功能更强大

2. 运维更简单,如灵活的扩缩容能力,故障节点自动恢复,社区提供的支持更好

3. 分布式更强,支持事务和幂等性导入数据,物化视图自动聚合,查询自动路由,全面元数据管理;百度研发开源,有小米、美团、好未来等企业使用经验;

缺点:

方案三:以iceberg为核心构建实时数仓

使用数据湖技术iceberg,作为统一离线和实时数仓的中间层

iceberg可以直接对接上层各种计算引擎,实现真正的离线和实时一体存储,所有的关键数据只保留一份;参考:Iceberg概述

iceberg可以对接上层各种数据源

数仓技术选型,数据仓库,大数据技术,大数据,hadoop,数据仓库

总 结

因为hive本身只能作为离线数仓来使用,有T+1的时间延迟,无法保证查询实时性的要求,因此构建实时数仓就显得十分必要,也是行业发展的趋势;

综合考虑如下:

  • 第一阶段,先完成离线数仓的构建,实时数据展示仍然使用以往的实时方案;

  • 第二阶段,引入doris或者iceberg构建实时数仓;

     文章来源地址https://www.toymoban.com/news/detail-540800.html

到了这里,关于[选型] 实时数仓之技术选型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于 HBase & Phoenix 构建实时数仓(1)—— Hadoop HA 安装部署

    目录 一、主机规划 二、环境准备 1. 启动 NTP 时钟同步 2. 修改 hosts 文件 3. 配置所有主机间 ssh 免密 4. 修改用户可打开文件数与进程数(可选) 三、安装 JDK 四、安装部署 Zookeeper 集群 1. 解压、配置环境变量 2. 创建配置文件 3. 创建新的空 ZooKeeper 数据目录和事务日志目录 4

    2024年03月10日
    浏览(53)
  • 大数据技术之Hadoop学习(七)——Hive数据仓库

    目录 素材 一、数据仓库简介 1、数据仓库的认识 (1)数据仓库是面向主题的。 (2)数据仓库是随时间变化的。 (3)数据仓库相对稳定 (4)OLTP和OLAP 2、数据仓库的结构 (1)数据源 (2)数据存储及管理 (3)OLAP 服务器 (4)前端工具 3、数据仓库的数据模型 (1)星状模

    2024年02月17日
    浏览(44)
  • 3、数仓之采集工具MaxWell(MaxWell简介、MaxWell原理、MaxWell部署、MaxWell使用)

    1.1 MaxWell概述 Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控Mysql数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。 1.2 MaxWell输出数据格式 MaxWell输出的json字段说明 字段 解释

    2024年02月11日
    浏览(35)
  • 技术选型|K歌App中的实时合唱如何进行选型

    在线K歌软件的开发有许多技术难点,需考虑到音频录制和处理、实时音频传输和同步、音频压缩和解压缩、设备兼容性问题等技术难点外,此外,开发者还应关注音乐版权问题,确保开发的应用合规合法。 前面写了几期关于 直播 SDK 技术选型 的文章,主要是从RTC实时音视频

    2024年02月12日
    浏览(39)
  • 实时数仓Hologres 新一代弹性计算组实例技术揭秘

    随着实时数仓在业务生产系统的普及,资源弹性、资源隔离等保障业务稳定性方面的技术需求开始变得越来越迫切。Hologres在保障业务方面持续优化核心技术竞争力,过去一年中,Hologres创新提出并实现了新一代弹性计算组实例,旨在通过更强的隔离和弹性能力,进一步提高业

    2024年02月03日
    浏览(47)
  • 实时数仓Hologres新一代弹性计算组实例技术揭秘

    作者:王奇(花名慧青) 阿里云Hologres研发 随着实时数仓在业务生产系统的普及,资源弹性、资源隔离等保障业务稳定性方面的技术需求开始变得越来越迫切。Hologres在保障业务方面持续优化核心技术竞争力,过去一年中,Hologres创新提出并实现了新一代弹性计算组实例,旨

    2024年02月07日
    浏览(53)
  • 陈长城:NineData面向Doris实时数仓集成的技术实践

    在刚刚过去的北京Doris Summit Asia 2023,玖章算术技术副总裁陈长城受邀参加并做了《NineData面向Doris实时数仓集成的技术实践》报告。 玖章算术技术副总裁陈长城 从业界的报告中我们知道超过81%的企业使用了多云或混合云架构,超过70%的企业使用了多种数据类型,而对基础架构

    2024年02月05日
    浏览(49)
  • 实时同步ES技术选型:Mysql+Canal+Adapter+ES+Kibana

    基于之前的文章,精简操作而来 让ELK在同一个docker网络下通过名字直接访问 Ubuntu服务器ELK部署与实践 使用 Docker 部署 canal 服务实现MySQL和ES实时同步 Docker部署ES服务,canal全量同步的时候内存爆炸,ES/Canal Adapter自动关闭,CPU100% 2.1 新建mysql docker 首先新建数据库的docker镜像

    2024年02月11日
    浏览(44)
  • 十万字图文详解mysql、redis、kafka、elasticsearch(ES)多源异构不同种类数据库集成、数据共享、数据同步、不同中间件技术实现与方案,如何构建数据仓库、数据湖、数仓一体化?

    数据库大数据量、高并发、高可用解决方案,十万字图文详解mysql、redis、kafka、elasticsearch(ES)多源异构不同种类数据库集成、数据共享、数据同步、不同中间件技术实现与方案,如何构建数据仓库、数据湖、数仓一体化?Delta Lake、Apache Hudi和Apache Iceberg数仓一体化技术架构

    2024年02月07日
    浏览(52)
  • Flink 实时数仓关键技术解读:Upsert Kafka 和 动态表(Dynamic Table)

    博主历时三年精心创作的《大数据平台架构与原型实现:数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行,点击《重磅推荐:建大数据平台太难了!给我发个工程原型吧!》了解图书详情,京东购书链接:https://item.jd.com/12677623.html,扫描左侧

    2024年02月22日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包