初入datawork生态圈的架构

这篇具有很好参考价值的文章主要介绍了初入datawork生态圈的架构。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前文:

          越来越多小公司上云了,这个是大势所趋。现在主流是阿里云和腾讯云,此文通过分享这两个下来的感受让大家接触云平台开发。

一、背景

         相比自建机房,大部分公司上云省时省力,具体上哪个云取决于公司的业务发展,毕竟拉通带宽蛮贵的,腾讯云成本比阿里云便宜一半,但阿里的组件生态圈选择性比较多(其实也没多少预算可以选择...) 如果选择上云,那么你有两种选择,平台开发/EMR模式,取决于人员配置/业务发展,一个人才成本高/一个组件成本高。因为是新建团队,为了响应需求,目前是选择了平台开发快速交付。

二、架构

2.1 主要架构

data.work 和 tb,大数据平台,数据仓库,阿里云,腾讯云,云计算

2.2 数据集成

2.2.1 业务库投递方案

目前所有数据库都在阿里云的数据库上,所以直接使用datawork数据同步工具即可。

2.2.2 实时日志投递方案

data.work 和 tb,大数据平台,数据仓库,阿里云,腾讯云,云计算

data.work 和 tb,大数据平台,数据仓库,阿里云,腾讯云,云计算

 结论:实时链路通过使用datahub一键投递,按需付费更便宜,并可解决数据偏移问题。这里有个小片段,如果没啥实时需求kafka开通了晾在那也蛮贵的,还需要懂 flink 的人员配置。

2.3 开发

2.3.1 离线开发

天/小时级别作业通过datawork开发,写入到 mysql 或 holo 外部表查询。

2.3.2 实时开发

分钟级别作业:基于 datawork 调度每 5/10分钟 调度holo脚本。

实时级别作业:通过 flink 实时计算后 入库。

主要还是看场景,增量/全量场景区分好选型即可;flink实时计算有定制语法帮助实现mysql数据实时同步到holo,满足实时场景,datawork就达不到这种效果。

详情参考:Hologres推荐的数仓分层-数据-场景-实时-实时数仓Hologres-阿里云

2.4 优缺点

2.4.1 优点

(1) 开发:数据地图,协助我们看每张表的血缘地图,并可一键查看该表所有信息。很多公司投入大量研发后基本没有产出。

(2) 调度:基于作业实例调度,当中间某个节点未完成/错误将导致下游所有节点阻塞,重跑该节点后下游节点可自动修复。像使用dolphinscheduler,下游作业要一个一个去重跑极其麻烦。

(3) 告警:一键配置全局作业告警,无需每个作业配置告警。

2.4.2 缺点

(1) 价格昂贵,预算不足,很多组件无法测试/开通。

(2) datawork 无法/微批次 更新贴源层数据,T+1拉取业务库大表对业务库影响较大。虽然有实时同步作业,但是应该是个kpi诞生下的怪胎。业界基本都有hudi、iceberg等解决方案,不知道后续是否有兼容计划,或还是得去用另一个数据湖分析组件。文章来源地址https://www.toymoban.com/news/detail-820759.html

到了这里,关于初入datawork生态圈的架构的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【数据编制架构】什么是数据编织(Data fabric)? 完整指南

    本文探讨了 Data Fabric 的内容、原因、方式和人员,包括 Data Fabric 架构、挑战、优势、核心功能、供应商等。 在过去几年中,“Data Fabric”一词已成为企业数据集成和管理的代名词。分析公司 Gartner 将“数据编织”列为“2021 年十大数据和分析技术趋势”之一,并预测到 2024

    2024年02月05日
    浏览(38)
  • 【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解(图文解释)

    Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研究性项目,其诸多核心理念均源自学术研究论文。2013年,Spark加

    2024年01月16日
    浏览(51)
  • 阿里:DataWorks一站式大数据开发治理平台

    官网: 大数据开发治理平台 DataWorks - 帮助中心 - 阿里云

    2024年02月07日
    浏览(55)
  • [自学记录03|百人计划]移动端GPU的TB(D)R架构基础

    Soc是把CPU、GPU、内存、通信基带、GPS模块等等整合在一起的芯片的称呼 。常见有A系Soc(苹果),骁龙Soc(高通),麒麟Soc(华为),联发科Soc,猎户座Soc(三星),去年苹果推出的M系Soc,暂用于Mac,但这说明手机、笔记本和PC的通用芯片已经出现了。 Soc中GPU和CPU共用一块片

    2024年02月07日
    浏览(34)
  • 阿里云-数据仓库-全链路大数据开发治理平台-DataWorks的数字世界

    上文我讲到 阿里云-数据仓库-数据分析开发神器-ODPS ,今天我带领大家一起走进神器的成长环境及它的数据世界。 DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。 它是数据工场

    2024年02月03日
    浏览(47)
  • 构建高可用性数据库架构:深入探索Oracle Active Data Guard(ADG)

    随着企业数据规模的不断增长和业务的复杂化,数据库的高可用性和可靠性变得尤为重要。Oracle Active Data Guard(ADG)作为Oracle数据库提供的一种高可用性解决方案,在实时备份和灾难恢复方面发挥着重要作用。本文将深入探讨ADG的原理、配置步骤、优势以及故障处理方法,旨

    2024年04月15日
    浏览(61)
  • 从传统云架构到云原生生态体系架构的演进

    随着科技的不断发展,云计算领域也经历了巨大的变革。这一演进的核心焦点是从传统云架构过渡到云原生生态体系架构,这个过程在过去的几年里已经发生了显著变化。本文将深入探讨这一演进过程,以及它对企业和技术生态系统的影响。 在云计算兴起之初,虚拟化技术是

    2024年02月08日
    浏览(40)
  • 容器管理工具 Docker生态架构及部署

    目录 一、Docker生态架构 1.1 Docker Containers Are Everywhere 1.2 生态架构 1.2.1 Docker Host 1.2.2 Docker daemon 1.2.3 Registry 1.2.4 Docker client 1.2.5 Image 1.2.6 Container 1.2.7 Docker Dashboard 1.3 Docker版本 二、Docker部署 2.1 使用YUM源部署 2.1.1 获取阿里云开源镜像站YUM源文件 2.1.2 安装Docker-ce 2.1.3 配置Docker D

    2024年02月07日
    浏览(51)
  • 软件架构生态化-多角色交付的探索实践

    作者:京东零售 李春丽 作为一个技术架构师,不仅仅要紧跟行业技术趋势,还要结合研发团队现状及痛点,探索新的交付方案。在日常中,你是否遇到如下问题 “ 业务需求排期长研发是瓶颈;非研发角色感受不到研发技改提效的变化;引入ISV 团队又担心质量和安全,培训

    2023年04月19日
    浏览(32)
  • Hadoop生态圈:Hadoop的发展及其模块架构解析

    作者:禅与计算机程序设计艺术 Hadoop是一个开源的分布式计算框架,由Apache基金会开发,是一种可以运行在商用硬件上并支持超大规模数据集的大数据分析工具。它由MapReduce、HDFS、YARN组成,是Hadoop体系结构的基石之一。Hadoop的设计目标是将存储和计算分离,并通过高容错性

    2024年02月08日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包