一文了解袋鼠云在实时数据湖上的探索与实践

这篇具有很好参考价值的文章主要介绍了一文了解袋鼠云在实时数据湖上的探索与实践。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

近日,袋鼠云大数据引擎专家郝卫亮,为大家带来了《袋鼠云在实时数据湖上的探索与实践》主题分享,帮助大家能了解到什么是实时数据湖、如何进行数据湖选型及数据平台建设数据湖的经验。
一文了解袋鼠云在实时数据湖上的探索与实践

如今,大规模、高时效、智能化数据处理已是“刚需”,企业需要更强大的数据处理能力,来应对数据查询、数据处理、数据挖掘、数据展示以及多种计算模型并行的挑战。

因此,袋鼠云基于自研的一站式大数据基础软件——数栈提出相应的实时数据湖解决方案,能够兼容Iceberg、Hudi等数据湖平台。实时数据湖提供了多样化的分析能力,而不限于批处理、流处理、交互式查询和机器学习;提供了ACID事物能力,可以更好的保障数据质量;提供了完善的数据管理能力,包括数据格式、数据schema等;此外,实时数据湖还提供了存储介质可扩展的能力,支持HDFS、对象存储等。从而大大节省了数据存储成本、提升了开发效率,能够更快更好地挖掘数据价值。
一文了解袋鼠云在实时数据湖上的探索与实践

该方案特点在于CDC数据实时入湖,能够保障技术自主可控、全增量一体化、分钟级时延、链路短、对业务稳定性无影响。

• 实时性高:CDC数据对实时性要求高,数据新鲜度越高,往往业务价值越高

• 历史数据量大:数据库的历史数据规模大

• 强一致性:数据处理必须要保证有序性而且结果需要一致性

• Schema动态演进:数据库对应的Schema会随着业务不断变更

一文了解袋鼠云在实时数据湖上的探索与实践

在实时入湖落地过程中,研发团队也遇到了诸如小文件影响读写效率;客户群体使用的Flink版本大多还停留在1.12;因此需Hudi适配Flink1.12;存在多套Hadoop集群的场景下存在跨集群的需求等问题,最终都一一克服,提供了完美的解决方案。

在实时数据湖中包含实时ETL、离线ETL、OLAP三类任务,这三类任务在从ODS层到ADS层加工的过程中,聚合操作越来越多,IO越来越密集,多个任务SQL中具有相同逻辑的SQL片段。为此,技术团队探索出了物化视图的方案,完成平台化数据湖物化视图管理,Spark、Trino、Flink支持基于数据湖表格式管理物化视图。

在实时数据湖中基于数据湖构建的物化视图可实现流、批和OLAP任务之间共享,从而进一步降低实时数据湖中数据在整条链路中的延时,从而节省计算成本。
一文了解袋鼠云在实时数据湖上的探索与实践

未来,实时数据湖方案还将持续优化,不断增加平台湖表管理的易用性;引入Paimon,让数栈支持对接Paimon、增加基于Paimon的湖仓一体建设;深入并增强内核,提升入湖的的性能;数据湖提供数据共享、支持多引擎,探索数据湖的安全管理方案。

获取完整PPT:https://www.dtstack.com/resources/1051?src=szsm

想了解更多详情,可点击观看视频讲解:https://www.bilibili.com/video/BV1Yu411w7uc/?spm_id_from=333.999.0.0&vd

《数栈产品白皮书》:https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szbky

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」,交流最新开源技术信息,qun号码:30537511,项目地址:https://github.com/DTStack文章来源地址https://www.toymoban.com/news/detail-709761.html

到了这里,关于一文了解袋鼠云在实时数据湖上的探索与实践的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 实时数据湖 Flink Hudi 实践探索

    导读: 首先做个自我介绍,我目前在阿里云云计算平台,从事研究 Flink 和 Hudi 结合方向的相关工作。 目前,Flink + Hudi 的方案推广大概已经有了一年半的时间,在国内流行度也已比较高,主流的公司也会尝试去迭代他们的数仓方案。所以,今天我介绍的主题是 Flink 和 Hudi 在

    2024年01月16日
    浏览(51)
  • 万字长文详述ClickHouse在京喜达实时数据的探索与实践

    京喜达技术部在社区团购场景下采用JDQ+Flink+Elasticsearch架构来打造实时数据报表。随着业务的发展 Elasticsearch开始暴露出一些弊端,不适合大批量的数据查询,高频次深度分页导出导致ES宕机、不能精确去重统计,多个字段聚合计算时性能下降明显。所以引入ClickHouse来处理这些

    2024年02月06日
    浏览(37)
  • 代立冬:基于Apache Doris+SeaTunnel 实现多源实时数据仓库解决方案探索实践

    大家好,我是白鲸开源的联合创始人代立冬,同时担任 Apache DolphinScheduler 的 PMC chair 和 SeaTunnel 的 PMC。作为 Apache Foundation 的成员和孵化器导师,我积极参与推动多个开源项目的发展,帮助它们通过孵化器成长为 Apache 的顶级项目。 今天的分享的主题其实还是从开源到商业,

    2024年02月04日
    浏览(65)
  • 深入探索服装网商品详情API:实时数据获取、安全与隐私保护及商业价值实践

    在进行实时数据获取之前,你需要做以下准备工作: 注册账号:在平台上​​注册账号​​,以获得API的访问权限。 获取API密钥:在服装网的开放平台后台,你可以获取到API的访问密钥(通常是一个令牌),用于身份验证。 了解API文档:查阅服装网提供的API文档,了解API的

    2024年02月03日
    浏览(47)
  • Apache Hudi 在袋鼠云数据湖平台的设计与实践

    在大数据处理中,实时数据分析是一个重要的需求。随着数据量的不断增长,对于实时分析的挑战也在不断加大,传统的批处理方式已经不能满足实时数据处理的需求,需要一种更加高效的技术来解决这个问题。Apache Hudi(Hadoop Upserts Deletes and Incremental Processing)就是这样一种

    2024年02月06日
    浏览(43)
  • 一文了解函数设计的最佳实践

    良好设计的函数具有清晰的职责和逻辑结构,提供准确的命名和适当的参数控制。它们促进代码复用、支持团队协作,降低维护成本,并提供可测试的代码基础。通过遵循最佳实践,我们能够编写出高质量、可读性强的代码,从而提高开发效率和软件质量。下面我们将一一描

    2024年02月10日
    浏览(31)
  • 袋鼠云数栈 DataOps 数据生产力实践,实现数据流程的自动化和规范化

    袋鼠云产品团队在帮助企业进行数字化转型实践的过程中,发现很多企业在数据生产链路上都有着相同的问题。包括数据团队聚焦于业务需求短期内的快速交付,内部缺少自顶向下的数据生产管理制度,在数据标准、数据生产流程到研发规范的各个层面均存在不完善与不规范

    2024年02月13日
    浏览(47)
  • 微控制器实时操作系统实践2了解RTOS任务

    超级循环编程范式通常是嵌入式系统工程师最先接触到的编程方法之一。用超级循环实现的程序有一个单一的顶层循环,在系统需要执行的各种功能之间循环。这些简单的while循环很容易创建和理解(当它们很小的时候)。在FreeRTOS中,任务与超级循环非常相似--主要区别在于

    2024年02月08日
    浏览(48)
  • 实时数仓|基于Flink1.11的SQL构建实时数仓探索实践

    实时数仓主要是为了解决传统数仓数据时效性低的问题,实时数仓通常会用在实时的 OLAP 分析、实时的数据看板、业务指标实时监控等场景。虽然关于实时数仓的架构及技术选型与传统的离线数仓会存在差异,但是关于数仓建设的基本方法论是一致的。本文会分享基于 Flink

    2024年02月16日
    浏览(48)
  • 爬虫(一) -- 带你了解爬虫最基本概念,一文即可实践

    定义:网络爬虫,是一种按照 一定规则 , 自动 爬取互联网信息的程序和脚本。用于 模拟 人操作浏览器打开网页,获取网页中的指定数据。 1.2 爬虫种类 爬虫的种类 作用 通用爬虫 爬取网页页面 全部的 源码数据 聚焦爬虫 爬取网页页面中的 局部 数据 增量式爬虫 用来检测

    2024年02月07日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包