降低 Spark 计算成本 50.18 %,使用 Kyligence 湖仓引擎构建云原生大数据底座,为计算提速 2x

这篇具有很好参考价值的文章主要介绍了降低 Spark 计算成本 50.18 %,使用 Kyligence 湖仓引擎构建云原生大数据底座,为计算提速 2x。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

2023 中国开源未来发展峰会于 5 月 13 日成功举办。在大会开源原生商业分论坛,Kyligence 解决方案架构高级总监张小龙发表《云原生大数据底座演进 》主题演讲,向与会嘉宾介绍了他对开源发展的见解,数据底座向云原生湖仓一体架构演进的趋势,以及 Kyligence 湖仓引擎能够在构建下一代云原生数据底座发挥重要价值,通过提升计算性能,大幅度降低计算成本,以下是演讲内容:

降低 Spark 计算成本 50.18 %,使用 Kyligence 湖仓引擎构建云原生大数据底座,为计算提速 2x

大家好,本次演讲内容包含三个部分:

第一部分的内容,是基于个人经历、以及所见所闻产生的思考,来谈谈我对发展开源的一些观点。

第二部分的内容,是谈一谈为什么我认为基础关键核心技术将获得新的发展机遇。

最后一部分,是围绕新的发展机遇,介绍行业上数据底座的演进趋势,以及我们公司的一些实践情况。

降低 Spark 计算成本 50.18 %,使用 Kyligence 湖仓引擎构建云原生大数据底座,为计算提速 2x

在第一部分——开源之我见,我以 Kyligence 公司的过往经历作为论据,进而提出三个观点:

降低 Spark 计算成本 50.18 %,使用 Kyligence 湖仓引擎构建云原生大数据底座,为计算提速 2x

第一个观点是:开源软件技术及其商业化是驱动各领域数字化变革的重要力量。

首先介绍下 Apache Kylin 和 Kyligence。

Apache Kylin™是一个开源的、分布式的分析型数据仓库。

跬智信息(Kyligence)是由 Apache Kylin 创始团队于 2016 年创办,是领先的大数据分析和指标平台供应商。

大家看到众多企业 Logo,目前全球有超过1500多家企业使用 Apache Kylin 和 Kyligence 商业产品,解决数字运营和分析决策等方面的痛点。企业的丰富实践在不断地驱动开源和商业化发展,同时开源和商业化也在驱动更多的领域实现数字化变革。

Apache Kylin 和 Kyligence 发展较为成熟,不过这也仅仅是无数开源和开源商业化力量之一,开源和其背后的商业化是驱动各领域数字化变革的重要力量,大力发展这些力量有十分重大的意义和价值。

降低 Spark 计算成本 50.18 %,使用 Kyligence 湖仓引擎构建云原生大数据底座,为计算提速 2x

第二个观点是:开源软件生态繁荣依托数字经济蓬勃发展带来的溢出效应。

因为,数字经济包含了数字产业化和产业数字化两部分。

首先,通过数字产业化来储备高水平的技术和数量众多的人才,行业发展从零和博弈走向协同发展,这是发展好开源的基本条件。

进而,数字产业化产生的技术和人才,会在产业数字化过程中发挥巨大作用。传统行业的数字化转型可以通过使用开源项目,支持商业化来加快转型的步伐,同时为开源注入可持续发展的动力。

从这条时间线来观察 Apache Kylin 和 Kyligence 的发展历程,我认为可以很好证明这个观点,2015 年之前, Kylin 项目在 ebay 发展进而贡献到 Apache 基金会,这是数字产业化的过程,而后恰逢产业数字化高速推进,传统行业数字化转型支持了 Kyligence 的商业发展,也为它注入了动力和活力,使它能够进一步为产业数字化贡献力量,从 2016 年开始 Kyligence 成为了推动开源 Kylin 演进的重要力量,而后又贡献了 Byzer 和 Gluten 两个开源项目。我认为,影响开源生态繁荣程度的根本,是数字经济和商业环境的发展水平,大家需要坚持长期主义,坚持合作与共赢。

降低 Spark 计算成本 50.18 %,使用 Kyligence 湖仓引擎构建云原生大数据底座,为计算提速 2x

第三个观点是:开源软件生态创造社会价值,尤其需要依靠长期有计划有组织的投入

Github 每年会基于托管的开源项目做调查分析,最近一次的结论值得关注。报告提到,大型开源项目几乎都是由科技公司进行领导和维护,其中多数项目是关键基础技术,例如框架、编译器、编程语言。而贡献者数量最大的开源项目背后几乎都有商业支持。

还是以 Kyligence 为例,Kyligence 目前领导的 Apache Kylin 之外的两个项目也取得了不错的成绩。

Byzer 是面向 Data 和 AI 的低代码开发平台,因为提供商业支持,金融业的开源贡献者也深度参与其中,项目目前应用在金融业等行业的生产业务中。

Gluten 是向量化计算引擎,它的目标是力求做到,相比原生 Spark,其计算性能提升数倍。因为 Apache Spark 是大数据领域应用极其广泛的开源分布式计算引擎之一,因此 Gluten 致力于通过性能的提升以及结合云计算的弹性,提升现有 Spark 用户的 IT 算力投资汇报率,为用户节省成本。

降低 Spark 计算成本 50.18 %,使用 Kyligence 湖仓引擎构建云原生大数据底座,为计算提速 2x

第二部分,国家提出了建设数字中国大战略,在这个背景之下,我特别关注数据技术会获得哪些新的发展机遇,在这部分与大家共同探讨。

降低 Spark 计算成本 50.18 %,使用 Kyligence 湖仓引擎构建云原生大数据底座,为计算提速 2x

数字中国建设规划宏大、系统且全面,我认为其中对基础关键技术发展促进最大的方面,是来自“2522”框架中“两大基础”之一,夯实数字基础设施这个重要策略。以这几年大力发展的“东数西算”工程为例,它布局规划了众多的通用数据中心、超算中心、智能计算中心、边缘数据中心,并且提出了“异构算力融合、云网融合、多云调度、东西协同、数据安全流通……”等一系列的发展要求,这显而易见会促使人工智能、大数据和云计算等基础技术的创新,将他们进行融合、协同应用是未来的重要发展方向。

在“东数西算” 工程中,全国有 8 个国家算力枢纽节点,包含 10 个国家数据中心集群。重庆集群和成渝枢纽是其中重要的算力力量,重庆地区相关产业将获得非常好的发展机会。

而从近期一些地方发布的算力产业发展政策措施可以看出,以服务器、计算与存储、云平台、数据流通等核心软硬件为基础的国产化云计算、大数据平台发展将进入快车道,这将进一步促进人工智能、大数据和云计算等基础技术的创新发展,是非常难得的发展机遇。

降低 Spark 计算成本 50.18 %,使用 Kyligence 湖仓引擎构建云原生大数据底座,为计算提速 2x

面对上述机遇,我们认为大数据、人工智能与云原生技术的结合,是迎接上述机遇的良好抓手,第三部分与大家分享我们相关的实践经验。

降低 Spark 计算成本 50.18 %,使用 Kyligence 湖仓引擎构建云原生大数据底座,为计算提速 2x

我们看到,国内外的头部企业,如阿里云和 Databricks,不约而同在推动云原生架构的数据湖和湖仓一体发展,再结合 Kyligence 的实践经验,我们认为继Hadoop 之后,在云原生的 Kubernetes 技术上将形成新一代大数据底座,以 Spark、Flink 等流批计算技术作为统一的计算引擎,以湖仓为统一的存储核心,大幅简化数据栈复杂度,在其上构建低代码、低门槛的数据应用,是未来的大势所趋。

降低 Spark 计算成本 50.18 %,使用 Kyligence 湖仓引擎构建云原生大数据底座,为计算提速 2x

为顺应这样的趋势,Kyligence 推出了湖仓引擎,它采用向量化计算技术,兼容 Spark 生态应用,成为支撑湖仓平台运行的高性能、敏捷、弹性、开放的引擎

用户目前可以在 Kubernetes 容器云部署试用这项技术,能够体验到,向量化 Spark 计算性能相比原生Spark 提升1 倍,计算成本下降 50%。

这项技术正在处于开放试用体验阶段,我们已经有一些企业用户尝试拿它来降低公有云上离线计算成本,或者去提升 Hadoop 集群的计算性能,在一些场景收获了不错的效果。

接下来我播放一段 5 分钟的 Demo 视频,带大家来了解:1. 如何部署湖仓引擎;2. 如何与原生 Spark 对比性能;3. 用户如何用新的引擎执行自定义 SQL,查询或处理自定义的数据;4. 用户如何快速添加自定义版本计算引擎,与湖仓引擎做成本对照。

降低 Spark 计算成本 50.18 %,使用 Kyligence 湖仓引擎构建云原生大数据底座,为计算提速 2x

未来我们计划进一步增强向量化 Spark 引擎的性能和兼容性,加强与各类 Spark 应用的连接和协同。与云原生技术充分结合,提升引擎的弹性、敏捷性和性能,大幅度提升计算能效、大幅度降低计算成本;并通过开放的策略,为用户提供可靠、可持续的支持。

  • 在弹性方面,将做到资源按需取用,负载极速扩缩,资源高度隔离;
  • 在高性能方面,将使向量化计算的算子进一步得到增强,兼容通用计算平台,支持利用多种架构芯片来进行计算加速;
  • 在敏捷方面,将支持运行在异地异构的计算平台,支持多云跨云;
  • 在开放方面,我们将始终开放接口标准,并且始终兼容 Spark 标准接口,与 Spark 生态中其他技术做好融合,承接好国产化、信创建设要求,在与企业商业合作的同时,开放核心源代码,支持企业对核心基础技术做到自主可控,确保软件供应链的可靠可信。

降低 Spark 计算成本 50.18 %,使用 Kyligence 湖仓引擎构建云原生大数据底座,为计算提速 2x

接下来把 Kyligence 湖仓引擎与 Apache Spark 在 TPC-H 场景下测试报告分享给大家,可以看到向量化的 Spark 引擎通过性能提升,节省了一半的计算资源,为用户降低了 50% 的使用成本。自从决定对他提供商业化支持后,Kyligence 正在加倍投入资源,使这项技术以更快的速度进步。我们希望有更多的原本使用 Spark 作为计算引擎的用户,能尝试使用 Kyligence 湖仓引擎来获得更低的使用成本,更好的使用体验,邀请大家一起推动这项新技术进步、产生价值。

降低 Spark 计算成本 50.18 %,使用 Kyligence 湖仓引擎构建云原生大数据底座,为计算提速 2x

大家可以扫屏幕上的二维码,关注 Kyligence ,加入湖仓引擎试用交流群,或者添加我个人的微信做进一步交流,我今天的分享就到这里,谢谢大家!

再次感谢大会主办方邀请,我们愿意与各位一起,为中国开源事业的可持续发展,为数字中国建设添砖加瓦。

有兴趣免费试用 Kyligence 湖仓引擎的听众请扫码或者点击链接填写相关信息。提交后,我们将会发送Kyligence 湖仓引擎的免费试用链接到您的邮箱。

                                                                        文章来源地址https://www.toymoban.com/news/detail-450709.html

到了这里,关于降低 Spark 计算成本 50.18 %,使用 Kyligence 湖仓引擎构建云原生大数据底座,为计算提速 2x的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 气象台使用vr模拟仿真实训教学降低成本投入

    气候仿真实验室用于模拟高低温、高湿、干燥、阳光光照、降雨、降雪、覆冰、雾天与强风等多种环境适应性试验等气候和环境条件,在环境试验中,温度、湿度、光照、降雨这些常见的仿真环境都很容易实现。而比较少见的雾天、强风、降雪等环境就比较难。因此为了让学

    2024年02月07日
    浏览(44)
  • 【斯坦福】FrugalGPT: 如何使用大型语言模型,同时降低成本并提高性能

    FrugalGPT: 如何使用大型语言模型,同时降低成本并提高性能 作者:Lingjiao Chen, Matei Zaharia, James Zou 本文介绍了一种新颖的方法,旨在解决使用大型语言模型(LLM)时面临的成本和性能挑战。随着GPT-4和ChatGPT等LLM的日益流行,我们需要找到降低这些模型推理成本的策略。作者强调

    2024年02月11日
    浏览(37)
  • 真实记录阿里云实践成本优化,成本直接降低一半

    本文真实记录3个月阿里云成本降低案例,先说结论,核心服务性能更佳,成本优化超一半,运维管理更自动化。 前言:本文不一定适合所有的阿里云使用者,其中优化的手段大部分可以借鉴参考,同时不涉及到包年包月购买方式的省钱方案,纯粹为技术方面的优化,比较合

    2024年02月10日
    浏览(26)
  • Diffusion预训练成本降低6.5倍,微调硬件成本降低7倍!Colossal-AI完整开源方案低成本加速AIGC产业落地

    如何更好、更快和更便宜地实现训练、微调AIGC模型 ,已成为AIGC商业化和应用爆发的最大痛点。 Colossal-AI基于在大模型民主化的专业技术积累, 开源完整Stable Diffusion预训练和个性化微调方案,预训练时间加速和经济成本降低6.5倍,个性化微调硬件成本降低7倍!在个人电脑的

    2024年02月09日
    浏览(60)
  • 制图成本降低80%,百度如何打造轻地图?

    作者| HiEV 编辑| 张祥威 编者注: 本文是HiEV出品的系列直播「智驾地图之变」第一期问答环节内容整理。百度智驾地图业务部主任架构师万聪与连线嘉宾鉴智机器人技术副总裁潘屹峰、领骏科技研发副总裁严晗、主持嘉宾周琳展开深度交流,并进行了答疑。 本期百度分享内容

    2024年02月11日
    浏览(25)
  • 情报与GPT技术大幅降低鱼叉攻击成本

    邮件鱼叉攻击(spear phishing attack)是一种高度定制化的网络诈骗手段,攻击者通常假装是受害人所熟知的公司或组织发送电子邮件,以骗取受害人的个人信息或企业机密。 以往邮件鱼叉攻击需要花费较多的时间去采集情报、深入了解受害者,再订制欺骗内容,引导受害者进入

    2024年02月11日
    浏览(24)
  • 低代码技术:提高效率降低成本的全新选择

    企业想要独立的应用程序,开发者在寻求更快速、更高效、更灵活的开发方法,以适应快速变化的市场需求。在这个背景下,低代码技术以提高效率降低成本的方式走进人们视野,成为了一种全新的应用程序开发方式。 (1)提高开发效率: 低代码技术可以将开发过程中的大

    2024年02月16日
    浏览(25)
  • 如何降低电动汽车软件的开发成本和风险?

    大多数的汽车制造商无法从销售电动汽车(EV)中获得利润,但计划快速进入市场的电动汽车初创公司是无法承担这样的损失的。 由于飙升的电池价格、高昂的组件成本和低迷的销量削弱了盈利能力,电动汽车初创公司必须将视线转到软件开发,从预算、进度和人力投入水平

    2024年02月04日
    浏览(33)
  • 船舶3d虚拟展厅线上制作降低展示成本

    VR线上虚拟展厅漫游搭建平台是一种新兴的技术,它能够为用户提供更加真实、沉浸式的体验。目前,市场上有许多公司提供VR线上虚拟展厅漫游搭建平台技术服务,为客户提供全方位的支持。 首先,这些公司通常会提供专业的策划和设计服务。 根据客户的需求和目标,为客

    2024年01月21日
    浏览(30)
  • 构建完善的帮助中心,降低企业客户服务成本

    随着信息技术的发展和应用的普及,越来越多的企业已开始意识到,通过构建完善的帮助中心,可以有效地降低企业客户服务成本,提高客户满意度。一个完善的帮助中心不仅仅是企业用于回答客户问题的工具,更是客户自主获取和消化信息的重要途径。 降低客户服务成本

    2024年02月06日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包