EasyMR6.2 全面解读:四大功能深度优化,解锁全新大数据处理和计算体验

这篇具有很好参考价值的文章主要介绍了EasyMR6.2 全面解读:四大功能深度优化,解锁全新大数据处理和计算体验。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在刚刚过去的2024春季发布会上,袋鼠云带来了数栈产品V6.2版本的全新发布。其中,EasyMR 作为数栈V6.2中的一项关键能力,代表了袋鼠云对大数据生态的深入理解和持续创新。

EasyMR(后文统称EMR)是袋鼠云基于 Hadoop、Hive、Spark、Flink、HBase 等开源组件,构建的弹性计算引擎,提供安全可靠、弹性伸缩、低成本的大数据存储与计算服务。其中自主研发的 EasyManager 企业级大数据运维管理平台支持 Hadoop 集群的一站式创建、管理、部署、运维与监控功能,提供高效搭建数据中台解决方案。

面对企业日益增长的数据处理和分析需求,EMR6.2版本,将为用户提供更为出色的大数据运维服务及计算性能优化。以下是针对 EMR6.2 版本四大功能优化的详细介绍,帮助用户全面了解这一创新产品。

UI全面焕新升级:简约舒适的交互体验

袋鼠云深知用户体验的重要性,因此在 EMR6.2 版本中,我们对 UI 界面进行了全面的焕新升级。新的界面设计遵循了简约而不失优雅的风格,旨在为用户提供一个直观、舒适的交互体验。无论是新手还是资深用户,都能迅速上手,轻松管理复杂的大数据集群。

此外,我们还优化了界面的响应速度和操作流畅性,确保用户在集群运维时能够享受到更加顺滑的操作体验。

EasyMR6.2 全面解读:四大功能深度优化,解锁全新大数据处理和计算体验
EasyMR6.2 全面解读:四大功能深度优化,解锁全新大数据处理和计算体验

差异化配置:满足多样化需求

EMR6.2 版本引入了实例组-差异化配置功能,允许用户根据自己的具体需求定制集群配置。用户可以把 EMR 集群中的不同节点构建独立实例组,实例组中设置特定的配置参数,以实现更好的性能、资源利用和任务调度。

无论是对于成本敏感的初创企业,还是对于性能有更高要求的大型企业,EMR6.2 都能提供灵活的配置选项,满足不同用户的需求。

EasyMR6.2 全面解读:四大功能深度优化,解锁全新大数据处理和计算体验

针对实例组实行差异化配置策略,其具体优势包括但不限于以下几点:

● 资源分配

差异化配置能有效针对各类任务的独特需求进行精细化资源配置,涵盖计算、存储和网络资源等多个层面。避免资源浪费,同时提高资源利用率,确保集群的各项任务都能得到合适的资源支持。

● 任务调度优化

针对不同类型的任务或作业,可以根据其特点设定不同的配置参数,以优化任务调度和执行效率。

● 容错与稳定性

通过差异化配置,可以提高集群的容错能力和稳定性。根据节点或实例组的重要性和负载情况,可以设置不同的容错机制和故障处理策略,确保集群在面对异常情况时能够保持稳定运行。

● 成本管理

差异化配置还可以帮助管理成本,根据业务需求和预算限制,对集群中的不同实例组进行合理配置,避免资源浪费,降低运维成本,并在性能和成本之间找到平衡点。

集群迁移:无缝过渡,业务不中断

随着企业的业务发展,不断增长的数据量往往会导致数据中心的容量不足或者数据中心变更等问题,企业需要将数据从一个数据中心迁移到另一个数据中心。同时在国产化平替背景下,越来越多的企业将 CDH、HDP、CDP 等非信创平台迁移到国产化大数据平台。因此 EMR 推出了大数据集群迁移功能,可以帮助企业高效地完成数据中心的迁移。

集群迁移功能支持用户在不同的数据中心或云服务之间无缝迁移他们的大数据集群,而无需担心数据丢失或业务中断。通过这一功能,企业可以更加灵活地调整其IT基础设施,以适应不断变化的市场需求。

EasyMR6.2 全面解读:四大功能深度优化,解锁全新大数据处理和计算体验

EasyMR6.2 全面解读:四大功能深度优化,解锁全新大数据处理和计算体验

引擎升级大揭秘:性能飞跃,全新体验

最令人激动的是,EMR6.2 版本在计算引擎性能上实现了重大突破。我们不仅对现有的 Spark、Flink 计算引擎进行了问题优化,还引入了新的算法和技术,以提高数据处理速度和计算效率。这意味着用户可以在更短的时间内完成更复杂的数据分析任务,从而加快决策过程,提升企业竞争力。

● Spark3 支持 Z-oreder 索引优化

Z-Order 是一种可以将多维数据压缩到一维的技术,对于一条数据来说,我们可以将其多个要排序的字段看作是数据的多个维度,Z-Order 可以通过一定的规则将多维数据映射到一维数据上。

具体表现为通过一定的规则构建 z-value 值,该 z-value 值可以理解为上文所提到的一维数据,此时我们就可以基于该一维数据进行排序。如下图所示:

EasyMR6.2 全面解读:四大功能深度优化,解锁全新大数据处理和计算体验

在 Spark SQL 中,袋鼠云新增 OPTIMIZE XX ZORDER BY 语法来支持 Z-Order 索引,实现了 INSERT INTO table 、INSERT OVERWRITE table、CREATE TABLE table AS SELECT、DISTINCT 等 SQL 的 Z-Order 索引优化。

Spark3 支持 Z-order 优化后极大提高了数据处理和查询的效率,减少 IO 开销,加速作业的执行速度。特别是在需要处理大规模数据集和复杂查询操作的场景下,Z-order 优化可以发挥重要作用。在解决文件压缩率的问题上,使用 Z-order 优化后,文件压缩率相比手动优化提升了近 20%,相比原始任务提升了近10倍, 对比开源 Spark3 的任务也有近 30% 的性能提升,极大提升了离线作业的性能和效率。

● Flink Per-job 任务热更新

实际的生产作业中,往往会出现实时任务参数变更或者算子、函数调优等情况,通常只能先取消当前任务,再选择 CheckPoint 恢复或者重新运行,整个过程大概需要3-5分钟等待,极大浪费任务开发时间。

为了解决传统 Per-Job 模式下任务更新导致的服务中断问题,提高任务的稳定性和系统的可用性,满足生产环境中对业务连续性和高可用性的要求。袋鼠云引擎团队进行了相关探索及源码的改进,在 Per-Job 任务取消的异步回调里进行任务的热重启优化:

①首先判断当前是否存在新的 JobGraph 缓存,存在缓存时进入热重启逻辑

②获取取消任务的 CheckPoint 信息,填充到新的 JobGraph

③将 JobGrap 更新到 JobMaster,清理 JobGraph 的缓存信息

④清除 JobMaster 里 SloyPool 管理的资源

⑤JobMaster 重新创建 ScheduleNg 并调度运行,至此开启新的 JobGraph 调度运行

EasyMR6.2 全面解读:四大功能深度优化,解锁全新大数据处理和计算体验

Flink Per-job 任务热更新优化之后显著提高了开发效率,减少停机时间并提升了应用程序的灵活性和可靠性。对于需要快速迭代和动态调整的实时应用程序,带来极致的效率体验。

· 提高开发效率: 开发人员可以快速测试和迭代代码,而无需经历繁琐的停止和重启过程,这加快了开发周期,并允许更频繁的发布

· 减少停机时间: 热更新可以最大限度地减少应用程序的停机时间,从而提高服务的可用性,对于关键任务和实时应用程序,尤为重要

· 动态调整参数: 可以动态调整作业配置参数,例如并行度或算子参数,而无需重启作业,允许根据实时数据流或负载情况进行灵活调整

● 其他功能开发

此外,在引擎侧我们还进行了 Spark Ranger 对接、Spark 物化视图优化、Flink Session 模式类加载隔离等功能开发,提升引擎计算性能的同时增强引擎的任务安全性和可扩展性。

总结

总结而言,EMR6.2 版本的发布,标志着袋鼠云在大数据服务领域的又一重要里程碑。通过UI全面焕新升级、差异化配置、集群迁移以及引擎升级等四大功能的优化,EMR6.2 为用户提供了一个更加强大、灵活和高效的大数据计算引擎平台,助力企业在数据管理和分析方面实现质的飞跃。

《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057?src=szsm

《数栈产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szbky文章来源地址https://www.toymoban.com/news/detail-855316.html

到了这里,关于EasyMR6.2 全面解读:四大功能深度优化,解锁全新大数据处理和计算体验的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深度学习论文解读分享之diffGrad:一种卷积神经网络优化方法

    diffGrad: An Optimization Method for Convolutional Neural Networks Shiv Ram Dubey , Member, IEEE, Soumendu Chakraborty , Swalpa Kumar Roy , Student Member, IEEE, Snehasis Mukherjee, Member, IEEE, Satish Kumar Singh, Senior Member, IEEE, and Bidyut Baran Chaudhuri, Life Fellow, IEEE Adaptive moment estimation (Adam), difference of gradient, gradient descent,

    2024年01月17日
    浏览(53)
  • 直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路

    当企业的业务发展到一定的阶段时,在系统中引入监控告警系统来对系统/业务进行监控是必备的流程。没有监控或者没有一个好的监控,会导致开发人员无法快速判断系统是否健康;告警的实质则是“把人当服务用”,用告警通知人的方式去干预系统达到修正的目的。 监控

    2024年02月14日
    浏览(39)
  • 灵活、可用、高扩展,EasyMR 带来全新 Yarn 的队列管理功能及可视化配置

    YARN(Yet Another Resource Negotiator)是 Hadoop 生态系统中的资源调度器,主要用于资源管理和作业调度。YARN 自身具备队列管理功能,通过对 YARN 资源队列进行配置和管理,实现集群资源的分配,以满足不同应用和用户的需求。YARN 的引入为集群在利用率、资源统一管理和数据共享

    2024年02月08日
    浏览(45)
  • 在实现高效解决3D非流体静力、湍流、不可压缩空气/水流问题中,探索RANS与多相RANS模块的深度应用:带您解锁CFD的强大功能

    尊敬的读者,您好!我非常感谢您的光临,希望您在阅读本篇文章的时候,可以获得一些有价值的信息。在此,我要谦虚地说,我不是一个专家,只是一个热爱研究和分享知识的学者。我期待从您那里得到反馈,我们一起学习,一起进步。 ** ** 在过去的十几年里,计算流体动

    2024年02月15日
    浏览(56)
  • 解锁React中条件渲染的全面指南

    条件渲染是React中的一项强大功能,它允许开发人员根据某些条件来控制组件的显示。它在创建动态和交互式用户界面中发挥着至关重要的作用。但是,理解React中的条件渲染的工作原理以及掌握其实现可能对开发人员具有挑战性,特别是那些刚接触该框架的人。 这就是为什么这

    2024年01月18日
    浏览(35)
  • 数据中台选型前必读(七):解读数据服务的四大关键技术

    在前面的文章中,我们介绍了“数据服务”对于“数据中台”的重要性,并讲解了数据服务解决的问题及其核心功能,在这个系列的最终篇我们展开聊聊数据服务的四大关键技术,然后总结一下数据服务架构的三大关键点,希望对大家有所帮助。 为了使数据中台具备快速响应

    2024年02月02日
    浏览(46)
  • 解锁机器学习-梯度下降:从技术到实战的全面指南

    本文全面深入地探讨了梯度下降及其变体——批量梯度下降、随机梯度下降和小批量梯度下降的原理和应用。通过数学表达式和基于PyTorch的代码示例,本文旨在为读者提供一种直观且实用的视角,以理解这些优化算法的工作原理和应用场景。 关注TechLead,分享AI全维度知识。

    2024年02月05日
    浏览(48)
  • 全面解读视频生成模型Sora

    2024年2月15日,OpenAI在其官网发布了《Video generation models as world simulators》的报告,该报告提出了作为世界模拟器的 视频生成模型Sora 。 OpenAI对Sora介绍如下: We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images

    2024年02月21日
    浏览(50)
  • Kafka重要配置参数全面解读(重要)

    欢迎来到我的博客,代码的世界里,每一行都是一个故事 ) 在数据处理的世界里,Kafka就像是一条快速的数据管道,负责传输海量的数据。但是,想要让这条管道运行得更加顺畅,就需要对其进行一些调整和优化。就像是调整一辆跑车的引擎一样,每一个配置参数都是关键。

    2024年04月26日
    浏览(45)
  • 全面大涨原因!多家基金解读

    周五!大涨! 6月2日,A股以强势反弹结束本周的交易,整体全面上行,几乎所有主流指数都收涨。沪指高开高走,深成指、创业板指涨超1%。总体来看,个股涨多跌少,两市超3300股处于上涨状态。市场交易热情一般,单日成交额维持在9400亿元左右,北向资金大幅净流入85.34亿

    2024年02月07日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包