如何在Amazon EMR上使用RAPIDS加速Apache Spark流水线

这篇具有很好参考价值的文章主要介绍了如何在Amazon EMR上使用RAPIDS加速Apache Spark流水线。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

关键字: [Amazon Web Services re:Invent 2023, Rapids Spark, Accelerate Apache Spark Pipelines, Amazon Emr, Rapids, Nvidia, Gpu Acceleration]

本文字数: 1000, 阅读完需: 5 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1uw41187VA

导读

RAPIDS加速器可以为Amazon EMR上的Apache Spark数据处理流水线提供透明的加速。在这个闪电式演讲中,您将学习如何在Amazon EC2和Amazon EKS上使用NVIDIA GPU来在Amazon EMR上部署RAPIDS加速器。探索哪些查询特别适合GPU,并了解如何预测Spark工作负载在Amazon EMR上的成本节省。RAPIDS是NVIDIA AI企业套件的一部分,这是一个端到端的、安全的、云原生的AI软件套件,可以在Amazon Marketplace上获得,让组织能够解决新的挑战的同时提高运营效率。这个演示由NVIDIA提供,NVIDIA是亚马逊云科技的合作伙伴。

演讲精华

以下是小编为您整理的本次演讲的精华,共700字,阅读时间大约是4分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

演讲者首先探讨了利用NVIDIA的RAPIDS加速器插件来加速Amazon EMR上的Apache Spark批量处理工作负载的话题。他强调,企业面临各种关键工作负载,如数据准备、报告、分析和操作,这些负载都需要以加速的方式处理大量数据集。

据演讲者介绍,IDC报告显示,到2026年,数据量预计将达到221泽字节,其中80%为非结构化数据。为了从这些海量数据中提取价值,必须对数据进行大规模的转换和准备。然而,扩展计算基础设施的成本很高,而降低数据采样率会导致保真度下降。

为了解决这个问题,演讲者提出了使用GPU加速Spark的方法。Spark 3支持资源感知调度、插件和适用于GPU的列式处理。RAPIDS插件能够自动在GPU上加速Spark DataFrame操作,而无需修改代码。这是通过使用JNI调用来访问RAPIDS库以实现GPU数据处理,从而用GPU执行计划替换CPU执行计划实现的。

基准测试表明,在高基数连接、聚合、窗口处理和复杂处理的数据集上,性能得到了显著提升。一个资格验证工具会分析Spark日志,以推荐建议在特定工作负载中加速GPU的速度提升。

实际应用案例包括零售商优化内容重写、电信公司加速ETL和ML过程以及广告技术公司加快固定空间内的ETL处理。采用这种方法的好处包括降低成本、缩短任务完成时间以及在不增加计算需求的情况下扩大数据处理能力。

NVIDIA AI Enterprise为RAPIDS Spark部署提供了支持、安全补丁、关键错误修复和SLA。资源包括文档、GitHub上的开源社区和资格验证工具。

总的来说,NVIDIA的RAPIDS Spark插件可以在不增加额外成本的前提下,无缝地在GPU上加速Spark工作负载,使企业能够更有效地从不断增长的数据库中提取价值。此外,资格验证工具可以帮助确定哪些任务可以从加速GPU中受益,而NVIDIA AI Enterprise则为企业在生产环境中使用该技术提供了支持。

演讲者强调,企业在处理大量数据方面面临关键挑战,包括数据准备、报告、分析和操作等关键任务,都需要尽快处理。据IDC报告预测,到2026年,数据量将指数增长至221泽字节,其中大部分为未结构化数据。为了从中提取价值,演讲者指出需要在规模上对数据进行转换和准备。尽管扩大计算基础设施成本高昂,但演讲者表示,降低数据采样率可能会导致数据真实性的损失。

作为提高处理速度的替代方案,演讲者建议利用GPU加速Apache Spark工作负载。Spark 3支持资源感知调度、插件和适用于GPU的批处理等技术。NVIDIA的RAPIDS插件可以在不修改代码的情况下自动加速Spark DataFrame操作。这通过调用优化GPU数据处理的JNI接口到RAPIDS库实现。

演讲者引用的一些基准测试显示,在处理高基数连接、聚合、窗口化和复杂处理时,利用GPU可以显著提高数据处理速度。一个资格鉴定工具可以分析Spark日志,以推荐可能受益于GPU加速的具体作业并估计加速效果。

演讲者提供了一些实际客户使用案例,包括一家大型零售商改进其电子商务网站内容重写,一家电信公司加速ETL和机器学习管道,以及一家广告技术公司在不扩大计算资源的情况下加速ETL工作流程。主要好处包括降低成本、缩短作业执行时间以及在无需扩展计算资源的情况下处理更多数据。

为了支持在生产中使用RAPIDS Spark,演讲者提到NVIDIA AI Enterprise提供支持、安全补丁、关键错误修复和服务协议等服务。可用资源包括文档、GitHub上的开源社区和资格鉴定工具。

总的来说,NVIDIA推出的RAPIDS Spark插件使得在GPU上对Spark工作负载进行透明加速成为可能,这使得企业在控制成本的前提下能够从海量数据中提取更多的价值。通过资格鉴定工具,我们可以了解哪些作业能够从中受益;同时,NVIDIA AI Enterprise提供了生产支持服务。

下面是一些演讲现场的精彩瞬间:

全球数据量的增长呈指数级趋势,预计到2026年将增至221泽字节,据国际数据公司(IDC)统计。

如何在Amazon EMR上使用RAPIDS加速Apache Spark流水线,aws,亚马逊云科技,科技,人工智能,re:Invent 2023,生成式AI,云服务

Apache Spark 3具有资源感知调度、自定义插件以及对GPU加速的列式数据处理的支持。

如何在Amazon EMR上使用RAPIDS加速Apache Spark流水线,aws,亚马逊云科技,科技,人工智能,re:Invent 2023,生成式AI,云服务

Spark能够将SQL查询优化为可利用GPU加速以提高处理速度的优化物理计划。

如何在Amazon EMR上使用RAPIDS加速Apache Spark流水线,aws,亚马逊云科技,科技,人工智能,re:Invent 2023,生成式AI,云服务

亚马逊云科技已与一家大型零售商合作部署了Rapids Spark,以便在不增加成本的前提下定期更新电子商务网站内容。

如何在Amazon EMR上使用RAPIDS加速Apache Spark流水线,aws,亚马逊云科技,科技,人工智能,re:Invent 2023,生成式AI,云服务

英伟达为客户提供专业服务并承诺服务等级协议(SLA),以支持各组织部署用于加速数据分析的Rapids Spark。

如何在Amazon EMR上使用RAPIDS加速Apache Spark流水线,aws,亚马逊云科技,科技,人工智能,re:Invent 2023,生成式AI,云服务

总结

NVIDIA在re:Invent(Amazon Summit)的亚马逊云科技(Amazon Web Services)展览中,着重展示了如何利用RAPIDS加速器提高Apache Spark在Amazon EMR上的处理速度。随着数据量的持续快速增长,企业迫切需要能够快速且经济高效地处理这些数据。Spark的GPU加速器插件是一款开源产品,使得Spark工作负载能够利用GPU进行加速处理,而无需修改代码。通过将Spark物理执行计划中的基于CPU的操作替换为来自RAPIDS库的基于GPU的等效操作来实现这一目标。基准测试结果显示,GPU在处理具有复杂聚合、连接和窗口操作的高基数数据方面表现优异。

鉴定工具可以帮助分析现有的Spark作业,推荐哪些作业适合进行GPU加速,并提供预计的速度提升和成本节省。零售商、电信公司和广告技术公司等客户已在EMR上使用Spark和RAPIDS来降低成本并加速现有集群范围内的作业,尽管数据量仍在持续增长。

英伟达的企业AI计划提供支持,包括调整、分析和优化用于部署Spark的RAPIDS的补丁。丰富的学习资源如文档和开源社区可供用户了解更多并开始学习使用。借助RAPIDS和GPU,Spark工作负载能够在不扩大计算资源的情况下应对数据增长的挑战。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134861693

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

如何在Amazon EMR上使用RAPIDS加速Apache Spark流水线,aws,亚马逊云科技,科技,人工智能,re:Invent 2023,生成式AI,云服务文章来源地址https://www.toymoban.com/news/detail-759871.html

到了这里,关于如何在Amazon EMR上使用RAPIDS加速Apache Spark流水线的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据采集 通过Apache Spark和Amazon SageMaker构建机器学习管道;

    作者:禅与计算机程序设计艺术 随着人们生活水平的提高,收集、整理、分析和处理海量数据已成为当今社会所需的工具。而在云计算时代,数据的价值及其价值的获取越来越重要。近年来,Apache Spark和Amazon SageMaker的结合让数据收集变得更加简单、高效、可靠,基于这些框

    2024年02月04日
    浏览(49)
  • 使用 Apache DolphinScheduler 进行 EMR 任务调度

    By AWS Team 随着企业规模的扩大,业务数据的激增,我们会使用 Hadoop/Spark 框架来处理大量数据的 ETL/聚合分析作业,⽽这些作业将需要由统一的作业调度平台去定时调度。 在 Amazon EMR 中,可以使用 AWS 提供 Step Function,托管 AirFlow,以及 Apache Oozie 或 Azkaban 进行作业的调用。但随

    2024年02月16日
    浏览(41)
  • Amazon EMR Hudi 性能调优——Clustering

    随着数据体量的日益增长,人们对 Hudi 的查询性能也提出更多要求,除了 Parquet 存储格式本来的性能优势之外,还希望 Hudi 能够提供更多的性能优化的技术途径,尤其当对 Hudi 表进行高并发的写入,产生了大量的小文件之后,又需要使用 Presto/Trino 对 Hudi 表进行高吞吐的即席

    2024年02月12日
    浏览(48)
  • Scaling data processing with Amazon EMR at the speed of market volatility

    Good evening everyone. Thanks for joining with us. My name is Meenakshi Shankaran. I\\\'m a senior big data architect with AWS. For the past three years, I have Sat Kumar Sami, Director of Technology FINRA with me and we are here to speak about scaling EMR at the speed of market volatility. And before we get started, I have two questions: How many of you have w

    2024年02月03日
    浏览(38)
  • 基于EMR的新一代数据湖存储加速技术详解

    摘要:本文整理自阿里云开源大数据平台数据湖存储团队孙大鹏在7月17日阿里云数据湖技术专场交流会的分享。本篇内容主要分为两个部分: 背景介绍 JindoData 数据湖存储解决方案 点击查看直播回放 大数据行业蓬勃发展,主要源自于通讯技术的发展,全球数据规模,预计2

    2024年02月02日
    浏览(59)
  • 数据库信息速递: Apache Arrow 如何加速 InfluxDB (翻译)

    开头还是介绍一下群,如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, Oceanbase, Sql Server等有问题,有需求都可以加群群内,可以解决你的问题。加群请联系 liuaustin3 ,(共1760人左右 1 + 2 + 3 + 4 +5) 4群(260+),另欢迎 OpenGauss 的技术人员加入。 最近是百业萧条,本地前十的新能源

    2024年02月03日
    浏览(53)
  • 基于英特尔® Gaudi® 2 AI 加速器的文本生成流水线

    随着生成式人工智能 (Generative AI,GenAI) 革命的全面推进,使用 Llama 2 等开源 transformer 模型生成文本已成为新风尚。人工智能爱好者及开发人员正在寻求利用此类模型的生成能力来赋能不同的场景及应用。本文展示了如何基于 Optimum Habana 以及我们实现的流水线类轻松使用 Ll

    2024年03月14日
    浏览(52)
  • 云计算与大数据笔记之Spark【重点:流水线机制】

    图片和部分笔记来自于厦门大学-林子雨-大数据技术原理与应用(第3版) 配套PPT Storm、Hadoop和Spark都是处理大数据的框架,但它们各自在设计上有着不同的侧重点,这导致了它们在实际应用中的不同定位。 主要组件 :Hadoop Distributed File System (HDFS) 和 MapReduce。 设计理念 :主要

    2024年04月16日
    浏览(43)
  • Apache Spark 练习六:使用Spark分析音乐专辑数据

    本章所分析的数据来自于Kaggle公开的、人工合成的音乐专辑发行数据(https://www.kaggle.com/datasets/revilrosa/music-label-dataset)。以下,我们只针对albums.csv文件进行分析。该数据具体包括以下字段: id: the album identifier; artist_id: the artist identifier; album_title: the title of the album; genre: the

    2024年02月15日
    浏览(63)
  • 如何使用CodeceptJS、Playwright和GitHub Actions构建端到端测试流水线

    介绍 端到端测试是软件开发的一个重要方面,因为它确保系统的所有组件都能正确运行。CodeceptJS是一个高效且强大的端到端自动化框架,与Playwright 结合使用时,它成为自动化Web、移动甚至桌面 (Electron.js) 应用程序比较好用的工具。 在本文中,作者探讨如何使用 CodeceptJS、

    2024年02月05日
    浏览(75)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包