如何在Amazon EMR上使用RAPIDS加速Apache Spark流水线

这篇具有很好参考价值的文章主要介绍了如何在Amazon EMR上使用RAPIDS加速Apache Spark流水线。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

关键字: [Amazon Web Services re:Invent 2023, Rapids Spark, Accelerate Apache Spark Pipelines, Amazon Emr, Rapids, Nvidia, Gpu Acceleration]

本文字数: 1000, 阅读完需: 5 分钟

视频

如视频不能正常播放，请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1uw41187VA

导读

RAPIDS加速器可以为Amazon EMR上的Apache Spark数据处理流水线提供透明的加速。在这个闪电式演讲中,您将学习如何在Amazon EC2和Amazon EKS上使用NVIDIA GPU来在Amazon EMR上部署RAPIDS加速器。探索哪些查询特别适合GPU,并了解如何预测Spark工作负载在Amazon EMR上的成本节省。RAPIDS是NVIDIA AI企业套件的一部分,这是一个端到端的、安全的、云原生的AI软件套件,可以在Amazon Marketplace上获得,让组织能够解决新的挑战的同时提高运营效率。这个演示由NVIDIA提供,NVIDIA是亚马逊云科技的合作伙伴。

演讲精华

以下是小编为您整理的本次演讲的精华，共700字，阅读时间大约是4分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。

演讲者首先探讨了利用NVIDIA的RAPIDS加速器插件来加速Amazon EMR上的Apache Spark批量处理工作负载的话题。他强调，企业面临各种关键工作负载，如数据准备、报告、分析和操作，这些负载都需要以加速的方式处理大量数据集。

据演讲者介绍，IDC报告显示，到2026年，数据量预计将达到221泽字节，其中80%为非结构化数据。为了从这些海量数据中提取价值，必须对数据进行大规模的转换和准备。然而，扩展计算基础设施的成本很高，而降低数据采样率会导致保真度下降。

为了解决这个问题，演讲者提出了使用GPU加速Spark的方法。Spark 3支持资源感知调度、插件和适用于GPU的列式处理。RAPIDS插件能够自动在GPU上加速Spark DataFrame操作，而无需修改代码。这是通过使用JNI调用来访问RAPIDS库以实现GPU数据处理，从而用GPU执行计划替换CPU执行计划实现的。

基准测试表明，在高基数连接、聚合、窗口处理和复杂处理的数据集上，性能得到了显著提升。一个资格验证工具会分析Spark日志，以推荐建议在特定工作负载中加速GPU的速度提升。

实际应用案例包括零售商优化内容重写、电信公司加速ETL和ML过程以及广告技术公司加快固定空间内的ETL处理。采用这种方法的好处包括降低成本、缩短任务完成时间以及在不增加计算需求的情况下扩大数据处理能力。

NVIDIA AI Enterprise为RAPIDS Spark部署提供了支持、安全补丁、关键错误修复和SLA。资源包括文档、GitHub上的开源社区和资格验证工具。

总的来说，NVIDIA的RAPIDS Spark插件可以在不增加额外成本的前提下，无缝地在GPU上加速Spark工作负载，使企业能够更有效地从不断增长的数据库中提取价值。此外，资格验证工具可以帮助确定哪些任务可以从加速GPU中受益，而NVIDIA AI Enterprise则为企业在生产环境中使用该技术提供了支持。

演讲者强调，企业在处理大量数据方面面临关键挑战，包括数据准备、报告、分析和操作等关键任务，都需要尽快处理。据IDC报告预测，到2026年，数据量将指数增长至221泽字节，其中大部分为未结构化数据。为了从中提取价值，演讲者指出需要在规模上对数据进行转换和准备。尽管扩大计算基础设施成本高昂，但演讲者表示，降低数据采样率可能会导致数据真实性的损失。

作为提高处理速度的替代方案，演讲者建议利用GPU加速Apache Spark工作负载。Spark 3支持资源感知调度、插件和适用于GPU的批处理等技术。NVIDIA的RAPIDS插件可以在不修改代码的情况下自动加速Spark DataFrame操作。这通过调用优化GPU数据处理的JNI接口到RAPIDS库实现。

演讲者引用的一些基准测试显示，在处理高基数连接、聚合、窗口化和复杂处理时，利用GPU可以显著提高数据处理速度。一个资格鉴定工具可以分析Spark日志，以推荐可能受益于GPU加速的具体作业并估计加速效果。

演讲者提供了一些实际客户使用案例，包括一家大型零售商改进其电子商务网站内容重写，一家电信公司加速ETL和机器学习管道，以及一家广告技术公司在不扩大计算资源的情况下加速ETL工作流程。主要好处包括降低成本、缩短作业执行时间以及在无需扩展计算资源的情况下处理更多数据。

为了支持在生产中使用RAPIDS Spark，演讲者提到NVIDIA AI Enterprise提供支持、安全补丁、关键错误修复和服务协议等服务。可用资源包括文档、GitHub上的开源社区和资格鉴定工具。

总的来说，NVIDIA推出的RAPIDS Spark插件使得在GPU上对Spark工作负载进行透明加速成为可能，这使得企业在控制成本的前提下能够从海量数据中提取更多的价值。通过资格鉴定工具，我们可以了解哪些作业能够从中受益；同时，NVIDIA AI Enterprise提供了生产支持服务。

下面是一些演讲现场的精彩瞬间：

全球数据量的增长呈指数级趋势，预计到2026年将增至221泽字节，据国际数据公司（IDC）统计。