spark sql官网优化指南

9月前作者：SunnyRivers 分类：Toy博客阅读(35) 违法举报

这篇具有很好参考价值的文章主要介绍了spark sql官网优化指南。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

两句话概括

缓存数据
调整参数

缓存数据

把数据缓存到内存，spark sql能够只扫描需要列并且会自动压缩数据，占用最小的内存和减小GC压力。这无需多言，内存远远要快于磁盘，spark效率比hive高这个就是一个主要原因。

缓存数据代码

spark.catalog.cacheTable("tableName")
或
dataFrame.cache()

释放缓存

spark.catalog.uncacheTable("tableName")
或
dataFrame.unpersist()

用完后一定要记得释放掉，不要空占的内存浪费资源。

内存相关参数
spark sql可以使用SparkSession的setConf方法，或者使用sql命令 set key=value的方法来配置内存中的缓存。主要的配置参数有两个：文章来源地址https://www.toymoban.com/news/detail-825580.html

参数默认值含义开始版本

spark.sql.inMemoryColumnarStorage.comp

到了这里，关于spark sql官网优化指南的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Spark：性能调优实战

链接：文字文档极客链接一、资源申请并行度一个Executor中同时可以执行的task数目（在Executor内存不变的情况下，executor-cores数越大，平均下来一个task可以使用的内存就越少） Executor Java进程的堆内存大小，即Executor Java进程的Xmx值 Executor Java进程的off-heap内存，包括JVM over

2024年04月16日
浏览(43)
Spark SQL优化：NOT IN子查询优化解决

文章最前：我是Octopus，这个名字来源于我的中文名--章鱼；我热爱编程、热爱算法、热爱开源。所有源码在我的个人github ；这博客是记录我学习的点点滴滴，如果您对 Python、Java、AI、算法有兴趣，可以关注我的动态，一起学习，共同进步。相关文章： LEFT ANTI JOIN的使用

2024年02月05日
浏览(53)
Spark SQL调优实战

1、新添参数说明 // D river 和Executor内存和CPU资源相关配置 -- 是否开启 executor 动态分配，开启时 spark.executor.instances 不生效 spark.dynamicAllocation.enabled= false --配置Driver内存 spark.dirver.memory=5g --driver最大结果大小，设置为0代表不限制，driver在拉取结果时，如果结果超过阈值会报异

2024年02月21日
浏览(30)
Spark Streaming实战与优化

作者：禅与计算机程序设计艺术 Spark Streaming 是 Apache Spark 的一个模块，可以用于对实时数据流进行快速、高容错的处理。它允许用户开发高吞吐量、复杂的实时分析应用程序。Spark Streaming 可以与 Apache Kafka 或 Flume 等工具进行集成，从而实现实时数据采集和 ETL（Extract-Transfo

2024年02月06日
浏览(37)
Spark SQL生产优化经验--任务参数配置模版

特殊case说明：当任务存在扫event_log表时需注意，若对event_log表进行了过滤，且过滤比很高，如下图的case，input为74T，但shuffle write仅为3.5G，那么建议提高单partition的读取数据量，将参数set spark.sql.files.maxPartitionBytes=536870912提高10倍至5368709120；目前测试：在不手动添加任何参数

2024年02月12日
浏览(41)
Spark安全日志分析与事件调查：实战指南

摘要：在当今数字化时代，安全日志分析和事件调查变得至关重要。本博客将介绍如何使用Spark进行安全日志分析和事件调查，展示了项目经验、详细的技术细节和提供了代码示例。通过深入理解和准备，您将能够展示您在Spark上的专业知识，为安全团队提供强大的分析和调

2024年04月13日
浏览(55)
Spark SQL实战(08)-整合Hive

Apache Spark 是一个快速、可扩展的分布式计算引擎，而 Hive 则是一个数据仓库工具，它提供了数据存储和查询功能。在 Spark 中使用 Hive 可以提高数据处理和查询的效率。场景历史原因积累下来的，很多数据原先是采用Hive来进行处理的，现想改用Spark操作数据，须要求Spark能够

2023年04月15日
浏览(89)
Spark SQL实战(07)-Data Sources

Spark SQL通过DataFrame接口支持对多种数据源进行操作。 DataFrame可使用关系型变换进行操作，也可用于创建临时视图。将DataFrame注册为临时视图可以让你对其数据运行SQL查询。本节介绍使用Spark数据源加载和保存数据的一般方法，并进一步介绍可用于内置数据源的特定选项。数

2023年04月08日
浏览(42)
Spark性能优化：提高计算速度与资源利用率的实用技巧

Apache Spark是一个开源的大规模数据处理框架，它可以处理批量数据和流式数据，并提供了一个易用的编程模型。Spark的核心组件是Spark引擎，它负责执行用户的计算任务。在大规模数据处理中，Spark性能优化是非常重要的，因为它可以提高计算速度和资源利用率。在本文中，我

2024年02月20日
浏览(57)
Spark SQL实战(04)-API编程之DataFrame

Spark Core: SparkContext Spark SQL: 难道就没有SparkContext？ 2.x之后统一的 1.x的Spark SQL编程入口点 SQLContext HiveContext Spark SQL中，SQLContext、HiveContext都是用来创建DataFrame和Dataset主要入口点，二者区别如下：数据源支持：SQLContext支持的数据源包括JSON、Parquet、JDBC等等，而HiveContext除了支持

2023年04月09日
浏览(41)