spark sql官网优化指南

这篇具有很好参考价值的文章主要介绍了spark sql官网优化指南。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

两句话概括

  1. 缓存数据
  2. 调整参数
    spark sql官网优化指南,Spark最佳实战与性能优化,sparksql,性能优化,官网

缓存数据

把数据缓存到内存,spark sql能够只扫描需要列并且会自动压缩数据,占用最小的内存和减小GC压力。这无需多言,内存远远要快于磁盘,spark效率比hive高这个就是一个主要原因。

  • 缓存数据代码
spark.catalog.cacheTable("tableName")
或
dataFrame.cache()
  • 释放缓存
spark.catalog.uncacheTable("tableName")
或
dataFrame.unpersist()

用完后一定要记得释放掉,不要空占的内存浪费资源。

  • 内存相关参数
    spark sql可以使用SparkSession的setConf方法,或者使用sql命令 set key=value的方法来配置内存中的缓存。主要的配置参数有两个:文章来源地址https://www.toymoban.com/news/detail-825580.html

    参数 默认值 含义 开始版本
    spark.sql.inMemoryColumnarStorage.comp

到了这里,关于spark sql官网优化指南的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark:性能调优实战

    链接: 文字文档 极客链接 一、资源申请并行度 一个Executor中同时可以执行的task数目(在Executor内存不变的情况下,executor-cores数越大,平均下来一个task可以使用的内存就越少) Executor Java进程的堆内存大小,即Executor Java进程的Xmx值 Executor Java进程的off-heap内存,包括JVM over

    2024年04月16日
    浏览(43)
  • Spark SQL优化:NOT IN子查询优化解决

    文章最前 : 我是Octopus,这个名字来源于我的中文名--章鱼;我热爱编程、热爱算法、热爱开源。所有源码在我的个人github ;这博客是记录我学习的点点滴滴,如果您对 Python、Java、AI、算法有兴趣,可以关注我的动态,一起学习,共同进步。  相关文章: LEFT ANTI JOIN的使用

    2024年02月05日
    浏览(53)
  • Spark SQL调优实战

    1、 新添参数说明 // D river 和Executor内存和CPU资源相关配置 -- 是否开启 executor 动态分配 , 开启时 spark.executor.instances 不生效 spark.dynamicAllocation.enabled= false --配置Driver内存 spark.dirver.memory=5g --driver最大结果大小,设置为0代表不限制,driver在拉取结果时,如果结果超过阈值会报异

    2024年02月21日
    浏览(30)
  • Spark Streaming实战与优化

    作者:禅与计算机程序设计艺术 Spark Streaming 是 Apache Spark 的一个模块,可以用于对实时数据流进行快速、高容错的处理。它允许用户开发高吞吐量、复杂的实时分析应用程序。Spark Streaming 可以与 Apache Kafka 或 Flume 等工具进行集成,从而实现实时数据采集和 ETL(Extract-Transfo

    2024年02月06日
    浏览(37)
  • Spark SQL生产优化经验--任务参数配置模版

    特殊case说明:当任务存在扫event_log表时需注意,若对event_log表进行了过滤,且过滤比很高,如下图的case,input为74T,但shuffle write仅为3.5G,那么建议提高单partition的读取数据量,将参数set spark.sql.files.maxPartitionBytes=536870912提高10倍至5368709120; 目前测试:在不手动添加任何参数

    2024年02月12日
    浏览(41)
  • Spark安全日志分析与事件调查:实战指南

    摘要: 在当今数字化时代,安全日志分析和事件调查变得至关重要。本博客将介绍如何使用Spark进行安全日志分析和事件调查,展示了项目经验、详细的技术细节和提供了代码示例。通过深入理解和准备,您将能够展示您在Spark上的专业知识,为安全团队提供强大的分析和调

    2024年04月13日
    浏览(55)
  • Spark SQL实战(08)-整合Hive

    Apache Spark 是一个快速、可扩展的分布式计算引擎,而 Hive 则是一个数据仓库工具,它提供了数据存储和查询功能。在 Spark 中使用 Hive 可以提高数据处理和查询的效率。 场景 历史原因积累下来的,很多数据原先是采用Hive来进行处理的,现想改用Spark操作数据,须要求Spark能够

    2023年04月15日
    浏览(89)
  • Spark SQL实战(07)-Data Sources

    Spark SQL通过DataFrame接口支持对多种数据源进行操作。 DataFrame可使用关系型变换进行操作,也可用于创建临时视图。将DataFrame注册为临时视图可以让你对其数据运行SQL查询。 本节介绍使用Spark数据源加载和保存数据的一般方法,并进一步介绍可用于内置数据源的特定选项。 数

    2023年04月08日
    浏览(42)
  • Spark性能优化:提高计算速度与资源利用率的实用技巧

    Apache Spark是一个开源的大规模数据处理框架,它可以处理批量数据和流式数据,并提供了一个易用的编程模型。Spark的核心组件是Spark引擎,它负责执行用户的计算任务。在大规模数据处理中,Spark性能优化是非常重要的,因为它可以提高计算速度和资源利用率。 在本文中,我

    2024年02月20日
    浏览(57)
  • Spark SQL实战(04)-API编程之DataFrame

    Spark Core: SparkContext Spark SQL: 难道就没有SparkContext? 2.x之后统一的 1.x的Spark SQL编程入口点 SQLContext HiveContext Spark SQL中,SQLContext、HiveContext都是用来创建DataFrame和Dataset主要入口点,二者区别如下: 数据源支持:SQLContext支持的数据源包括JSON、Parquet、JDBC等等,而HiveContext除了支持

    2023年04月09日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包