Spark 提交任务参数设置关于(线程,shuffle,序列化)

这篇具有很好参考价值的文章主要介绍了Spark 提交任务参数设置关于(线程,shuffle,序列化)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

–driver-java-options ‘-Xss6m’`

是在使用 Apache Spark 时,为了设置 Java 虚拟机(JVM)的堆栈大小而使用命令行选项。
-Xss 是 Java 虚拟机的一个选项,用于设置线程的堆栈大小。在这个命令行选项中,-Xss6m 表示将线程的堆栈大小设为 6MB。这个选项的作用是为了避免在运行 Spark 任务时出现堆栈溢出的错误。

–spark.default.parallelism=200

设置 Spark 默认的并行度为 200。并行度是指在 Spark中并行执行任务的线程数或分区数。通过设置并行度,可以提高 Spark 任务的执行效率。

–conf spark.shuffle.io.maxRetries=200

设置 Spark Shuffle 操作的最大重试次数为 200。Shuffle 是 Spark 中的一个重要操作,用于将数据从一个节点传输到另一个节点。通过设置大重试次数,可以提高 Shuffle 操作的可靠性。

–conf spark.shuffle.io.retryWait=500s

设置 Spark Shuffle 操作的重试等待时间为 500 秒。当 Shuffle 操作失败时,会进行重试,通过设置重试等待时间,可以控制重试的时间。

–conf spark.kryoserializer.buffer.max=512m

设置 Kryo 序列化器的最大缓冲区大小为 512MB。Kryo 是 Spark 中的一种高效的序列化器,通过设置缓冲区大小,可以提高序列化和反序列化的效率。

–conf spark.kryoserializer.buffer=512m

设置 Kryo 序列化器的缓冲区大小为 512MB。通过设置缓冲区大小,可以提高序列化和反序列化的效率。

–conf spark.sql.shuffle.partitions=200

设置 Spark SQL Shuffle 操作的分区数为 200。Shuffle 是 Spark SQL 中的一个重要操作,用于将数据从一个节点传输到另一个节点通过设置分区数,可以提高 Shuffle 操作的并行度,从而提高 Spark SQL 任务的执行效率。文章来源地址https://www.toymoban.com/news/detail-433106.html

到了这里,关于Spark 提交任务参数设置关于(线程,shuffle,序列化)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark系列之SparkSubmit提交任务到YARN

    title: Spark系列 本地模式,不启动spark集群也能运行。 实际可运行命令: 运行截图: 结果截图: 需要启动Spark的StandAlone集群来运行。 直接提交可能会报错: spark-env.sh中: spark-defaults.conf中: 如若不生效,则直接拷贝 yarn-site.xml 文件到 $SPARK_HOME 中 上述任务在启动的时候,有

    2024年02月03日
    浏览(31)
  • spark streaming如何在kerberos认证的集群上提交任务

    集群有kerberos认证,spark批处理任务提交后正常运行,spark streaming/structed streaming 任务提交后运行不了,报 java.io.IOException: org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOKEN, KERBEROS] 的错误,其中streaming任务里面有用到sparkSQL 找到多种处理方式,在一一尝试之

    2024年02月20日
    浏览(24)
  • spark SQL 任务参数调优1

    要了解spark参数调优,首先需要清楚一部分背景资料Spark SQL的执行原理,方便理解各种参数对任务的具体影响。 一条SQL语句生成执行引擎可识别的程序,解析(Parser)、优化(Optimizer)、执行(Execution) 三大过程。其中Spark SQL 解析和优化如下图 Parser模块:未解析的逻辑计划

    2024年02月07日
    浏览(30)
  • 关于flink重新提交任务,重复消费kafka的坑

    按照以下方式设置backend目录和checkpoint目录,fsbackend目录有数据,checkpoint目录没数据 我以为checkpoint和fsbackend要同时设置,其实,1.14.3版本,setCheckpointStorage和stateBackend改成了分着设置 我上边代码这样设置,相当于首先指定了以下checkpoint按照默认的backend存储,然后又指定了按

    2024年02月03日
    浏览(41)
  • 【JAVA】提交任务时,线程池队列已满,这时会发生什么

    🍎 个人博客: 个人主页 🏆 个人专栏: JAVA ⛳️   功不唐捐,玉汝于成 目录 前言 正文 抛出异常: 阻塞等待: 丢弃任务: 调整线程池参数: 使用拒绝策略: 结语  我的其他博客   在并发编程中,线程池作为一种重要的资源管理工具,被广泛应用于提高系统性能和响应

    2024年02月20日
    浏览(30)
  • Spark SQL生产优化经验--任务参数配置模版

    特殊case说明:当任务存在扫event_log表时需注意,若对event_log表进行了过滤,且过滤比很高,如下图的case,input为74T,但shuffle write仅为3.5G,那么建议提高单partition的读取数据量,将参数set spark.sql.files.maxPartitionBytes=536870912提高10倍至5368709120; 目前测试:在不手动添加任何参数

    2024年02月12日
    浏览(29)
  • 【Spark精讲】Spark Shuffle详解

    目录 Shuffle概述 Shuffle执行流程 总体流程 中间文件 ShuffledRDD生成 Stage划分 Task划分 Map端写入(Shuffle Write) Reduce端读取(Shuffle Read) Spark Shuffle演变 SortShuffleManager运行机制 普通运行机制 bypass 运行机制 Tungsten Sort Shuffle 运行机制 基于Sort的Shuffle机制的优缺点 Shuffle调优 广播变量 shu

    2024年02月02日
    浏览(36)
  • Spark九:Spark调优之Shuffle调优

    map端和reduce端缓存大小设置,reduce端重试次数和等待时间间隔,以及bypass设置 学习资料:https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ 在Spark任务运行过程中,如果shuffle的map端处理的数据量比较大,但是map端缓冲的大小是固定的,可能会出现map端缓冲数据频繁spill溢写到磁盘文件中

    2024年01月20日
    浏览(31)
  • Spark Shuffle 过程

    本篇主要阐述Spark Shuffle过程,在执行 Job 任务时,无论是 MapReduce 或者 Spark Shuffle 过程都是比较消耗性能;因为该环节包含了大量的磁盘 IO、序列化、网络数据传输等操作。因此,在这一过程中进行调参优化,就有可能让 Job 执行效率上更好。 在 Spark 1.2 以前,默认的 Shuffle

    2023年04月08日
    浏览(27)
  • Spark学习笔记【shuffle】

    本文基本上是大数据处理框架Apache Spark设计与实现的Shuffle部分的学习。以及Spark基础知识@Bambrow 上游和下游,不同stage,不同的task之间是如何传递数据的。 ShuffleManager 管理ShuffleWrite和ShuffleRead 分为两个阶段: ShuffleWrite 上游stage输出的分区问题。 ShuffleRead 下游stage从上游获取

    2024年02月03日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包