Spark on Yarn 部署模式运行常用参数和认证参数理解

这篇具有很好参考价值的文章主要介绍了Spark on Yarn 部署模式运行常用参数和认证参数理解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Spark支持以下三种部署模式

  • Client模式:在Client模式下,驱动程序运行在提交应用程序的客户端上。应用程序使用集群中的资源来执行任务。
    这种模式适用于开发和调试应用程序,因为它允许开发人员与驱动程序交互并查看应用程序的输出。

  • Cluster模式:在Cluster模式下,驱动程序运行在集群上的某个节点上。
    应用程序使用集群中的资源来执行任务。这种模式适用于生产环境,因为它可以更好地利用集群中的资源。

  • Local模式:在Local模式下,应用程序运行在单个计算机上。
    这种模式适用于开发和测试应用程序,因为它可以在没有集群的情况下运行应用程序。

使用deploy-mode选项可以指定要使用的部署模式。
例如,使用–deploy-mode client选项可以将应用程序部署在Client模式下,而使用–deploy-mode cluster选项可以将应用程序部署在Cluster模式下。

参数解释

Spark有两种部署模式:Standalone和YARN。

以下是这两种部署模式中常见的Spark运行参数:

  • master:指定Standalone或YARN的主节点地址,例如–master yarn或–master spark://localhost:7077。

  • –queue 在 YARN 集群中,使用 --queue 参数可以指定任务要运行的队列。这个参数通常用于控制任务的优先级和资源分配。如果没有指定队列,默认会将任务分配到 default 队列中。

  • deploy-mode:用于指定应用程序的部署模式。在Standalone中,可以选择client或cluster;在YARN中,可以选择client或cluster或其他。
    例如,–deploy-mode cluster表示将应用程序提交到集群上运行。

  • num-executors:指定要启动的执行器数,例如–num-executors 4表示启动4个执行器。

  • executor-memory:指定每个执行器可用的内存量,例如–executor-memory 2g表示每个执行器可用2GB内存。

  • driver-memory:指定驱动器可用的内存量,例如–driver-memory 1g表示驱动器可用1GB内存。

  • executor-cores:指定每个执行器可用的CPU核心数量,例如–executor-cores 2表示每个执行器可用2个CPU核心。

  • jars:指定要在应用程序中使用的JAR包的路径,例如–jars /path/to/jar。

  • py-files:指定要在应用程序中使用的Python文件的路径,例如–py-files /path/to/pythonfile.py。

  • files:指定要在应用程序中使用的普通文件的路径,例如–files /path/to/file.txt。

  • main-class:指定要运行的主类(仅对Java和Scala应用程序有效),例如–class com.example.Main。

  • –driver-library-path参数用于指定运行Spark应用程序的驱动程序库的路径。

  • –conf: 允许您设置Spark配置属性,例如–conf spark.executor.extraJavaOptions="-XX:+PrintGCDetails -XX:+PrintGCTimeStamps"可以设置执行器的JVM选项。

关于认证相关的参数

在 Spark 部署模式运行时,关于 Kerberos 认证相关的参数包括:

  • spark.authenticate:设置为 true 开启 Kerberos 认证,默认为 false。
  • spark.principal:Kerberos 认证的主体名称,通常是以用户身份标识。
  • spark.keytab:Kerberos 认证的密钥文件路径,用于进行身份验证。
    这些参数可以在 Spark 启动命令中通过 --conf 选项指定,例如:
./sbin/start-worker.sh \
    --class org.apache.spark.deploy.worker.Worker \
    --conf spark.authenticate=true \
    --conf spark.principal=sparkuser@EXAMPLE.COM \
    --conf spark.keytab=/path/to/sparkuser.keytab 

需要注意的是,使用 Kerberos 认证需要在 Hadoop 集群上进行相关配置,并且需要保证 Spark 和 Hadoop 配置的参数一致。此外,Kerberos 认证在集群环境中会带来额外的开销和复杂性,因此需要谨慎使用。

参数配置思路

Spark 提交运行参数的设计思想是通过命令行参数和配置文件等方式来指定 Spark 应用程序的执行参数,以便更好地满足不同应用场景的需求。Spark 提供了一系列的运行参数,可以控制应用程序的资源分配、并行度、优化等方面的设置,从而提高应用程序的性能和可靠性。同时,Spark 还支持从外部加载配置文件来进行参数设置,使得应用程序的参数可以更灵活地进行配置和管理。通过合理的参数设置,可以提高 Spark 应用程序的效率和可扩展性,使得应用程序能够更好地适应不同的工作负载。文章来源地址https://www.toymoban.com/news/detail-455299.html

到了这里,关于Spark on Yarn 部署模式运行常用参数和认证参数理解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark on Yarn集群模式搭建及测试

    🥇🥇【大数据学习记录篇】-持续更新中~🥇🥇 点击传送:大数据学习专栏 持续更新中,感谢各位前辈朋友们支持学习~ Apache Spark是一个快速的、通用的大数据处理框架,它支持在各种环境中进行分布式数据处理和分析。在Yarn集群模式下搭建Spark环境可以充分利用Hadoop的资源

    2024年02月11日
    浏览(45)
  • Spark on YARN 部署搭建详细图文教程

    目录 一、引言  二、SparkOnYarn 本质 2.1 Spark On Yarn 的本质? 2.2 Spark On Yarn 需要啥? 三、配置 spark on yarn 环境 3.1 spark-env.sh  3.2 连接到 YARN 中 3.2.1 bin/pyspark 3.2.2 bin/spark-shell 3.2.3 bin/spark-submit (PI) 四、部署模式 DeployMode  4.1 Cluster 模式 4.2 Client 模式 4.3 两种模式的区别  4.4 测试

    2024年02月06日
    浏览(39)
  • 【Spark实战】Windows环境下编译Spark2 Linux上部署Spark On Yarn

    环境准备 git-2.14.1 maven-3.9.2 jdk-1.8 scala-2.11.8 zinc-0.3.15 主下载地址 spark-2.3.4 github官方地址 编译准备 maven远程仓库使用的是阿里云的 解压源码包 spark-2.3.4.zip ,修改根模块的pom文件。主要目的是为了变更hadoop的版本号,默认是 2.6.5 。 修改 spark-2.3.4devmake-distribution.sh 文件 主要是

    2024年02月13日
    浏览(55)
  • Spark单机伪分布式环境搭建、完全分布式环境搭建、Spark-on-yarn模式搭建

    搭建Spark需要先配置好scala环境。三种Spark环境搭建互不关联,都是从零开始搭建。 如果将文章中的配置文件修改内容复制粘贴的话,所有配置文件添加的内容后面的注释记得删除,可能会报错。保险一点删除最好。 上传安装包解压并重命名 rz上传 如果没有安装rz可以使用命

    2024年02月06日
    浏览(77)
  • flink on yarn集群部署模式

    介绍 YARN 上部署的过程是:客户端把 Flink 应用提交给 Yarn 的ResourceManager, Yarn 的 ResourceManager 会向 Yarn 的 NodeManager 申请容器。在这些容器上,Flink 会部署JobManager 和 TaskManager 的实例,从而启动集群。Flink 会根据运行在 JobManger 上的作业所需要的 Slot 数量动态分配TaskManager 资源。

    2024年01月23日
    浏览(42)
  • Apache Flink连载(二十):Flink On Yarn运行 - Yarn Per-Job模式(弃用)

     🏡 个人主页:IT贫道-CSDN博客  🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~  🔔 博主个人B栈地址:豹哥教你学编程的个人空间-豹哥教你学编程个人主页-哔哩哔哩视频 目录 1. 任务提交命令 2. 任务提交流程

    2024年01月20日
    浏览(41)
  • HadoopYarn常用命令、yarn application查看任务、yarn logs查看日志、yarn applicationattempt查看尝试运行的任务、查看容器、Yarn生产环境核心参数

    Yarn状态的查询,除了可以在hadoop103:8088页面查看外,还可以通过命令操作。常见的命令操作如下所示: 需求:执行WordCount案例,并用Yarn命令查看任务运行情况。 [summer@hadoop102 ~]$ myhadoop.sh start 这个是之前写的脚本,想了解的可用看我之前写的文章 https://blog.csdn.net/Redamancy06/

    2024年01月18日
    浏览(50)
  • Flink on k8s容器日志生成原理及与Yarn部署时的日志生成模式对比

    最近需要将flink由原先部署到Yarn集群切换到kubernetes集群,在切换之后需要熟悉flink on k8s的运行模式。在使用过程中针对日志模块发现,在k8s的容器中,flink的系统日志只有jobmanager.log/taskmanager.log 两个,而当时在使用Yarn集群部署时,flink的日志会有多个,比如:jobmanager.log、jo

    2024年02月07日
    浏览(36)
  • 深入理解 Spark(一)spark 运行模式简介与启动流程源码分析

    以 standalone-client 为例,运行过程如下: SparkContext 连接到 Master,向 Master 注册并申请资源(CPU Core 和 Memory); Master 根据 SparkContext 的资源申请要求和 Worker 心跳周期内报告的信息决定在哪个 Worker 上分配资源,然后在该 Worker 上获取资源,然后启动 StandaloneExecutorBackend; Stan

    2024年02月02日
    浏览(39)
  • kyuubi整合spark on yarn

    目标: 1.实现kyuubi spark on yarn 2.实现 kyuubi spark on yarn 资源的动态分配 注意:版本 kyuubi 1.8.0 、 spark 3.4.2 、hadoop 3.3.6 前置准备请看如下文章 文章 链接 hadoop一主三从安装 链接 spark on yarn 链接 官网下载地址 官方文档 修改配置文件 三千五百万 主键id单笔获取 非主键 count 测试 差

    2024年04月08日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包