（超详细）Spark on Yarn安装配置

8月前作者：数据爬坡ing 分类：Toy博客阅读(43) 违法举报

这篇具有很好参考价值的文章主要介绍了（超详细）Spark on Yarn安装配置。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1，前期准备

使用 root 用户完成相关配置，已安装配置Hadoop 及前置环境

2，spark上传解压到master服务器

3，修改环境变量

/etc/profile末尾添加下面代码

export SPARK_HOME=.../spark-3.1.1-bin-hadoop3.2(注意：需要替换成你自己得路径)
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

4，环境变量生效

source /etc/profile

5，运行spark-submit --version

显示如下

spark on yarn安装配置,大数据比赛,数据分析-工具使用,spark,大数据,分布式

6，修改saprk-env.sh文件

在.../spark-3.1.1-bin-hadoop3.2/conf目录下，将下面两行添加至spark-env.sh文件末尾：

HADOOP_CONF_DIR=.../hadoop-3.1.3/etc/hadoop
YARN_CONF_DIR=.../hadoop-3.1.3/etc/hadoop

7，运行计算Pi的jar包

命令如下：

spark-submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-example_2.11-2.1.1.jar

结果显示如下:

8，注意

如果报内存大小错误，修改yarn-site.xml,设置虚拟内存，至少是物理内存的4倍

spark on yarn安装配置,大数据比赛,数据分析-工具使用,spark,大数据,分布式文章来源地址https://www.toymoban.com/news/detail-841977.html

到了这里，关于（超详细）Spark on Yarn安装配置的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【大数据监控】Grafana、Spark、HDFS、YARN、Hbase指标性能监控安装部署详细文档

Grafana 是一款开源的数据可视化工具，使用 Grafana 可以非常轻松的将数据转成图表(如下图)的展现形式来做到数据监控以及数据统计。解压配置 mapping 文件修改spark的metrics.properties配置文件，让其推送metrics到Graphite_exporter namenode.yaml datanode.yaml 配置 hadoop-env.sh yarn.yaml 配置 ya

2023年04月21日
浏览(55)
kyuubi整合spark on yarn

目标: 1.实现kyuubi spark on yarn 2.实现 kyuubi spark on yarn 资源的动态分配注意：版本 kyuubi 1.8.0 、 spark 3.4.2 、hadoop 3.3.6 前置准备请看如下文章文章链接 hadoop一主三从安装链接 spark on yarn 链接官网下载地址官方文档修改配置文件三千五百万主键id单笔获取非主键 count 测试差

2024年04月08日
浏览(39)
Spark on Yarn模式下执行过程

Driver Application启动 Driver Application启动：用户提交的Spark Application在YARN上启动一个ApplicationMaster（即Driver Application）进程来管理整个应用程序的生命周期，并向ResourceManager请求资源。获得资源 Driver Application向ResourceManager请求可用的资源（CPU核数、内存等），并等待接收到资源

2024年02月01日
浏览(48)
Spark On YARN时指定Python版本

坑很多，直接上兼容性最佳的命令，将python包上传到 hdfs 或者 file:/home/xx/ (此处无多余的 / ) 具体细节关于 Python包打包可以参考 https://www.jianshu.com/p/d77e16008957，https://blog.csdn.net/sgyuanshi/article/details/114648247 非官方的python，比如 anaconda的python可能会有坑，所以最好先用官方版本

2023年04月18日
浏览(40)
Spark On Yarn的两种运行模式

Spark On YARN是有两种运行模式：Cluster模式、Client模式 Cluster模式：Driver运行在YARN容器内部，和ApplicationMaster在同一个容器内。 Client模式即：Driver运行在客户端进程中，比如Driver运行在spark-submit程序的进程中。 Client模式详细流程 YARN Client模式下，Driver在任务提交的本地机器上运

2024年02月02日
浏览(50)
Spark on Yarn集群模式搭建及测试

🥇🥇【大数据学习记录篇】-持续更新中~🥇🥇 点击传送：大数据学习专栏持续更新中，感谢各位前辈朋友们支持学习~ Apache Spark是一个快速的、通用的大数据处理框架，它支持在各种环境中进行分布式数据处理和分析。在Yarn集群模式下搭建Spark环境可以充分利用Hadoop的资源

2024年02月11日
浏览(46)
【Spark实战】Windows环境下编译Spark2 Linux上部署Spark On Yarn

环境准备 git-2.14.1 maven-3.9.2 jdk-1.8 scala-2.11.8 zinc-0.3.15 主下载地址 spark-2.3.4 github官方地址编译准备 maven远程仓库使用的是阿里云的解压源码包 spark-2.3.4.zip ,修改根模块的pom文件。主要目的是为了变更hadoop的版本号，默认是 2.6.5 。修改 spark-2.3.4devmake-distribution.sh 文件主要是

2024年02月13日
浏览(55)
Spark on Yarn 部署模式运行常用参数和认证参数理解

Spark支持以下三种部署模式 Client模式：在Client模式下，驱动程序运行在提交应用程序的客户端上。应用程序使用集群中的资源来执行任务。这种模式适用于开发和调试应用程序，因为它允许开发人员与驱动程序交互并查看应用程序的输出。 Cluster模式：在Cluster模式下，驱动程

2024年02月06日
浏览(76)
Spark单机伪分布式环境搭建、完全分布式环境搭建、Spark-on-yarn模式搭建

搭建Spark需要先配置好scala环境。三种Spark环境搭建互不关联，都是从零开始搭建。如果将文章中的配置文件修改内容复制粘贴的话，所有配置文件添加的内容后面的注释记得删除，可能会报错。保险一点删除最好。上传安装包解压并重命名 rz上传如果没有安装rz可以使用命

2024年02月06日
浏览(77)
hive on spark 时，executor和driver的内存设置，yarn的资源设置

hive on spark 时，executor和driver的内存设置，yarn的资源设置。在使用Hive on Spark时，需要进行以下三个方面的内存和资源设置： Executor的内存设置在使用Hive on Spark时，需要根据数据量和任务复杂度等因素，合理地设置每个Executor的内存大小。通常情况下，每个Executor需要留一部分

2024年02月16日
浏览(40)