Spark on Yarn集群模式搭建及测试

这篇具有很好参考价值的文章主要介绍了Spark on Yarn集群模式搭建及测试。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

🥇🥇【大数据学习记录篇】-持续更新中~🥇🥇


点击传送:大数据学习专栏

持续更新中,感谢各位前辈朋友们支持学习~

1.Spark on Yarn集群模式介绍

Apache Spark是一个快速的、通用的大数据处理框架,它支持在各种环境中进行分布式数据处理和分析。在Yarn集群模式下搭建Spark环境可以充分利用Hadoop的资源管理和调度能力。

本文将介绍如何搭建Spark on Yarn集群模式环境,步骤详细,代码量大,准备发车~
Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

2.搭建环境准备

本次用到的环境有:
Java 1.8.0_191
Spark-2.2.0-bin-hadoop2.7
Hadoop 2.7.4
Oracle Linux 7.4

3.搭建步骤

1.解压Spark压缩文件至/opt目录下

tar -zxvf  ~/experiment/file/spark-2.2.0-bin-hadoop2.7.tgz  -C  /opt

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux
2.修改解压后为文件名为spark

mv /opt/spark-2.2.0-bin-hadoop2.7 /opt/spark

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

3.复制spark配置文件,首先在主节点(Master)上,进入Spark安装目录下的配置文件目录{ $SPARK_HOME/conf },并复制spark-env.sh配置文件:

cd /opt/spark/conf
cp spark-env.sh.template spark-env.sh

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

4.Vim编辑器打开spark配置文件

vim spark-env.sh

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

5.按键Shift+g键定位到最后一行,按键 i 切换到输入模式下,添加如下代码,注意:“=”附近无空格:

export JAVA_HOME=/usr/lib/java-1.8
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

6.复制一份spark的slaves配置文件

cp slaves.template slaves

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

7.修改spark的slaves配置文件

vim slaves

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

8.每一行添加工作节点(Worker)名称,按键Shift+g键定位到最后一行,按键 i 切换到输入模式下,添加如下代码

slave1
slave2

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

按键Esc,按键:wq保存退出
9.复制spark-defaults.conf

cp spark-defaults.conf.template spark-defaults.conf

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

10.通过远程scp指令将Master主节点的Spark安装包分发至各个从节点,即slave1和slave2节点

scp -r /opt/spark/ root@slave1:/opt/
scp -r /opt/spark/ root@slave2:/opt/

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux
Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

11.配置环境变量:分别在master,slave1和slave2节点上配置环境变量,修改【/etc/profile】,在文件尾部追加以下内容

vim /etc/profile

按键Shift+g键定位到最后一行,按键 i 切换到输入模式下,添加如下代码

#spark install
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

主节点(master)上执行截图,如下:
Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux
Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

从节点1(Slave1)上执行截图,如下:
Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux
Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

从节点2(Slave2)上执行截图,如下:
Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux
Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

12.按键Esc,按键:wq保存退出
13.分别在Slave1和Slave2上,刷新配置文件

source /etc/profile

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux
Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

14.绑定Hadoop配置目录(在主节点),Spark搭建On YARN模式,只需修改spark-env.sh配置文件的HADOOP_CONF_DIR属性,指向Hadoop安装目录中配置文件目录,具体操作如下

vim /opt/spark/conf/spark-env.sh
export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

15.按键Esc,按键:wq保存退出
16.在主节点修改完配置文件后,一定要将【/opt/spark/conf/spark-env.sh】文件同步分发至所有从节点,命令如下

scp -r /opt/spark/conf/spark-env.sh root@slave1:/opt/spark/conf/
scp -r /opt/spark/conf/spark-env.sh root@slave2:/opt/spark/conf/

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

17.注意事项,如不修改此项,可能在提交作业时抛相关异常,Yarn的资源调用超出上限,需修在文件最后添加属性改默认校验属性,修改文件为
{HADOOP_HOME/etc/hadoop}/yarn-site.xml

vim /opt/hadoop/etc/hadoop/yarn-site.xml
<property>
	<name>yarn.nodemanager.pmem-check-enabled</name>
	<value>false</value>
</property>
<property>
	<name>yarn.nodemanager.vmem-check-enabled</name>
	<value>false</value>
</property>

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

18.修改完成后分发至集群其它节点:

scp /opt/hadoop/etc/hadoop/yarn-site.xml root@slave1:/opt/hadoop/etc/hadoop/
scp /opt/hadoop/etc/hadoop/yarn-site.xml root@slave2:/opt/hadoop/etc/hadoop/

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

19.开启Hadoop集群,在开启Spark On Yarn集群之前必须首先开启Hadoop集群,指令如下:

start-dfs.sh
start-yarn.sh

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

20.开启spark shell会话

spark-shell --master yarn-client

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

21.查看三台节点的后台守护进程

jps

Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

22.查看查看WebUI界面,应用提交后,进入Hadoop的Yarn资源调度页面http://master:8088,查看应用的运行情况,如图所示
Spark on Yarn集群模式搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

所有配置完成,如果本篇文章对你有帮助,记得点赞关注+收藏哦~文章来源地址https://www.toymoban.com/news/detail-677438.html

到了这里,关于Spark on Yarn集群模式搭建及测试的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • flink on yarn集群部署模式

    介绍 YARN 上部署的过程是:客户端把 Flink 应用提交给 Yarn 的ResourceManager, Yarn 的 ResourceManager 会向 Yarn 的 NodeManager 申请容器。在这些容器上,Flink 会部署JobManager 和 TaskManager 的实例,从而启动集群。Flink 会根据运行在 JobManger 上的作业所需要的 Slot 数量动态分配TaskManager 资源。

    2024年01月23日
    浏览(42)
  • Spark on Yarn 部署模式运行常用参数和认证参数理解

    Spark支持以下三种部署模式 Client模式:在Client模式下,驱动程序运行在提交应用程序的客户端上。应用程序使用集群中的资源来执行任务。 这种模式适用于开发和调试应用程序,因为它允许开发人员与驱动程序交互并查看应用程序的输出。 Cluster模式:在Cluster模式下,驱动程

    2024年02月06日
    浏览(76)
  • 大数据集群搭建全部过程(Vmware虚拟机、hadoop、zookeeper、hive、flume、hbase、spark、yarn)

    1.网关配置(参照文档) 注意事项:第一台虚拟机改了,改为centos 101 ,地址为192.168.181.130 网关依然是192.168.181.2,但是一定要注意,它在D盘的文件名称是Hadoop 101,后面重新搭建的会命名文件夹为hadoop 101,hadoop 102和hadoop 103,然后发到一个总的文件夹hadoop_03里面去 VMnet8的IP地址一定

    2024年02月02日
    浏览(97)
  • 测试环境搭建整套大数据系统(三:搭建集群zookeeper,hdfs,mapreduce,yarn,hive)

    https://blog.csdn.net/weixin_43446246/article/details/123327143 java_home填写自己安装的路径。 vim core-site.xml 将以下信息填写到configuration中 vim hdfs-site.xml vim mapred-site.xml vim yarn-site.xml vim workers 启动zk 三台机器全部执行 在node01执行 格式化NameNode 。 在node01执行 启动hdfs 在node01执行 启动yarn jps

    2024年02月20日
    浏览(115)
  • 《PySpark大数据分析实战》-12.Spark on YARN配置Spark运行在YARN上

    📋 博主简介 💖 作者简介:大家好,我是wux_labs。😜 热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。 通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。 通过了微软Azure开发人员、Azure数据工程师、Azure解决

    2024年02月03日
    浏览(53)
  • Flink 本地单机/Standalone集群/YARN模式集群搭建

    本文简述 Flink 在 Linux 中安装步骤,和示例程序的运行。需要安装 JDK1.8 及以上版本。 下载地址:下载 Flink 的二进制包 点进去后,选择如下链接: 解压 flink-1.10.1-bin-scala_2.12.tgz ,我这里解压到 soft 目录 解压后进入 Flink 的 bin 目录执行如下脚本即可 进入 Flink 页面看看,如果

    2024年02月05日
    浏览(44)
  • Spark大数据处理学习笔记(2.2)搭建Spark Standalone集群

    一、在master虚拟机上安装配置Spark 1.1 将spark安装包上传到master虚拟机 下载Spark:pyw2 进入/opt目录,查看上传的spark安装包 1.2 将spark安装包解压到指定目录 执行命令: tar -zxvf spark-3.3.2-bin-hadoop3.tgz 修改文件名:mv spark-3.3.2-bin-hadoop3 spark-3.3.2 1.3 配置spark环境变量 执行命令:vim

    2024年02月09日
    浏览(50)
  • Spark on Yarn 最佳运行参数调优-计算方式_spark on yarn 调优 nodemanager

    先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7 深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前! 因此收集整理了一份《2024年最新软件测试全套学习资料》

    2024年04月26日
    浏览(44)
  • kyuubi整合spark on yarn

    目标: 1.实现kyuubi spark on yarn 2.实现 kyuubi spark on yarn 资源的动态分配 注意:版本 kyuubi 1.8.0 、 spark 3.4.2 、hadoop 3.3.6 前置准备请看如下文章 文章 链接 hadoop一主三从安装 链接 spark on yarn 链接 官网下载地址 官方文档 修改配置文件 三千五百万 主键id单笔获取 非主键 count 测试 差

    2024年04月08日
    浏览(39)
  • (超详细)Spark on Yarn安装配置

    1,前期准备 使用 root 用户完成相关配置,已安装配置Hadoop 及前置环境 2,spark上传解压到master服务器 3,修改环境变量  /etc/profile末尾添加下面代码 4,环境变量生效 5,运行spark-submit --version 显示如下 6,修改saprk-env.sh文件   在.../spark-3.1.1-bin-hadoop3.2/conf目录下,将下面两行

    2024年03月21日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包