Spark Standalone环境搭建及测试

这篇具有很好参考价值的文章主要介绍了Spark Standalone环境搭建及测试。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

🥇🥇【大数据学习记录篇】-持续更新中~🥇🥇


篇一:Linux系统下配置java环境
篇二:hadoop伪分布式搭建(超详细)
篇三:hadoop完全分布式集群搭建(超详细)-大数据集群搭建
篇四:Spark Local环境搭建及测试

1.Spark Standalone环境搭建介绍

Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

Apache Spark是目前最流行的大数据处理框架之一,可用于分布式数据处理和分析。在Standalone模式下搭建Spark集群是学习和开发Spark应用程序的良好起点。

2.搭建环境准备:

本次用到的环境有:
Java 1.8.0_191
Spark-2.2.0-bin-hadoop2.7
Hadoop 2.7.4
Oracle Linux 7.4

3.搭建步骤:

1.解压Spark压缩文件至/opt目录下

tar -zxvf  ~/experiment/file/spark-2.2.0-bin-hadoop2.7.tgz  -C  /opt

Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

2.修改解压后为文件名为spark

mv /opt/spark-2.2.0-bin-hadoop2.7 /opt/spark

Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

3.复制spark配置文件,首先在主节点(Master)上,进入Spark安装目录下的配置文件目录{ $SPARK_HOME/conf },并复制spark-env.sh配置文件:

cd /opt/spark/conf
cp spark-env.sh.template spark-env.sh

Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

4.Vim编辑器打开spark配置文件

vim spark-env.sh

Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

5.按键Shift+g键定位到最后一行,按键 i 切换到输入模式下,添加如下代码,注意:“=”附近无空格:

export JAVA_HOME=/usr/lib/java-1.8
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077

Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

按键Esc,输入:wq保存退出
6.复制一份spark的slaves配置文件

cp slaves.template slaves

Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

7.修改spark的slaves配置文件

vim slaves

Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

8.每一行添加工作节点(Worker)名称,按键Shift+g键定位到最后一行,按键 i 切换到输入模式下,添加如下代码

slave1
slave2

Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

按键Esc,输入:wq保存退出
9.复制一份spark-defaults.conf

cp spark-defaults.conf.template spark-defaults.conf

Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

10.通过远程scp指令将Master主节点的Spark安装包分发至各个从节点,即slave1和slave2节点

scp -r /opt/spark/ root@slave1:/opt/
scp -r /opt/spark/ root@slave2:/opt/

Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux
Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

11.配置环境变量:分别在slave1和slave2节点上配置环境变量,修改【/etc/profile】,在文件尾部追加以下内容

vim /etc/profile

按键Shift+g键定位到最后一行,按键 i 切换到输入模式下,添加如下代码

#spark install
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

主节点(master)上执行截图,如下:
Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux
Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

从节点1(Slave1)上执行截图,如下:
Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux
Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

从节点2(Slave2)上执行截图,如下:
Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux
Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

12.按键Esc,按键:wq保存退出
13.分别在Slave1和Slave2上,刷新配置文件
Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux
Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

source /etc/profile

14.开启standalone集群守护进程,分别开启Standalone集群的守护进程:Master和Worker。注意:需要在主节点执行该操作!

start-master.sh     
start-slaves.sh   

Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

15.Spark独立集群搭建成功后,查看后台守护线程,如图所示,即Standalone模式搭建成功!!

jps

Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux
Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux
Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

16.查看WebUI监控,独立集群管理器开启后,可以通过WebUI监控界面查看集群管理器的相关信息,地址为:http://master:8080 如图所示
Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

17.开启spark-shell会话,向独立集群管理器提交应用,需要把spark://masternode:7070作为主节点参数传–master。指令如下

spark-shell --master spark://master:7077 

Spark Standalone环境搭建及测试,大数据技术学习,spark,大数据,分布式,运维,服务器,linux

所有配置完成,如果本篇文章对你有帮助,记得点赞关注+收藏哦~文章来源地址https://www.toymoban.com/news/detail-671070.html

到了这里,关于Spark Standalone环境搭建及测试的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境)】

    视频地址: 尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】 尚硅谷大数据技术Spark教程-笔记02【SparkCore(核心编程、案例实操)】 尚硅谷大数据技术Spark教程-笔记03【SparkSQL(概述、核心编程、

    2023年04月15日
    浏览(55)
  • 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】

    视频地址: 尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】 尚硅谷大数据技术Spark教程-笔记02【SparkCore(核心编程、案例实操)】 尚硅谷大数据技术Spark教程-笔记03【SparkSQL(概述、核心编程、

    2023年04月21日
    浏览(48)
  • Windows下的Spark环境配置(含IDEA创建工程--《Spark大数据技术与应用》第九章-菜品推荐项目)

    本文适用于《Spark大数据技术与应用》第九章-菜品推荐项目环境配置:` 跟着做就行… 资源都在网盘里面,纯粹的无脑配置… 提示:以下是本篇文章正文内容,所用资源版本过低,用于课本实验 ,且已有Java环境 scala:2.12.8 spark:1.6.2 hadoop:2.6.4 hadoop启动文件exe JAVA 如果按照

    2024年02月09日
    浏览(56)
  • 大数据技术原理与应用 实验6 Spark数据处理系统的搭建

    熟悉常用的Spark操作。 1.熟悉Spark Shell的使用; 2.熟悉常用的Spark RDD API、Spark SQL API和Spark DataFrames API。 操作系统:Linux Spark版本: 1.6 Hadoop版本: 3.3.0 JDK版本:1.8 使用Spark shell完成如下习题: a)读取Spark安装目录下的文件README.md(/usr/local/spark/README.md); b)统计包含“Spark”的单词

    2024年02月09日
    浏览(62)
  • 学习Spark的数据生命周期管理技术

    数据生命周期管理是数据科学家和数据工程师在处理大规模数据时面临的重要挑战。Apache Spark是一个开源的大数据处理框架,它可以处理批量数据和流式数据,并提供了一个易用的API来进行数据处理和分析。在本文中,我们将探讨如何学习Spark的数据生命周期管理技术,以便

    2024年02月22日
    浏览(38)
  • 大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

    前言:七八九用于Spark的编程实验 大数据开源框架之基于Spark的气象数据处理与分析_木子一个Lee的博客-CSDN博客_spark舆情分析 目录 实验环境: 实验步骤: 一、解压 二、配置环境变量:  三、修改配置文件  1.修改spark-env.sh配置文件: 2.修改配置文件slaves: 3.分发配置文件:

    2024年02月11日
    浏览(54)
  • Linux CentOS下大数据环境搭建(zookeeper+hadoop+hbase+spark+scala)

    本篇文章是结合我个人学习经历所写,如果遇到什么问题或者我有什么错误,欢迎讨论。 百度网盘链接:https://pan.baidu.com/s/1DCkQQVYqYHYtPws9hWGpgw?pwd=zh1y 提取码:zh1y 软件在连接中VMwareWorkstation_V16.2.1_XiTongZhiJia的文件夹下。 双击运行安装包,这里下一步即可。 这里勾选我接受许可

    2024年04月15日
    浏览(69)
  • Spark环境搭建及Spark shell

    环境准备:三台Linux,一个安装Master,其他两台机器安装Worker 下载spark安装包,下载地址:https://spark.apache.org/downloads.html 上传spark安装包到Linux服务器上 解压spark安装包 进入到spark按照包目录并将conf目录下的spark-env.sh.template重命名为spark-env.sh,再修改 将conf目录下的workers.tem

    2024年02月11日
    浏览(37)
  • 在IDEA运行spark程序(搭建Spark开发环境)

           建议大家写在Linux上搭建好Hadoop的完全分布式集群环境和Spark集群环境,以下在IDEA中搭建的环境仅仅是在window系统上进行spark程序的开发学习,在window系统上可以不用安装hadoop和spark,spark程序可以通过pom.xml的文件配置,添加spark-core依赖,可以直接在IDEA中编写spark程序

    2024年02月06日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包