11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

这篇具有很好参考价值的文章主要介绍了11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本案例软件包:链接:https://pan.baidu.com/s/1zABhjj2umontXe2CYBW_DQ 
提取码:1123(若链接失效在下面评论,我会及时更新).

目录

(1)安装Spark

1.先用xftp将安装包传到home/hadoop/Downloads文件夹下,然后解压安装。

2.解压缩:

3. 更改文件夹名称:

4.修改hadoop用户对文件夹spark的访问权限:

(2)配置

1.复制一份由Spark安装文件自带的配置文件模板:

2.使用vim编辑器打开spark-env.sh,再第一行添加配置信息:

3.验证Spark安装是否成功:

4. 启动HDFS后,Spark可以对HDFS中的数据进行读写。

(3)Spark-shell的启动

1.启动

2. 读取文件,统计行数

(3) Spark集群环境搭建

1.按照上面的(1)部分安装与配置完spark

2.配置环境变量

         3.配置Spark

a:在master(主机)配置slaves文件

b: 在master节点配置spark-env.sh文件

c:配置slave节点

4.启动spark


(1)安装Spark

1.先用xftp将安装包传到home/hadoop/Downloads文件夹下,然后解压安装。

11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

2.解压缩:

sudo tar -zxf spark-2.1.0-bin-without-hadoop.tgz -C /usr/local

3. 更改文件夹名称:

cd  /usr/local
sudo mv spark-2.1.0-bin-without-hadoop spark

4.修改hadoop用户对文件夹spark的访问权限:

sudo chown -R hadoop:hadoop ./spark

(2)配置

1.复制一份由Spark安装文件自带的配置文件模板:

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
vim ./conf/spark-env.sh

2.使用vim编辑器打开spark-env.sh,再第一行添加配置信息:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

3.验证Spark安装是否成功:

cd /usr/local/spark
bin/run-example SparkPi 2>&1 | grep "Pi is roughly"

11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

 如图所示:返回结果:Pi is roughly 3.144115720578603

既安装成功!!!

4. 启动HDFS后,Spark可以对HDFS中的数据进行读写。

(3)Spark-shell的启动

1.启动

cd /usr/local/spark
./bin/spark-shell

11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

2. 读取文件,统计行数

scala> val textFile = sc.textFile("file:///usr/local/spark/README.md")
scala> textFile.count()

11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

 返回结果如上图所示!!!

(3) Spark集群环境搭建

1.按照上面的(1)部分安装与配置完spark

2.配置环境变量

在master(主节点)配置环境变量

sudo vim ~/.bashrc

在.bashrc文件中增加:

#spark
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin

使用source命令使配置生效:

source ~/.bashrc

 3.配置Spark

a:在master(主机)配置slaves文件

cd /usr/local/spark
cp ./conf/slaves.template ./conf/slaves

 在salves文件中设置Spark集群的Worker节点

[hadoop@master spark]$ vim ./conf/slaves

添加以下内容: 

11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

b: 在master节点配置spark-env.sh文件

[hadoop@master spark]$ cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑spark-env.sh文件:

[hadoop@master spark]$ vim ./conf/spark-env.sh
#!/usr/bin/env bash
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
#export SPARK_MASTER_IP=192.168.242.129    //自己maser的IP
export SPARK_MASTER_HOST=192.168.242.129

11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

 c:配置slave节点

启动slave01和slave02节点,然后,在master节点执行如下命令,将master节点的/usr/local/spark文件夹复制到各个slave节点:

[hadoop@master local]$ tar -zcf ~/spark.master.tar.gz ./spark 
[hadoop@master local]$ cd 
[hadoop@master ~]$ scp ./spark.master.tar.gz slave01:/home/hadoop
[hadoop@master ~]$ scp ./spark.master.tar.gz slave02:/home/hadoop

11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

 在slave01和slave02节点上分别执行如下命令(下面以slave01为例):

sudo rm -rf /usr/local/spark
sudo tar -zcf sparm.master.tar.gz -C /usr/local
sudo chown -R hadoop:hadoop /usr/local/spark

4.启动spark

在master主机上启动hdfs yarn

在master上再启动spark

cd /usr/local/spark
sbin/start-master.sh
sbin/start-slaves.sh

 如下图已开启spark进程

11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

 测试:链接http://192.168.242.129:8080

在master节点上,通过浏览器查看集群信息有两个worker

11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

 5.关闭spark

stop-master.sh
stop-slaves.sh
stop-yarn.sh
stop-dfs.sh文章来源地址https://www.toymoban.com/news/detail-459449.html

到了这里,关于11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark系列(一)spark简介及安装配置

    目录 1. spark简介: 2. spark特点: 2.1 Speed:速度快 2.2 Easy of Use:易用性 2.3 Generality:通用性 2.4 Runs Everywhere:到处运行 3. Spark的应用场景 4. 环境要求及准备工作 5. spark搭建模式: 5.1 local模式在解压缩安装后 5.2 Standalone模式搭建(基于hdfs文件存储) 5.1.1 首先配置spark环境变量:

    2023年04月09日
    浏览(38)
  • Spark环境搭建及Spark shell

    环境准备:三台Linux,一个安装Master,其他两台机器安装Worker 下载spark安装包,下载地址:https://spark.apache.org/downloads.html 上传spark安装包到Linux服务器上 解压spark安装包 进入到spark按照包目录并将conf目录下的spark-env.sh.template重命名为spark-env.sh,再修改 将conf目录下的workers.tem

    2024年02月11日
    浏览(36)
  • Spark 下载、安装与配置

    Apache Spark 是一个快速的通用集群计算系统。它提供了Java, Scala, Python ,R 四种编程语言的 API 编程接口和基于 DAG 图执行的优化引擎。它还支持一系列丰富的高级工具:处理结构化数据的 Spark SQL,用于机器学习的 MLlib,控制图、并行图操作和计算的一组算法和工具的集合

    2024年02月11日
    浏览(38)
  • spark安装配置

    目录 1.准备工作 2.下载spark-3.1.1-bin-hadoop2.7和scala-2.12.13并解压 3.配置环境变量 4.配置文件$SPARK_HOME/conf/spark-env.sh 6.配置spark的历史服务 ($SPARK_HOME/conf/) 7.配置文件$SPARK_HOME/conf/workers 8.配置文件拷贝 9.集群的启动和停止 10.错误排查方法 具备java环境 配置主机名 配置免密码登录 防

    2024年02月05日
    浏览(45)
  • ubuntu下Hadoop以及Spark的伪分布式安装:一

    1.1 安装前说明: 很多初学者在安装的时候会碰到各种各样的问题,尤其各种版本的搭配问题。所以特意做一个初步安装的引导,希望大家都能一次调试出来。 经过测试,jdk11 + scala2.13.13 + hadoop3.3.6+spark3.5.1,这是暂时来说scalsa2能支持的最完美的搭配。Hadoop能支持到的java最完

    2024年04月23日
    浏览(50)
  • 【Ubuntu-大数据】spark安装配置

    参考的 文章: http://dblab.xmu.edu.cn/blog/931-2/ Spark部署模式主要有四种: Local模式(单机模式) Standalone模式(使用Spark自带的简单集群管理器)、 YARN模式(使用YARN作为集群管理器) Mesos模式(使用Mesos作为集群管理器)。 (1)解压压缩包到之前Hadoop安装的目录:本地计算机

    2023年04月09日
    浏览(72)
  • Linux安装Spark的详细过程

    安装:文件提取链接:https://pan.baidu.com/s/1XI_mRKY2c6CHlt6--3d7kA?pwd=tlu2  (可以 导入至U盘中 ,再从U盘拷入至虚拟机中,这点在我讲述安装jdk8的文章中有提到过,如果有兴趣,可以去看一下:http://t.csdn.cn/POerk) 我把jdk8、hadoop-3.3.4、zookeeper-3.6.2、hbase-2.3.3、spark-3.2.2的解压后的文件

    2024年02月09日
    浏览(45)
  • Intellij IDEA安装配置Spark与运行

    目录 Scala配置教程 配置Spark运行环境 编写Spark程序  1、包和导入 2、定义对象 3、主函数 4、创建Spark配置和上下文 5、定义输入文件路径 6、单词计数逻辑 7、输出结果 8、完整代码: IDEA配置Scala:教程 添加Spark开发依赖包(快捷键:Ctrl+Alt+Shift+S) 找到Spark安装目录下的jars文

    2024年04月16日
    浏览(49)
  • win 10下spark的安装及配置

    一级标题 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 提示:以下是本篇文章正文内容,下面案例可供参考 在jdk官网中下载与自己电脑相应配置的jdk。 点击电脑的设置——关于——高级系统设置——环境变量中配置jdk环境变量。 点击新建,输入

    2023年04月08日
    浏览(37)
  • (超详细)Spark on Yarn安装配置

    1,前期准备 使用 root 用户完成相关配置,已安装配置Hadoop 及前置环境 2,spark上传解压到master服务器 3,修改环境变量  /etc/profile末尾添加下面代码 4,环境变量生效 5,运行spark-submit --version 显示如下 6,修改saprk-env.sh文件   在.../spark-3.1.1-bin-hadoop3.2/conf目录下,将下面两行

    2024年03月21日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包