【头歌实训】Spark 完全分布式的安装和部署(新)

这篇具有很好参考价值的文章主要介绍了【头歌实训】Spark 完全分布式的安装和部署(新)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

第1关: Standalone 分布式集群搭建

任务描述

掌握 Standalone 分布式集群搭建。

相关知识

我们已经掌握了 Spark 单机版安装,那么分布式集群怎么搭建呢? 接下来我们学习 Standalone 分布式集群搭建。

课程视频

如果你需要在本地配置 Spark 完全分布式环境,可以通过查看课程视频来学习。

课程视频《克隆虚拟机与配置网络》

课程视频《配置集群免密登录》

课程视频《Spark配置文件设置》

课程视频《Spark完全分布式总结》

Spark分布式安装模式

Spark 分布式环境安装目前有四种模式:

1.Standalone:Spark 自带的简单群资源管理器,安装较为简单,不需要依赖 Hadoop;

2.Hadoop YARN:使用 YARN 作为集群资源管理,安装需要依赖 Hadoop;

3.Apache Mesos:不常用;

4.Kubernetes:不常用。

本地学习测试我们常用 Standalone 模式,生产环境常使用 YARN 模式。

主机映射

先查看各节点查看 ip 地址

master:

【头歌实训】Spark 完全分布式的安装和部署(新),【头歌实训】,分布式,spark,wpf,头歌实训
查看 master 节点 IP

slave1:

【头歌实训】Spark 完全分布式的安装和部署(新),【头歌实训】,分布式,spark,wpf,头歌实训
查看 slave1 节点 IP

slave2:

【头歌实训】Spark 完全分布式的安装和部署(新),【头歌实训】,分布式,spark,wpf,头歌实训
查看 slave2 节点 IP

接下来去设置主机映射,因为我们是搭建完全分布式,所以在设置映射的时候需要设置 3 台虚拟机的映射关系。

输入命令 vi /etc/hosts进行主机 ip 的映射设置,添加如下配置(根据读者环境下的虚拟机IP设置):

#master、slave1、slave2 每个人应该不相同
172.16.248.174    master
172.16.251.34    slave1
172.16.240.174    slave2

注:需要根据自身节点 ip 地址去配置,每次重置环境会刷新 ip 地址。

【头歌实训】Spark 完全分布式的安装和部署(新),【头歌实训】,分布式,spark,wpf,头歌实训
配置主机映射

操作示意图如下:

【头歌实训】Spark 完全分布式的安装和部署(新),【头歌实训】,分布式,spark,wpf,头歌实训
主机映射操作示意图

免密登录

在各个节点服务器生成秘钥:

#master、slave1、slave2
ssh-keygen -t rsa

【头歌实训】Spark 完全分布式的安装和部署(新),【头歌实训】,分布式,spark,wpf,头歌实训

在 master 复制 master、slave1、slave2 的公钥。

cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys
ssh slave1 cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys
ssh slave2 cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys

【头歌实训】Spark 完全分布式的安装和部署(新),【头歌实训】,分布式,spark,wpf,头歌实训

接下来来查看下 slave1 节点连接密码,首先点击 slave1 命令行窗口,再点击右上角【头歌实训】Spark 完全分布式的安装和部署(新),【头歌实训】,分布式,spark,wpf,头歌实训图标,最后点击 SSH 直连即可查看相关信息,如下示意图:

【头歌实训】Spark 完全分布式的安装和部署(新),【头歌实训】,分布式,spark,wpf,头歌实训

【头歌实训】Spark 完全分布式的安装和部署(新),【头歌实训】,分布式,spark,wpf,头歌实训

点开后,查看密码:

【头歌实训】Spark 完全分布式的安装和部署(新),【头歌实训】,分布式,spark,wpf,头歌实训

注:密码可双击选中后复制,但环境重置后密码会随机生成。

在 slave1 复制 master 的 authorized_keys 文件。

ssh master cat ~/.ssh/authorized_keys>> ~/.ssh/authorized_keys

在 slave2 复制 master 的 authorized_keys 文件。

ssh master cat ~/.ssh/authorized_keys>> ~/.ssh/authorized_keys

操作示意图如下:

【头歌实训】Spark 完全分布式的安装和部署(新),【头歌实训】,分布式,spark,wpf,头歌实训
免密登录操作示意图

准备Spark安装包

解压压缩包并给文件夹赋权,步骤如下:

#复制安装包
cp /data/bigfiles/userfiles.zip /usr/local/
#进入文件夹
cd /usr/local/
#解压压缩包
unzip userfiles.zip
#进入文件夹
cd /usr/local/spark-2.3.4-bin-hadoop2.7/
#赋权
chmod -R 777 bin/
chmod -R 777 sbin/
配置环境变量

我们将 Spark 的安装目录配置到 /etc/profile 中(在文件末尾添加)。

export SPARK_HOME=/usr/local/spark-2.3.4-bin-hadoop2.7

不要忘了 source /etc/profile

该步骤在 master 主机上执行。

修改 spark-env.sh 配置文件

首先生成一份 spark-env.sh 文件(master节点):

切换目录到:/usr/local/spark-2.3.4-bin-hadoop2.7/conf 执行命令:mv spark-env.sh.template spark-env.sh

修改 spark-env.sh 文件:

执行命令:vi spark-env.sh,添加以下内容:

#指定JAVA安装路径/opt/jdk1.8.0_201
export JAVA_HOME=/opt/jdk1.8.0_201
#指定SCALA安装位置,非必须配置,可不指定
# export SCALA_HOME=scala安装路径
#指定spark master webui 端口,默认是 8080,跟 tomcat 冲突
SPARK_MASTER_WEBUI_PORT=8888
#指定Master节点IP或映射地址
export SPARK_MASTER_IP=master
修改 slaves 文件

首先生成一份 slaves 文件(master节点)。

切换到 Spark 的 conf 目录下, 执行命令: mv slaves.template slaves

修改 slaves 文件, 执行命令: vi slaves 在该文件中加入作为 worker 节点 ip 或映射主机名。

master
slave1
slave2
分发安装包

把 master 节点的 spark 安装包分发到 slave1 节点和 slave2 节点(通过 scp 命令)。

scp -r /usr/local/spark-2.3.4-bin-hadoop2.7/ root@slave1:/usr/local
scp -r /usr/local/spark-2.3.4-bin-hadoop2.7/ root@slave2:/usr/local
启动spark

切换到 master 节点 Spark 安装目录 /usr/local/spark-2.3.4-bin-hadoop2.7 的 sbin 目录下 执行命令启动 Spark 集群:./start-all.sh

验证安装

输入 jps 命令查看。 master 节点有以下进程:

master
worker

slave1 节点有以下进程:

worker

slave2 节点有以下进程:

worker
编程要求

请按照步骤小心安装,安装完成后点击测评即可。

测试说明

点击测评后,后台会通过curl http://172.18.0.2:8888/ 命令获取页面,并取其中部分内容来判定你是否安装成功。

预期输出:

   <li><strong>Alive Workers:</strong> 3</li>

课程视频《 Spark 完全分布式搭建总结》

答案代码

注意使用 ssh 更换 educoder、master、slave1、slave2 几个服务器节点文章来源地址https://www.toymoban.com/news/detail-769971.html

# master、slave1、slave2
vi /etc/hosts

# IP 每个人应该不相同
172.16.162.10    master
172.16.81.47    slave1
172.16.246.159    slave2


# master、slave1、slave2
ssh-keygen -t rsa # Press Enter three times


# master
cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys
# 密码在工具箱的SSH直连中 UcauZKAUOiwWaPVp
ssh slave1 cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys
# 密码在工具箱的SSH直连中 uoTD2AnMfpMMtj0g
ssh slave2 cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys

# slave1
ssh master cat ~/.ssh/authorized_keys>> ~/.ssh/authorized_keys

# slave2
ssh master cat ~/.ssh/authorized_keys>> ~/.ssh/authorized_keys

# master
cp /data/bigfiles/userfiles.zip /usr/local/
cd /usr/local/
unzip userfiles.zip
cd /usr/local/spark-2.3.4-bin-hadoop2.7/
chmod -R 777 bin/
chmod -R 777 sbin/

vim /etc/profile

# add
export SPARK_HOME=/usr/local/spark-2.3.4-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin


source /etc/profile

cd /usr/local/spark-2.3.4-bin-hadoop2.7/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh

# add
export JAVA_HOME=/opt/jdk1.8.0_201
SPARK_MASTER_WEBUI_PORT=8888
export SPARK_MASTER_IP=master


cp slaves.template slaves
vi slaves

# add(delete localhost if exists)
master
slave1
slave2

# scp spark to slave1 and slave2
scp -r /usr/local/spark-2.3.4-bin-hadoop2.7/ root@slave1:/usr/local
scp -r /usr/local/spark-2.3.4-bin-hadoop2.7/ root@slave2:/usr/local

$SPARK_HOME/sbin/start-all.sh

到了这里,关于【头歌实训】Spark 完全分布式的安装和部署(新)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Hadoop】安装部署-完全分布式搭建

    Hadoop是一个适合大数据的分布式存储和计算平台。狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态圈,包括很多软件框架。而我们的完全分布式,指的是在真实环境下,使⽤多台机器,共同配合,来构建⼀个完整的分布式文件系统。在真实环境中,

    2024年02月07日
    浏览(47)
  • Hadoop完全分布式安装基于Docker

    (都在root用户下) 在Dockfile文件中添加以下内容 基于centos镜像,生成带有spenssh-server、openssh-clients的镜像,用户为root,密码为a123456,镜像维护者(作者)为hadoop 建好Dockerfile文件后,生成镜像,在终端输入: 1、在主机下载ssh 2、把hadoop和jdk传到/root 3、解压hadoop和jdk 4、生成带

    2024年04月29日
    浏览(49)
  • Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive 完全分布式高可用集群搭建(保姆级超详细含图文)

    说明: 本篇将详细介绍用二进制安装包部署hadoop等组件,注意事项,各组件的使用,常用的一些命令,以及在部署中遇到的问题解决思路等等,都将详细介绍。 ip hostname 192.168.1.11 node1 192.168.1.12 node2 192.168.1.13 node3 1.2.1系统版本 1.2.2内存建议最少4g、2cpu、50G以上的磁盘容量 本次

    2024年02月12日
    浏览(50)
  • Hadoop3.1.3完全分布式安装配置

    1. 将hadoop-3.1.3.tar.gz复制到虚拟机/opt/software目录下: 2.在/opt/software目录下使用tar命令解压hadoop-3.1.3.tar.gz到/opt/module目录下:  执行结果如下: 3.在/opt/module目录下修改文件夹名称: 执行结果如下:  4.打开环境变量: 执行结果如下: 5.将光标移至文件底部,按“i”键编辑并作

    2024年02月08日
    浏览(44)
  • 头歌实训Junit实训进阶篇

    学员写一个Junit异常测试,用来判断实例化的对象数据是否合法。

    2024年02月16日
    浏览(41)
  • 头歌实训-离散数学-图论!

    5阶无向完全图的边数为:10 设图 G 有 n 个结点, m 条边,且 G 中每个结点的度数不是 k ,就是 k+1 ,则 G 中度数为 k 的节点数是: n(k+1)-2m 若一个图有5个顶点,8条边,则该图所有顶点的度数和为多少?16 他让输出关联矩阵和邻接矩阵这不简单么? 我是直接摆烂了 输出个球呀

    2024年02月04日
    浏览(67)
  • 头歌实训-机器学习(逻辑回归)

    1.逻辑回归简述 2.逻辑回归算法详解 3.sklearn逻辑回归 - 手写数字识别 4.逻辑回归案例 - 癌细胞精准识别

    2024年04月13日
    浏览(39)
  • 【头歌实训】kafka-入门篇

    本关任务:使用 Kafka 命令创建一个副本数量为 1 、分区数量为 3 的 Topic 。 为了完成本关任务,你需要掌握:1.如何使用 Kafka 的常用命令。 课程视频《Kafka简介》 Kafka 简述 类 JMS 消息队列,结合 JMS 中的两种模式,可以有多个消费者主动拉取数据,在 JMS 中只有点对点模式才

    2024年02月03日
    浏览(46)
  • 大数据开源框架环境搭建(五)——Hbase完全分布式集群的安装部署

    目录 实验环境: 实验步骤: 〇、Zookeeper安装配置: 一、安装前注意事项 二、HBase安装  三、Hbase集群配置 1.配置hbase-env.sh文件,位于Hbase安装目录/conf/ 2.配置hbase-site.xml文件,位于Hbase安装目录/conf/ 3.配置regionservers 4.新建 backup-masters文件,添加备份HMaster机器名 四、将配置好

    2024年02月08日
    浏览(43)
  • Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包)

    目录 一、上传、解压配置 (一)上传 (二)解压 (三)配置hadoop系统环境变量 1.配置hadoop环境变量 2.让环境变量生效 3.验证hadoop系统环境变量 二、修改配置文件  (一)前置介绍 (二)更改配置文件 1.配置Hadoop集群主机点 2.修改core-site.xml文件 3.修改hdfs-site.xml文件 4.修改

    2024年04月25日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包