大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

这篇具有很好参考价值的文章主要介绍了大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言:七八九用于Spark的编程实验

大数据开源框架之基于Spark的气象数据处理与分析_木子一个Lee的博客-CSDN博客_spark舆情分析

目录

实验环境:

实验步骤:

一、解压

二、配置环境变量: 

三、修改配置文件 

1.修改spark-env.sh配置文件:

2.修改配置文件slaves:

3.分发配置文件:

四、测试:

五、网页测试:

 六、解决能启动Spark Shell但是报错:

七、安装python3.6

八、Jupyter Notebook

1.安装pip

2.安装jupyter

3.配置环境变量

4.创建Jupyter默认配置文件 

5.启动和测试

九、Pip安装matplotlib


实验环境:

操作系统:Ubuntu 18.04

Python:3.6.9

Spark版本:2.4.0

实验步骤:

一、解压

tar -zxf ./spark-2.4.0-bin-without-hadoop.tgz -C /usr/local

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

修改文件名字

mv spark-2.4.0-bin-without-hadoop spark

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

二、配置环境变量: 

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

vim /etc/profile

 添加:

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

三、修改配置文件 

1.修改spark-env.sh配置文件:

cd /usr/local/spark/conf
cp spark-env.sh.template spark-env.sh:

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

添加(最后一项不添加也行):

export JAVA_HOME=/usr/local/jdk

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

export SPARK_MASTER_HOST=master

export SPARK_MAETER_PORT=7070

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

#spark默认web访问端口为8080,为了防止冲突,可以修改(不改也行)

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

2.修改配置文件slaves:

cp slaves.template slaves

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

添加slave1和slave2: 

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

3.分发配置文件:

scp -r /usr/local/spark root@slave1:/usr/local/
scp -r /usr/local/spark root@slave2:/usr/local/

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

四、测试:

先启动hadoop

start-dfs.sh
start-yarn.sh

 再启动spark:

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

启动spark master节点:

start-master.sh

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

启动spark所有slave节点:

start-slaves.sh

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

Jps:

master节点:

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

slaves:

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

五、网页测试:

在master浏览器打开

​http://master:8080​

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

Spark的关闭:

关闭Master节点

stop-master.sh

关闭Worker节点

sbin/stop-slaves.sh

关闭Hadoop集群

stop-dfs.sh
stop-yarn.sh

 测试自带样例:

./run-example sparkPi 2>&1|grep "Pi is"

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

六、解决能启动Spark Shell但是报错:

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

解决:

vim /etc/profile

添加:

export TERM=xterm-color

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

刷新环境变量: 

source /etc/profile

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

重新启动即可

shark-shell

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

七、安装python3.6

apt-get install python3.6-tk

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

查看版本:

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

八、Jupyter Notebook

1.安装pip

apt-get install -y python3-pip

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

更新pip:

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

2.安装jupyter

python3 - pip install jupyter

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

3.配置环境变量

vim /etc/profile

添加如下代码 

export PATH=$PATH:~/.local/bin

退出编辑并执行

source /etc/profile

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

4.创建Jupyter默认配置文件 

jupyter notebook --generate-config

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

生成SHA1加密的密钥,保存密钥,如''argon2:$argon2idXXX''

ipython
from notebook.auth import passwd

下面命令需要自己自定义一个密码: 

passwd()
exit()

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

 把这个argon2字符串复制粘贴到一个文件中保存起来,后面用于配置密码。(每个人都不一样!!!)

'argon2:$argon2id$v=19$m=10240,t=10,p=8$0o4PUoInp4ez5ieMPdBn4Q$PzBU/k+PjTRNXnDnZYXXvE9MB/AR5dTLwwZfdZCo1io'(每个人都不一样!!!)

设置密钥,修改配置文件

执行 

vim /root/.jupyter/jupyter_notebook_config.py

添加:

c.NotebookApp.ip='*'                     # 就是设置所有ip皆可访问
c.NotebookApp.password = 'argon2:$argon2id$v=19$m=10240,t=10,p=8$0o4PUoInp4ez5ieMPdBn4Q$PzBU/k+PjTRNXnDnZYXXvE9MB/AR5dTLwwZfdZCo1io'
     # 上面复制的那个argon2密文'
c.NotebookApp.open_browser = False       # 禁止自动打开浏览器
c.NotebookApp.port =8888              # 端口

需要注意的是,在配置文件中,c.NotebookApp.password的值,就是刚才前面生成以后保存到文件中的sha1密文。另外,c.NotebookApp.notebook_dir = '/home/hadoop/jupyternotebook' 这行用于设置Notebook启动进入的目录,由于该目录还不存在,所以需要在终端中执行如下命令创建:

mkdir -p /home/hadoop/jupyternotebook

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

5.启动和测试

jupyter notebook

报错:

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

绕过root用户运行:

jupyter notebook --allow-root

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

测试:

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

以上步骤参考:Ubuntu 安装jupyter notebook - Leon_梁远 - 博客园 (cnblogs.com)

可以首先安装Anaconda,然后再配置Jupyter Notebook

使用Jupyter Notebook调试PySpark程序_厦大数据库实验室博客 (xmu.edu.cn)

九、Pip安装matplotlib

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

这个会报错:

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

可以用

​​​​​​​apt-get install python3-matplotlib

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

配置完成 文章来源地址https://www.toymoban.com/news/detail-502022.html

到了这里,关于大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Linux环境搭建Hadoop及完全分布式集群

    Hadoop是一个开源的分布式计算框架,旨在处理大规模数据集和进行并行计算。核心包括两个组件:HFDS、MapReduce。 配置方案 各虚拟机的用户名分别为test0、test1、test2,主机名为hadoop100、hadoop101、hadoop102 虚拟机的分配如下: hadoop100:NameNode + ResourceManager hadoop101:DataNode + NodeM

    2024年03月23日
    浏览(28)
  • 【教程】Hadoop完全分布式环境搭建全过程

    保姆级入门教程:图片讲解 + 各种问题解决方案 集群服务器:hadoop102、hadoop103和hadoop104 虚拟机版本:CentOS7-1804 资源分享处(文章最后)提供CentOS7和Hadoop各组件压缩包(也可以自行下载,要注意版本兼容的问题),有需要自取~ 1, 模板虚拟机准备 2, 克隆三台虚拟机,作为

    2024年02月06日
    浏览(38)
  • Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive 完全分布式高可用集群搭建(保姆级超详细含图文)

    说明: 本篇将详细介绍用二进制安装包部署hadoop等组件,注意事项,各组件的使用,常用的一些命令,以及在部署中遇到的问题解决思路等等,都将详细介绍。 ip hostname 192.168.1.11 node1 192.168.1.12 node2 192.168.1.13 node3 1.2.1系统版本 1.2.2内存建议最少4g、2cpu、50G以上的磁盘容量 本次

    2024年02月12日
    浏览(34)
  • Hadoop3.x完全分布式环境搭建Zookeeper和Hbase

    集群规划 IP地址 主机名 集群身份 192.168.138.100 hadoop00 主节点 192.168.138.101 hadoop01 从节点 192.168.138.102 hadoop02 从节点 Hadoop完全分布式环境搭建请移步传送门 先在主节点上进行安装和配置,随后分发到各个从节点上。 1.1 解压zookeeper并添加环境变量 1)解压zookeeper到/usr/local文件夹

    2024年02月04日
    浏览(31)
  • Hadoop(伪分布式)+Spark(local模式)搭建Hadoop和Spark组合环境

    环境 使用 Ubuntu 14.04 64位 作为系统环境(Ubuntu 12.04,Ubuntu16.04 也行,32位、64位均可),请自行安装系统。 Hadoop版本 : Hadoop 2.7.4 创建hadoop用户 如果你安装 Ubuntu 的时候不是用的 \\\"hadoop\\\" 用户,那么需要增加一个名为 hadoop 的用户。 首先按 ctrl+alt+t 打开终端窗口,输入如下命令创

    2023年04月08日
    浏览(56)
  • spark 基于物理机centos7环境搭建分布式集群

    非生产环境,就使用一个新一点的版本,提前先踩踩坑,版本的选型真是一个头疼的问题,先看一下apache的官网的测试图: 伪分布式看这里: 配置之前:若是用伪分布式时,在本机必须生成key-gen 与ssh-copy-id到本机,且hosts中必须加入127.0.0.1  本机名并关闭防火墙这几步才可

    2024年02月03日
    浏览(53)
  • hadoop完全分布式集群搭建(超详细)-大数据集群搭建

    本次搭建完全分布式集群用到的环境有: jdk1.8.0 hadoop-2.7.7 本次搭建集群所需环境也给大家准备了,下载链接地址:https://share.weiyun.com/dk7WgaVk 密码:553ubk 本次完全分布式集群搭建需要提前建立好三台虚拟机,我分别把它们的主机名命名为:master,slave1,slave2 一.配置免密登陆 首先

    2024年02月10日
    浏览(34)
  • 大数据内容分享(九):Hadoop-生产集群搭建(完全分布式)

    目录 Hadoop运行模式——完全分布式 1、准备3台虚拟机(关闭防火墙、配置静态IP 和 主机名称) 2、安装JDK 和 Hadoop 并配置JDK和Hadoop的环境变量 3、配置完全分布式集群 4、集群配置 1)集群部署规划 2)配置文件说明 3)配置集群 5、集群启动 与 测试 1)workers的配置 2)启动集

    2024年02月21日
    浏览(84)
  • 大数据开发·关于虚拟机Hadoop完全分布式集群搭建教程

    官网链接 进入后网站如图,各位按需下载 官网链接 进入页面点击下载 再根据我们需要下载的软件进入下载页面 点击右侧红框内的免费授权页面获取免费许可 进入后如图,两者我们都需要所以都勾选,填写的邮箱用于接收下载链接,下载后进行安装即可 这里先和大家强调一

    2024年02月07日
    浏览(38)
  • Hbase数据库完全分布式搭建以及java中操作Hbase

    基础的环境准备不在赘述,包括jdk安装,防火墙关闭,网络配置,环境变量的配置,各个节点之间进行免密等操作等。使用的版本2.0.5. 参考官方文档 分布式的部署,都是在单节点服务的基础配置好配置,直接分发到其他节点即可。 jdk路径的配置,以及不适用内部自带的zk. 配

    2024年02月03日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包