基于Linux的Spark安装与环境配置

这篇具有很好参考价值的文章主要介绍了基于Linux的Spark安装与环境配置。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

基于Linux的Spark安装与环境配置

1、Hadoop测试

因为Spark是基于Hadoop上工作的,所以当我们使用Spark框架时,必须要确保Hadoop能够正常运行:

1.1 启动hadoop

cd /usr/local/hadoop
./sbin/start-all.sh

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

BUG,内容如下:

SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.

解决方法:SLF4J:Failed to load class org.slf4j.impl.StaticLoggerBinder.

1.2 再次启动hadoop

cd /usr/local/hadoop/sbin
./start-all.sh

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

1.3 查看是否成功

jps

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

2、Scala安装与配置

2.1 下载scala

官方网址:https://www.scala-lang.org/download/2.13.10.html

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

使用wget命令下载scala:

wget https://downloads.lightbend.com/scala/2.13.10/scala-2.13.10.tgz

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

2.2 解压并重命名

sudo tar zxvf ~/下载/scala-2.13.10.tgz -C /usr/local/ # 解压

cd /usr/local
sudo mv scala-2.13.10 scala # 重命名

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

2.3 配置环境

# 1.编辑环境变量
sudo vi ~/.bashrc

# 2.使其生效
source ~/.bashrc

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

2.4 测试

scala -version

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

3、Spark安装与配置

3.1 下载Spark

下载网址:https://archive.apache.org/dist/spark/spark-3.2.2/

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

使用wget命令进行下载:

wget https://archive.apache.org/dist/spark/spark-3.2.2/spark-3.2.2-bin-hadoop3.2.tgz

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

3.2 解压并重命名

# 1.解压
sudo tar zxvf ~/下载/spark-3.2.2-bin-hadoop3.2.tgz  -C /usr/local

# 2.重命名
cd /usr/local
sudo mv spark-3.2.2-bin-hadoop3.2 spark

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

3.3 配置环境

# 1.编辑环境变量
sudo vi ~/.bashrc

# 2.使其生效
source ~/.bashrc

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

3.4 配置spark-env.sh

进入到配置目录并打开spark-env.sh文件:

cd /usr/local/spark/conf
sudo cp spark-env.sh.template spark-env.sh
sudo vi spark-env.sh

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

添加以下内容:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SCALA_HOME=/usr/local/scala
export SPARK_HOME=/usr/local/spark
export SPARK_MASTER_IP=192.168.3.134
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8099
export SPARK_WORKER_CORES=3
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=5G
export SPARK_WORKER_WEBUI_PORT=8081
export SPARK_EXECUTOR_CORES=1
export SPARK_EXECUTOR_MEMORY=1G
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

3.5 配置slaves(好像不需要)

cd /usr/local/spark/conf
sudo vi workers.template

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

发现slaves文件里为localhost即本机地址,当前为伪分布式,因此不用修改!但要执行以下:

sudo cp workers.template  slaves

3.6 启动(报错)

启动sbin目录下的start-master.sh以及start-slaves.sh前提是hadoop已启动):

cd /usr/local/spark
sudo ./sbin/start-master.sh
sudo ./sbin/start-slaves.sh

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

报错!!!

3.7 测试

通过运行Spark自带的示例,验证Spark是否安装成功:

cd /usr/local/spark
./bin/run-example SparkPi

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

报错信息如下:

2022-11-01 20:49:24,377 WARN util.Utils: Your hostname, leoatliang-virtual-machine resolves to a loopback address: 127.0.1.1; using 192.168.3.134 instead (on interface ens33)

参考博客:Spark启动:WARN util.Utils: Your hostname, … resolves to a loopback address: …; using … instead

修改配置文件,配置 SPARK_LOCAL_IP 变量即可:

cd /usr/local/spark
sudo vim conf/spark-env.sh

# 添加以下内容:
export SPARK_LOCAL_IP=192.168.3.134  # 自己输出对应的IP

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

再次测试:

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

BUG解决!!!

执行时会输出非常多的运行信息,输出结果不容易找到,可以通过 grep 命令进行过滤:

./bin/run-example SparkPi 2>&1 | grep "Pi is"

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala

3.8 查看Spark版本

cd /usr/local/spark
./bin/spark-shell

linux安装spark,大数据技术,大数据,linux,spark,hadoop,scala文章来源地址https://www.toymoban.com/news/detail-842877.html

到了这里,关于基于Linux的Spark安装与环境配置的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 16-Linux部署Spark环境

    本小节的操作,基于: 大数据集群(Hadoop生态)安装部署 环节中所构建的Hadoop集群 如果没有Hadoop集群,请参阅前置内容,部署好环境。 参考文章: 14-Linux部署Hadoop集群: Spark是一款分布式内存计算引擎,可以支撑海量数据的分布式计算。 Spark在大数据体系是明星产品,作为

    2024年04月15日
    浏览(26)
  • 【Spark实战】Windows环境下编译Spark2 Linux上部署Spark On Yarn

    环境准备 git-2.14.1 maven-3.9.2 jdk-1.8 scala-2.11.8 zinc-0.3.15 主下载地址 spark-2.3.4 github官方地址 编译准备 maven远程仓库使用的是阿里云的 解压源码包 spark-2.3.4.zip ,修改根模块的pom文件。主要目的是为了变更hadoop的版本号,默认是 2.6.5 。 修改 spark-2.3.4devmake-distribution.sh 文件 主要是

    2024年02月13日
    浏览(56)
  • Spark环境搭建安装及配置详细步骤(保姆教程)

    1 Spark-Local 模式  1.1 解压缩文件  将 spark-2.1.1-bin-hadoop3.2.tgz 文件上传到 Linux 并解压缩,放置在指定位置,路径中。  1.2 启动 Local 环境  1) 进入解压缩后的路径,执行如下指令   2) 启动成功后,可以输入网址进行 Web UI 监控页面访问   1.4 退出本地模式  按键 Ctrl+C 或输入

    2024年02月02日
    浏览(55)
  • Linux安装Spark的详细过程

    安装:文件提取链接:https://pan.baidu.com/s/1XI_mRKY2c6CHlt6--3d7kA?pwd=tlu2  (可以 导入至U盘中 ,再从U盘拷入至虚拟机中,这点在我讲述安装jdk8的文章中有提到过,如果有兴趣,可以去看一下:http://t.csdn.cn/POerk) 我把jdk8、hadoop-3.3.4、zookeeper-3.6.2、hbase-2.3.3、spark-3.2.2的解压后的文件

    2024年02月09日
    浏览(46)
  • Linux下Spark offline安装graphframes包

    GraphX是Spark中用于图计算的模块. Spark安装包中内置Scala语言的GraphX库, 但是对于Python语言的安装包, 需要额外进行安装. 对于内网服务器, 不能访问外网, 安装GraphX的python库graphframes需要进行额外的步骤, 本文介绍如何在Linux下offline为Spark 安装graphframes包. 下载spark-3.5.0-bin-hadoop3.t

    2024年02月20日
    浏览(47)
  • Windows下的Spark环境配置(含IDEA创建工程--《Spark大数据技术与应用》第九章-菜品推荐项目)

    本文适用于《Spark大数据技术与应用》第九章-菜品推荐项目环境配置:` 跟着做就行… 资源都在网盘里面,纯粹的无脑配置… 提示:以下是本篇文章正文内容,所用资源版本过低,用于课本实验 ,且已有Java环境 scala:2.12.8 spark:1.6.2 hadoop:2.6.4 hadoop启动文件exe JAVA 如果按照

    2024年02月09日
    浏览(56)
  • 【Ubuntu-大数据】spark安装配置

    参考的 文章: http://dblab.xmu.edu.cn/blog/931-2/ Spark部署模式主要有四种: Local模式(单机模式) Standalone模式(使用Spark自带的简单集群管理器)、 YARN模式(使用YARN作为集群管理器) Mesos模式(使用Mesos作为集群管理器)。 (1)解压压缩包到之前Hadoop安装的目录:本地计算机

    2023年04月09日
    浏览(73)
  • Linux系统下Spark的下载与安装(pyspark运行示例)

    最近需要完成数据课程的作业,因此实践了一下如何安装并配置好spark 由于我想要将hadoop和spark一起使用,因此必须确定好spark的版本 Spark和Hadoop版本对应关系如下: Spark版本 Hadoop版本 2.4.x 2.7.x 3.0.x 3.2.x 可进入终端查看Hadoop版本 我这里的版本是2.7.1,因此选择下载2.4版本的

    2024年01月25日
    浏览(46)
  • 林子雨 VirtualBox + Ubuntu[linux] 配置 java、hadoop、Spark[python]、pyspark快速配置流程

    按照步骤快速执行shell,最快速配置。 读者可以根据该篇随记快速回顾流程,以及用到的shell指令和相关配置文件。 是林老师教程的精简版,初次配置者只能作为流程参考,主要和林子雨Spark[python]版课程配套。  林老师厦大实验指南链接如下: Spark编程基础(Python版)教材官

    2024年04月12日
    浏览(43)
  • 大数据与云计算——Spark的安装和配置

    Spark的简单介绍: Apache Spark是一个基于内存的分布式计算框架,它提供了高效、强大的数据处理和分析能力。与传统的Hadoop MapReduce相比,Spark的主要优势在于其能够将数据集缓存在内存中,从而大大减少了磁盘I/O操作,提高了数据处理速度。 Spark提供了多种编程接口,包括

    2024年02月05日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包