Linux安装Spark的详细过程

这篇具有很好参考价值的文章主要介绍了Linux安装Spark的详细过程。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、安装以及解压缩spark的过程(以下步骤全部都是在master机器上进行的步骤)

安装:文件提取链接:https://pan.baidu.com/s/1XI_mRKY2c6CHlt6--3d7kA?pwd=tlu2 
(可以导入至U盘中,再从U盘拷入至虚拟机中,这点在我讲述安装jdk8的文章中有提到过,如果有兴趣,可以去看一下:http://t.csdn.cn/POerk)

  • 我把jdk8、hadoop-3.3.4、zookeeper-3.6.2、hbase-2.3.3、spark-3.2.2的解压后的文件放在了“opt”文件里,而它们的压缩包统一放在了“opt”的software文件夹(可以自己创建)中。 

Linux安装Spark的详细过程

  • 解压缩spark-3.2.2: 

Linux安装Spark的详细过程

Linux安装Spark的详细过程

Linux安装Spark的详细过程

Linux安装Spark的详细过程

Linux安装Spark的详细过程

 二、配置Spark的环境变量

  • bashrc的路径:主文件夹——>其它位置——>计算机——>etc——>bashrc(/etc/bashrc) ;
  • workers.template、spark-env.sh template的路径:主文件夹——>其它位置——>计算机——>opt——>spark-3.2.2——>conf(/opt/hbase-2.3.3/conf);
  • 第二点的两个文件都需要用文本编辑器打开;
  • 这三个文件在关闭之前必须记得保存之后再关闭。
  1. 在bashrc中增加spark的环境变量(三个虚拟机都需要添加以下内容
    #spark_config
    export SPARK_HOME=/opt/spark-3.2.2
    export PATH=$PATH:$SPARK_HOME/bin

    Linux安装Spark的详细过程

  2. 修改workers.template的文件名称以及内容
    master
    slave0
    slave1

    Linux安装Spark的详细过程

    Linux安装Spark的详细过程

  3. 修改spark-env.sh template的文件名称以及添加以下内容
    export JAVA_HOME=/opt/jdk1.8.0_261
    export HADOOP_HOME=/opt/hadoop-3.3.4
    export SPARK_MASTER_IP=master
    export SPARK_MASTER_PORT=7077
    export SPARK_DIST_CLASSPATH=$(/opt/hadoop-3.3.4/bin/hadoop classpath)
    export HADOOP_CONF_DIR=/opt/hadoop-3.3.4/etc/hadoop
    export SPARK_YARN_USER_ENV="CLASSPATH=/opt/hadoop-3.3.4/etc/hadoop"
    export YARN_CONF_DIR=/opt/hadoop-3.3.4/etc/hadoop

    Linux安装Spark的详细过程

    Linux安装Spark的详细过程

  4. 生效bashrc文件(三台虚拟机在修改完bashrc文件后,都需要在终端中对bashrc进行生效) 
    source /etc/bashrc

三、 master远程发送文件给slave0和slave1

这一步骤在之前的安装jdk、hadoop、zookeeper、hbase都有提到过,如果有兴趣的话,可以去看一下:http://t.csdn.cn/qhTlj

四、启动Spark

  • 启动spark之前,需要启动hadoop、zookeeper和hbase,因为spark也是需要架构在hadoop基础上的。(启动hadoop、zookeeper、hbase可以去查看一下之前的文章:http://t.csdn.cn/qhTlj,我都有提到过);
  • 启动路径:/opt/spark-3.2.2/sbin/start-all.sh
  • 启动命令:./start-all.sh
  • 启动spark后,jsp进程master会出现Master与Workerslave0与slave1出现的是Worker

Linux安装Spark的详细过程

五、运行SparkPI

[root@master spark-3.2.2]# ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 examples/jars/spark-examples_2.12-3.2.2.jar 

Linux安装Spark的详细过程

六、关闭Spark

Linux安装Spark的详细过程

  •  以上就是linux安装spark的全部过程了,如遇问题可以留言或者私信。

 文章来源地址https://www.toymoban.com/news/detail-485033.html

到了这里,关于Linux安装Spark的详细过程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark环境搭建安装及配置详细步骤(保姆教程)

    1 Spark-Local 模式  1.1 解压缩文件  将 spark-2.1.1-bin-hadoop3.2.tgz 文件上传到 Linux 并解压缩,放置在指定位置,路径中。  1.2 启动 Local 环境  1) 进入解压缩后的路径,执行如下指令   2) 启动成功后,可以输入网址进行 Web UI 监控页面访问   1.4 退出本地模式  按键 Ctrl+C 或输入

    2024年02月02日
    浏览(42)
  • ubuntu下Hadoop以及Spark的伪分布式安装:一

    1.1 安装前说明: 很多初学者在安装的时候会碰到各种各样的问题,尤其各种版本的搭配问题。所以特意做一个初步安装的引导,希望大家都能一次调试出来。 经过测试,jdk11 + scala2.13.13 + hadoop3.3.6+spark3.5.1,这是暂时来说scalsa2能支持的最完美的搭配。Hadoop能支持到的java最完

    2024年04月23日
    浏览(42)
  • Spark-3.2.4 高可用集群安装部署详细图文教程

    目录 一、Spark 环境搭建-Local 1.1 服务器环境  1.2 基本原理  1.2.1 Local 下的角色分布 1.3 搭建  1.3.1 安装 Anaconda  1.3.1.1 添加国内阿里源  1.3.2 创建 pyspark 环境  1.3.3 安装 spark 1.3.4 添加环境变量  1.3.5 启动 spark  1.3.5.1 bin/pyspark  1.3.5.2 WEB UI (4040) 1.3.5.3 spark-shell  1.3.5.4 bin/sp

    2024年02月07日
    浏览(27)
  • 基于Linux的Spark安装与环境配置

    因为Spark是基于Hadoop上工作的,所以当我们使用Spark框架时,必须要确保Hadoop能够正常运行: 1.1 启动hadoop 有 BUG ,内容如下: 解决方法:SLF4J:Failed to load class org.slf4j.impl.StaticLoggerBinder. 1.2 再次启动hadoop 1.3 查看是否成功 2.1 下载scala 官方网址:https://www.scala-lang.org/download/2.

    2024年03月24日
    浏览(29)
  • Linux下Spark offline安装graphframes包

    GraphX是Spark中用于图计算的模块. Spark安装包中内置Scala语言的GraphX库, 但是对于Python语言的安装包, 需要额外进行安装. 对于内网服务器, 不能访问外网, 安装GraphX的python库graphframes需要进行额外的步骤, 本文介绍如何在Linux下offline为Spark 安装graphframes包. 下载spark-3.5.0-bin-hadoop3.t

    2024年02月20日
    浏览(37)
  • hadoop(伪分布式)上的spark和Scala安装与配置详细版

    在搭建spark和Scala前提下,必需安装好hive和java,和 Hadoop的伪分布式 哦 1、安装与配置Scale        (1)去官网下载Scala         官网地址: The Scala Programming Language (scala-lang.org) https://www.scala-lang.org/ 这里我要的是scala-2.2.12.12.tgz 然后我们点击 all releases 点进去之后往下找 然后

    2024年04月28日
    浏览(44)
  • Linux系统下Spark的下载与安装(pyspark运行示例)

    最近需要完成数据课程的作业,因此实践了一下如何安装并配置好spark 由于我想要将hadoop和spark一起使用,因此必须确定好spark的版本 Spark和Hadoop版本对应关系如下: Spark版本 Hadoop版本 2.4.x 2.7.x 3.0.x 3.2.x 可进入终端查看Hadoop版本 我这里的版本是2.7.1,因此选择下载2.4版本的

    2024年01月25日
    浏览(32)
  • 【大数据监控】Grafana、Spark、HDFS、YARN、Hbase指标性能监控安装部署详细文档

    Grafana 是一款开源的数据可视化工具,使用 Grafana 可以非常轻松的将数据转成图表(如下图)的展现形式来做到数据监控以及数据统计。 解压 配置 mapping 文件 修改spark的metrics.properties配置文件,让其推送metrics到Graphite_exporter namenode.yaml datanode.yaml 配置 hadoop-env.sh yarn.yaml 配置 ya

    2023年04月21日
    浏览(46)
  • CDH-6.3.2从零到一的详细安装教程&hive on Spark性能测试教程

    注意:需要使用官网提供的jdk。 1.1 在hadoop101的/opt目录下创建module 1.2 上传oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm并安装 1.3 分发 注意:分发脚本在附录里面的分发脚本 集群ssh脚本在附录里面的编写集群ssh脚本 执行sshall脚本结果如下 注意:一定要用root用户操作如下步骤;先卸载

    2024年02月16日
    浏览(39)
  • Spark基于DPU Snappy压缩算法的异构加速方案

    1.1 背景介绍 Apache Spark是专为大规模数据计算而设计的快速通用的计算引擎,是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些不同之处使 Spark 在某些工作负载方面表现得更加优越。换句话说,Spark 启用了内存分布数据集,除了能够提供交互

    2024年04月28日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包