16-Linux部署Spark环境

这篇具有很好参考价值的文章主要介绍了16-Linux部署Spark环境。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Linux部署Spark环境

注意

本小节的操作,基于:大数据集群(Hadoop生态)安装部署环节中所构建的Hadoop集群

如果没有Hadoop集群,请参阅前置内容,部署好环境。

参考文章:

14-Linux部署Hadoop集群:

简介

Spark是一款分布式内存计算引擎,可以支撑海量数据的分布式计算。

Spark在大数据体系是明星产品,作为最新一代的综合计算引擎,支持离线计算和实时计算。

在大数据领域广泛应用,是目前世界上使用最多的大数据分布式计算引擎。

我们将基于前面构建的Hadoop集群,部署Spark Standalone集群。

Spark官网:https://spark.apache.org/

安装

  1. 【node1执行】下载并解压

    • 下载
    wget --no-check-certificate https://archive.apache.org/dist/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz
    
    • 解压
    tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /export/server/
    
    • 软连接
    ln -s /export/server/spark-2.4.5-bin-hadoop2.7 /export/server/spark
    
  2. 【node1执行】修改配置文件名称

    # 改名
    cd /export/server/spark/conf
    mv spark-env.sh.template spark-env.sh
    mv slaves.template slaves
    
  3. 【node1执行】修改配置文件,spark-env.sh

    使用vim编辑配置文件

    vim spark-env.sh
    

    复制下面的全部内容到spark-env.sh

    ## 设置JAVA安装目录
    JAVA_HOME=/export/server/jdk
    
    ## HADOOP软件配置文件目录,读取HDFS上文件和运行YARN集群
    HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
    YARN_CONF_DIR=/export/server/hadoop/etc/hadoop
    
    ## 指定spark老大Master的IP和提交任务的通信端口
    export SPARK_MASTER_HOST=node1
    export SPARK_MASTER_PORT=7077
    
    SPARK_MASTER_WEBUI_PORT=8080
    SPARK_WORKER_CORES=1
    SPARK_WORKER_MEMORY=1g
    
  4. 【node1执行】修改配置文件,slaves

    使用vim操作slaves文件

    vim slaves
    

    输入下面内容

    node1
    node2
    node3
    
  5. 【node1执行】分发

    进入/export/server

    cd /export/server
    

    分发spark-2.4.5-bin-hadoop2.7文件到node2、node3

    scp -r spark-2.4.5-bin-hadoop2.7 node2:$PWD
    scp -r spark-2.4.5-bin-hadoop2.7 node3:$PWD
    
  6. 【node2、node3执行】设置软链接

    ln -s /export/server/spark-2.4.5-bin-hadoop2.7 /export/server/spark
    
  7. 【node1执行】启动Spark集群

    /export/server/spark/sbin/start-all.sh
    
    # 如需停止,可以
    /export/server/spark/sbin/stop-all.sh
    

    使用jps查看进程

    [root@node1 server]# jps
    6561 Jps
    2629 NodeManager
    3014 WebAppProxyServer
    6423 Master
    1752 NameNode
    5081 HRegionServer
    1898 DataNode
    4140 QuorumPeerMain
    2477 ResourceManager
    4989 HMaster
    2222 SecondaryNameNode
    6494 Worker
    [root@node1 server]# ssh node2
    Last login: Thu Feb 29 09:29:52 2024 from node1
    [root@node2 ~]# jps
    2369 HRegionServer
    3186 Jps
    1508 QuorumPeerMain
    1621 DataNode
    1735 NodeManager
    3113 Worker
    [root@node2 ~]# 
    

    node1有HMaster和Worker,node2有Worker说明启动成功

  8. 打开Spark监控页面,浏览器打开:http://192.168.149.131:8081

    16-Linux部署Spark环境,Linux,linux,spark,运维

  9. 【node1执行】提交测试任务

    /export/server/spark/bin/spark-submit --master spark://node1:7077 --class org.apache.spark.examples.SparkPi /export/server/spark/examples/jars/spark-examples_2.11-2.4.5.jar
    

    可以看到输出的pi值

    16-Linux部署Spark环境,Linux,linux,spark,运维

    在可视化界面可以看到该进程的信息

    16-Linux部署Spark环境,Linux,linux,spark,运维
    说明Spark部署成功~~~文章来源地址https://www.toymoban.com/news/detail-852609.html

到了这里,关于16-Linux部署Spark环境的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Linux CentOS下大数据环境搭建(zookeeper+hadoop+hbase+spark+scala)

    本篇文章是结合我个人学习经历所写,如果遇到什么问题或者我有什么错误,欢迎讨论。 百度网盘链接:https://pan.baidu.com/s/1DCkQQVYqYHYtPws9hWGpgw?pwd=zh1y 提取码:zh1y 软件在连接中VMwareWorkstation_V16.2.1_XiTongZhiJia的文件夹下。 双击运行安装包,这里下一步即可。 这里勾选我接受许可

    2024年04月15日
    浏览(66)
  • Spark Local环境部署

    目录 1:规划: 1:想法:            2:  版本 2:spark配置文件部署 1:上传Spark安装包到/export下面 2:解压下载的Spark安装包并且改名 3:spark部署环境变量 1: /etc/profile环境 2:/root/.bashrc 4:测试   1:bin/pyspark       1:进入pyspark环境 2:代码测试     ​编辑 3:web页面访问

    2024年01月15日
    浏览(29)
  • Linux多虚拟机集群化配置详解(Zookeeper集群、Kafka集群、Hadoop集群、HBase集群、Spark集群、Flink集群、Zabbix、Grafana部署)

    前面安装的软件,都是以单机模式运行的,学习大数据相关的软件部署,后续安装软件服务,大多数都是以集群化(多台服务器共同工作)模式运行的。所以,需要完成集群化环境的前置准备,包括创建多台虚拟机,配置主机名映射,SSH免密登录等等。 我们可以使用VMware提供

    2024年02月04日
    浏览(50)
  • 分布式内存计算Spark环境部署与分布式内存计算Flink环境部署

    目录 分布式内存计算Spark环境部署 1.  简介 2.  安装 2.1【node1执行】下载并解压 2.2【node1执行】修改配置文件名称 2.3【node1执行】修改配置文件,spark-env.sh 2.4 【node1执行】修改配置文件,slaves 2.5【node1执行】分发 2.6【node2、node3执行】设置软链接 2.7【node1执行】启动Spark集群

    2024年02月08日
    浏览(71)
  • hive on spark集群环境部署(彻底摆脱做毕设没环境)

     1.1.1所需下载的rpm包  1.1.2所需驱动包下载 1.3.1卸载干扰依赖 1.3.2安装所需的依赖 1.4.1切换root用户  1.4.2执行脚本 1.4.3脚本解析 1.4.4退出root用户到student用户 1.4.5登录测试 2.1.1把hive-3.1.3.tar.gz上传到linux的/opt/software目录下 2.1.2 解压hive-3.1.3.tar.gz到/opt/module/目录下面 2.1.3 修改h

    2024年02月04日
    浏览(45)
  • 大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

    前言:七八九用于Spark的编程实验 大数据开源框架之基于Spark的气象数据处理与分析_木子一个Lee的博客-CSDN博客_spark舆情分析 目录 实验环境: 实验步骤: 一、解压 二、配置环境变量:  三、修改配置文件  1.修改spark-env.sh配置文件: 2.修改配置文件slaves: 3.分发配置文件:

    2024年02月11日
    浏览(49)
  • Linux安装Spark的详细过程

    安装:文件提取链接:https://pan.baidu.com/s/1XI_mRKY2c6CHlt6--3d7kA?pwd=tlu2  (可以 导入至U盘中 ,再从U盘拷入至虚拟机中,这点在我讲述安装jdk8的文章中有提到过,如果有兴趣,可以去看一下:http://t.csdn.cn/POerk) 我把jdk8、hadoop-3.3.4、zookeeper-3.6.2、hbase-2.3.3、spark-3.2.2的解压后的文件

    2024年02月09日
    浏览(45)
  • Spark,hadoop,Linux基础命令

    目录 Linux命令 查看主机名:hostname​编辑 修改主机名:hostnamectl set-hostname xxx 创建新用户,该命令只能由 root 用户使用:useradd 设置或修改指定用户的口令:passwd 显示当前目录:pwd 显示指定目录中的文件或子目录信息。当不指定文件或目录时,显示 当前工作目录中的文件或子目

    2024年03月24日
    浏览(38)
  • Docker环境部署Hadoop并使用docker构建spark运行案列(全网最详细教程)

    Docker部署hadoop 和使用docker构建spark运行环境(全网最详细教程) 首先查看版本环境(docker中没有下载docker和docker-compose的可以看我上一篇博客 Linux 安装配置Docker 和Docker compose 并在docker中部署mysql和中文版portainer图形化管理界面) 查看docker和docker-compose版本: OK,环境没问题,

    2024年02月03日
    浏览(41)
  • Linux下Spark offline安装graphframes包

    GraphX是Spark中用于图计算的模块. Spark安装包中内置Scala语言的GraphX库, 但是对于Python语言的安装包, 需要额外进行安装. 对于内网服务器, 不能访问外网, 安装GraphX的python库graphframes需要进行额外的步骤, 本文介绍如何在Linux下offline为Spark 安装graphframes包. 下载spark-3.5.0-bin-hadoop3.t

    2024年02月20日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包