spark安装配置

这篇具有很好参考价值的文章主要介绍了spark安装配置。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

1.准备工作

2.下载spark-3.1.1-bin-hadoop2.7和scala-2.12.13并解压

3.配置环境变量

4.配置文件$SPARK_HOME/conf/spark-env.sh

6.配置spark的历史服务 ($SPARK_HOME/conf/)

7.配置文件$SPARK_HOME/conf/workers

8.配置文件拷贝

9.集群的启动和停止

10.错误排查方法


1.准备工作

  • 具备java环境
  • 配置主机名
  • 配置免密码登录
  • 防火墙关闭

2.下载spark-3.1.1-bin-hadoop2.7和scala-2.12.13并解压

下载路径:Downloads | Apache Spark

tar -zxvf 压缩包路径

 Spark目录介绍

  • bin —— Spark操作命令
  • conf —— 配置文件
  • data —— Spark测试文件
  • examples —— Spark示例程序
  • jars
  • LICENSE
  • licenses
  • NOTICE
  • python
  • R
  • README.md
  • RELEASE
  • sbin —— Spark集群命令
  • yarn —— Spark-yarn配置

3.配置环境变量

#scala

export SCALA_HOME=/home/Group10/scala-2.12.10

export PATH=${SCALA_HOME}/bin:$PATH

#spark

export SPARK_HOME=/home/Group10/spark-3.1.1/spark-3.1.1-bin-hadoop2.7

export PATH=${SPARK_HOME}/bin:$PATH

使环境生效:

source .bashrc

4.配置文件$SPARK_HOME/conf/spark-env.sh

export  JAVA_HOME=/home/Group10/jdk1.8.0_271
export  SCALA_HOME=/home/Group10/scala-2.12.13
export  SPARK_WORKER_MEMORY=5G
export  SPARK_WORKER_CORES=3
export  SPARK_WORKER_INSTANCES=1
export  SPARK_MASTER_IP=10.103.105.94
export SPARK_DIST_CLASSPATH=$(/home/Group10/hadoop/hadoop-2.7.6/bin/hadoop classpath)
export  HADOOP_CONF_DIR=/home/Group10/hadoop/hadoop-2.7.6/etc/hadoop/
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=50 -Dspark.history.fs.logDirectory=hdfs://10.103.105.94:8020/data/spark/sparklog"

spark安装配置

6.配置spark的历史服务 ($SPARK_HOME/conf/)

由于spark-shell停止掉后,hadoop页面就看不到历史任务的运行情况,所以开发时都配置历史服务器记录任务运行情况。

(1)复制一份spark-default.conf.template文件并改名为spark-default.conf

cp spark-defaults.conf.template spark-defaults.conf

(2)配置日志存储路径

vim spark-defaults.conf

spark.eventLog.enabled true
spark.eventLog.dir hdfs://10.103.105.94:8020/data/spark/sparklog
spark.eventLog.compress true
#spark.yarn.historyServer.address=10.103.105.98:18080
#spark.history.ui.port=18080
spark.history.fs.logDirectory hdfs://10.103.105.94:8020/data/spark/sparklog

spark安装配置 (3)在配置文件spark-env.sh中添加入下内容(上一步配置已经添加过)

export SPARK_HISTORY_OPTS="

-Dspark.history.ui.port=18080 

-Dspark.history.fs.logDirectory=hdfs://10.103.105.94:8020/data/spark/sparklog

-Dspark.history.retainedApplications=50"

7.配置文件$SPARK_HOME/conf/workers

westgisB095
westgisB096
westgisB097
westgisB098

8.配置文件拷贝

scp -r /home/Group10/spark-3.1.1/spark-3.1.1-bin-hadoop2.7/conf/spark-env.sh Group10@10.103.105.95:/home/Group10/spark-3.1.1/spark-3.1.1-bin-hadoop2.7/conf/
scp -r /home/Group10/spark-3.1.1/spark-3.1.1-bin-hadoop2.7/conf/spark-defaults.conf Group10@10.103.105.95:/home/Group10/spark-3.1.1/spark-3.1.1-bin-hadoop2.7/conf/
scp -r /home/Group10/spark-3.1.1/spark-3.1.1-bin-hadoop2.7/conf/workers Group10@10.103.105.95:/home/Group10/spark-3.1.1/spark-3.1.1-bin-hadoop2.7/conf/

其他从节点同样的拷贝方法

9.集群的启动和停止

(1)先启动HDFS集群

$HADOOP_HOME/sbin/start-dfs.sh

(2)启动spark集群

在主节点执行以下两个脚本:

$SPARK_HOME/sbin/start-master.sh

$SPARK_HOME/sbin/start-workers.sh

(3)查看监控界面

在浏览器输入:

http://10.103.104.94:8080

spark安装配置

(4)查看节点进程

在主节点和从节点上使用jps命令查看节点进程,或使用ps aux|grep java 命令查看节点进程。

如果是主节点,应该出现Master、NameNode、SecondaryNameNode等三个守护进程;如果是从节点,应该出现Worker和DataNode两个守护进程。

如果发现进程缺失,查看对应的日志文件寻找错误原因。

spark安装配置

(5)启动spark-shell交互式工具

spark-shell

spark安装配置(6)查看历史任务监控界面

启动命令:

./sbin/start-history-server.sh

http://10.103.105.94:18080/

spark安装配置


 (7)停止Spark集群

在主节点执行以下两个脚本:

$SPARK_HOME/sbin/stop-workers.sh

$SPARK_HOME/sbin/stop-master.sh

(8)关闭HDFS集群

$HADOOP_HOME/sbin/stop-dfs.sh

10.错误排查方法

(1)查看端口是否开启

运行命令  netstat–tunlp|grep 8080

查看8080端口是否开启。

(2)查看占用端口的进程

运行命令lsof–i:8080

查看8080端口被那个进程占用。

(3)查看运行日志

Spark主节点日志文件路径:

$SPARK_HOME/logs/*-Master-.log

$SPARK_HOME/logs/*-Master-.out

Spark从节点日志文件路径

$SPARK_HOME/logs/*-Worker-.log

$SPARK_HOME/logs/*-Worker-.out文章来源地址https://www.toymoban.com/news/detail-450733.html

到了这里,关于spark安装配置的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 修改npm全局安装的插件(下载目录指向)

    我们先打开终端 然后执行 查看npm 的下载地址 一般都会在C盘 但是 我们都知道 C盘下东西多了是很不好的 所以 我们可以执行 将 npm 的下载地址 改变成 E盘下的 npmfile目录 这样 以后 默认全局安装的插件就会都到这个地址下了 执行完之后 我们再次执行 查看到的就是我们刚才设

    2024年02月07日
    浏览(60)
  • Linux系统下Spark的下载与安装(pyspark运行示例)

    最近需要完成数据课程的作业,因此实践了一下如何安装并配置好spark 由于我想要将hadoop和spark一起使用,因此必须确定好spark的版本 Spark和Hadoop版本对应关系如下: Spark版本 Hadoop版本 2.4.x 2.7.x 3.0.x 3.2.x 可进入终端查看Hadoop版本 我这里的版本是2.7.1,因此选择下载2.4版本的

    2024年01月25日
    浏览(46)
  • Nginx下载和安装教程、Nginx目录结构、Nginx具体应用

    Nginx是一款轻量级的开源Web服务器软件,也是一种反向代理服务器。它以其高性能和灵活性而被广泛应用于互联网领域。本文将介绍Nginx的概述、下载和安装以及目录结构。 (1)Nginx介绍 Nginx最初由Igor Sysoev开发,目的是解决C10K问题,即同时处理成千上万个并发连接的需求。

    2024年02月15日
    浏览(54)
  • Docker介绍下载安装、制作镜像及容器、做目录映射、做端口映射

    在计算机中,虚拟化(英语:Virtualization)是一种资源管理技术,是将计算机的各种实体资源,如服务器、网络、内存及存储等,予以抽象、转换后呈现出来,打破实体结构间的不可切割的障碍,使用户可以比原本的组态更好的方式来应用这些资源。这些资源的新虚拟部份是

    2023年04月12日
    浏览(55)
  • Spark系列(一)spark简介及安装配置

    目录 1. spark简介: 2. spark特点: 2.1 Speed:速度快 2.2 Easy of Use:易用性 2.3 Generality:通用性 2.4 Runs Everywhere:到处运行 3. Spark的应用场景 4. 环境要求及准备工作 5. spark搭建模式: 5.1 local模式在解压缩安装后 5.2 Standalone模式搭建(基于hdfs文件存储) 5.1.1 首先配置spark环境变量:

    2023年04月09日
    浏览(38)
  • spark安装配置

    目录 1.准备工作 2.下载spark-3.1.1-bin-hadoop2.7和scala-2.12.13并解压 3.配置环境变量 4.配置文件$SPARK_HOME/conf/spark-env.sh 6.配置spark的历史服务 ($SPARK_HOME/conf/) 7.配置文件$SPARK_HOME/conf/workers 8.配置文件拷贝 9.集群的启动和停止 10.错误排查方法 具备java环境 配置主机名 配置免密码登录 防

    2024年02月05日
    浏览(45)
  • Android Studio安装和设置SDK、Gradle(国内源)、AVD下载目录详细教程

    本机环境:win11家庭版 Android Studio版本:android-s tudio-2022.2.1.20-windows android studio官网 在安装目标盘创建文件夹,不要有中文文件夹,文件夹名称不要带空格。 本次安装在VMware虚拟机中安装,只有一个C盘,无其他盘,所以自定义安装目录都在C盘下创建的 Android studio安装完成 上

    2024年02月14日
    浏览(52)
  • quarkus实战之一:准备工作

    这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 《quarkus实战》系列是欣宸在2022年春季推出的又一个精品原创系列,作者将自己对java的热爱渗透到每段文字和每行代码中,全系列秉承欣宸一贯的知识+实战风格,既有知识普及、更有实际操作,在涉

    2024年02月16日
    浏览(42)
  • 【P1】Jmeter 准备工作

    Apache JMeter 是一个开源、纯 Java、优秀的性能测试工具 能够测试许多不同的应用程序/服务器/协议类型: HTTP、HTTPS REST、SOAP JDBC FTP LDAP JMS 消息类 邮件类(SMTP、POP3、和IMAP) 命令或 shell 脚本 TCP Java 请求扩展 主要特性: 可视化设计、功能齐全 (可视化) 快速设计测试计划、

    2024年02月06日
    浏览(46)
  • 一、RHCE--准备工作

    第一种:通过命令行的方式 1.激活网卡(重新加载配置): 第二种:通过vim编辑器修改配置文件的方式 第三种:通过图形化的方式: 1.查看网卡信息: 2.查看网卡: 1.配置yum源 2.建立软件仓库:repository - repo 3.配置的目录: /etc/yum.repos.d/ 4.本地yum源:iso镜像不能直接使用,需要

    2024年01月22日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包