Spark Local环境部署

这篇具有很好参考价值的文章主要介绍了Spark Local环境部署。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

1:规划:

1:想法:       

    2:  版本

2:spark配置文件部署

1:上传Spark安装包到/export下面

2:解压下载的Spark安装包并且改名

3:spark部署环境变量

1: /etc/profile环境

2:/root/.bashrc

4:测试

  1:bin/pyspark  

    1:进入pyspark环境

2:代码测试

    ​编辑

3:web页面访问 master:4040,

​编辑2:./spark-shell 

1:进入./spark-shell 环境

2:代码测试

3:web访问 master:4040

3:bin/spark-submit (PI)

1:作用

2:语法

3:web访问(master:4040)

5:总结

1图表

2端口:


1:规划:

master slave1 slave2
192.168.204.130 192.168.204.131 192.168.204.132

1:想法:       

所有大数据软件安装在/export目录下面,目前因为只是spark Locak模式,就创建在master上面吧,只要在一台说创建,比较简单。

后面我是打算有python敲spark程序,pyspark程序所以安装好hadoop,mysql,hive,anconda, zookeeper,等一些组件

      spark Locak模式必须安装好python解释器(推荐anconda)jdk 

    2:  版本

                 jdk: 1.8.0_161

                 anconda:  (Anaconda3-2023.09-0-Linux-x86_64)

                 Hadoop:3.3.2

                 spark:(spark-3.4.1-bin-hadoop3)

2:spark配置文件部署

1:上传Spark安装包到/export下面

2:解压下载的Spark安装包并且改名

tar -xvf spark-3.4.1-bin-hadoop3.tgz
mv spark-3.4.1-bin-hadoop3 spark

3:spark部署环境变量

1: /etc/profile环境

vim /etc/profile
#解释环境

#配置jdk环境
export JAVA_HOME=/export/jdk
export PATH=$JAVA_HOME/bin:$PATH

#配置anaconda环境
export ANACONDA_HOME=/export/anaconda/bin
export PATH=$ANACONDA_HOME/bin:$PATH

#配置pyspark虚拟环境
export PYSPARK_PYTHON=/export/anaconda3/envs/pyspark/bin/python3.11


#大数据框架
#配置hadoop环境
export HADOOP_HOME=/export/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
export PATH=$HADOOP_HOME/sbin:$PATH
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

#配置spark环境
export SPARK_HOME=/export/spark

#配置zookeeper环境
export ZK_HOME=/export/zookeeper
export PATH=$ZK_HOME/bin:$PATH

#配置hive路径
export HIVE_HOME=/export/hive
export PATH=$HIVE_HOME/bin:$PATH

#指定进程的用户名字
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
                                           

2:/root/.bashrc

vim /root/.bashrc
export JAVA_HOME=/export/jdk
export PYSPARK_PYTHON=/export/anaconda3/envs/pyspark/bin/python3.11

4:测试

  1:bin/pyspark  

    可以提供一个 交互式的 Python解释器环境, 在这里面可以写普通python代码, 以及spark代码

    1:进入pyspark环境

cd /export/spark/bin
./pyspark

Spark Local环境部署,spark,大数据,分布式

2:代码测试

print('哈哈')

sc.parallelize([1,23,4,45,65,6,7]).map(lambda x: x*10).collect()

    Spark Local环境部署,spark,大数据,分布式

3:web页面访问 master:4040,

这个端口号可以延升 4040 4041 4042(当同时打开多个环境才会延升 ,不然都是4040) 当这个环境退出后web页面访问不了,

2:./spark-shell 

1:进入./spark-shell 环境

这是scala环境,spark底层源码是用scala敲的

cd /export/spark/bin
./spark-shell

Spark Local环境部署,spark,大数据,分布式

2:代码测试

sc.parallelize(Array(1,2,3,4,5)).map(x=> x + 1).collect()

Spark Local环境部署,spark,大数据,分布式

3:web访问 master:4040

Spark Local环境部署,spark,大数据,分布式

3:bin/spark-submit (PI)

1:作用

        提交指定的Spark代码到Spark环境中运行

2:语法

# 语法
cd /export/spark
bin/spark-submit [可选的一些选项] jar包或者python代码的路径 [代码的参数]

# 示例
bin/spark-submit /export/spark/examples/src/main/python/pi.py 10
# 此案例 运行Spark官方所提供的示例代码 来计算圆周率值.  后面的10 是主函数接受的参数, 数字越高, 计算圆周率越准确.
./spark-submit --master local[*] /export/spark/examples/src/main/python/pi.py 10000

Spark Local环境部署,spark,大数据,分布式

3:web访问(master:4040)

Spark Local环境部署,spark,大数据,分布式

5:总结

1图表

功能 bin/pyspark bin/spark-shell bin/spark-submit
功能 提供一个python 提供一个scala 提交java\scala\python代码到spark中运行
解释器环境用来以python代码执行spark程序 提供一个python
解释器环境用来以scala代码执行spark程序 提供一个scala 提供一个scala
特点 解释器环境 写一行执行一行 解释器环境 写一行执行一行 提交代码用
使用场景 测试\学习\写一行执行一行\用来验证代码等 测试\学习\写一行执行一行\用来验证代码等 正式场合, 正式提交spark程序运行

2端口:

4040,如果开启多个,端口就会以加一延升,4040 4041 ........当程序退出,web页面访问不了文章来源地址https://www.toymoban.com/news/detail-791679.html

到了这里,关于Spark Local环境部署的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Spark分布式内存计算框架——Spark 基础环境】1. Spark框架概述

    第一章 说明 整个Spark 框架分为如下7个部分,总的来说分为Spark 基础环境、Spark 离线分析和Spark实时分析三个大的方面,如下图所示: 第一方面、Spark 基础环境 主要讲述Spark框架安装部署及开发运行,如何在本地模式和集群模式运行,使用spark-shell及IDEA开发应用程序,测试及

    2024年02月11日
    浏览(65)
  • 【头歌实训】Spark 完全分布式的安装和部署

    掌握 Standalone 分布式集群搭建。 我们已经掌握了 Spark 单机版安装,那么分布式集群怎么搭建呢? 接下来我们学习 Standalone 分布式集群搭建。 课程视频 如果你需要在本地配置 Spark 完全分布式环境,可以通过查看课程视频来学习。 课程视频《克隆虚拟机与配置网络》 课程视

    2024年02月04日
    浏览(49)
  • 【头歌实训】Spark 完全分布式的安装和部署(新)

    第1关: Standalone 分布式集群搭建 任务描述 掌握 Standalone 分布式集群搭建。 相关知识 我们已经掌握了 Spark 单机版安装,那么分布式集群怎么搭建呢? 接下来我们学习 Standalone 分布式集群搭建。 课程视频 如果你需要在本地配置 Spark 完全分布式环境,可以通过查看课程视频来

    2024年02月03日
    浏览(97)
  • spark 基于物理机centos7环境搭建分布式集群

    非生产环境,就使用一个新一点的版本,提前先踩踩坑,版本的选型真是一个头疼的问题,先看一下apache的官网的测试图: 伪分布式看这里: 配置之前:若是用伪分布式时,在本机必须生成key-gen 与ssh-copy-id到本机,且hosts中必须加入127.0.0.1  本机名并关闭防火墙这几步才可

    2024年02月03日
    浏览(66)
  • 【Centos8_配置单节点伪分布式Spark环境】

    安装centos8 jdk 部署伪分布式spark环境 下载jdk linux版本 下载链接: jdk-8u381-linux-x64.tar.gz 将该文件上传到Centos8 主机 部署配置jdk(java8) 详细的Hadoop伪分布式配置 这里不是重点,如果感兴趣,请参照文后参考链接 上传spark到centos8 解压spark到指定目录 配置spark伪分布式环境 开启

    2024年02月10日
    浏览(48)
  • Spark弹性分布式数据集

    1. Spark RDD是什么 RDD(Resilient Distributed Dataset,弹性分布式数据集)是一个不可变的分布式对象集合,是Spark中最基本的数据抽象。在代码中RDD是一个抽象类,代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 每个RDD都被分为多个分区,这些分区运行在集群中

    2024年02月13日
    浏览(54)
  • Spark Standalone 模式的安装和部署 第1关: Standalone 分布式集群搭建

    我们已经掌握了 Spark 单机版安装,那么分布式集群怎么搭建呢? 接下来我们学习 Standalone 分布式集群搭建。 课程视频 如果你需要在本地配置 Spark 完全分布式环境,可以通过查看课程视频来学习。 课程视频《Spark配置文件设置》 Spark分布式安装模式 Spark 分布式环境安装目前

    2024年02月03日
    浏览(45)
  • 大数据开发之Spark(RDD弹性分布式数据集)

    rdd(resilient distributed dataset)叫做弹性分布式数据集,是spark中最基本的数据抽象。 代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 1.1.1 rdd类比工厂生产 1.1.2 wordcount工作流程 1、一组分区(partition),即是数据集的基本组成单位,

    2024年01月24日
    浏览(65)
  • Spark大数据分析与实战笔记(第三章 Spark RDD 弹性分布式数据集-02)

    人生很长,不必慌张。你未长大,我要担当。 传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。Spark中的RDD可以很好的解决这一缺点。 RDD是Spark提供的最重要的抽象概念

    2024年02月22日
    浏览(83)
  • 大数据课程K2——Spark的RDD弹性分布式数据集

    文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州 ⚪ 了解Spark的RDD结构; ⚪ 掌握Spark的RDD操作方法; ⚪ 掌握Spark的RDD常用变换方法、常用执行方法; 初学Spark时,把RDD看做是一个集合类型(类似于Array或List),用于存储数据和操作数据,但RDD和普通集合的区别

    2024年02月12日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包