Spark Local环境部署-Toy模板网

这篇具有很好参考价值的文章主要介绍了Spark Local环境部署。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1:规划：

1：想法：

2：版本

2:spark配置文件部署

1:上传Spark安装包到/export下面

2:解压下载的Spark安装包并且改名

3:spark部署环境变量

1： /etc/profile环境

2：/root/.bashrc

4：测试

1：bin/pyspark

1：进入pyspark环境

2：代码测试

编辑

3：web页面访问 master:4040，

编辑2：./spark-shell

1：进入./spark-shell 环境

2：代码测试

3：web访问 master:4040

3：bin/spark-submit (PI)

1：作用

2：语法

3：web访问(master:4040)

5:总结

1图表

2端口：

1:规划：

master	slave1	slave2
192.168.204.130	192.168.204.131	192.168.204.132

1：想法：

所有大数据软件安装在/export目录下面,目前因为只是spark Locak模式，就创建在master上面吧，只要在一台说创建,比较简单。

后面我是打算有python敲spark程序，pyspark程序所以安装好hadoop,mysql,hive,anconda, zookeeper,等一些组件

spark Locak模式必须安装好python解释器（推荐anconda）jdk

2：版本

jdk: 1.8.0_161

anconda: (Anaconda3-2023.09-0-Linux-x86_64)

Hadoop：3.3.2

spark：（spark-3.4.1-bin-hadoop3）

2:spark配置文件部署

1:上传Spark安装包到/export下面

2:解压下载的Spark安装包并且改名

tar -xvf spark-3.4.1-bin-hadoop3.tgz
mv spark-3.4.1-bin-hadoop3 spark

3:spark部署环境变量

1： /etc/profile环境

vim /etc/profile

#解释环境

#配置jdk环境
export JAVA_HOME=/export/jdk
export PATH=$JAVA_HOME/bin:$PATH

#配置anaconda环境
export ANACONDA_HOME=/export/anaconda/bin
export PATH=$ANACONDA_HOME/bin:$PATH

#配置pyspark虚拟环境
export PYSPARK_PYTHON=/export/anaconda3/envs/pyspark/bin/python3.11


#大数据框架
#配置hadoop环境
export HADOOP_HOME=/export/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
export PATH=$HADOOP_HOME/sbin:$PATH
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

#配置spark环境
export SPARK_HOME=/export/spark

#配置zookeeper环境
export ZK_HOME=/export/zookeeper
export PATH=$ZK_HOME/bin:$PATH

#配置hive路径
export HIVE_HOME=/export/hive
export PATH=$HIVE_HOME/bin:$PATH

#指定进程的用户名字
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

2：/root/.bashrc

vim /root/.bashrc

export JAVA_HOME=/export/jdk
export PYSPARK_PYTHON=/export/anaconda3/envs/pyspark/bin/python3.11

4：测试

1：bin/pyspark

可以提供一个交互式的 Python解释器环境, 在这里面可以写普通python代码, 以及spark代码

1：进入pyspark环境

cd /export/spark/bin

./pyspark

Spark Local环境部署,spark,大数据,分布式

2：代码测试

print('哈哈')

sc.parallelize([1,23,4,45,65,6,7]).map(lambda x: x*10).collect()

3：web页面访问 master:4040，

这个端口号可以延升 4040 4041 4042(当同时打开多个环境才会延升，不然都是4040) 当这个环境退出后web页面访问不了，

2：./spark-shell

1：进入./spark-shell 环境

这是scala环境，spark底层源码是用scala敲的

cd /export/spark/bin
./spark-shell

Spark Local环境部署,spark,大数据,分布式

2：代码测试

sc.parallelize(Array(1,2,3,4,5)).map(x=> x + 1).collect()

Spark Local环境部署,spark,大数据,分布式

3：web访问 master:4040

Spark Local环境部署,spark,大数据,分布式

3：bin/spark-submit (PI)

1：作用

提交指定的Spark代码到Spark环境中运行

2：语法

# 语法
cd /export/spark
bin/spark-submit [可选的一些选项] jar包或者python代码的路径 [代码的参数]

# 示例
bin/spark-submit /export/spark/examples/src/main/python/pi.py 10
# 此案例 运行Spark官方所提供的示例代码 来计算圆周率值.  后面的10 是主函数接受的参数, 数字越高, 计算圆周率越准确.
./spark-submit --master local[*] /export/spark/examples/src/main/python/pi.py 10000

3：web访问(master:4040)

Spark Local环境部署,spark,大数据,分布式

5:总结

1图表

功能	bin/pyspark	bin/spark-shell	bin/spark-submit
功能	提供一个python	提供一个scala	提交java\scala\python代码到spark中运行
解释器环境用来以python代码执行spark程序	提供一个python
解释器环境用来以scala代码执行spark程序		提供一个scala	提供一个scala
特点	解释器环境写一行执行一行	解释器环境写一行执行一行	提交代码用
使用场景	测试\学习\写一行执行一行\用来验证代码等	测试\学习\写一行执行一行\用来验证代码等	正式场合, 正式提交spark程序运行

2端口：

4040，如果开启多个，端口就会以加一延升，4040 4041 ........当程序退出，web页面访问不了文章来源地址https://www.toymoban.com/news/detail-791679.html

到了这里，关于Spark Local环境部署的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

Spark Local环境部署

1:规划：

1：想法：

2：版本

2:spark配置文件部署

1:上传Spark安装包到/export下面

2:解压下载的Spark安装包并且改名

3:spark部署环境变量

1： /etc/profile环境

2：/root/.bashrc

4：测试

1：bin/pyspark

1：进入pyspark环境

2：代码测试

3：web页面访问 master:4040，

2：./spark-shell

1：进入./spark-shell 环境

2：代码测试

3：web访问 master:4040

3：bin/spark-submit (PI)

1：作用

2：语法

3：web访问(master:4040)

5:总结

1图表

2端口：

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2

Spark Local环境部署

1:规划：

1：想法：

2： 版本

2:spark配置文件部署

1:上传Spark安装包到/export下面

2:解压下载的Spark安装包并且改名

3:spark部署环境变量

1： /etc/profile环境

2：/root/.bashrc

4：测试

1：bin/pyspark

1：进入pyspark环境

2：代码测试

3：web页面访问 master:4040，

2：./spark-shell

1：进入./spark-shell 环境

2：代码测试

3：web访问 master:4040

3：bin/spark-submit (PI)

1：作用

2：语法

3：web访问(master:4040)

5:总结

1图表

2端口：

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2

2：版本