spark 搭建及测试-Toy模板网

这篇具有很好参考价值的文章主要介绍了spark 搭建及测试。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、搭建单机版集群 1.上传spark-3.2.1-bin-hadoop3.2.tgz到/opt rz 或 xshell cd /opt/

2.安装解压，到/usr/local/single/目录下
（1）先建一个single目录
mkdir -p /usr/local/single/
(2)解压
tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz -C /usr/local/single/
3.测试运行，计算SparkPi
进入spark安装目录的bin目录下
./run-example SparkPi 2
# 运行2个模块成功为Pi is roughly 3.139435697178486

搭建完全分布式集群 1.上传

2.安装解压，到/usr/local/wanquan/目录下
（1）先建一个wanquan目录
mkdir -p /usr/local/wanquan/
(2)解压
tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz -C /usr/local/wanquan/
(3)重命名
mv spark-3.2.1-bin-hadoop3.2/ spark3
3.配置spark-env.sh
(1)进入安装目录的conf目录
复制spark-env.sh.template，命名为spark-env.sh
cp spark-env.sh.template spark-env.sh
(2)打开spark-env.sh文件
vi spark-env.sh
在尾部添加内容：
# hadoop 安装目录配置文件etc
export JAVA_HOME=/export/servers/
export HADOOP_CONF_DIR=/export/servers/hadoop330/etc/hadoop
export SPARK_MASTER_HOST=hadoop1
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_MEMORY=512m
# 给运行内存主机名端口号7077
export SPARK_WORKER_CORES=1
export SPARK_EXECUTOR_MEMORY=512m
export SPARK_EXECUTOR_CORES=1
export SPARK_WORKER_INSTANCES=1
# 设置运行内核数内存 woker 实例（如一个节点运行几个文件）
4.配置workers文件
（1）复制workers.template,命名为workers
cp workers.template workers
vi workers
（2）删除原有内容，添加
hadoop2
hadoop3

5.配置spark-defaults.conf文件
（1）复制spark-defaults.conf.template,命名为spark-defaults.conf
cp spark-defaults.conf.template spark-defaults.conf

(2)打开spark-defaults.conf文件
vi spark-defaults.conf
在尾部添加内容：
# 制定端口事件日志开启后spark存的地址,历史文件存放目录
spark.master spark://hadoop1:7077
spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop1:9000/spark-logs
spark.history.fs.logDirectory hdfs://hadoop1:9000/spark-logs

6.分发spark的安装目录到hadoop2、hadoop3
scp -r /usr/local/wanquan/ hadoop2:/usr/local/
scp -r /usr/local/wanquan/ hadoop3:/usr/local/

7.启动spark

（1）启动spark之前，先启动hadoop
start-all.sh
启动jobhistory，在hadoop安装目录的sbin目录下启动
cd /export/servers/hadoop330/sbin
./mr-jobhistory-daemon.sh start historyserver
jps 进程

(2)创建/spark-logs目录
hdfs dfs -mkdir /spark-logs
检查 hadoop1 9870
（3）启动spark集群
切换到spark的安装目录的sbin目录下，去启动
cd /usr/local/wanquan/spark3/sbin
# 当前目录下启动
./start-all.sh
jps查看，hadoop1出现master，hadoop2、hadoop3分别出现worker
hadoop1:8080
#单独启动历史服务：
./start-history-server.sh
jps查看hadoop1多了HistoryServer

(4) 启动 shell
在bin 目录下调试
./spark-shell

无报错，有scala字眼
完成！！！

（5）打开网页
8088 yarn界面
spark节点查看
https://192.168.157.131:8080

8.关闭保存拍摄快照
scala quit
在对应进程中关闭
关闭spark集群 ? cd/usr/local/spark3/sbin/
./stop-all.sh
master
worker
关闭hadoop 服务
./stop-all.sh

/export/servers/hadoop330/sbin
关闭历史服务：
./stop-history-server.sh
关闭服务job
./mr-jobhistory-daemon.sh stop historyserver

jps 查看防止遗漏
ps -grep|spark
kill -9 进程号
注意：1.拍快照 spark 完全
2.每次使用完后hadoop要关闭stop-all.sh
尝试西区平台

疑惑:history
在spark-env环境编译中加入从hdfs中读取数据
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
单机 hadfs 模式
》》》》scala 应用编写
详细说名
https://dblab.xmu.edu.cn/blog/1307/文章来源地址https://www.toymoban.com/news/detail-847435.html