物理机本地和集群部署Spark-Toy模板网

这篇具有很好参考价值的文章主要介绍了物理机本地和集群部署Spark。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、单机本地部署

1）官网地址：http://spark.apache.org/
2）文档查看地址：https://spark.apache.org/docs/3.1.3/
3）下载地址：
https://spark.apache.org/downloads.html
https://archive.apache.org/dist/spark/

上传文件、解压缩、修改文件名
启动Spark
spark-shell使用
入门案例：

物理机本地和集群部署Spark,spark,大数据,分布式

注意：sc是SparkCore程序的入口；spark是SparkSQL程序入口；master = local[*]表示本地模式运行。
物理机本地和集群部署Spark,spark,大数据,分布式

说明：本地模式下，默认的调度器为FIFO。

二、Standalone模式

Standalone模式是Spark自带的资源调度引擎，构建一个由Master + Worker构成的Spark集群，Spark运行在集群中。
这个要和Hadoop中的Standalone区别开来。这里的Standalone是指只用Spark来搭建一个集群，不需要借助Hadoop的Yarn和Mesos等其他框架。
物理机本地和集群部署Spark,spark,大数据,分布式

集群规划
解压缩、修改文件名
进入Spark的配置目录/opt/module/spark-standalone/conf，修改slave文件，添加work节点，分发文件：

物理机本地和集群部署Spark,spark,大数据,分布式
4. 启动spark集群

物理机本地和集群部署Spark,spark,大数据,分布式
5. 测试

三、yarn模式

Spark客户端直接连接Yarn，不需要额外构建Spark集群。

上传文件、解压缩、修改文件名
修改hadoop配置文件/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml，添加下面内容，并分发文件

注意：生产环境视情况而定

物理机本地和集群部署Spark,spark,大数据,分布式
3. 修改/opt/module/spark-yarn/conf/spark-env.sh，添加YARN_CONF_DIR配置，保证后续运行任务的路径都变成集群路径

4. 启动HDFS以及YARN集群
先启动zk，启动yarn，启动hdfs

5. 测试
文章来源地址https://www.toymoban.com/news/detail-795011.html