【Ubuntu-大数据】spark安装配置

这篇具有很好参考价值的文章主要介绍了【Ubuntu-大数据】spark安装配置。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

参考的文章： http://dblab.xmu.edu.cn/blog/931-2/

一、（实现需要先安装好Hadoop3）

1、官网下载：3版本

【Ubuntu-大数据】spark安装配置

2、单机模式安装配置：

Spark部署模式主要有四种：

Local模式（单机模式）
Standalone模式（使用Spark自带的简单集群管理器）、
YARN模式（使用YARN作为集群管理器）
Mesos模式（使用Mesos作为集群管理器）。

（1）解压压缩包到之前Hadoop安装的目录：本地计算机-usr-local

【Ubuntu-大数据】spark安装配置
（2）cd进入该目录：

（3）解压的压缩包名称太长了，我们改成spark：

（4）赋予该文件相关权限（lpp2是你的hadoop名字，可以在设置的【用户】中查看）

（5）进入spark文件目录：

（6）使用cp复制其中的配置文件，命名为：
【Ubuntu-大数据】spark安装配置
（7）编辑spark-env.sh文件(vim ./conf/spark-env.sh)，在第一行添加以下配置信息:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

【Ubuntu-大数据】spark安装配置
按i进入插入模式，插入完成，
然后按下退出键ESC，然后是shift+冒号健输入一个英文冒号，他就会在最下面生成一个冒号。
这时候我们输入wq，然会回车，就会【保存并退出】vim编辑器。
如果你不放心，可以进入文件管理中查看：
【Ubuntu-大数据】spark安装配置
细心的你会发现，其实就是加了一个hadoop的路径，
其实有了上面的配置信息以后，【Spark】就可以把数据存储到【Hadoop分布式文件系统HDFS】中，也可以从HDFS中读取数据。（如果没有配置上面信息，Spark就只能读写本地数据，无法读写HDFS数据）

（8）直接使用它bin下面的这个命令来运行试试：（运行它自带的实例，检查是否安装成功）
【Ubuntu-大数据】spark安装配置
（9）使用管道过滤信息：

 bin/run-example SparkPi 2>&1 | grep "Pi is"

如果输出：π，即可
【Ubuntu-大数据】spark安装配置

3、在集群上运行Spark应用程序

1.standalone模式
与MapReduce1.0框架类似，Spark框架本身也自带了完整的资源调度管理服务，可以独立部署到一个集群中，而不需要依赖其他系统来为其提供资源管理调度服务。在架构的设计上，Spark与MapReduce1.0完全一致，都是由一个Master和若干个Slave构成，并且以槽（slot）作为资源分配单位。不同的是，Spark中的槽不再像MapReduce1.0那样分为Map 槽和Reduce槽，而是只设计了统一的一种槽提供给各种任务来使用。
2.Spark on Mesos模式
Mesos是一种资源调度管理框架，可以为运行在它上面的Spark提供服务。Spark on Mesos模式中，Spark程序所需要的各种资源，都由Mesos负责调度。由于Mesos和Spark存在一定的血缘关系，因此，Spark这个框架在进行设计开发的时候，就充分考虑到了对Mesos的充分支持，因此，相对而言，Spark运行在Mesos上，要比运行在YARN上更加灵活、自然。目前，Spark官方推荐采用这种模式，所以，许多公司在实际应用中也采用该模式。