林子雨 VirtualBox + Ubuntu[linux] 配置 java、hadoop、Spark[python]、pyspark快速配置流程

这篇具有很好参考价值的文章主要介绍了林子雨 VirtualBox + Ubuntu[linux] 配置 java、hadoop、Spark[python]、pyspark快速配置流程。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

按照步骤快速执行shell，最快速配置。

读者可以根据该篇随记快速回顾流程，以及用到的shell指令和相关配置文件。

是林老师教程的精简版，初次配置者只能作为流程参考，主要和林子雨Spark[python]版课程配套。

林老师厦大实验指南链接如下：

Spark编程基础（Python版）教材官网_厦门大学数据库实验室 (xmu.edu.cn)

组件版本

(组件版本之间一定要能匹配，如使用其他版本要提前上网自行查阅是否可以匹配)：

virtualBox 7.0.14 r161095 (Qt5.15.2)

Ubuntu 16.04

java 1.8

hadoop 2.7.1

spark spark-2.1.0-bin-without-hadoop

各个组件版本很低，均能在林老师的网盘下载（提取码是qdm4）百度网盘请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固，支持教育网加速，支持手机端。注册使用百度网盘即可享受免费存储空间https://pan.baidu.com/s/1Q-ub4VxgqRzsv5FHe8NhxQ

主要流程（按序号执行）

1.下载virtualBox Downloads – Oracle VM VirtualBox

2.下载虚拟机-主机文件互传软件 FileZilla

(不过也可以在虚拟机上用浏览器打开微信文件传输助手传送一些简单的文件）

FileZilla使用教程：在Windows系统中利用FTP软件向Ubuntu系统上传文件_厦大数据库实验室博客 (xmu.edu.cn)https://dblab.xmu.edu.cn/blog/1608/

3.在网盘中下载需要用到的文件

ubuntukylin-16.04-desktop-amd64：光盘映像文件，用于创建虚拟机

spark-2.1.0-bin-without-hadoop：spark

jdk-8u162-linux-x64.tar：java1.8 的jdk

hadoop-2.7.1.tar

4.创建、运行虚拟机

Ubuntu虚拟机的创建自行查看林子雨的教程，也可以上网搜，我认为要注意以下几点：

①虚拟硬盘选择50G

②在创建时选择的光盘映像文件(.iso)一定要和自己的Ubuntu版本匹配

③一定要注意Ubuntu版本和Spark版本能不能匹配！

④不要选择自动安装

林子雨 VirtualBox + Ubuntu[linux] 配置 java、hadoop、Spark[python]、pyspark快速配置流程,linux,ubuntu,hadoop,spark,分布式

启动后，点击virtualbox的菜单“设备”选项，选择“安装增强功能”，系统便会自动安装好增强的功能，如果如果需要提示需要确认，输入return即可。

打开终端，执行 sudo apt-get install virtualbox-guest-dkms

关机重启，更改分辨率以便于显示全部屏幕。

5.Hadoop部分

依次执行（以下shell指令均在虚拟机终端执行）

①sudo useradd -m hadoop -s /bin/bash 创建hadoop用户

②sudo passwd hadoop 设置密码

③sudo adduser hadoop sudo 添加管理员权限

④切换虚拟机账户到hadoop账户

⑤sudo apt-get update 更新apt，如若更新不了，

去到【虚拟机的系统设置-软件和更新-更改下载节点-mirrors.aliyun.com-重新载入】，更新apt，

在更改其他节点都不行的情况下，先往下进行，但apt不更新可能会导致有些软件无法下载。

⑥sudo apt-get install vim ，下载vim

⑦sudo apt-get install openssh-server 安装 SSH server

⑧ssh localhost ，登录本机

⑨设置无密码登录

exit # 退出刚才的 ssh localhost
cd ~/.ssh/ # 若没有该目录，请先执行一次ssh localhost
ssh-keygen -t rsa # 会有提示，都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys # 加入授权

⑩ssh localhost

关机，在VirtualBox更改网络连接方式为桥接网卡。

林子雨 VirtualBox + Ubuntu[linux] 配置 java、hadoop、Spark[python]、pyspark快速配置流程,linux,ubuntu,hadoop,spark,分布式

通过FTP软件把三个文件上传到一个你能在虚拟机找到的地方，比方说Downloads/下载，然后在虚拟机上cd，切换到该目录下，对文件进行解压相关操作。

解压：

sudo tar -zxf ~/下载/hadoop-2.6.0.tar.gz -C /usr/local
cd /usr/local/
sudo mv ./hadoop-2.6.0/ ./hadoop
sudo chown -R hadoop ./hadoop
cd /usr/local/hadoop
./bin/hadoop version 查看是否安装成功

hadoop到这里就结束了，伪分布式或其他方式配置参考林老师的教程，学习spark可以暂时不继续配hadoop

Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0(2.7.1)/Ubuntu14.04(16.04)_厦大数据库实验室博客 (xmu.edu.cn)https://dblab.xmu.edu.cn/blog/7/

6.Java部分

①cd /usr/lib
②sudo mkdir jvm #创建/usr/lib/jvm目录用来存放JDK文件
③cd ~
④cd Downloads

⑤sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm #把JDK文件解压到/usr/lib/jvm目录下

⑥cd ~
⑦vim ~/.bashrc

文件开头摁住a：append修改文件（esc退出编辑，wq保存文件）添加：

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

⑧source ~/.bashrc

⑨java -version 查看是否安装成功

7.Spark部分

①sudo tar -zxf ~/下载/spark-2.1.0-bin-without-hadoop.tgz -C /usr/local/
②cd /usr/local
③sudo mv ./spark-2.1.0-bin-without-hadoop/ ./spark
④sudo chown -R hadoop:hadoop ./spark # 此处的 hadoop 为你的用户名

⑤cd /usr/local/spark
⑥cp ./conf/spark-env.sh.template ./conf/spark-env.sh

去虚拟机找这个spark-env.sh文件，右击，vim编辑，首行添加

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

⑦vim ~/.bashrc

首行添加：

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=$PATH:${JAVA_HOME}/bin:/usr/local/hbase/bin
export HADOOP_HOME=/usr/local/hadoop
export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH
export PYSPARK_PYTHON=python3
export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$PATH

PYTHONPATH这一行有个py4j-0.10.7-src.zip，这个zip文件的版本号一定要和“/usr/local/spark/python/lib”目录下的py4j-0.10.4-src.zip文件保持版本一致。

⑧source ~/.bashrc

⑨cd /usr/local/spark

⑩bin/run-example SparkPi 2>&1 | grep "Pi is" 验证spark是否安装成功，成功则会输出圆周率