林子雨 VirtualBox + Ubuntu[linux] 配置 java、hadoop、Spark[python]、pyspark快速配置流程

这篇具有很好参考价值的文章主要介绍了林子雨 VirtualBox + Ubuntu[linux] 配置 java、hadoop、Spark[python]、pyspark快速配置流程。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

按照步骤快速执行shell,最快速配置。

读者可以根据该篇随记快速回顾流程,以及用到的shell指令和相关配置文件。

是林老师教程的精简版,初次配置者只能作为流程参考,主要和林子雨Spark[python]版课程配套。

 林老师厦大实验指南链接如下:

Spark编程基础(Python版)教材官网_厦门大学数据库实验室 (xmu.edu.cn)

组件版本

(组件版本之间一定要能匹配,如使用其他版本要提前上网自行查阅是否可以匹配):

virtualBox  7.0.14 r161095 (Qt5.15.2)

Ubuntu  16.04

java  1.8

hadoop  2.7.1

spark  spark-2.1.0-bin-without-hadoop

各个组件版本很低,均能在林老师的网盘下载(提取码是qdm4百度网盘 请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固,支持教育网加速,支持手机端。注册使用百度网盘即可享受免费存储空间https://pan.baidu.com/s/1Q-ub4VxgqRzsv5FHe8NhxQ

主要流程(按序号执行)

1.下载virtualBox Downloads – Oracle VM VirtualBox

2.下载虚拟机-主机 文件互传软件 FileZilla

(不过也可以在虚拟机上用浏览器打开微信文件传输助手传送一些简单的文件)

FileZilla使用教程:在Windows系统中利用FTP软件向Ubuntu系统上传文件_厦大数据库实验室博客 (xmu.edu.cn)https://dblab.xmu.edu.cn/blog/1608/

3.在网盘中下载需要用到的文件

ubuntukylin-16.04-desktop-amd64:光盘映像文件,用于创建虚拟机

spark-2.1.0-bin-without-hadoop:spark

jdk-8u162-linux-x64.tar:java1.8 的jdk

hadoop-2.7.1.tar

4.创建、运行虚拟机

Ubuntu虚拟机的创建自行查看林子雨的教程,也可以上网搜,我认为要注意以下几点:

①虚拟硬盘选择50G

②在创建时选择的光盘映像文件(.iso)一定要和自己的Ubuntu版本匹配

③一定要注意Ubuntu版本和Spark版本能不能匹配!

④不要选择自动安装

林子雨 VirtualBox + Ubuntu[linux] 配置 java、hadoop、Spark[python]、pyspark快速配置流程,linux,ubuntu,hadoop,spark,分布式

启动后,点击virtualbox的菜单“设备”选项,选择“安装增强功能”,系统便会自动安装好增强的功能,如果如果需要提示需要确认,输入return即可。

打开终端,执行 sudo apt-get install virtualbox-guest-dkms

关机重启,更改分辨率以便于显示全部屏幕。

5.Hadoop部分

依次执行(以下shell指令均在虚拟机终端执行)

①sudo useradd -m hadoop -s /bin/bash 创建hadoop用户

②sudo passwd hadoop 设置密码

③sudo adduser hadoop sudo 添加管理员权限

④切换虚拟机账户到hadoop账户

⑤sudo apt-get update 更新apt,如若更新不了,

去到【虚拟机的系统设置-软件和更新-更改下载节点-mirrors.aliyun.com-重新载入】,更新apt,

在更改其他节点都不行的情况下,先往下进行,但apt不更新可能会导致有些软件无法下载。

⑥sudo apt-get install vim ,下载vim 

⑦sudo apt-get install openssh-server 安装 SSH server

⑧ssh localhost ,登录本机

⑨设置无密码登录

exit                           # 退出刚才的 ssh localhost
cd ~/.ssh/                     # 若没有该目录,请先执行一次ssh localhost
ssh-keygen -t rsa              # 会有提示,都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys  # 加入授权

⑩ssh localhost

关机,在VirtualBox更改网络连接方式为桥接网卡。

林子雨 VirtualBox + Ubuntu[linux] 配置 java、hadoop、Spark[python]、pyspark快速配置流程,linux,ubuntu,hadoop,spark,分布式

通过FTP软件把三个文件上传到一个你能在虚拟机找到的地方,比方说Downloads/下载,然后在虚拟机上cd,切换到该目录下,对文件进行解压相关操作。

解压:

  1. sudo tar -zxf ~/下载/hadoop-2.6.0.tar.gz -C /usr/local 
  2. cd /usr/local/
  3. sudo mv ./hadoop-2.6.0/ ./hadoop 
  4. sudo chown -R hadoop ./hadoop 
  5. cd /usr/local/hadoop
  6. ./bin/hadoop version 查看是否安装成功

hadoop到这里就结束了,伪分布式或其他方式配置参考林老师的教程,学习spark可以暂时不继续配hadoop

Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0(2.7.1)/Ubuntu14.04(16.04)_厦大数据库实验室博客 (xmu.edu.cn)https://dblab.xmu.edu.cn/blog/7/

6.Java部分

①cd /usr/lib
②sudo mkdir jvm     #创建/usr/lib/jvm目录用来存放JDK文件
③cd ~ 
④cd Downloads       

⑤sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm  #把JDK文件解压到/usr/lib/jvm目录下

⑥cd ~
⑦vim ~/.bashrc

文件开头摁住a:append修改文件(esc退出编辑,wq保存文件)添加:

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

⑧source ~/.bashrc

⑨java -version   查看是否安装成功

7.Spark部分

①sudo tar -zxf ~/下载/spark-2.1.0-bin-without-hadoop.tgz -C /usr/local/
②cd /usr/local
③sudo mv ./spark-2.1.0-bin-without-hadoop/ ./spark
④sudo chown -R hadoop:hadoop ./spark          # 此处的 hadoop 为你的用户名

⑤cd /usr/local/spark
⑥cp ./conf/spark-env.sh.template ./conf/spark-env.sh

去虚拟机找这个spark-env.sh文件,右击,vim编辑,首行添加

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

⑦vim ~/.bashrc

 首行添加:

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=$PATH:${JAVA_HOME}/bin:/usr/local/hbase/bin
export HADOOP_HOME=/usr/local/hadoop
export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH
export PYSPARK_PYTHON=python3
export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$PATH

 PYTHONPATH这一行有个py4j-0.10.7-src.zip,这个zip文件的版本号一定要和“/usr/local/spark/python/lib”目录下的py4j-0.10.4-src.zip文件保持版本一致。

⑧source ~/.bashrc

⑨cd /usr/local/spark

⑩bin/run-example SparkPi 2>&1 | grep "Pi is" 验证spark是否安装成功,成功则会输出圆周率

运行pyspark

bin/pyspark

林子雨 VirtualBox + Ubuntu[linux] 配置 java、hadoop、Spark[python]、pyspark快速配置流程,linux,ubuntu,hadoop,spark,分布式

如图所示即为运行成功,exit()退出。

注意事项

所有shell指令务必按顺序执行,本人亲测有效。

要仔细注意FTP传到虚拟机的文件在哪里,解压的时候若切换到了错误的目录,会提示文件不存在。

所有shell指令之间有很多空格,可以手打,但容易遗漏,建议虚拟机打开浏览器打开本博客直接复制粘贴。

如若你看到这里已经配置成功,麻烦点赞收藏评论,也欢迎有问题者及时评论。文章来源地址https://www.toymoban.com/news/detail-848890.html

到了这里,关于林子雨 VirtualBox + Ubuntu[linux] 配置 java、hadoop、Spark[python]、pyspark快速配置流程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark,hadoop,Linux基础命令

    目录 Linux命令 查看主机名:hostname​编辑 修改主机名:hostnamectl set-hostname xxx 创建新用户,该命令只能由 root 用户使用:useradd 设置或修改指定用户的口令:passwd 显示当前目录:pwd 显示指定目录中的文件或子目录信息。当不指定文件或目录时,显示 当前工作目录中的文件或子目

    2024年03月24日
    浏览(30)
  • Hadoop 之 Spark 配置与使用(五)

    环境 版本 Anolis Anolis OS release 8.6 Jdk java version “11.0.19” 2023-04-18 LTS Spark 3.4.1 Spark 下载 域名 地址 类别 nn 192.168.1.6 master nd1 192.168.1.7 slave nd2 192.168.1.8 slave 同单机配置,在 nd1 、nd2 部署 spark,并设置环境变量(也可利用 scp 命令将住节点下配置好的文件拷贝到从节点) workers 文

    2024年02月15日
    浏览(22)
  • Windows下配置Hadoop及Spark环境

    教程所用各版本说明 由于项目用的JDK17,所以单独给Hadoop配了JDK11,建议直接配置JAVA_HOME环境变量为JDK11,因为后面Spark需要用到JAVA_HOME 下载JDK11 链接:https://www.oracle.com/java/technologies/javase/jdk11-archive-downloads.html 目前Hadoop和Spark兼容 JDK11 和 JDK8 单独修改Hadoop的话,需要在Hadoop目

    2023年04月20日
    浏览(32)
  • Mac 配置Hadoop、spark、Scala、jdk

    下载地址: Java Downloads | Oracle 1.下载好使用 终端 进行解压 2.配置环境变量 1.终端打开 .bash_profile 2.将以下代码放进 .bash_profile 里面(注意修改路径) 3.esc按键 + :号键 输入 wq (保存并退出) 4.重新加载 .bash_profile 文件 5.输入以下代码检查配置是否成功 下载链接: News | Apache

    2024年03月26日
    浏览(33)
  • hadoop集群搭建、spark集群搭建、pyspark搭建(linux+window)

    本文记录学习过程中Hadoop、zookeeper、spark集群搭建,主要为pyspark库服务(具体为window上pyspark环境和pyspark库,linux上spark框架、pyspark应用程序、pyspark环境和pyspark库)。pyspark环境是用anaconda3搭建的环境。pyspark应用程序,是安装spark集群里面自带的,提供一个python解释器环境来执

    2024年01月22日
    浏览(37)
  • hadoop(伪分布式)上的spark和Scala安装与配置详细版

    在搭建spark和Scala前提下,必需安装好hive和java,和 Hadoop的伪分布式 哦 1、安装与配置Scale        (1)去官网下载Scala         官网地址: The Scala Programming Language (scala-lang.org) https://www.scala-lang.org/ 这里我要的是scala-2.2.12.12.tgz 然后我们点击 all releases 点进去之后往下找 然后

    2024年04月28日
    浏览(44)
  • 构建大数据环境:Hadoop、MySQL、Hive、Scala和Spark的安装与配置

    在当今的数据驱动时代,构建一个强大的大数据环境对于企业和组织来说至关重要。本文将介绍如何安装和配置Hadoop、MySQL、Hive、Scala和Spark,以搭建一个完整的大数据环境。 安装Hadoop 首先,从Apache Hadoop的官方网站下载所需的Hadoop发行版。选择适合你系统的二进制发行版,下

    2024年02月11日
    浏览(41)
  • Hadoop-HA-Hive-on-Spark 4台虚拟机安装配置文件

    apache-hive-3.1.3-bin.tar spark-3.0.0-bin-hadoop3.2.tgz hadoop-3.1.3.tar.gz 在hdfs上新建 spark-history(设置权限777),spark-jars文件夹 上传jar到hdfs 链接hadoop中的文件 ln -s 源文件名 新文件名 链接hive中的文件 ln -s 源文件名 新文件名 链接hadoop中的文件 ln -s 源文件名 新文件名

    2024年02月07日
    浏览(35)
  • 大数据实战(hadoop+spark+python):淘宝电商数据分析

    虚拟机:Ubuntu 20.04.6 LTS docker容器 hadoop-3.3.4 spark-3.3.2-bin-hadoop3 python,pyspark, pandas,matplotlib mysql,mysql-connector-j-8.0.32.jar(下载不需要积分什么的) 淘宝用户数据 以上的技术积累需要自行完成 创建容器(##ubuntu的代码块,在ubuntu中运行,无特殊说明的在docker中运行) 更新软件

    2024年02月11日
    浏览(56)
  • Linux CentOS下大数据环境搭建(zookeeper+hadoop+hbase+spark+scala)

    本篇文章是结合我个人学习经历所写,如果遇到什么问题或者我有什么错误,欢迎讨论。 百度网盘链接:https://pan.baidu.com/s/1DCkQQVYqYHYtPws9hWGpgw?pwd=zh1y 提取码:zh1y 软件在连接中VMwareWorkstation_V16.2.1_XiTongZhiJia的文件夹下。 双击运行安装包,这里下一步即可。 这里勾选我接受许可

    2024年04月15日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包