伪分布式hadoop+spark+scala 超详细搭建

这篇具有很好参考价值的文章主要介绍了伪分布式hadoop+spark+scala 超详细搭建。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

安装伪分布式hadoop

安装 JAVA 环境

实现免密登陆

Hadoop环境的安装与配置

安装伪分布式spark

 安装伪分布式scala


安装伪分布式hadoop

安装 JAVA 环境

步骤一:下载 JDK 安装包(jdk-8u152-linuxx64.tar.gz)

官网地址:https://www.oracle.com/java /technologies /javase-jdk8-downloads.html

步骤二:卸载自带 OpenJDK

[root@master ~]# rpm -qa | grep java

卸载相关服务,键入命令 rpm –e –-nodeps 删除的包

 [root@master ~]# rpm -qa | grep java

[root@master ~]# java --version

bash: java: 未找到命令

伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala

步骤三:安装 JDK

安装命令如下,将安装包解压到/usr/local/src 目录下,将安装包放在了root目录下

[root@master ~]# tar -zxvf jdk-8u152-linux-x64.tar.gz -C /usr/local/src/

[root@master ~]# ls /usr/local/src/
jdk1.8.0_152

伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala

步骤四:设置 JAVA 环境变量

[root@master ~]# vi /etc/profile

在文件的最后增加如下两行:

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

export PATH=$PATH:$JAVA_HOME/bin

执行 source 使设置生效:

[root@master ~]# source /etc/profile

检查 JAVA 是否可用。

[root@master ~]# echo $JAVA_HOME /usr/local/src/jdk1.8.0_152

[root@master ~]# java -version

java version "1.8.0_152"

Java(TM) SE Runtime Environment (build 1.8.0_152-b16)

Java HotSpot(TM) 64-Bit Server VM (build 25.152-b16, mixed mode)

能够正常显示 Java 版本则说明 JDK 安装并配置成功。

伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala

实现免密登陆

步骤一:创建ssh秘钥,输入如下命令,生成公私密钥

[root@master ~]# ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

步骤二:将master公钥id_dsa复制到master进行公钥认证,实现本机免密登陆,测试完exit退出

[root@master ~]# ssh-copy-id -i /root/.ssh/id_dsa.pub master

[root@master ~]# ssh master

[root@master ~]# exit

Hadoop环境的安装与配置

步骤一:将/root/runajian下的hadoop-2.7.7.tar.gz压缩包解压到/opt目录下,并将解压文件改名为hadoop

步骤二:修改环境变量

[root@master ~]# vim /etc/profile

export HADOOP_HOME=/opt/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

[root@master ~]# source /etc/profile 

伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala

步骤三:编辑/opt/hadoop/etc/hadoop/hadoop-env.sh文件

[root@master ~]# vi /opt/hadoop/etc/hadoop/hadoop-env.sh

修改配置文件为jdk的安装路径:

export JAVA_HOME=/usr/local/src/jdk1.8.0_152
伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala

步骤四:编辑/opt/hadoop/etc/hadoop/core-site.xml文件

[root@master ~]# vi /opt/hadoop/etc/hadoop/core-site.xml
修改配置文件为:

<configuration>

<property>
<name>fs.defaultFS</name>
<value>hdfs://master</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/tmp</value>
</property>
</configuration>

步骤五:编辑/opt/hadoop/etc/hadoop/hdfs-site.xml文件

[root@master ~]#  vi /opt/hadoop/etc/hadoop/hdfs-site.xml

修改配置文件:

<configuration>

<property>
<name>dfs.replication</name>
<value>3</value>
</property>

</configuration>

步骤六:

复制/opt/hadoop/etc/hadoop/mapred-site.xml.tmplate 名为mapred-site.xml 

[root@master ~]# cp /opt/hadoop/etc/hadoop/mapred-site.xml.template /opt/hadoop/etc/hadoop/mapred-site.xml

编辑/opt/hadoop/etc/hadoop/mapred-site.xml文件

[root@master ~]# vi /opt/hadoop/etc/hadoop/mapred-site.xml
修改配置为:

<configuration>

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

步骤七:编辑/opt/hadoop/etc/hadoop/yarn-site.xml文件

[root@master ~]# vi /opt/hadoop/etc/hadoop/yarn-site.xml

修改配置为:

<configuration>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

</configuration>

 步骤八:编辑/opt/hadoop/etc/hadoop/slaves文件

[root@master ~]# vim /opt/hadoop/etc/hadoop/slaves
伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala

步骤九: 格式化hdfs

[root@master ~]# hdfs namenode -format
伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala

 步骤十:启动集群 jps查看,登录网页

[root@master ~]# start-all.sh

[root@master ~]# jps
伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala

在浏览器的地址栏输入http://master:50070,进入页面可以查看NameNode和DataNode 信息 

伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala

安装伪分布式spark

步骤一:安装命令如下,将安装包解压到/usr/local目录下,将安装包放在了root目录下

[root@master ~]# tar -zxf spark-2.0.0-bin-hadoop2.6.tgz -C /usr/local/

伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala

步骤二:复制和重命名后得到spark-env.sh,打开spark-env.sh添加内容

[root@master bin]# cd /usr/local/spark-2.0.0-bin-hadoop2.6/conf/

[root@master conf]# cp spark-env.sh.template spark-env.sh
[root@master conf]# vi spark-env.sh

export JAVA_HOME=/usr/local/src/jdk1.8.0_152
export HADOOP_HOME=/opt/hadoop
export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop
export SPARK_MASTER_IP=master
export SPART_LOCAL_IP=master

伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala

步骤三:进入spark目录的/sbin下启动spark集群,jps查看

[root@master conf]# cd /usr/local/spark-2.0.0-bin-hadoop2.6/sbin/
[root@master sbin]# ./start-all.sh
[root@master sbin]# jps

伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala

步骤四:启动spark-ahell

[root@master ~]# cd /usr/local/spark-2.0.0-bin-hadoop2.6/
[root@master spark-2.0.0-bin-hadoop2.6]# ./bin/spark-shell


伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala

步骤五:查看网页http://master:8080

伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala

 安装伪分布式scala

步骤一:安装命令如下,将安装包解压到/usr/local目录下,将安装包放在了root目录下

[root@master ~]# tar -zxf scala-2.11.8.tgz -C /usr/local

 伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala

步骤二:配置scala环境变量,重新加载配置文件,运行scala

[root@master ~]# vim /etc/profile

export SCALA_HOME=/usr/local/scala-2.11.8
export PATH=$PATH:$SCALA_HOME/bin

伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala

 [root@master ~]# source /etc/profile
[root@master ~]# scala
Welcome to Scala 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_152).
Type in expressions for evaluation. Or try :help.

伪分布式hadoop+spark+scala 超详细搭建,分布式,hadoop,大数据,spark,scala文章来源地址https://www.toymoban.com/news/detail-859708.html

到了这里,关于伪分布式hadoop+spark+scala 超详细搭建的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop(伪分布式)+Spark(local模式)搭建Hadoop和Spark组合环境

    环境 使用 Ubuntu 14.04 64位 作为系统环境(Ubuntu 12.04,Ubuntu16.04 也行,32位、64位均可),请自行安装系统。 Hadoop版本 : Hadoop 2.7.4 创建hadoop用户 如果你安装 Ubuntu 的时候不是用的 \\\"hadoop\\\" 用户,那么需要增加一个名为 hadoop 的用户。 首先按 ctrl+alt+t 打开终端窗口,输入如下命令创

    2023年04月08日
    浏览(70)
  • Hadoop 伪分布式搭建(超详细)

    Hadoop伪分布式搭建 虚拟机准备阶段操作 安全设置 防火墙相关指令 关闭关闭selinux IP设置 查看机器IP 修改主机名 修改IP及主机名映射 SSH免密登陆 Hadoop伪分布式搭建 JDK配置 解压 配置环境变量 Hadoop配置 解压文件 修改配置文件 配置Hadoop环境变量 验证环境变量是否配置成功 格

    2023年04月13日
    浏览(75)
  • hadoop伪分布式搭建(超详细)

    上一篇文章已经为大家介绍了如何在Linux系统上配置java环境,这为hadoop的集群搭建提供了基础条件,因为Hadoop是由Java编写的 如果还没有在虚拟机配置java系统的小伙伴可以先看一下我的第一篇文章:https://blog.csdn.net/beixige/article/details/129112527 接下来是hadoop伪分布搭建的要准备东

    2024年02月03日
    浏览(59)
  • hadoop伪分布式环境搭建,完整的详细步骤

    1、VMware14 2、一台ubtuntu 18 64位 3、主机名位master 4、ip 地址:192.168.136.31 5、本次实验需要的安装包 1、 查看id 地址 2、 关闭防火墙 命令来关闭防火墙 命令查看当前防火墙状态 3、 修改主机名、 添加主机映射 修改虚拟机hosts文件,将ip地址添加进来 使用 :wq 保存 测试是否修改

    2024年02月08日
    浏览(44)
  • 分布式计算中的大数据处理:Hadoop与Spark的性能优化

    大数据处理是现代计算机科学的一个重要领域,它涉及到处理海量数据的技术和方法。随着互联网的发展,数据的规模不断增长,传统的计算方法已经无法满足需求。因此,分布式计算技术逐渐成为了主流。 Hadoop和Spark是目前最为流行的分布式计算框架之一,它们都提供了高

    2024年01月23日
    浏览(57)
  • 大数据技术栈-Hadoop3.3.4-完全分布式集群搭建部署-centos7(完全超详细-小白注释版)虚拟机安装+平台部署

    目录 环境条件: 1、安装虚拟机(已安装好虚拟机的可跳转至  二、安装JDK与Hadoop) (1)直接新建一台虚拟机 (2)首次启用虚拟机,进行安装 一、集群前置环境搭建(三台机器分别设置hostname、网卡(ip)配置、ssh免密登录) 1、查看一下本机与虚拟机的网卡和ip信息 (1)

    2024年02月06日
    浏览(49)
  • 大数据内容分享(九):Hadoop-生产集群搭建(完全分布式)

    目录 Hadoop运行模式——完全分布式 1、准备3台虚拟机(关闭防火墙、配置静态IP 和 主机名称) 2、安装JDK 和 Hadoop 并配置JDK和Hadoop的环境变量 3、配置完全分布式集群 4、集群配置 1)集群部署规划 2)配置文件说明 3)配置集群 5、集群启动 与 测试 1)workers的配置 2)启动集

    2024年02月21日
    浏览(100)
  • 大数据开发·关于虚拟机Hadoop完全分布式集群搭建教程

    官网链接 进入后网站如图,各位按需下载 官网链接 进入页面点击下载 再根据我们需要下载的软件进入下载页面 点击右侧红框内的免费授权页面获取免费许可 进入后如图,两者我们都需要所以都勾选,填写的邮箱用于接收下载链接,下载后进行安装即可 这里先和大家强调一

    2024年02月07日
    浏览(47)
  • 大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

    前言:七八九用于Spark的编程实验 大数据开源框架之基于Spark的气象数据处理与分析_木子一个Lee的博客-CSDN博客_spark舆情分析 目录 实验环境: 实验步骤: 一、解压 二、配置环境变量:  三、修改配置文件  1.修改spark-env.sh配置文件: 2.修改配置文件slaves: 3.分发配置文件:

    2024年02月11日
    浏览(54)
  • ubuntu下Hadoop以及Spark的伪分布式安装:一

    1.1 安装前说明: 很多初学者在安装的时候会碰到各种各样的问题,尤其各种版本的搭配问题。所以特意做一个初步安装的引导,希望大家都能一次调试出来。 经过测试,jdk11 + scala2.13.13 + hadoop3.3.6+spark3.5.1,这是暂时来说scalsa2能支持的最完美的搭配。Hadoop能支持到的java最完

    2024年04月23日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包