一、 配置安装hadoop环境

这篇具有很好参考价值的文章主要介绍了一、 配置安装hadoop环境。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、 配置安装hadoop环境

1.1 在虚拟机安装linux操作系统

1)使用的虚拟机为VMware Workstation Pro

2) 新建虚拟机

1.2使用MobaXterm_Personal_22.1管理linux系统

1)MobaXterm主要用于操作linux系统,可以同时登录多态linux服务器进行操作。

2)使用MobaXterm登录linux系统

1.3 jdk的安装步骤

1)卸载原有的jdk

(2)卸载已经安装的jdk

(3) 安装jdk,解压缩 jdk-8u291-linux-x64.tar.gz到opt目录下

(4) 配置jdk的环境变量

(5) 配置文件生效

1.4大数据Hadoop环境的安装配置

1)上传hadoop安装包hadoop-3.2.2.tar.gz到centeos的/opt目录下

2)解压缩hadoop-3.2.2.tar.gz

3) 配置hadoop的环境变量将hadoop环境变量设置到/etc/profile文件中

单机版的配置

hadoop伪分布式环境的配置

(1)了解hadoop运行模式

(2) 伪分布式环境配置的步骤

3)测试Hdfs文件系统

4) 伪分布式yarn资源管理的配置

                                                5).使用伪分布式实现词频统计的测试

  • 配置安装hadoop环境
    1. 在虚拟机安装linux操作系统

1)使用的虚拟机为VMware Workstation Pro

hadoop安装与配置,hadoop,hdfs,大数据

 文章来源地址https://www.toymoban.com/news/detail-755288.html

 

  1. 新建虚拟机

(1)点击文件---新建虚拟机;点下一步

hadoop安装与配置,hadoop,hdfs,大数据

 

(2)点下一步

hadoop安装与配置,hadoop,hdfs,大数据

 

(3)点下一步

hadoop安装与配置,hadoop,hdfs,大数据

 

(4)客户机操作系统选:linux(L)  ,版本选:centos 7 64位

hadoop安装与配置,hadoop,hdfs,大数据

 

(5)命名并选好位置后点下一步

hadoop安装与配置,hadoop,hdfs,大数据

 

(6)处理器数量选:2;内核数量选:2;点下一步

hadoop安装与配置,hadoop,hdfs,大数据

 

(7)使用8GB内存

hadoop安装与配置,hadoop,hdfs,大数据

 

(8)使用网络地址转换;点下一步

hadoop安装与配置,hadoop,hdfs,大数据

 

(9)点下一步

hadoop安装与配置,hadoop,hdfs,大数据

 

(10)点下一步

hadoop安装与配置,hadoop,hdfs,大数据

 

(11)点下一步

hadoop安装与配置,hadoop,hdfs,大数据

 

(12)将最大磁盘大小改成60;点下一步

hadoop安装与配置,hadoop,hdfs,大数据

 

(13)点下一步,点完成

hadoop安装与配置,hadoop,hdfs,大数据

 

(14)点击编辑虚拟机,加载centeos操作系统的镜像安装文件,点击确定结束

hadoop安装与配置,hadoop,hdfs,大数据

hadoop安装与配置,hadoop,hdfs,大数据 

 

(15)点击开启此虚拟机,运行安装;等一会儿,出现此界面,选中文

hadoop安装与配置,hadoop,hdfs,大数据

 

(16)软件选择:开发及生成工作站

hadoop安装与配置,hadoop,hdfs,大数据

 

(17)网络和主机名选已连接;点完成

hadoop安装与配置,hadoop,hdfs,大数据

 

(18)设置 ROOT密码

hadoop安装与配置,hadoop,hdfs,大数据

 

(19) 安装完后点重启,开启虚拟机

hadoop安装与配置,hadoop,hdfs,大数据

hadoop安装与配置,hadoop,hdfs,大数据 

 

(20)查看ip地址(鼠标右键单击,点打开终端,输入:ifconfig)

hadoop安装与配置,hadoop,hdfs,大数据

 

1.2使用MobaXterm_Personal_22.1管理linux系统

1)MobaXterm主要用于操作linux系统,可以同时登录多态linux服务器进行操作。

2)使用MobaXterm登录linux系统

(1)在虚拟机查看ip和ssh服务是否启动

hadoop安装与配置,hadoop,hdfs,大数据

 

(2)使用ping命令查看外网是否能够访问:

hadoop安装与配置,hadoop,hdfs,大数据

hadoop安装与配置,hadoop,hdfs,大数据

 

 

(3)使用systemctl status sshd查看会话服务是否启动

hadoop安装与配置,hadoop,hdfs,大数据

 

(4)双击MobaXterm进入MobaXterm系统

hadoop安装与配置,hadoop,hdfs,大数据

 

(5)使 用MobaXterm登录linux系统

hadoop安装与配置,hadoop,hdfs,大数据

hadoop安装与配置,hadoop,hdfs,大数据

 

 

(6)输入密码,登录成功:

hadoop安装与配置,hadoop,hdfs,大数据

 

1.3 jdk的安装步骤

1)卸载原有的jdk

(1)查看当前环境下已安装的jdk

rpm -qa | grep 安装包名称  (查看安装包的指令)

rpm -qa | grep java

hadoop安装与配置,hadoop,hdfs,大数据

 

(2)卸载已经安装的jdk

rpm -e --nodeps 要卸载的安装包名称

hadoop安装与配置,hadoop,hdfs,大数据

 

输入java看到未找到命令的提示,表示卸载完成

hadoop安装与配置,hadoop,hdfs,大数据

 

(3) 安装jdk,解压缩 jdk-8u291-linux-x64.tar.gz到opt目录下

tar -zxvf jdk-8u291-linux-x64.tar.gz

hadoop安装与配置,hadoop,hdfs,大数据

 

(4)  配置jdk的环境变量

vi /etc/profile

加入以下内容:

export JAVA_HOME=jdk的安装路径

export PATH=$PATH:$JAVA_HOME/bin

当前jdk的安装路径为:/opt/jdk1.8.0_291

export JAVA_HOME=/opt/jdk1.8.0_291

export CLASSPATH=.:$JAVA_HOME  

export PATH=$PATH:$JAVA_HOME/bin

hadoop安装与配置,hadoop,hdfs,大数据

 

按下esc,输入:wq存盘退出

(5) 配置文件生效

source  /etc/profile

输入java  -version

hadoop安装与配置,hadoop,hdfs,大数据

 

环境变量配置完成

Javac MyClass.java

Java MyClass

hadoop安装与配置,hadoop,hdfs,大数据

 

1.4大数据Hadoop环境的安装配置

1)上传hadoop安装包hadoop-3.2.2.tar.gz到centeos的/opt目录下

hadoop安装与配置,hadoop,hdfs,大数据

 

2)解压缩hadoop-3.2.2.tar.gz

(1)tar -zxvf hadoop-3.2.2.tar.gz

hadoop安装与配置,hadoop,hdfs,大数据

 

  1. 解压缩以后的目录

hadoop安装与配置,hadoop,hdfs,大数据

 

  1.  加压缩后进入hadoop-3.2.2/bin目录下,运行查看hadoop版本的命令

./hadoop version

hadoop安装与配置,hadoop,hdfs,大数据

 

  1. 配置hadoop的环境变量将hadoop环境变量设置到/etc/profile文件中

单机版的配置

  1.  vi  /etc/profile

内容如下:

# 增加hadoop环境变量

export HADOOP_HOME=/opt/hadoop-3.2.2

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

# 保存后刷新下环境变量

source /etc/profile

hadoop安装与配置,hadoop,hdfs,大数据

 

  1.   验证,使用hadoop自带的词频统计组件,实现统计功能

使用news.txt文件作为词频统计的输入文件(数据源),放置到/opt/input目录下

hadoop安装与配置,hadoop,hdfs,大数据

 

进入/opt/hadoop-3.2.2/share/hadoop/mapreduce文件夹运行词频统计命令

hadoop jar hadoop-mapreduce-examples-3.2.2.jar grep /opt/input ./output '新冠*'

(此命令用于统计/input/news.txt文件中统计’新冠’词组出现的次数。)

hadoop安装与配置,hadoop,hdfs,大数据

 hadoop安装与配置,hadoop,hdfs,大数据

 

hadoop伪分布式环境的配置

(1)了解hadoop运行模式

  1. 独立(本地)运行模式:

无需任何守护进程,所有的程序都运行在同一个JVM上执行。在独立模式下调试MR程序非常高效方便。所以一般该模式主要是在学习或者开发阶段调试使用 。

  1. 伪分布式模式:

Hadoop守护进程运行在本地机器上,模拟一个小规模的集群,换句话说,可以配置一台机器的Hadoop集群,伪分布式是完全分布式的一个特例。

  1. 完全分布式模式:

Hadoop守护进程运行在一个集群上

  1. 伪分布式环境配置的步骤
  1. 修改配置文件 core-site.xml

        vi core-site.xml

hadoop安装与配置,hadoop,hdfs,大数据

 

内容如下:

<configuration>

<!--指定Hadoop运行时产生文件的存储目录-->

    <property>

        <name>hadoop.tmp.dir</name>

        <value>/opt/data/hadoop/tmp</value>

    </property>

    <!--指定HDFS中NameNode的地址-->

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://hadoop2:9000</value>

    </property>

</configuration>

  1. 修改配置文件 hdfs-site.xml

vi hdfs-site.xml

#搭建集群后,hadoop本身自带了一个webUI访问页面

<configuration>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

</configuration>

  1. 格式化namenode

hdfs namenode -format

出现successfully表示格式化成功

hadoop安装与配置,hadoop,hdfs,大数据

 

  1. 开启 NameNode 和 DataNode 进程

进入/opt/hadoop-3.2.2/sbin目录

hadoop安装与配置,hadoop,hdfs,大数据

 

运行

./start-dfs.sh

出现以下错误

hadoop安装与配置,hadoop,hdfs,大数据

 

表示执行用户身份错误,修改/etc/profile文件,增加以下配置

vi /etc/profile

export HDFS_NAMENODE_USER=root

export HDFS_DATANODE_USER=root

export HDFS_SECONDARYNAMENODE_USER=root

export YARN_RESOURCEMANAGER_USER=root

export YARN_NODEMANAGER_USER=root

再次运行,出现以下错误,需要修改主机名称

hadoop安装与配置,hadoop,hdfs,大数据

 

修改主机名

 vi /etc/sysconfig/network

hadoop安装与配置,hadoop,hdfs,大数据

 

修改/etc/hosts文件

vi /etc/hosts

hadoop安装与配置,hadoop,hdfs,大数据

 

重新启动服务器

SSH安装免密登陆

设置无密码登录

#~ 代表的是用户的主文件夹,即 “/home/用户名” 这个目录,如你的用户名为 hadoop,则 ~ 就代表 “/home/hadoop/”

cd ~/.ssh/                     # 若没有该目录,请先执行一次ssh localhost

ssh-keygen -t rsa              # 会有提示,都按回车就可以

hadoop安装与配置,hadoop,hdfs,大数据

 

cat id_rsa.pub >> authorized_keys  # 加入授权

chmod 600 ./authorized_keys    # 修改文件权限

修改core-site.xml文件,变更为以下内容

hadoop安装与配置,hadoop,hdfs,大数据

 

运行时出现jdk路径没有找到的错误,

hadoop安装与配置,hadoop,hdfs,大数据

 

则修改/opt/hadoop-3.2.2/etc/hadoop/ hadoop-env.sh

export JAVA_HOME=/opt/jdk1.8.0_291

  1. 在sbin目录下再次启动

./start-dfs.sh

hadoop安装与配置,hadoop,hdfs,大数据

 

使用jps命令查看进程

hadoop安装与配置,hadoop,hdfs,大数据

 

  1. 使用浏览器访问hdfs文件系统

http://你的centeos的ip地址:9870

hadoop安装与配置,hadoop,hdfs,大数据

 

3)测试Hdfs文件系统

Hdfs---hadoop分布式文件系统

在hdfs上创建目录,使用以下命令创建目录

hdfs dfs -mkdir /user

hdfs dfs -mkdir /user/zrgj

hdfs dfs -mkdir /user/zrgj/input

hadoop安装与配置,hadoop,hdfs,大数据

 

hadoop安装与配置,hadoop,hdfs,大数据

 

  1. 伪分布式yarn资源管理的配置
  1.  配置yarn的jdk路径(jdk路径:/opt/jdk1.8.0_291)

进入/opt/hadoop-3.2.2/etc/hadoop目录,编辑yarn-env.sh

d  /opt/hadoop-3.2.2/etc/hadoop

vi  yarn-env.sh

hadoop安装与配置,hadoop,hdfs,大数据

 

  1. 配置yarn-site.xml(位于/opt/hadoop-3.2.2/etc/hadoop目录)

vi yarn-site.xml

<configuration>

    <!--Reducer获取数据的方式-->

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

   <!-- yarn的resourcemanager的地址-->

   <property>

        <name>yarn.resourcemanager.hostname</name>

        <value>hdp01</value>

   </property>

   <property>

        <name>yarn.nodemanager.env-whitelist</name>        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>

    </property>

</configuration>

  1.  配置 mapred-env.sh(/opt/hadoop-3.2.2/etc/hadoop目录)的jdk运行环境(jdk路径:/opt/jdk1.8.0_291)

vi mapred-env.sh

hadoop安装与配置,hadoop,hdfs,大数据

 

  1.  .配置mapred-site.xml(/opt/hadoop-3.2.2/etc/hadoop目录)

vi mapred-site.xml

<configuration>

        <property>

                <name>mapreduce.framework.name</name>

                <value>yarn</value>

    </property>

    <property>

                <name>mapreduce.jobhistory.address</name>

                <value>hdp01:10020</value>

    </property>

    <property>

                <name>mapreduce.jobhistory.webapp.address</name>

                <value>hdp01:19888</value>

    </property>

    <property>

        <name>mapreduce.application.classpath</name>

        <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>

    </property>

</configuration>

  1.  启动yarn集群(进入/opt/hadoop-3.2.2/sbin目录)

启动resourcemanager(资源管理进程):

./yarn-daemon.sh start resourcemanager

启动nodemanager(服务器节点管理进程):

./yarn-daemon.sh start nodemanager

使用jps查看进程

hadoop安装与配置,hadoop,hdfs,大数据

 

使用浏览器查看

http://你的ip地址:8088/

例如:http://192.168.244.130:8088/

hadoop安装与配置,hadoop,hdfs,大数据

 

  1.  停止所有的服务

./stop-all.sh

hadoop安装与配置,hadoop,hdfs,大数据

 

启动所有的节点

./start-all.sh

hadoop安装与配置,hadoop,hdfs,大数据

 

  1.  配置历史服务器

配置mapred-site.xml

vi mapred-site.xml

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

    </property>

<!-- 配置历史服务器 -->

<property>

<name>mapreduce.jobhistory.address</name>

<value>hdp01:10020</value>

    </property>

    <property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>hdp01:19888</value>

    </property>

</configuration>

  1.  启动历史服务器(进入/opt/hadoop-3.2.2/sbin目录)

./mr-jobhistory-daemon.sh start historyserver

hadoop安装与配置,hadoop,hdfs,大数据

 

  1.  浏览查看历史服务器

http://自己centeos的ip地址:19888/

例如:

http://192.168.244.130:19888/

hadoop安装与配置,hadoop,hdfs,大数据

 

5).使用伪分布式实现词频统计的测试

(1) 上传数据文件到hdfs文件系统中

hdfs dfs -put 本地目录的文件  hdfs://hdp01:9000/user/zrgj/input

例如:

hdfs dfs -put /opt/input/news.txt hdfs://hdp01:9000/user/zrgj/input

hadoop安装与配置,hadoop,hdfs,大数据

 

  1. 使用hadoop自带的词频统计组件hadoop-mapreduce-examples-3.2.2.jar执行词频统计

上传所有xml文件到hdfs系统

hdfs dfs -put /opt/input/news.txt /user/zrgj/input

执行词频统计:

hadoop jar hadoop-mapreduce-examples-3.2.2.jar wordcount /user/zrgj/input/news.txt /user/zrgj/output/

hadoop安装与配置,hadoop,hdfs,大数据

hadoop安装与配置,hadoop,hdfs,大数据

 

 

查看统计的结果:

hdfs dfs -tail /user/output/part-r-00000

 

到了这里,关于一、 配置安装hadoop环境的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 构建大数据环境:Hadoop、MySQL、Hive、Scala和Spark的安装与配置

    在当今的数据驱动时代,构建一个强大的大数据环境对于企业和组织来说至关重要。本文将介绍如何安装和配置Hadoop、MySQL、Hive、Scala和Spark,以搭建一个完整的大数据环境。 安装Hadoop 首先,从Apache Hadoop的官方网站下载所需的Hadoop发行版。选择适合你系统的二进制发行版,下

    2024年02月11日
    浏览(53)
  • 【开发环境】安装 Hadoop 运行环境 ( 下载 Hadoop | 解压 Hadoop | 设置 Hadoop 环境变量 | 配置 Hadoop 环境脚本 | 安装 winutils )

    Hadoop 发布版本在 https://hadoop.apache.org/releases.html 页面可下载 ; 当前最新版本是 3.3.6 , 点击 Binary download 下的 binary (checksum signature) 链接 , 进入到 Hadoop 3.3.6 下载页面 : 下载地址为 : https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz 官方下载速度很慢 ; 这里提供一个 Hadoop 版

    2024年02月13日
    浏览(71)
  • 【Hadoop】-HDFS集群环境部署[2]

    目录 一、VMware虚拟机中部署 1、安装包下载 2、集群规划 3、上传解压 3.1.上传hadoop安装包到node1节点中 3.2.解压缩安装包到/export/server/中 3.3.构建软连接 4、进入hadoop安装包内 4.1Hadoop安装包目录结构 4.2修改配置文件,应用自定义设置 4.2.1.配置workers文件 4.2.2.配置hadoop-env.sh文件

    2024年04月27日
    浏览(50)
  • 一、 配置安装hadoop环境

    一、 配置安装hadoop环境 1.1 在虚拟机安装linux操作系统 1)使用的虚拟机为VMware Workstation Pro 2) 新建虚拟机 1.2使用MobaXterm_Personal_22.1管理linux系统 1)MobaXterm主要用于操作linux系统,可以同时登录多态linux服务器进行操作。 2)使用MobaXterm登录linux系统 1.3 jdk的安装步骤 1)卸载原有

    2024年02月05日
    浏览(42)
  • Hadoop依赖环境配置与安装部署

      Hadoop是一个 分布式系统基础架构 , 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是 大数据 技术中的基石。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理,用户可以在不了解分布式底层细节的情况下,开发分布式程序,用户可以轻松

    2024年02月09日
    浏览(44)
  • Hadoop简介、安装与环境变量配置

    Hadoop是由Apache基金会开源的具有可靠、可扩展、分布式计算的大数据框架。Hadoop可以简单的从单个服务器扩展到数千台机器,提供分布式的计算和存储服务。Hadoop通过检测和处理应用程序层的故障来为服务器集群提供高可用性服务。 Hadoop作为大数据框架,更多的是作为集群面

    2024年02月09日
    浏览(46)
  • windows环境下安装配置hadoop

    (需要提前安装好JDK,否则会出错。) 1、进入 https://archive.apache.org/dist/hadoop/ 下载所需要的hadoop版本 (演示:hadoop-2.9.1.tar.gz(可能需要双重解压)) 下载后解压至想要安装的目录位置 2、下载winutils.exe(GitHub - cdarlint/winutils: winutils.exe hadoop.dll and hdfs.dll binaries for hadoop windo

    2023年04月08日
    浏览(55)
  • 一、1、Hadoop的安装与环境配置

    安装JDK: 首先检查Java是否已经安装: 如果没有安装,点击链接https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 并选择相应系统以及位数下载(本文选择jdk-8u381-linux-x64.tar.gz,如具体版本不同则灵活修改) 为其单独创立一个文件夹,然后将其放到该目录下(

    2024年02月15日
    浏览(42)
  • 单机搭建hadoop环境(包括hdfs、yarn、hive)

    单机可以搭建伪分布式hadoop环境,用来测试和开发使用,hadoop包括: hdfs服务器, yarn服务器,yarn的前提是hdfs服务器, 在前面两个的基础上,课可以搭建hive服务器,不过hive不属于hadoop的必须部分。 过程不要想的太复杂,其实挺简单,这里用最糙最快最直接的方法,在我的单

    2024年02月20日
    浏览(54)
  • Windows环境下Hadoop的安装和配置

    Windows10 JDK1.8.0_192 Hadoop2.7.3 首先要安装好Java。没装的先搜索安装Java的教程吧。 这里我已经安装好了,需要配置好环境变量,Hadoop的安装会用到。 路径:C:Program FilesJavajdk1.8.0_192 环境变量:HAVA_HOME,值:C:Program FilesJavajdk1.8.0_192 从hadoop-2.7.3下载hadoop-2.7.3.tar.gz,解压后放到

    2023年04月08日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包