Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包)

这篇具有很好参考价值的文章主要介绍了Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一、上传、解压&配置

(一)上传

(二)解压

(三)配置hadoop系统环境变量

1.配置hadoop环境变量

2.让环境变量生效

3.验证hadoop系统环境变量

二、修改配置文件

 (一)前置介绍

(二)更改配置文件

1.配置Hadoop集群主机点

2.修改core-site.xml文件

3.修改hdfs-site.xml文件

4.修改mapred-site.xml文件

5.修改yarn-site.文件

6.修改slaves文件

三、分发

(一)分发hadoop安装目录

 (二)分发系统变量文件

四、启动集群

(一)格式化集群

(二)启动集群

(三)通过UI查看Hadoop运行状态


本文是以root身份来控制集群启停的,后面会出一篇以hadoop用户来控制集群启停博客。

hadoop2.7.3.tar.gz 安装包提取

链接:https://pan.baidu.com/s/1W3TidAVddQZ4n5Lm2NJB_Q 
提取码:ay17

一、上传、解压&配置

(一)上传

1.上传hadoop安装包到hp1节点中

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

(二)解压

1.解压缩安装包到/export/server/中

tar -zxvf hadoop-2.7.3.tar.gz -C /export/server/

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

2.将 hadoop-2.7.3 改名为hadoop

首先进入相应目录

然后将 hadoop-2.7.3 改名为hadoop,命令为

mv hadoop-2.7.3 hadoop

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

(三)配置hadoop系统环境变量

1.配置hadoop环境变量

vi /etc/profile

 Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

在里面添加如下内容:

export HADOOP_HOME=/export/server/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

2.让环境变量生效

为了让系统变量文件中添加的内容生效,执行 “ source /etc/profile ”命令初始化系统环境变量,使添加的hadoop系统环境变量生效。

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

3.验证hadoop系统环境变量

在虚拟机hp1任意目录执行 “ hadoop version ” 命令,查看当前虚拟机中hadoop的版本号

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

二、修改配置文件

 (一)前置介绍

配置HDFS集群,我们主要涉及到如下文件的修改:

hadoop-env.sh

配置Hadoop运行所需的环境变量

yarn-env.sh

配置YARN运行所需的环境变量

core-site.xml

Hadoop核心全局配置文件

hdfs-site.xml

HDFS核心配置文件

mapred-site.xml

MapReduce核心配置文件

yarn-site.xml

YARN核心配置文件

slaves

配置从节点(DataNode)有哪些

这些文件均存在于 $HADOOP_HOME/etc/hadoop文件夹中

PS: $HADOOP_HOME是后续我们要设置的环境变量,其指代Hadoop安装文件夹即 /export/server/hadoop

修改文件之间需要进入到对应目录

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

(二)更改配置文件

1.配置Hadoop集群主机点

vim hadoop-env.sh

找到JAVA_HOME参数位置,进入如下修改(注意JDK路径)

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

上述配置文件中设置的是Hadoop运行时需要的JDK环境变量,目的是让Hadoop启动时能够执行守护进程。

2.修改core-site.xml文件

vim core-site.xml

该文件是Hadoop的核心配置文件,其目的是配置HDFS地址、端口号,以及临时文件目录。打开配置文件后,在<configuration></configuration>之间添加如下内容

  <property>
        <name>fs.defaultFS</name>
        <value>h
dfs://hp1:9000</value>
    </property>

   <property>
        <name>hadoop.tmp.dir</name>
        <value>
/export/server/hadoop/tmp</value>
    </property>

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

上述核心配置文件中,配置了HDFS的主进程NameNode运行主机(也就是此次Hadoop集群的主节点位置),同时配置了Hadoop运行时生成数据的临时目录。

3.修改hdfs-site.xml文件

vim hdfs-site.xml

该文件用于设置HDFS的NameNode和DataNode两大进程。打开该配置文件,在<configuration></configuration>之间添加如下内容

    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>

    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>
hp2:50090</value>
    </property>

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

在上述配置文件中,配置了HDFS数据块的副本数量(默认值就是3),并根据需要设置了Secondary NameNode所在服务的HTTP协议地址。

4.修改mapred-site.xml文件

该文件是MapReduce的核心配置文件,用于指定MapReduce运行时框架。因为hadoop版本不同,有些版本里面在/etc/hadoop/目录中默认没有该文件,需要先通过 “ cp mapred-site.xml.template mapred-site.xml " 命令将文件复制并重命名为 “ mapred-site.xml "。接着,打开mapred-site.xml文件进行修改:

vim mapred-site.xml

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

在<configuration></configuration>之间添加如下内容

      <property>
            <name>mapreduce.framework.name</name>
            <value>
yarn</value>
      </property>

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

5.修改yarn-site.文件

vim yarn-site.xml

本文件是YARN框架的核心配置文件,需要指定YARN集群的管理者。

在<configuration></configuration>之间添加如下内容

      <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>
hp1</value>
      </property>

      <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>
mapreduce_shuffle</value>
      </property>

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

在上述配置文件中,配置了YARN的主进程ResourceManager运行主机为hp1,同时配置了NodeManager运行时的附属服务,需要配置为mapreduce_shuffle才能正常运行MapReduce默认程序。

6.修改slaves文件

如果是 hadoop 3.x版本即为workers文件

该文件用于记录Hadoop集群所有从节点(HDFS的DataNode 和 YARN 的 NodeManager 所在主机)的主机名,用来配合一键启动脚本启动集群从节点(并且还需要保证关联节点配置了SSH免密登录)。打开该配置文件,先删除里面的内容(默认localhost),然后配置如下内容

hp1

hp2

hp3

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

在上述配置中,配置了Hadoop集群所有从节点的主机名为hp1、hp2、hp3(这是因为此次在该3台机器上搭建Hadoop集群,同时前面的配置文件hdfs-site.xml指定了HDFS服务副本数量为3)

三、分发

(一)分发hadoop安装目录

使用scp命令将虚拟机hp1的hadoop安装目录分发至虚拟机hp2和hp3中存放安装程序的目录

scp -r /export/server/hadoop root@hp2:/export/server/

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

scp -r /export/server/hadoop root@hp3:/export/server/

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

 (二)分发系统变量文件

scp /etc/profile hp2:/etc/profile

scp /etc/profile hp3:/etc/profile

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

执行完上述所有指令后,还需要再其他子节点hp2、hp3上分别执行 "source /etc/profile " 指令立即刷新配置文件。

至此,整个集群所有节点就都有了Hadoop运行所需的环境和文件,Hadoop集群也就安装配置完成。

四、启动集群

(一)格式化集群

hdfs namenode -format 或者 hadoop namenode -format

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

格式化指令只需要再Hadoop集群初次启动前执行即可,后续重复启动就不需要执行格式化了。

(二)启动集群

一键启动集群命令:start-all.sh

一键关闭集群命令:stop-all.sh

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

在整个Hadoop集群服务启动完成之后,可以在各自机器上通过jps指令查看各节点的服务进程启动情况

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

(三)通过UI查看Hadoop运行状态

Hadoop集群正常启动后,它默认开放了50070和8088两个端口,分别用于监控HDFS集群和YARN集群。通过UI可以方便地进行集群的管理和查看,只需要在本地操作系统的浏览器输入集群服务的IP和对应的端口号即可访问。

http://hp1:50070(集群服务IP+端口号) 

查看HDFS集群状态

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据

http://hp1:8088 查看YARN集群状态

Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包),大数据,hdfs,hadoop,大数据文章来源地址https://www.toymoban.com/news/detail-857458.html

到了这里,关于Hadoop集群部署(完全分布式模式、hadoop2.7.3+安装包)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据技术栈-Hadoop3.3.4-完全分布式集群搭建部署-centos7(完全超详细-小白注释版)虚拟机安装+平台部署

    目录 环境条件: 1、安装虚拟机(已安装好虚拟机的可跳转至  二、安装JDK与Hadoop) (1)直接新建一台虚拟机 (2)首次启用虚拟机,进行安装 一、集群前置环境搭建(三台机器分别设置hostname、网卡(ip)配置、ssh免密登录) 1、查看一下本机与虚拟机的网卡和ip信息 (1)

    2024年02月06日
    浏览(46)
  • Hadoop完全分布式集群搭建

    1.在虚拟机关机的状态下选择克隆 2.开始克隆 3.选择从当前状态创建 4.创建一个完整的克隆 5.选择新的虚拟机存储位置(选择内存充足的磁盘) 6.开始克隆 7.克隆完成 8.同样的方法克隆第二台虚拟机 9.在计算机中存在三台虚拟机 将第一台虚拟机更名为hadoop01 修改hadoop01的主机

    2024年02月02日
    浏览(45)
  • Hadoop 完全分布式集群搭建

    部署前可以先了解下 Hadoop运行模式及目录结构-CSDN博客 服务 hadoop102 hadoop103 hadoop104 NameNode √ DataNode √ √ √ Secondary NameNode √ ResourceManager √ NodeManager √ √ √ JobHistoryServer √ IPv4 192.168.88.102 192.168.88.103 192.168.88.104 NodeObject master worker1 worker2 最小化安装 Neokylin7.0 用于搭建 Had

    2024年02月04日
    浏览(55)
  • 【Hadoop】完全分布式集群搭建

    大家好,我是向阳花花花花,这篇文章是我历时三天,推翻重做两小时进行搭建的Hadoop集群(完全分布式)个人笔记和感想,收录于初心的《大数据》专栏。 🏠 个人主页:初心%个人主页 🧑 个人简介:大家好,我是初心,一名正在努力的双非二本院校计算机专业学生 💕

    2024年02月15日
    浏览(40)
  • 1.1完全分布式Hadoop署集群

    大家好,我是行不更名,坐不改姓的宋晓刚,下面将带领大家从基础到小白Hadoop学习,跟上我的步伐进入Hadoop的世界。 微信:15319589104 QQ: 2981345658 文章介绍: 在大数据时代,Hadoop已成为处理海量数据的必备工具。但如何从零开始搭建一个完整的Hadoop分布式集群呢?本文将为

    2024年01月23日
    浏览(40)
  • hadoop-3.3.3完全分布式集群搭建

    随着大数据的不断发展,hadoop在前段时间就已经更新到了3.x版本,与2.x版本存在着一些差异,在某大数据竞赛中也是使用的hadoop3.x的版本,本文就介绍hadoop3.x版本的完全分布式集群搭建。 jdk:1.8 hadoop:3.3.3 操作系统:centos7 需要的所有安装包都放在master节点的/opt目录下,安

    2024年02月09日
    浏览(42)
  • hadoop完全分布式集群搭建(超详细)-大数据集群搭建

    本次搭建完全分布式集群用到的环境有: jdk1.8.0 hadoop-2.7.7 本次搭建集群所需环境也给大家准备了,下载链接地址:https://share.weiyun.com/dk7WgaVk 密码:553ubk 本次完全分布式集群搭建需要提前建立好三台虚拟机,我分别把它们的主机名命名为:master,slave1,slave2 一.配置免密登陆 首先

    2024年02月10日
    浏览(48)
  • Hadoop3.1.4完全分布式集群搭建

    在Centos7中直接使用root用户执行hostnamectl命令修改,重启(reboot)后永久生效。 要求:三台主机的名字分别为:master slave1 slave2 关闭后,可查看防火墙状态,当显示disavtive(dead)的字样,说明CentOS 7防火墙已经关闭。 但要注意的是,上面的命令只是临时关闭了CentOS 7防火墙,

    2024年04月17日
    浏览(48)
  • Linux环境搭建Hadoop及完全分布式集群

    Hadoop是一个开源的分布式计算框架,旨在处理大规模数据集和进行并行计算。核心包括两个组件:HFDS、MapReduce。 配置方案 各虚拟机的用户名分别为test0、test1、test2,主机名为hadoop100、hadoop101、hadoop102 虚拟机的分配如下: hadoop100:NameNode + ResourceManager hadoop101:DataNode + NodeM

    2024年03月23日
    浏览(38)
  • 华为云云耀云服务器L实例评测|伪分布式环境下部署hadoop2.10.1

    #【中秋征文】程序人生,中秋共享# 这是Maynor创作的华为云云耀云服务器L实例测评的第二篇,上篇传送门: 华为云云耀云服务器L实例评测|单节点环境下部署ClickHouse21.1.9.41数据库 云耀云服务器L实例简介 ​ 云耀云服务器L实例 是新一代的轻量应用云服务器,专门为中小企业

    2024年02月07日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包