CentOS7搭建hadoop集群

这篇具有很好参考价值的文章主要介绍了CentOS7搭建hadoop集群。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

说明:

        1.准备三台虚拟机,参考:CentOS7集群环境搭建(以3台为例)

        2.配置虚拟机间免密登陆:参考:CentOS7集群配置免密登录

        3.虚拟机分别安装jdk:参考:CentOS7集群安装JDK1.8

        4.hadoop安装包下载,下载地址

准备开始搭建hadoop集群,以下操作在第一台机器node1执行:

1.上传并解压hadoop安装包

1.1上传安装包到/develop/software

mkdir -p /develop/software
mkdir -p /develop/server
cd /develop/software
rz

CentOS7搭建hadoop集群

 1.2解压安装包到/develop/server

tar -zxvf hadoop-2.7.5.tar.gz -C /develop/server/

CentOS7搭建hadoop集群

 1.3切换到解压目录,查看解压后的文件

cd /develop/server/hadoop-2.7.5
ll

CentOS7搭建hadoop集群

2.修改hadoop配置文件

2.1切换到hadoop的etc/hadopp目录,修改hadoop-env.sh

cd /develop/server/hadoop-2.7.5/etc/hadoop/
ll
vim hadoop-env.sh

CentOS7搭建hadoop集群

 2.2配置hadoop-env.sh文件,修改jdk路径

export JAVA_HOME=/develop/server/jdk1.8.0_241

CentOS7搭建hadoop集群

 2.3配置core-site.xml(hadoop的核心配置文件)在<configuration></configuration>中配置以下内容

<!-- 设置Hadoop的文件系统 --> 
<property>
	<name>fs.defaultFS</name>
	<value>hdfs://node1:8020</value>
 </property>
<!-- 配置Hadoop数据存储目录 -->
 <property>
   <name>hadoop.tmp.dir</name>
   <value>/develop/server/hadoop-2.7.5/data/tempdata</value>
</property>
<!--  缓冲区大小 -->
 <property>
   <name>io.file.buffer.size</name>
   <value>4096</value>
 </property>
<!--  hdfs的垃圾桶机制,单位分钟 -->
 <property>
   <name>fs.trash.interval</name>
   <value>10080</value>
 </property>

CentOS7搭建hadoop集群

 2.4配置hdfs-site.xml(hdfs的核心配置文件),在<configuration></configuration>中配置以下内容,注意secondaryNameNode和Namenode不要放在同一台机器上

<!-- SecondaryNameNode的主机和端口 -->
<property>
	<name>dfs.namenode.secondary.http-address</name>
	<value>node2:50090</value>
</property>
<!-- namenode的页面访问地址和端口 -->
<property>
	<name>dfs.namenode.http-address</name>
	<value>node1:50070</value>
</property>
<!-- namenode元数据的存放位置 -->
<property>
	<name>dfs.namenode.name.dir</name>
	<value>file:///develop/server/hadoop-2.7.5/data/nndata</value>
</property>
<!--  定义datanode数据存储的节点位置 -->
<property>
	<name>dfs.datanode.data.dir</name>
	<value>file:///develop/server/hadoop-2.7.5/data/dndata</value>
</property>	
<!-- namenode的edits文件存放路径 -->
<property>
	<name>dfs.namenode.edits.dir</name>
	<value>file:///develop/server/hadoop-2.7.5/data/nn/edits</value>
</property>
<!-- 检查点目录 -->
<property>
	<name>dfs.namenode.checkpoint.dir</name>
	<value>file:///develop/server/hadoop-2.7.5/data/snn/name</value>
</property>

<property>
	<name>dfs.namenode.checkpoint.edits.dir</name>
	<value>file:///develop/server/hadoop-2.7.5/data/dfs/snn/edits</value>
</property>
<!-- 文件切片的副本个数-->
<property>
	<name>dfs.replication</name>
	<value>3</value>
</property>
<!-- HDFS的文件权限-->
<property>
	<name>dfs.permissions</name>
	<value>true</value>
</property>
<!-- 设置一个文件切片的大小:128M-->
<property>
	<name>dfs.blocksize</name>
	<value>134217728</value>
</property>

CentOS7搭建hadoop集群

CentOS7搭建hadoop集群

2.5复制mapred-site.xml.template,并更改名称为mapred-site.xml

cp mapred-site.xml.template mapred-site.xml
ll

CentOS7搭建hadoop集群

2.6配置mapred-site.xml(MapReduce的核心配置文件),在<configuration></configuration>中配置以下内容

<!-- 分布式计算使用的框架 -->
<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>
<!-- 开启MapReduce小任务模式 -->
<property>
	<name>mapreduce.job.ubertask.enable</name>
	<value>true</value>
</property>
<!-- 历史任务的主机和端口 -->
<property>
	<name>mapreduce.jobhistory.address</name>
	<value>node1:10020</value>
</property>
<!-- 网页访问历史任务的主机和端口 -->
<property>
	<name>mapreduce.jobhistory.webapp.address</name>
	<value>node1:19888</value>
</property>

CentOS7搭建hadoop集群

2.7配置mapred-env.sh,指定JAVA_HOME

export JAVA_HOME=/develop/server/jdk1.8.0_241

CentOS7搭建hadoop集群

2.8配置yarn-site.xml(YARN的核心配置文件) ,在<configuration></configuration>中配置以下内容

<!-- yarn主节点的位置 -->
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>node1</value>
</property>
<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>
<!-- 开启日志聚合功能 -->
<property>
	<name>yarn.log-aggregation-enable</name>
	<value>true</value>
</property>
<!-- 设置聚合日志在hdfs上的保存时间 -->
<property>
	<name>yarn.log-aggregation.retain-seconds</name>
	<value>604800</value>
</property>
<!-- 设置yarn集群的内存分配方案 -->
<property>    
	<name>yarn.nodemanager.resource.memory-mb</name>    
	<value>2048</value>
</property>
<property>  
	<name>yarn.scheduler.minimum-allocation-mb</name>
	<value>2048</value>
</property>
<property>
	<name>yarn.nodemanager.vmem-pmem-ratio</name>
	<value>2.1</value>
</property>

CentOS7搭建hadoop集群

 2.9配置slaves,slaves文件里面记录的是集群主机名,删除原有内容,配置以下内容

node1
node2
node3

CentOS7搭建hadoop集群

3.创建数据存放目录

mkdir -p /develop/server/hadoop-2.7.5/data/tempdata
mkdir -p /develop/server/hadoop-2.7.5/data/nndata
mkdir -p /develop/server/hadoop-2.7.5/data/dndata
mkdir -p /develop/server/hadoop-2.7.5/data/nn/edits
mkdir -p /develop/server/hadoop-2.7.5/data/snn/name
mkdir -p /develop/server/hadoop-2.7.5/data/dfs/snn/edits

4.文件分发

4.1将安装配置好的hadoop分发到另外两台机器

scp -r hadoop-2.7.5/ node2:$PWD
scp -r hadoop-2.7.5/ node3:$PWD

4.2在另外两台机器上分别查看分发后的文件

cd /develop/server/
ll

CentOS7搭建hadoop集群 CentOS7搭建hadoop集群

4.3分别在三台机器上配置hadoop环境变量

vim /etc/profile.d/my_env.sh
# HADOOP_HOME
export HADOOP_HOME=/develop/server/hadoop-2.7.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

CentOS7搭建hadoop集群

 4.4刷新环境变量

source /etc/profile

CentOS7搭建hadoop集群

4.5另外两台机器同样配置环境变量 

5.启动hadoop集群

5.1首次启动hdfs时需要格式化,在node1执行以下命令

hadoop namenode -format

CentOS7搭建hadoop集群

 5.2启动相关服务,三种启动方式

5.2.1单节点逐一启动,

5.2.1.1启动namenode,在node1执行以下命令

hadoop-daemon.sh start namenode

CentOS7搭建hadoop集群

5.2.1.2三台机器分别启动datanode,在node1、node2、node3上,分别使用以下命令启动 datanode

hadoop-daemon.sh start datanode

CentOS7搭建hadoop集群

CentOS7搭建hadoop集群

CentOS7搭建hadoop集群

5.2.1.3在node1启动resourcemanager

yarn-daemon.sh  start resourcemanager

CentOS7搭建hadoop集群

5.2.1.4在node1、node2、node3上使用以下命令启动YARN nodemanager

yarn-daemon.sh start nodemanager

CentOS7搭建hadoop集群

CentOS7搭建hadoop集群

CentOS7搭建hadoop集群

5.2.1.5在node2上启动secondarynamenode

hadoop-daemon.sh start secondarynamenode

CentOS7搭建hadoop集群

 5.2.1.6在node1上启动historyserver

mr-jobhistory-daemon.sh start historyserver

CentOS7搭建hadoop集群

5.2.1.7查看服务启动情况,分别在三台机器执行jps命令

CentOS7搭建hadoop集群

CentOS7搭建hadoop集群

 CentOS7搭建hadoop集群

 5.2.1.8关闭服务

如果要关闭服务只需将上面命令中的start改为stop即可

5.2.2使用hadoop自带脚本启动,以下命令在node1执行

5.2.2.1启动hdfs

start-dfs.sh

CentOS7搭建hadoop集群

 5.2.2.2启动yarn

start-yarn.sh

CentOS7搭建hadoop集群

5.2.2.3启动历史任务服务

mr-jobhistory-daemon.sh start historyserver

CentOS7搭建hadoop集群

5.2.2.3关闭服务

stop-dfs.sh
stop-yarn.sh
mr-jobhistory-daemon.sh stop historyserver

CentOS7搭建hadoop集群

CentOS7搭建hadoop集群

5.2.3一键启动脚本:hadoop集群启动脚本

6.访问集群UI页面

6.1 namenode集群页面

http://ip:50070/ 

CentOS7搭建hadoop集群

6.2 yarn集群页面

http://ip:8088/cluster

CentOS7搭建hadoop集群

6.3mapreduce历史任务页面

http://ip:19888/jobhistory

CentOS7搭建hadoop集群

到此,hadoop集群搭建完毕文章来源地址https://www.toymoban.com/news/detail-492882.html

到了这里,关于CentOS7搭建hadoop集群的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • CentOS7搭建hadoop集群

    说明:         1.准备三台虚拟机,参考:CentOS7集群环境搭建(以3台为例)         2.配置虚拟机间免密登陆:参考:CentOS7集群配置免密登录         3.虚拟机分别安装jdk:参考:CentOS7集群安装JDK1.8         4.hadoop安装包下载,下载地址 准备开始搭建hadoop集群,以下操作在第

    2024年02月09日
    浏览(55)
  • Centos7原生hadoop环境,搭建Impala集群和负载均衡配置

    Impala集群包含一个Catalog Server (Catalogd)、一个Statestore Server (Statestored) 和若干个Impala Daemon (Impalad)。Catalogd主要负责元数据的获取和DDL的执行,Statestored主要负责消息/元数据的广播,Impalad主要负责查询的接收和执行。 Impalad又可配置为coordinator only、 executor only 或coordinator and exe

    2024年02月04日
    浏览(56)
  • Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Master运行WordCount

    本系列文章索引以及一些默认好的条件在 传送门 首先需要明确eclipse安装目录,然后将hadoop-eclipse-plugin_版本号.jar插件放在安装目录的dropins下 关于插件,可以通过博主上传到csdn的免费资源获取,链接 具体版本可以自己选择: 在eclipse界面中依次选择:Window→show view→other→

    2023年04月09日
    浏览(67)
  • 用三台云服务器搭建hadoop完全分布式集群

    本次利用云服务器搭建Hadoop集群, 在开始之前,你需要3台云服务器,可以在同一家购买也可以在不同家购买。此次教程采用百度云产品,可以换不同账号新手免费试用几个月,具体配置如下: 服务器名称 配置 磁盘容量 master 2cpu 内存4GB 40G slave1 1cpu 内存2GB 60G slave2 1cpu 内存

    2024年02月04日
    浏览(57)
  • Linux从零搭建Hadoop集群(CentOS7+hadoop 3.2.0+JDK1.8+Mapreduce完全分布式集群案例)

    和相关配置版本 :Linux CentOS Hadoop Java 版本: CentOS7 Hadoop3.2.0 JDK1.8 虚拟机参数信息内存3.2G、处理器2x2、内存50G ISO:CentOS-7-x86_64-DVD-2009.iso 基本主从思路: 先把基础的设置(SSH、JDK、Hadooop、环境变量、Hadoop和MapReduce配置信息)在一台虚拟机(master)上配好,通过

    2024年02月05日
    浏览(68)
  • 搭建伪分布式集群(克隆三台虚拟机,配置ens33网络)

    目录 1 克隆虚拟机 1.修改主机名 2.修改UUID 2 配置ens-33网络        同样的,第三台也是重复操作即可 克隆完成三台虚拟机后,由于node02和node03都是由node01克隆来的,所以他们的主机名和UUID都是一样的,我们需要修改一下 1.修改主机名 在node01的虚拟机下,输入: hostnamectl s

    2024年02月06日
    浏览(41)
  • 三台异构服务器搭建hadoop HA集群史上最详细方案(HDFS+YARN)

     一、系统基础服务配置 主机名 IP 操作系统 CPU 内存 磁盘 Hive01 10.86.102.104 Centos 7.9.2009 Xeon 4208 X16 192G 46T Hive02 10.86.102.102 Centos 7.9.2009 Xeon 4208 X16 192G 46T Hive03 10.86.102.105 Centos 7.9.2009 Xeon 8260 X48 256G         11T 最终组成的是一个双副本56T的集群,设置YARN内存共400GB(可调) 3台服务

    2024年02月07日
    浏览(56)
  • Centos7 + Hadoop 3.3.4 HA高可用集群部署

    目录 一、集群规划 二、主机环境准备 1、配置主机名 2、配置HOSTS 3、配置内核参数  4、配置Limits  5、关闭防火墙 6、关闭SELINUX 7、修改时区  8、修改中文支持 三、安装JDK 四、创建Hadoop用户 五、安装Zookeeper 1、下载安装 2、配置zoo.cfg 3、配置myid 4、启动/查看/停止服务 六、安

    2024年02月15日
    浏览(37)
  • Centos7系统下搭建Hadoop 3.3.6

    本次使用3台服务器进行安装Hadoop。其中服务器系统均为Centos7.6、Hadoop版本为3.3.6、jdk版本为1.8.0_371。 ################################################################################################ 此外,大数据系列教程还在持续的更新中(包括跑一些实例、安装数据库、spark、mapreduce、hive等),

    2024年02月06日
    浏览(41)
  • Zookeeper集群搭建记录 | 云计算[CentOS7] | Zookeeper集群搭建

    本系列文章索引以及一些默认好的条件在 传送门 在配置Zookeeper之前,建议先配置Hadoop集群,具体的操作流程博主已更新完成,链接 Zookeeper的安装包版本不太相同,大致分为有编译过的和没有编译过的(如有错请留言指正 一般情况下对于我们在解压配置就能使用的情况下,我

    2024年02月01日
    浏览(67)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包