安装Hadoop集群(超详细!)

这篇具有很好参考价值的文章主要介绍了安装Hadoop集群(超详细!)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

提示:安装前请准备好三台装有jdk的虚拟机 我这里名为hd01、hd02、hd03

hd01最好有hadoop和zookeeper的压缩包

文章目录

  • 前言
  • 一、准备环境
  • 二、安装Hadoop
  • 总结

前言:

前面我写了一篇单机版的Hadoop安装,这里终于要装集群版,装集群版的步骤比较繁琐,需要同学们多加练习,因为我们不可能只装一次,经常出了问题就要重装,所以必须要练熟练。

一、准备环境

先准备好三台虚拟机 都设置了各自的固态ip和hostname 并且下载了相应的工具包(wget、vim等)有需要一键安装脚本的可以先点个关注然后联系作者 然后就可以正式开始我们搭集群了!

先把hadoop解压,然后把它移动到opt下的soft文件夹下 并重命名为hadoop260

1. mv hadoop-2.6.0-cdh5.14.2 soft/hadoop260

2.用xshell设置为一起输入(这样就可以同步输入三台虚拟机的命令并执行)

具体在xshell上方 工具->发送输入到->所有会话 安装Hadoop集群(超详细!)

3.很重要的一步!需要将每一个的hosts设置成这样!!!    vim /etc/hosts

安装Hadoop集群(超详细!)

4.然后三个一起设置无密登录:   ssh-keygen -t rsa -P ''           <-- 这是两个单引号(不是双引号)

出现如下三个这样子的矩形即可 

安装Hadoop集群(超详细!)

5.然后每台都执行

ssh-copy-id root@hd01

然后都执行ssh-copy-id root@hd02

然后都执行ssh-copy-id root@hd03

途中我报错了 因为比如我的hd02一直找不到我的hd01?!就很奇怪,试了n多办法也没用

就把etc/hosts中的内容调了个顺序 就可以互相通过主机名ping通了 真的amazing吧...希望读者没有

可以互相ssh hd01    ssh hd02这样试试  exit退出

6.每一个都执行:  yum -y install chrony   下载这个让集群时间同步

7.修改配置   vi /etc/chrony.conf

把上面的注释掉 并用这个代替:

安装Hadoop集群(超详细!)

server ntp1.aliyun.com

server ntp2.aliyun.com

server ntp3.aliyun.com

然后 systemctl start chronyd

8.安装各种工具包

yum install -y wget

yum install -y psmisc  

二、安装Hadoop

1.(下面是操作hd01)

解压zookeeper并移动到文件夹

tar -zxvf zookeeper-3.4.5-cdh5.14.2.tar.gz

mv zookeeper-3.4.5-cdh5.14.2 soft/zk345

2.进入到目录 复制zoo_sampe.cfg重命名为一个zoo.cfg  

安装Hadoop集群(超详细!)

3.编辑zoo.cfg:(看到没,我下面就是都写hd01了 找错找了半天!!!引以为戒)

把dataDir改一下:

dataDir=/opt/soft/zk345/data

然后复制这个到最后一段:

server.1=hd01:2888:3888

server.2=hd02:2888:3888

server.3=hd03:2888:3888

安装Hadoop集群(超详细!)

4.然后回到zk345目录下

mkdir data

cd data/

echo "1"> myid

5.回到soft目录下:复制发送给另外两台 然后修改对应的id

scp -r /opt/soft/zk345 root@hd02:/opt/soft/

scp -r /opt/soft/zk345 root@hd03:/opt/soft/

然后两台机器都各自:vim /opt/soft/zk345/data/myid     改成2和3

6.三台机器都进入/etc/profile 在最后加环境变量

export ZOOKEEPER_HOME=/opt/soft/zk345
export PATH=$PATH:$ZOOKEEPER_HOME/bin

7.(然后只操作hd01)解压hadoop 然后改名移动到文件夹

tar -zxf hadoop-2.6.0-cdh5.14.2.tar.gz

mv hadoop-2.6.0-cdh5.14.2 soft/hadoop260

8.创建文件夹:

mkdir -p /opt/soft/hadoop260/tmp

mkdir -p /opt/soft/hadoop260/dfs/journalnode_data

mkdir -p /opt/soft/hadoop260/dfs/edits

mkdir -p /opt/soft/hadoop260/dfs/datanode_data

mkdir -p /opt/soft/hadoop260/dfs/namenode_data

9.进入hadoop260配置env.sh:

vim etc/hadoop/hadoop-env.sh

安装Hadoop集群(超详细!)

 10.还是etc的hadoop目录下 配置core-site.xml

<configuration>
 <property>
   <name>fs.defaultFS</name>
   <value>hdfs://hacluster</value>
 </property>
 <property>
   <name>hadoop.tmp.dir</name>
   <value>file:///opt/soft/hadoop260/tmp</value>
 </property>
 <property>
   <name>io.file.buffer.size</name>
   <value>4096</value>
 </property>
 <property>
   <name>ha.zookeeper.quorum</name>
   <value>hd01:2181,hd02:2181,hd03:2181</value>
 </property>
 <property>
   <name>hadoop.proxyuser.root.hosts</name>
   <value>*</value>
 </property>
 <property>
   <name>hadoop.proxyuser.root.groups</name>
   <value>*</value>
 </property>
</configuration>

11.配置hdfs-site.xml

<configuration>
 <property>
        <name>dfs.block.size</name>
        <value>134217728</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.name.dir</name>
        <value>file:///opt/soft/hadoop260/dfs/namenode_data</value>
    </property>
    <property>
        <name>dfs.data.dir</name>
        <value>file:///opt/soft/hadoop260/dfs/datanode_data</value>
    </property>
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.datanode.max.transfer.threads</name>
        <value>4096</value>
    </property>
    <property>
        <name>dfs.nameservices</name>
        <value>hacluster</value>
    </property>
    <property>
        <name>dfs.ha.namenodes.hacluster</name>
        <value>nn1,nn2</value>
    </property>
    <property> 
        <name>dfs.namenode.rpc-address.hacluster.nn1</name>
        <value>hd01:9000</value>
    </property>
    <property>
        <name>dfs.namenode.servicepc-address.hacluster.nn1</name>
        <value>hd01:53310</value>
    </property>
    <property>
        <name>dfs.namenode.http-address.hacluster.nn1</name>
        <value>hd01:50070</value>
    </property>
    <!--nn2的rpc、servicepc和http通讯地址 -->
    <property> 
        <name>dfs.namenode.rpc-address.hacluster.nn2</name>
        <value>hd02:9000</value>
    </property>
    <property>
        <name>dfs.namenode.servicepc-address.hacluster.nn2</name>
        <value>hd02:53310</value>
    </property>
    <property>
        <name>dfs.namenode.http-address.hacluster.nn2</name>
        <value>hd02:50070</value>
    </property>
    <property>
        <name>dfs.namenode.shared.edits.dir</name>
        <value>qjournal://hd01:8485;hd02:8485;hd03:8485/hacluster</value>
    </property>
    <property>
        <name>dfs.journalnode.edits.dir</name>
        <value>/opt/soft/hadoop260/dfs/journalnode_data</value>
    </property>
    <property>
        <name>dfs.namenode.edits.dir</name>
        <value>/opt/soft/hadoop260/dfs/edits</value>
    </property>
    <property>
        <name>dfs.ha.automatic-failover.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.client.failover.proxy.provider.hacluster</name>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    </property>
    <property>
        <name>dfs.ha.fencing.methods</name>
        <value>sshfence</value>
    </property>
    <property>
        <name>dfs.ha.fencing.ssh.private-key-files</name>
        <value>/root/.ssh/id_rsa</value>
    </property>
    <property>
        <name>dfs.premissions</name>
        <value>false</value>
    </property>
</configuration>

12.编辑 mapred-site.xml.template 

<configuration>
 <property>
   <name>mapreduce.framework.name</name>
        <value>yarn</value>
  </property>
  <property>
   <name>mapreduce.jobhistory.address</name>
        <value>hd01:10020</value>
  </property>
  <property>
   <name>mapreduce.jobhistory.webapp.address</name>
        <value>hd01:19888</value>
  </property>
  <property>
   <name>mapreduce.job.ubertask.enable</name>
        <value>true</value>
  </property>
</configuration>

13.配置yarn-site.xml

<configuration>
 <property>
        <name>yarn.resourcemanager.ha.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.resourcemanager.cluster-id</name>
        <value>hayarn</value>
    </property>
    <property>
        <name>yarn.resourcemanager.ha.rm-ids</name>
        <value>rm1,rm2</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname.rm1</name>
        <value>hd02</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname.rm2</name>
        <value>hd03</value>
    </property>
    <property>
        <name>yarn.resourcemanager.zk-address</name>
        <value>hd01:2181,hd02:2181,hd03:2181</value>
    </property>
    <property>
        <name>yarn.resourcemanager.recovery.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.resourcemanager.store.class</name>
 <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hd03</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>
</configuration>

14.hadoop下继续   vim etc/hadoop/slaves

把localhost删掉 改成

hd01

hd02

hd03

15.然后开始复制hadoop到另外两台机器:

scp -r /opt/soft/hadoop260 root@hd02:/opt/soft/

scp -r /opt/soft/hadoop260 root@hd03:/opt/soft/

16.然后把

#hadoop
export HADOOP_HOME=/opt/soft/hadoop260
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

粘贴到每台机器的etc的profile内 别忘了source /etc/profile 哦!!!

3.启动集群

1.每台机器上启动zookeeper

zkServer.sh start

2.每台机器都启动:

hadoop-daemon.sh start journalnode

3.只在hd01上格式化:

hdfs namenode -format

4.将hd01上的Namenode的元数据复制到hd02相同位置

下面是一行!

scp -r /opt/soft/hadoop260/dfs/namenode_data/current/ root@hd02:/opt/soft/hadoop260/dfs/namenode_data

5.hd01或者hd02上:

hdfs zkfc -formatZK

6.hd01上:   start-dfs.sh

7.hd03上:   start-yarn.sh

8.hd01上:   mr-jobhistory-daemon.sh start historyserver

9.hd02上:   yarn-daemon.sh start resourcemanager

安装Hadoop集群(超详细!)

  没问题就大功告成啦!!!

总结

我本人第一次装的时候也装了很久,找小错误找了一天,算是比较深刻的印象。以后还是有很多机会重装的,所以就当巩固了!文章来源地址https://www.toymoban.com/news/detail-413573.html

到了这里,关于安装Hadoop集群(超详细!)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [Hadoop高可用集群]数仓工具之Hive的安装部署(超级详细,适用于初学者)

    📕作者:喜欢水星记 🏆系列:Hadoop高可用集群 🔋收藏:本文记录我搭建过程供大家学习和自己之后复习,如果对您有用,希望能点赞收藏加关注 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转

    2024年02月05日
    浏览(45)
  • 大数据技术栈-Hadoop3.3.4-完全分布式集群搭建部署-centos7(完全超详细-小白注释版)虚拟机安装+平台部署

    目录 环境条件: 1、安装虚拟机(已安装好虚拟机的可跳转至  二、安装JDK与Hadoop) (1)直接新建一台虚拟机 (2)首次启用虚拟机,进行安装 一、集群前置环境搭建(三台机器分别设置hostname、网卡(ip)配置、ssh免密登录) 1、查看一下本机与虚拟机的网卡和ip信息 (1)

    2024年02月06日
    浏览(41)
  • Hadoop集群环境搭建(超详细)

    Oracle Linux 7.4 JDK 1.8 Hadoop 2.7.4 1.实验准备三台机器分别为master,slave1,slave2 2.单击master机器桌面中的konsole图标 1.编辑/etc/hosts文件,出现如下界面 [Command 001]: 2.按i键,如下图 3.第一行前面添加#,如下图 4.按键ESC,按键:wq回车,保存退出。如下图 5.切换到slave1机器,重复1~4步骤 6

    2024年02月07日
    浏览(28)
  • Hadoop简介以及集群搭建详细过程

    hadoop加群包括两个集群:hdfs集群,yarn集群 两个集群逻辑上分离,通常物理上在一起 两个集群都是标准的主从架构集群 逻辑上分离:两个集群相互之间没有依赖,互不影响 物理上在一起:某些角色今晚往往部署在同一台物理服务器上 MapReduce集群呢? MapReduce是计算框架、代

    2024年02月16日
    浏览(29)
  • Linux修改hadoop配置文件及启动hadoop集群详细步骤

    目录 一、配置Hadoop环境 1.查看Hadoop解压位置 2.配置环境变量 3.编辑环境变量 4.重启环境变量 5.查看Hadoop版本,查看成功就表示Hadoop安装成功了 二、修改配置文件 1.检查三台虚拟机: 2.切换到配置文件目录 3.修改 hadoop-env.sh 文件 4.修改 core-site.xml 文件 5.修改 mapred-site.xml 文件

    2024年02月03日
    浏览(41)
  • 基于Hadoop搭建Flink集群详细步骤

    目录 1.xftp上传flink压缩包至hadoop102的/opt/software/目录下 2.解压flink压缩包至/opt/module/目录下 3. 配置flink-conf.yaml 4.配置masters 5.配置workers 6.配置环境变量my_env.sh 7.重启环境变量 8.分发/opt/module/flink-1.13.0和/etc/profile.d/my_env.sh 9.另外两台重启环境变量 10.开启hadoop集群和flink集群 11.浏

    2024年02月09日
    浏览(55)
  • hadoop完全分布式集群搭建(超详细)-大数据集群搭建

    本次搭建完全分布式集群用到的环境有: jdk1.8.0 hadoop-2.7.7 本次搭建集群所需环境也给大家准备了,下载链接地址:https://share.weiyun.com/dk7WgaVk 密码:553ubk 本次完全分布式集群搭建需要提前建立好三台虚拟机,我分别把它们的主机名命名为:master,slave1,slave2 一.配置免密登陆 首先

    2024年02月10日
    浏览(38)
  • Hadoop 3.2.4 集群搭建详细图文教程

    目录 一、集群简介 二、Hadoop 集群部署方式  三、集群安装 3.1 集群角色规划  3.2 服务器基础环境准备  3.2.1 环境初始化  3.2.2 ssh 免密登录(在 hadoop01 上执行) 3.2.3 各个节点上安装 JDK 1.8 环境 3.3 安装 Hadoop 3.4 Hadoop 安装包目录结构 ​3.5 编辑 Hadoop 配置文件  3.5.1 hado

    2024年02月09日
    浏览(38)
  • 大数据Hadoop集群之超级详细的HBase搭建

    Hbase是基于Hadoop集群之上来搭建的 Hadoop有一些局限性: 做一些批量的数据处理,吞吐量比较高,但是它对随机查询、实时操作性能是不行的 HBase是NoSQL数据库的一种,它跟传统的RDBMS有很大的差别 不支持JOIN的,摒弃了关系型模型,而且在HBase中只有一种数据类型:byte[] HBase可

    2023年04月13日
    浏览(75)
  • 大数据与云计算——部署Hadoop集群并运行MapReduce集群案例(超级详细!)

    Linux搭建Hadoop集群(CentOS7+hadoop3.2.0+JDK1.8+Mapreduce完全分布式集群) 本文所用到的版本号: CentOS7 Hadoop3.2.0 JDK1.8 基本概念及重要性 很多小伙伴部署集群用hadoop用mapreduce,却不知道到底部署了什么,有什么用。在部署集群之前先给大家讲一下Hadoop和MapReduce的基本概念,以及它们在大

    2024年02月04日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包