Hadoop完全分布式集群搭建

这篇具有很好参考价值的文章主要介绍了Hadoop完全分布式集群搭建。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


一、克隆

1.在虚拟机关机的状态下选择克隆

Hadoop完全分布式集群搭建

2.开始克隆

Hadoop完全分布式集群搭建

3.选择从当前状态创建

Hadoop完全分布式集群搭建

4.创建一个完整的克隆

Hadoop完全分布式集群搭建

5.选择新的虚拟机存储位置(选择内存充足的磁盘)

Hadoop完全分布式集群搭建

6.开始克隆

Hadoop完全分布式集群搭建

7.克隆完成

Hadoop完全分布式集群搭建

8.同样的方法克隆第二台虚拟机

Hadoop完全分布式集群搭建

9.在计算机中存在三台虚拟机

Hadoop完全分布式集群搭建

将第一台虚拟机更名为hadoop01
Hadoop完全分布式集群搭建

修改hadoop01的主机名为hadoop01

Hadoop完全分布式集群搭建

修改hadoop02的主机名为hadoop02

Hadoop完全分布式集群搭建

同样的方式修改hadoop03的主机名为hadoop03

Hadoop完全分布式集群搭建

二、网络配置

查看三台虚拟机IP地址,该地址为动态分配

Hadoop完全分布式集群搭建
Hadoop完全分布式集群搭建

Hadoop完全分布式集群搭建

设置三台主机IP地址为固定地址:

  1. 点击【编辑】——【虚拟网络编辑器】
    Hadoop完全分布式集群搭建

  2. 【选择VMnet】模式——【NAT设置】
    Hadoop完全分布式集群搭建

  3. 输入自己设置的子网IP和子网掩码

我这里设置的 子网IP:192.168.10.0
子网掩码:255.255.255.0

Hadoop完全分布式集群搭建hadoop01主机设置固定IP地址:
输入命令:

sudo vi /etc/sysconfig/network-scripts/ifcfg-ens33

修改文件信息:

IPADDR=192.168.10.131
GATEWAY=192.168.10.2
NETMASK=255.255.255.0
DNS1=8.8.8.8

Hadoop完全分布式集群搭建
执行命令重启网络服务:

systemctl restart network.service

Hadoop完全分布式集群搭建

查看配置后的网络信息:

ifconfig

Hadoop完全分布式集群搭建

hadoop02和hadoop03配置方法和hadoop01方法一致

Hadoop完全分布式集群搭建
Hadoop完全分布式集群搭建

三、SSH服务配置

使用Xshell工具继续操作较为方便,所以我以下的操作均在Xshell中进行

分别连接三台主机(【新建连接】——【输入主机IP】——【连接】)
Hadoop完全分布式集群搭建
采用输入主机名称与密码的方式进行连接
Hadoop完全分布式集群搭建

成功连接三台主机

Hadoop完全分布式集群搭建

添加主机名与IP地址的映射关系

在hadoop01、hadoop02和hadoop03三台主机中分别添加主机名与IP地址的映射关系

执行命令:

sudo vi /etc/hosts

Hadoop完全分布式集群搭建

内容如下:
Hadoop完全分布式集群搭建

复制hadoop01的公钥到hadoop02和hadoop03中
Hadoop完全分布式集群搭建

Hadoop完全分布式集群搭建

Hadoop完全分布式集群搭建

验证免密码登录

Hadoop完全分布式集群搭建

四、hadoop完全分布式配置

Hadoop完全分布式配置目标:

hadoop01 hadoop02 hadoop03
NameNode进程 DataNode进程 DataNode进程
ResourceManager进程 NodeManage进程 NodeManage进程
\ SecondaryNameNode进程 \

配置主节点

进入hadoop目录下执行命令

cd /usr/local/java/hadoop-2.7.7/etc/hadoop

Hadoop完全分布式集群搭建

修改core-site.xml文件

sudo vi core-site.xml

Hadoop完全分布式集群搭建

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://localhost:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/usr/local/java/hadoop-2.7.7/tmp</value>
        </property>
</configuration>


修改hdfs-site.xml

Hadoop完全分布式集群搭建

sudo vi hadf-site.xml

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>hadoop02:50090/</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/local/java/hadoop-2.7.7/dfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/local/java/hadoop-2.7.7/dfs/data</value>
        </property>
        <property>
                <name>dfs.permissions</name>
                <value>false</value>
        </property>

        <property>
                <name>dfs.support.append</name>
                <value>true</value>
        </property>
</configuration>

修改mapred-site.xml文件

Hadoop完全分布式集群搭建

sudo vi mapred-site.xml

Hadoop完全分布式集群搭建

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
                <property>
                        <name>mapreduce.jobtracker.address</name>
                        <value>hadoop01:9001</value>
                </property>
</configuration>

修改yarn-site.xml文件

Hadoop完全分布式集群搭建

sudo vi yarn-site.xml

<configuration>
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>hadoop01</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                <name>yarn.log-aggregation-enable</name>
                <value>true</value>
        </property>
        <property>
                <name>yarn.log-aggregation.retain-seconds</name>
                <value>604800</value>
        </property>
        <property>
                <name>yarn.resourcemanager.webapp.address</name>
                <value>hadoop01:8099</value>
        </property>
        <property>
                <name>yarn.nodemanager.resource.memory-mb</name>
                <value>1024</value>
        </property>
        <property>
                <name>yarn.nodemanager.resource.cpu-vcores</name>
                <value>1</value>
        </property>


修改slaves文件

sudo vi slaves

Hadoop完全分布式集群搭建
slaves的内容如下:

Hadoop完全分布式集群搭建

在主节点hadoop01中格式化文件系统

输入命令之前需要将三台主机的防火墙关闭

  1. 查看防火墙状态:sudo systemctl status firewalld
  2. 关闭防火墙:sudo systemctl stop firewalld
  3. 重启后还想防火墙处于关闭状态:sudo systemctl disable firewalld

建议执行顺序:【1】——【2】——【3】

关闭前:

Hadoop完全分布式集群搭建

关闭后:

Hadoop完全分布式集群搭建

在主节点hadoop01中格式化文件系统

输入命令hdfs namenode -format或者hadoop namenode -format

Hadoop完全分布式集群搭建

集群格式化成功

Hadoop完全分布式集群搭建

分发配置文件

注意:如果是第二次或者多次执行格式化操作,在进行分发配置文件之前,需要将hadoop01、hadoop02、hadoop03下的hadoop-2.7.7/dfs目录下的name和data目录全部删掉后,再进行拷贝操作。

删除后文件夹为空:

Hadoop完全分布式集群搭建
将hadoop01节点下的hadoop-2.7.7拷贝给hadoop02和hadoop03

执行命令:

scp -r /usr/local/java/hadoop-2.7.7 hadoop02:/usr/local/java/

scp -r /usr/local/java/hadoop-2.7.7 hadoop03:/usr/local/java/

Hadoop完全分布式集群搭建
启动和查看Hadoop进程

在hadoop01节点启动服务

start-all.sh

Hadoop完全分布式集群搭建

输入jsp查看进程

hadoop01节点进程
Hadoop完全分布式集群搭建

hadoop02节点进程
Hadoop完全分布式集群搭建

hadoop03节点进程
Hadoop完全分布式集群搭建

关闭所有进程:
stop-all.sh

搭建过程中遇到的问题: hadoop02节点没有出现SecondaryNameNode节点,关闭集群时出现no
resourcemanager to stop、no nodemanager to stop、no namenode to stop、no
datanode to stop,但是相关进程都真实存在,并且可用。

失败原因:当启动节点服务的过程中没有指定pid的存放位置,hadoop默认会放在Linux的/tmp目录下,进程名命名规则一般是框架名-用户名-角色名.pid,而默认情况下/tmp里面的东西会自动清除,因为pid不存在,所以执行stop相关命令的时候找不到pid,也就无法停止相关进程。

解决方法: 使用自定义进程存放目录

修改配置文件hadoop-env.sh 如果没有相关的配置,就直接进行添加
Hadoop完全分布式集群搭建

修改配置文件mapred-env.sh
Hadoop完全分布式集群搭建

修改配置文件yarn-env.sh

Hadoop完全分布式集群搭建

以上文件配置好以后,启动hdfs和yarn,启动成功后查看jps,进程都存在,pidDir目录下有以下文件:
yarn-ttj-nodemanager.pid
yarn-ttj-resourcemanager.pid
hadoop-ttj-namenode.pid
hadoop-ttj-secondarynamenode.pid
hadoop-ttj-datanode.pid文章来源地址https://www.toymoban.com/news/detail-432176.html

到了这里,关于Hadoop完全分布式集群搭建的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop 完全分布式集群搭建

    部署前可以先了解下 Hadoop运行模式及目录结构-CSDN博客 服务 hadoop102 hadoop103 hadoop104 NameNode √ DataNode √ √ √ Secondary NameNode √ ResourceManager √ NodeManager √ √ √ JobHistoryServer √ IPv4 192.168.88.102 192.168.88.103 192.168.88.104 NodeObject master worker1 worker2 最小化安装 Neokylin7.0 用于搭建 Had

    2024年02月04日
    浏览(56)
  • hadoop完全分布式集群搭建(超详细)-大数据集群搭建

    本次搭建完全分布式集群用到的环境有: jdk1.8.0 hadoop-2.7.7 本次搭建集群所需环境也给大家准备了,下载链接地址:https://share.weiyun.com/dk7WgaVk 密码:553ubk 本次完全分布式集群搭建需要提前建立好三台虚拟机,我分别把它们的主机名命名为:master,slave1,slave2 一.配置免密登陆 首先

    2024年02月10日
    浏览(52)
  • hadoop-3.3.3完全分布式集群搭建

    随着大数据的不断发展,hadoop在前段时间就已经更新到了3.x版本,与2.x版本存在着一些差异,在某大数据竞赛中也是使用的hadoop3.x的版本,本文就介绍hadoop3.x版本的完全分布式集群搭建。 jdk:1.8 hadoop:3.3.3 操作系统:centos7 需要的所有安装包都放在master节点的/opt目录下,安

    2024年02月09日
    浏览(42)
  • Linux环境搭建Hadoop及完全分布式集群

    Hadoop是一个开源的分布式计算框架,旨在处理大规模数据集和进行并行计算。核心包括两个组件:HFDS、MapReduce。 配置方案 各虚拟机的用户名分别为test0、test1、test2,主机名为hadoop100、hadoop101、hadoop102 虚拟机的分配如下: hadoop100:NameNode + ResourceManager hadoop101:DataNode + NodeM

    2024年03月23日
    浏览(41)
  • Hadoop3.1.4完全分布式集群搭建

    在Centos7中直接使用root用户执行hostnamectl命令修改,重启(reboot)后永久生效。 要求:三台主机的名字分别为:master slave1 slave2 关闭后,可查看防火墙状态,当显示disavtive(dead)的字样,说明CentOS 7防火墙已经关闭。 但要注意的是,上面的命令只是临时关闭了CentOS 7防火墙,

    2024年04月17日
    浏览(51)
  • 写给大忙人看Hadoop完全分布式集群搭建

    vi /usr/local/hadoop/hadoop-2.10.0/etc/hadoop/hdfs-site.xml 修改其内容为: dfs.replication 3 dfs.name.dir /usr/local/hadoop/hdfs/name dfs.data.dir /usr/local/hadoop/hdfs/data 复制mapred-site.xml.template为mapred-site.xml cp /usr/local/hadoop/hadoop-2.10.0/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/hadoop-2.10.0/etc/hadoop/mapred-site.xml

    2024年03月27日
    浏览(52)
  • 大数据内容分享(九):Hadoop-生产集群搭建(完全分布式)

    目录 Hadoop运行模式——完全分布式 1、准备3台虚拟机(关闭防火墙、配置静态IP 和 主机名称) 2、安装JDK 和 Hadoop 并配置JDK和Hadoop的环境变量 3、配置完全分布式集群 4、集群配置 1)集群部署规划 2)配置文件说明 3)配置集群 5、集群启动 与 测试 1)workers的配置 2)启动集

    2024年02月21日
    浏览(100)
  • 用三台云服务器搭建hadoop完全分布式集群

    本次利用云服务器搭建Hadoop集群, 在开始之前,你需要3台云服务器,可以在同一家购买也可以在不同家购买。此次教程采用百度云产品,可以换不同账号新手免费试用几个月,具体配置如下: 服务器名称 配置 磁盘容量 master 2cpu 内存4GB 40G slave1 1cpu 内存2GB 60G slave2 1cpu 内存

    2024年02月04日
    浏览(57)
  • 搭建伪分布式集群(克隆三台虚拟机,配置ens33网络)

    目录 1 克隆虚拟机 1.修改主机名 2.修改UUID 2 配置ens-33网络        同样的,第三台也是重复操作即可 克隆完成三台虚拟机后,由于node02和node03都是由node01克隆来的,所以他们的主机名和UUID都是一样的,我们需要修改一下 1.修改主机名 在node01的虚拟机下,输入: hostnamectl s

    2024年02月06日
    浏览(41)
  • 搭建Hadoop3.x完全分布式集群(CentOS 9)

    虚拟机相关: VMware workstation 16:虚拟机 vmware_177981.zip CentOS Stream 9:虚拟机 CentOS-Stream-9-latest-x86_64-dvd1.iso Hadoop相关 jdk1.8:JDK jdk-8u261-linux-x64.tar.gz Hadoop 3.3.6:Hadoop Hadoop 3.3.6.tar.gz 辅助工具 putty:tools putty.exe mtputty:tools mtputty.exe winscp:tools WinSCP-6.3.1-Portable.zip 本文相关资源可以

    2024年04月14日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包