七、Hadoop系统应用之搭建Hadoop高可用集群(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)

这篇具有很好参考价值的文章主要介绍了七、Hadoop系统应用之搭建Hadoop高可用集群(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Hadoop集群搭建前安装准备参考:
一、Hadoop系统应用之安装准备(一)(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)
一、Hadoop系统应用之安装准备(二)(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)
Hadoop集群搭建过程参考:
二、Hadoop系统应用之Hadoop集群搭建(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)

一、Hadoop高可用集群简介

在高可用HDFS中,通常有两台或两台以上机器充当NameNode,无论何时,都要保证至少有一台处于活动(Active)状态,一台处于备用(Standby)状态。Zookeeper为HDFS集群提供自动故障转移的服务,给每个NameNode都分配一个故障恢复控制器(简称ZKFC),用于监控NameNode状态。若NameNode发生故障,Zookeeper通知备用NameNode启动,使其成为活动状态处理客户端请求,从而实现高可用。

前面搭建的Hadoop集群部署情况如下所示。
hadoop高可用搭建步骤,Hadoop系统应用,hadoop,centos,大数据,hdfs,mapreduce

HDFS的高可用集群是由三台虚拟机部署,具体部署情况如下所示。
hadoop高可用搭建步骤,Hadoop系统应用,hadoop,centos,大数据,hdfs,mapreduce

二、Hadoop高可用集群的搭建

1、重新布置三个服务器

在服务器的Hadoop集群的搭建过程中,可参考前面提供的操作实验文档:
一、Hadoop系统应用之安装准备(一)(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)
一、Hadoop系统应用之安装准备(二)(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)
二、Hadoop系统应用之Hadoop集群搭建(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)
注意,为了方便跟前面搭建的集群进行区分,需要做以下调整:

  1. 三个节点的名称分别设为node-01、node-02和node-03;
  2. 网络配置时将三个服务器的hostname修改为node-01、node-02和node-03;
  3. 设置IP映射时,可将node-01设为192.168.121.137,node-02设为192.168.121.138,node-03设为192.168.121.139。

2、安装Zookeeper

具体操作,可参考前面提供的操作实验文档:
六、Hadoop系统应用之Zookeeper分布式协调服务(一)(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)
注意事项:

  1. 将三个服务器的hostname修改为node-01、node-02和node-03;
  2. 在配置文件zoo.cfg时,将对应内容设置为:
server.1=node-01:2888:3888 
server.2=node-02:2888:3888
server.3=node-03:2888:3888 
  1. 安装完成后,依次在三个节点上使用如下指令关闭防火墙与防火墙开机启动。
service iptables stop 
chkconfig iptables off

3、修改core-site.xml文件

使用如下指令进入相关路径并修改此文件:

cd /export/servers/hadoop-2.7.4/etc/hadoop
vi core-site.xml

将文件内容修改为如下部分:

<configuration>
	<!--指定hdfs的nameservice为node1-->
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://ns1</value>
	</property>
	<!--指定hadoop临时目录-->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/export/servers/hadoop-2.7.4/tmp</value>
	</property>
	<!--指定zookeeper地址-->
	<property>
		<name>ha.zookeeper.quorum</name>
		<value>node-01:2181,node-02:2181,node-03:2181</value>
	</property>
</configuration>

4、修改hdfs-site.xml文件

指令如下:

vi hdfs-site.xml

将文件内容修改为如下部分:

<configuration>
        <!--设置副本个数-->
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
        <!--设置namenode.name目录-->
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/export/data/hadoop/name</value>
        </property>
        <!--设置datanode.data目录-->
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/export/data/hadoop/data</value>
        </property>
        <!--开启webHDFS-->
        <property>
                <name>dfs.webhdfs.enabled</name>
                <value>true</value>
                <!--在namenode和datanode上开启webHDFS(REST API)功能,不是必须-->
        </property>
        <!--指定hdfs的nameservice为ns1-->
        <property>
                <name>dfs.nameservices</name>
                <value>ns1</value>
        </property>
        <!--ns1下有两个NameNode,分别是nn1,nn2-->
        <property>
                <name>dfs.ha.namenodes.ns1</name>
                <value>nn1,nn2</value>
        </property>
        <!--nn1的RPC通信地址-->
        <property>
                <name>dfs.namenode.rpc-address.ns1.nn1</name>
                <value>node-01:9000</value>
        </property>
        <!--nn1的http通信地址-->
        <property>
                <name>dfs.namenode.http-address.ns1.nn1</name>
                <value>node-01:50070</value>
        </property>
        <!--nn2的RPC通信地址-->
        <property>
                <name>dfs.namenode.rpc-address.ns1.nn2</name>
                <value>node-02:9000</value>
        </property>
        <!--nn2的http通信地址-->
        <property>
                <name>dfs.namenode.http-address.ns1.nn2</name>
                <value>node-02:50070</value>
        </property>
        <!--指定NameNode的元数据在JournalNode上的存放位置-->
        <property>
                <name>dfs.namenode.shared.edits.dir</name>
                <value>qjournal://node-01:8485;node-02:8485;node-03:8485/ns1</value>
        </property>
        <!--指定JournalNode在本地磁盘存放数据的位置-->
        <property>
                <name>dfs.journalnode.edits.dir</name>
                <value>/export/data/hadoop/journaldata</value>
        </property>
        <!--开启NameNode失败自动切换-->
        <property>
                <name>dfs.ha.automatic-failover.enabled</name>
                <value>true</value>
        </property>
        <!--配置失败自动切换实现方式-->
        <property>
                <name>dfs.client.failover.proxy.provider.ns1</name>
                <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
        </property>
        <!--配置隔离机制方法,多个机制用换行分割,即每个机制占用一行-->
        <property>
                <name>dfs.ha.fencing.methods</name>
                <value>
                        sshfence
                        shell(/bin/true)
                </value>
        </property>
        <!--使用sshfence隔离机制时需要ssh免登录-->
        <property>
                <name>dfs.ha.fencing.ssh.private-key-files</name>
                <value>/root/.ssh/id_rsa</value>
        </property>
        <!--配置sshfence隔离机制超时时间-->
        <property>
                <name>dfs.ha.fencing.ssh.connect-timeout</name>
                <value>30000</value>
        </property>
</configuration>

5、修改yarn-site.xml文件

指令如下:

vi yarn-site.xml

将文件内容修改为如下部分:

<configuration>
        <property>
                <name>yarn.nodemanager.resource.memory-mb</name>
                <value>2048</value>
        </property>
        <property>
                <name>yarn.scheduler.maximum-allocation-mb</name>
                <value>2048</value>
        </property>
        <property>
                <name>yarn.nodemanager.resource.cpu-vcores</name>
                <value>1</value>
        </property>
        <!--开启RM高可用-->
        <property>
                <name>yarn.resourcemanager.ha.enabled</name>
                <value>true</value>
        </property>
        <!--指定RM的cluster id-->
        <property>
                <name>yarn.resourcemanager.cluster-id</name>
                <value>yrc</value>
        </property>
        <!--指定RM的名字-->
        <property>
                <name>yarn.resourcemanager.ha.rm-ids</name>
                <value>rm1,rm2</value>
        </property>
        <!--分别指定RM的地址-->
        <property>
                <name>yarn.resourcemanager.hostname.rm1</name>
                <value>node-01</value>
        </property>
        <property>
                <name>yarn.resourcemanager.hostname.rm2</name>
                <value>node-02</value>
        </property>
        <!--指定zk集群地址-->
        <property>
                <name>yarn.resourcemanager.zk-address</name>
                <value>node-01:2181,node-02:2181,node-03:2181</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
</configuration>

6、修改slaves文件

node-01
node-02
node-03

7、配置文件分发

将配置好的文件分发给node-02和node-03。

scp -r /export/ node-02:/
scp -r /export/ node-03:/

8、启动Hadoop高可用集群

(1)启动集群中各个节点的Zookeeper服务,命令如下:

cd /export/servers/zookeeper-3.4.10/bin
./zkServer.sh start

hadoop高可用搭建步骤,Hadoop系统应用,hadoop,centos,大数据,hdfs,mapreduce

(2)启动集群各个节点监控NameNode的管理日志的JournalNode,命令如下:

hadoop-daemon.sh start journalnode

hadoop高可用搭建步骤,Hadoop系统应用,hadoop,centos,大数据,hdfs,mapreduce

(3)在node-01节点格式化Namenode,并将格式化后的目录复制到name-02中,命令如下(仅首次启动):

hadoop namenode -format
scp -r /export/data/hadoop node-02:/export/data/

hadoop高可用搭建步骤,Hadoop系统应用,hadoop,centos,大数据,hdfs,mapreduce

(4)在node-01节点上格式化ZKFC,命令如下(仅首次启动):

hdfs zkfc -formatZK

hadoop高可用搭建步骤,Hadoop系统应用,hadoop,centos,大数据,hdfs,mapreduce

(5)在node-01上分别启动HDFS和YARN,命令如下:

start-dfs.sh
start-yarn.sh

hadoop高可用搭建步骤,Hadoop系统应用,hadoop,centos,大数据,hdfs,mapreduce

(6)使用命令jps查看各个服务的启动情况。
node-01:
hadoop高可用搭建步骤,Hadoop系统应用,hadoop,centos,大数据,hdfs,mapreduce
node-02:
hadoop高可用搭建步骤,Hadoop系统应用,hadoop,centos,大数据,hdfs,mapreduce

node-03:
hadoop高可用搭建步骤,Hadoop系统应用,hadoop,centos,大数据,hdfs,mapreduce

参考文献:黑马程序员.Hadoop大数据技术原理与应用[M].北京:清华大学出版社,2019.

后续Hive数据仓库应用的学习链接:
一、Hive数据仓库应用之Hive部署(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)文章来源地址https://www.toymoban.com/news/detail-782453.html

到了这里,关于七、Hadoop系统应用之搭建Hadoop高可用集群(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive 完全分布式高可用集群搭建(保姆级超详细含图文)

    说明: 本篇将详细介绍用二进制安装包部署hadoop等组件,注意事项,各组件的使用,常用的一些命令,以及在部署中遇到的问题解决思路等等,都将详细介绍。 ip hostname 192.168.1.11 node1 192.168.1.12 node2 192.168.1.13 node3 1.2.1系统版本 1.2.2内存建议最少4g、2cpu、50G以上的磁盘容量 本次

    2024年02月12日
    浏览(35)
  • 【Hadoop】高可用集群搭建

    大家好!这篇文章是我在搭建Hdfs的HA(高可用)时写下的详细笔记与感想,希望能帮助到大家!本篇文章收录于 初心 的 大数据 专栏。 🏠 个人主页:初心%个人主页 🧑 个人简介:大家好,我是初心,和大家共同努力 💕 座右铭:理想主义的花,终究会盛开在浪漫主义的土壤里

    2024年02月15日
    浏览(27)
  • 【大数据】Hadoop高可用集群搭建

    大家好!这篇文章是我在搭建Hdfs的HA(高可用)时写下的详细笔记与感想,希望能帮助到大家!本篇文章收录于 初心 的 大数据 专栏。 🏠 个人主页:初心%个人主页 🧑 个人简介:大家好,我是初心,和大家共同努力 💕 座右铭:理想主义的花,终究会盛开在浪漫主义的土壤里

    2024年02月06日
    浏览(26)
  • Hadoop高可用(HA)集群搭建

    高可用(high availability,HA)指的是若当前工作中的机器宕机了,系统会自动处理异常,并将工作无缝地转移到其他备用机器上,以保证服务的高可靠性与可用性。 而Zookeeper是一个分布式协调服务, Zookeeper即可用来保证Hadoop集群的高可用性 。通过zookeeper集群与Hadoop2.X中的两个

    2024年02月16日
    浏览(26)
  • 最全Hadoop实际生产集群高可用搭建

    序号 bigdata-001 bigdata-002 bigdata-003 bigdata-004 bigdata-005 IP x x x x x x xxx xxx xxx 组件 hadoop1 hadoop2 hadoop3 hadoop4 hadoop5 内存 64G 64G 128G 128G 128G CPU核 16 16 32 32 32 Hadoop-3.3.4 NameNode NameNode DataNode DataNode DataNode ResourceManager ResourceManager NodeManager NodeManager NodeManager DFSZKFailoverController DFSZKFailoverCont

    2024年02月03日
    浏览(32)
  • CentOS 搭建 Hadoop3 高可用集群

    spark101 spark102 spark103 192.168.171.101 192.168.171.102 192.168.171.103 namenode namenode journalnode journalnode journalnode datanode datanode datanode nodemanager nodemanager nodemanager recource manager recource manager job history job log job log job log 1.1 升级操作系统和软件 升级后建议重启 1.2 安装常用软件 1.3 修改主机名 1

    2024年02月06日
    浏览(34)
  • 【K8S&RockyLinux】基于开源操作系统搭建K8S高可用集群(详细版)

    角色 主机名 IP地址 系统版本 CPU/MEM master m1 192.168.200.61 Rocky Linux 8.5 2C/2GB master m2 192.168.200.62 Rocky Linux 8.5 2C/2GB master m3 192.168.200.63 Rocky Linux 8.5 2C/2GB node n1 192.168.200.64 Rocky Linux 8.5 2C/4GB node n2 192.168.200.65 Rocky Linux 8.5 2C/4GB node n3 192.168.200.66 Rocky Linux 8.5 2C/4GB VIP 192.168.200.68 !!!注意

    2024年02月09日
    浏览(31)
  • 【大数据入门核心技术-Hadoop】(六)Hadoop3.2.1高可用集群搭建

    目录 一、Hadoop部署的三种方式 1、Standalone mode(独立模式) 2、Pseudo-Distributed mode(伪分布式模式) 3、Cluster mode(集群模式) 二、准备工作 1、先完成zk高可用搭建 2、/etc/hosts增加内容 3、各台服务器分别创建目录 4、关闭防火墙和禁用swap交换分区 5、三台机器间免密 6、安装

    2023年04月20日
    浏览(71)
  • Linux修改hadoop配置文件及启动hadoop集群详细步骤

    目录 一、配置Hadoop环境 1.查看Hadoop解压位置 2.配置环境变量 3.编辑环境变量 4.重启环境变量 5.查看Hadoop版本,查看成功就表示Hadoop安装成功了 二、修改配置文件 1.检查三台虚拟机: 2.切换到配置文件目录 3.修改 hadoop-env.sh 文件 4.修改 core-site.xml 文件 5.修改 mapred-site.xml 文件

    2024年02月03日
    浏览(39)
  • Zabbix监控系统详解2:基于Proxy分布式实现Web应用监控及Zabbix 高可用集群的搭建

    分担 server 的集中式压力; 解决多机房之间的网络延时问题。 1.3.1 zabbix-server 整个监控体系中 最核心的组件 ,它负责接收客户端发送的报告信息,所有配置、 统计数据及操作数据都由它组织。 1.3.2 Database 所有配置信息和zabbix收集到的数据都存储在数据库中。 1.3.3 zabbix-pro

    2024年02月07日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包