【Hadoop】安装部署-完全分布式搭建

这篇具有很好参考价值的文章主要介绍了【Hadoop】安装部署-完全分布式搭建。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

Hadoop是一个适合大数据的分布式存储和计算平台。狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态圈,包括很多软件框架。而我们的完全分布式,指的是在真实环境下,使⽤多台机器,共同配合,来构建⼀个完整的分布式文件系统。在真实环境中,hdfs中的相关守护进程也会分布在不同的机器中。

一、部署需要的软件

  1. 虚拟机管理软件:VMware
  2. 系统:CentOS 7 64 位
  3. SSH⼯具:MobaXterm
  4. JDK:jdk-8u221-linux-x64.tar.gz
  5. Hadoop:hadoop-2.7.1
主机名 IP地址
master 192.168.206.18
slave1 192.168.206.28
slave2 192.168.206.38

首先要确保本地电脑是否已经安装好了VMware Workstation Pro

下载地址: VMware Workstation Pro | CN

清华大学镜像源:

Index of /centos/7/isos/x86_64/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror

注意!注意!注意!
如果虚拟机是从伪分布式复制过来的,最好先把伪分布式的相关守护进程关闭:stop-all.sh,并且保留好自己的伪分布式部署。

二、Hadoop配置环境

我们设置ip地址首先【Win+R——cmd】使用ipconfig的命令查看VMnet8的ip地址是多少。
hadoop完全分布式安装,分布式,hadoop,大数据
例如我的ip地址为192.168.206.1,那么我hadoop的ip地址前3位就需要设置为192.168.206,然后进入到我们的虚拟机里面进行ip地址的设置。

1. 配置网络环境

输入命令vi /etc/sysconfig/network-scripts/ifcfg-ens33进行静态ip地址的设置。
hadoop完全分布式安装,分布式,hadoop,大数据

BOOTPROTO=static
ONBOOT=yes
IPADDR=静态ip(这个ip与你的主机在同一个网段)
GATEWAY=网关
NETMASK=子网掩码
DNS1=8.8.8.8

修改以上内容后,Esc键+输入:wq,保存修改的内容。
并重启网络systemctl restart network,让配置生效。

关闭防火墙

关闭防火墙:systemctl stop firewalld
禁用防火墙:systemctl disable firewalld

2. 安装jdk和hadoop

  1. 在官网下载jdk-8u221-linux-x64.tar.gz与hadoop-2.7.1,并解压到/usr/local路径
  2. 解压命令:tar -zxvf 包名
  3. 配置环境变量

2.1 配置jdk环境变量

在/etc/profile文件最后追加两行:

 export JAVA_HOME=/usr/local/jdk1.8.0_221 
 export PATH=$JAVA_HOME/bin:$PATH

添加完之后保存退出输入此命令使配置立刻生效:source /etc/profile

2.2 配置Hadoop环境变量

在/etc/profile文件最后追加:

export HADOOP_HOME=/usr/local/hadoop-2.7.1
export HADOOP_PREFIX=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$HADOOP_HOME/bin$HADOOP_HOME/sbin:$PATH

添加完之后保存退出输入此命令使配置立刻生效:source /etc/profile

三、准备三台虚拟机

准备三台虚拟机,主机名分别为master、slave1、slave2,而他们的IP地址分别为192.168.206.18、192.168.206.28、192.168.206.38。
hadoop完全分布式安装,分布式,hadoop,大数据

1. 修改主机名与IP映射

hadoop完全分布式安装,分布式,hadoop,大数据

2. 修改主机上的hadoop相关配置文件

2.1 core-site.xml

由于我们配置Hadoop的环境变量在**$HADOOP_HOME/etc/hadoop**路径下,所以我们首先切换到此路径,在执行:vi core-site.xml,配置文件内容如下:
hadoop完全分布式安装,分布式,hadoop,大数据

2.2 hdfs-site.xml

配置文件内容如下:hadoop完全分布式安装,分布式,hadoop,大数据

2.3 yarn-site.xml

配置文件内容如下:
hadoop完全分布式安装,分布式,hadoop,大数据

2.4 slaves

配置文件内容如下:
hadoop完全分布式安装,分布式,hadoop,大数据

3. 将主机上的hadoop配置文件,同步到其他两个主机上

3.1 使用“scp”对slave1进行同步

hadoop完全分布式安装,分布式,hadoop,大数据

3.2 使用“scp”对slave2进行同步

hadoop完全分布式安装,分布式,hadoop,大数据

四、配置SSH免密登录及时间同步

1. 免密登录

1.1在三个机器的目录下执行

	ssh-keygen -t rsa
	然后需要一直回车确认哦

1.2 ls -all :查看所有文件和文件夹

	会在/root/.ssh产生id_rsa和id_rsa.pub文件
	查看.ssh目录可以看到id_rsa(私钥), id_rsa.pub (公钥)两个文件

1.3 在master、slave1、slave2中分别执行

	(期间需要输入yes ,和对应机器的密码,看提示自行决定)
	ssh-copy-id slave1 
	ssh-copy-id slave2 
	ssh-copy-id master

2. 时间同步

yum install ntpdate
ntpdate time.ntp.org #同步一个统一的时间(阿里的都可以)

统一设置时间为:

date -s "20230624 00:00:00"

五、NameNode格式化

注意啦!格式化只需要格式化一次哦,若以后启动Hadoop集群时,就不需要再格式化啦。

hdfs namenode -format

最后分别在master、slave1、slave2上执行start-all.sh命令启动hadoop集群就大功告成啦!

六、查看Web管理页面

浏览器访问master的50070端口:http://192.168.206.100:50070

总结

问题:
DataNode不能启动或只启动一个
因多次格式化NameNode导致NameNode和DataNode的clusterID不一致无法启动DataNode。
有时候我们的HDFS出了问题,无法解决,可以通过重新格式化NameNode来搞定停止集群的HDFS和Yarn进程,然后删除hadoop目录下的logs以及data文件。

删除命令为:
rm -rf data
rm -rf logs

《Hadoop》课程学习收获:
本学期我们主要学习了Hadoop的基本概念和架构,包括HDFS、MapReduce等。
1.HDFS:学习如何在HDFS上进行文件读写、权限控制等操作;
2.MapReduce:学习MapReduce编程的基本原理和实现方法;
3.Hive:学习如何使用Hive进行SQL查询,以及如何将数据导入到Hive中进行查询和分析;
4.HaBase:学习将数据按照表、行和列进行存储,使用Zookeeper作为协同管理服务。

Hadoop是大数据中的基础框架,有着广泛的应用,也是其他大数据框架的基础。总的来说,对于本次Hadoop的完全分布式的搭建还算是挺简单滴啦,若有不对滴还请大家在评论区指正哦!文章来源地址https://www.toymoban.com/news/detail-729992.html

到了这里,关于【Hadoop】安装部署-完全分布式搭建的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop完全分布式搭建

    1.下载VM 2.下载Centos镜像 3.下载hadoop 4.下载FinalShell 5.下载jdk文件  6.下载hive,数据仓库学习大数据专业的用的到     注:开启虚拟机把鼠标放入屏幕点击后消失,使用键盘上下键进行选择   注:点击之后,什么都不动,再点击完成(因为它自动帮我们分区了) 注:我们配置

    2024年02月04日
    浏览(36)
  • Hadoop 完全分布式部署

    前期准备 分析: 准备3台客户机(关闭防火墙、静态IP、主机名称) 【CentOS 7】 安装JDK 【jdk1.8】 安装Hadoop 【hadoop 3.3.4】 配置环境变量 配置ssh 配置集群 单点启动 群起并测试集群 Hadoop 集群规划: node1 node2 node3 IP 10.90.100.121 10.90.100.122 10.90.100.123 HDFS NameNode 、 DataNode DataNode D

    2024年03月23日
    浏览(35)
  • Hadoop完全分布式搭建(Hadoop-3.3.0)

            本教程讲解Hadoop-3.3.0在Ubuntu系统下集群的搭建。         在正式开始之前,需要自己先安装好一台虚拟机。下面给大家整理了过程中需要用到的资源包,可以自行获取: 1.打开终端,输入命令,创建新用户 2.为hadoop用户设置密码 3.为了我们后面操作方便,这里可以给

    2024年04月11日
    浏览(25)
  • 【Hadoop】完全分布式集群搭建

    大家好,我是向阳花花花花,这篇文章是我历时三天,推翻重做两小时进行搭建的Hadoop集群(完全分布式)个人笔记和感想,收录于初心的《大数据》专栏。 🏠 个人主页:初心%个人主页 🧑 个人简介:大家好,我是初心,一名正在努力的双非二本院校计算机专业学生 💕

    2024年02月15日
    浏览(26)
  • Hadoop的完全分布式搭建

    主机名 Hadoop10 Hadoop11 Hadoop12 网络 192.168.10.10 192.168.10.11 192.168.10.12 用户 hadoop root hadoop root hadoop root HDFS NameNode DateNode DateNode Secondary NameNode DataNode YARN NodeManager NodeManager ResourceManager NodeManager 安装虚拟机系统,省略 第一步:网卡配置 使用 vi 编辑器编辑系统的网卡配置文件,配置以下

    2024年02月08日
    浏览(31)
  • Hadoop 完全分布式集群搭建

    部署前可以先了解下 Hadoop运行模式及目录结构-CSDN博客 服务 hadoop102 hadoop103 hadoop104 NameNode √ DataNode √ √ √ Secondary NameNode √ ResourceManager √ NodeManager √ √ √ JobHistoryServer √ IPv4 192.168.88.102 192.168.88.103 192.168.88.104 NodeObject master worker1 worker2 最小化安装 Neokylin7.0 用于搭建 Had

    2024年02月04日
    浏览(41)
  • Hadoop完全分布式集群搭建

    1.在虚拟机关机的状态下选择克隆 2.开始克隆 3.选择从当前状态创建 4.创建一个完整的克隆 5.选择新的虚拟机存储位置(选择内存充足的磁盘) 6.开始克隆 7.克隆完成 8.同样的方法克隆第二台虚拟机 9.在计算机中存在三台虚拟机 将第一台虚拟机更名为hadoop01 修改hadoop01的主机

    2024年02月02日
    浏览(32)
  • hadoop平台完全分布式搭建

    安装前准备 一、设置ssh免密登录 1.编辑hosts文件,添加主机名映射内容 vim  /etc/hosts 添加内容: 172.17.0.2      master 172.17.0.3      slave1 172.17.0.4      slave2 2.生成公钥和私钥 ssh-keygen –t rsa 然后按三次回车 3.复制公钥到其他容器(包括自己) ssh-copy-id master ssh-copy-id slav

    2024年03月17日
    浏览(37)
  • hadoop01_完全分布式搭建

    Hadoop运行模式包括: 本地模式 (计算的数据存在Linux本地,在一台服务器上 自己测试)、 伪分布式模式 (和集群接轨 HDFS yarn,在一台服务器上执行)、 完全分布式模式 。 本地模式 :(hadoop默认安装后启动就是本地模式,就是将来的数据存在Linux本地,并且运行MR程序的时

    2024年02月04日
    浏览(28)
  • Hadoop3完全分布式搭建

    使用hostnamectl set-hostname 修改当前主机名 1,使用 systemctl stop firewalld systemctl disable firewalld 关闭防火墙 2,使用 vim /etc/selinux/config 修改为 SELINUX=disabled 1,修改网络配置 修改如下三项内容: BOOTPROTO=static ONBOOT=yes IPADDR=自己想要设置的IP。这个ip参考vmware的虚拟网络编辑器的vmnet8的

    2024年01月21日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包