hadoop-3.3.3完全分布式集群搭建

这篇具有很好参考价值的文章主要介绍了hadoop-3.3.3完全分布式集群搭建。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


前言

随着大数据的不断发展,hadoop在前段时间就已经更新到了3.x版本,与2.x版本存在着一些差异,在某大数据竞赛中也是使用的hadoop3.x的版本,本文就介绍hadoop3.x版本的完全分布式集群搭建。


环境准备

软件版本

  • jdk:1.8
  • hadoop:3.3.3
  • 操作系统:centos7

需要的所有安装包都放在master节点的/opt目录下,安装包统一解压到/usr/local/src目录下

虚拟机解压安装包命令,大数据笔记,hadoop,分布式,hdfs,大数据,bigdata

集群规划

采用一主两从的模式,由于一些政治问题,hadoop3.x中将之前2.x版本中的slaves改为了workers,如果你喜欢还是可以命名为slave。

master worker1 worker2
ip 192.168.1.101 192.168.1.102 192.168.1.103
进程 NameNode,ResourceManager,SecondaryNameNode DataNode,NodeManager DataNode,NodeManager

一、配置jdk环境变量

1. 解压jdk

tar -zxvf /opt/jdk-8u162-linux-x64.tar.gz -C /usr/local/src/

虚拟机解压安装包命令,大数据笔记,hadoop,分布式,hdfs,大数据,bigdata

2. 修改/etc/profile文件

vi /etc/profile

# 在里面添加以下内容
export JAVA_HOME=/usr/local/src/jdk1.8.0_162
export PATH=$PATH:$JAVA_HOME/bin

# 按 esc键 输入:wq!保存并退出

# 退出编辑之后在终端输入
source /etc/profile  # 刷新环境变量

虚拟机解压安装包命令,大数据笔记,hadoop,分布式,hdfs,大数据,bigdata

测试环境变量是否配置成功

# 在终端中输入,如果出现如图所示的内容则说明jdk安装成功
java -version

虚拟机解压安装包命令,大数据笔记,hadoop,分布式,hdfs,大数据,bigdata


二、hadoop集群搭建

1. 关闭防火墙

# 在三个节点上执行
systemctl stop firewalld
systemctl disable firewalld

2. 修改主机名

# 修改三个节点的/etc/hosts文件,三台机器分别执行以下语句
hostnamectl set-hostname master
hostnamectl set-hostname worker1
hostnamectl set-hostname worker2

3. 添加ip映射

vi /etc/hosts

# 在/etc/hosts的末尾添加
192.168.1.101 master
192.168.1.102 worker1
192.168.1.103 worker2

4. 配置免密登录

ssh-keygen -t rsa

然后空格四连,出现以下内容

虚拟机解压安装包命令,大数据笔记,hadoop,分布式,hdfs,大数据,bigdata

然后把公钥复制到各个节点,第一次登陆会让你输入密码

ssh-copy-id master
ssh-copy-id worker1
ssh-copy-id worker2

先输入yes再输入密码

虚拟机解压安装包命令,大数据笔记,hadoop,分布式,hdfs,大数据,bigdata

测试免密登录是否配置成功

虚拟机解压安装包命令,大数据笔记,hadoop,分布式,hdfs,大数据,bigdata

exit # 回到master节点

5. 修改hadoop配置文件

1. 解压

tar -zxvf /opt/hadoop-3.3.3.tar.gz -C /usr/local/src
cd /usr/local/src/hadoop-3.3.3/etc/hadoop

2. 配置hadoop环境变量

vi /etc/profile

# 添加以下内容
export HADOOP_HOME=/usr/local/src/hadoop-3.3.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

虚拟机解压安装包命令,大数据笔记,hadoop,分布式,hdfs,大数据,bigdata

测试环境变量是否配置成功

source /etc/profile

hadoop version
# 出现以下内容说明配置成功

虚拟机解压安装包命令,大数据笔记,hadoop,分布式,hdfs,大数据,bigdata

3. hadoop-env.sh

vi hadoop-env.sh

# 添加以下内容
export JAVA_HOME=/usr/local/src/jdk1.8.0_162
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

4. core-site.xml

vi core-site.xml
<!-- 在configuration标签内添加以下内容 -->
<!-- fs.default.name已经过时了,现在一般都用fs.defaultFS-->
<!-- NameNode的地址  -->
<property>
	<name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
</property>
<!-- 临时文件存放位置 -->
<property>
	<name>hadoop.tmp.dir</name>
    <value>/usr/local/src/hadoop-3.3.3/tmp</value>
</property>

5. hdfs-site.xml

vi hdfs-site.xml
<!-- 在configuration标签内添加以下内容 -->
<!-- 设置副本数量 -->
<property>
	<name>dfs.replication</name>
    <value>2</value>
</property>
<!-- namenode存放的位置,老版本是用dfs.name.dir -->
<property>
	<name>dfs.namenode.name.dir</name>
    <value>/usr/local/src/hadoop-3.3.3/name</value>
</property>
<!-- datanode存放的位置,老版本是dfs.data.dir -->
<property>
	<name>dfs.datanode.data.dir</name>
    <value>/usr/local/src/hadoop-3.3.3/data</value>
</property>
<!-- 关闭文件上传权限检查 -->
<property>
	<name>dfs.permissions.enalbed</name>
    <value>false</value>
</property>
<!-- namenode运行在哪儿节点,默认是0.0.0.0:9870,在hadoop3.x中端口从原先的50070改为了9870 -->
<property>
	<name>dfs.namenode.http-address</name>
    <value>master:9870</value>
</property>
<!-- secondarynamenode运行在哪个节点,默认0.0.0.0:9868 -->
<property>
	<name>dfs.namenode.secondary.http-address</name>
    <value>master:9868</value>
</property>

特别注意:在hadoop3.x中,文件系统的web界面的端口从50070改为了9870

6. yarn-site.xml

vi yarn-site

<!-- 在configuration标签内添加以下内容 -->
<!-- resourcemanager运行在哪个节点 -->
<property>
	<name>yarn.resourcemanager.hostname</name>
    <value>master</value>
</property>
<!-- nodemanager获取数据的方式 -->
<property>
	<name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<!-- 关闭虚拟内存检查 -->
<property>
	<name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

7. mapred-site.xml

vi mapred-site.xml

<!-- 在configuration标签内添加以下内容 -->
<!-- 设置mapreduce在yarn平台上运行 -->
<property>
	<name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>
<!-- 配了上面这个下面这个也得配, 不然跑mapreduce会找不到主类。MR应用程序的CLASSPATH-->
<property>
	<name>mapreduce.application.classpath</name>
    <value>/usr/local/src/hadoop-3.3.3/share/hadoop/mapreduce/*:/usr/local/src/hadoop-3.3.3/share/hadoop/mapreduce/lib/*</value>
</property>

8. workers

vi workers

# 删掉里面的localhost,添加以下内容,你的两个从节点的ip映射
worker1
worker2

6. 分发文件

cd /usr/local/src

# 分发jdk,$PWD:获取当前所在目录的绝对路径
scp -r jdk1.8.0_162 root@worker1:$PWD
scp -r jdk1.8.0_162 root@worker2:$PWD
# 分发hadoop
scp -r hadoop-3.3.3 root@worker1:$PWD
scp -r hadoop-3.3.3 root@worker2:$PWD
# 分发/etc/hosts
scp /etc/hosts root@worker1:/etc/
scp /etc/hosts root@worker2:/etc/
# 分发/etc/profile
scp /etc/profile root@worker1:/etc/
scp /etc/profile root@worker2:/etc/

# 然后在两个从节点上执行 source /etc/profile

7. 格式化namenode

hdfs namenode -format

8. 启动Hadoop集群并测试

1. 查看进程

# 启动hdfs
start-dfs.sh
# 启动yarn
start-yarn.sh
# 查看进程
jps

虚拟机解压安装包命令,大数据笔记,hadoop,分布式,hdfs,大数据,bigdata

虚拟机解压安装包命令,大数据笔记,hadoop,分布式,hdfs,大数据,bigdata

虚拟机解压安装包命令,大数据笔记,hadoop,分布式,hdfs,大数据,bigdata

2. 访问web界面

打开浏览器输入,master的ip加上端口

虚拟机解压安装包命令,大数据笔记,hadoop,分布式,hdfs,大数据,bigdata

3. 运行官方案例 WordCount

统计每个单词出现的频率

vi words.txt

# 添加以下内容,随意添加
hadoop hdfs hdfs hadoop
mapreduce mapreduce hadoop
hdfs hadoop yarn yarn
# 在hdfs上创建文件夹 
hdfs dfs -mkdir /input
# 把words.txt上传到hdfs的input文件夹中
hdfs dfs -put words.txt /input/

# 运行wordcount
hadoop jar /usr/local/src/hadoop-3.3.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.3.jar wordcount /input/ /output

查看结果

虚拟机解压安装包命令,大数据笔记,hadoop,分布式,hdfs,大数据,bigdata

~ 集群搭建到此结束。


总结

以上就是今天要讲的内容,本文仅仅简单介绍了hadoop-3.3.3的完全分布式集群搭建,可以看到3.x和2.x之间的一些差别,比如最常用的web端口从50070改为了9870。

hadoop集群搭建好之后为我们之后要学习的大数据框架打下了基础。文章来源地址https://www.toymoban.com/news/detail-699878.html

到了这里,关于hadoop-3.3.3完全分布式集群搭建的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop 完全分布式集群搭建

    部署前可以先了解下 Hadoop运行模式及目录结构-CSDN博客 服务 hadoop102 hadoop103 hadoop104 NameNode √ DataNode √ √ √ Secondary NameNode √ ResourceManager √ NodeManager √ √ √ JobHistoryServer √ IPv4 192.168.88.102 192.168.88.103 192.168.88.104 NodeObject master worker1 worker2 最小化安装 Neokylin7.0 用于搭建 Had

    2024年02月04日
    浏览(56)
  • hadoop完全分布式集群搭建(超详细)-大数据集群搭建

    本次搭建完全分布式集群用到的环境有: jdk1.8.0 hadoop-2.7.7 本次搭建集群所需环境也给大家准备了,下载链接地址:https://share.weiyun.com/dk7WgaVk 密码:553ubk 本次完全分布式集群搭建需要提前建立好三台虚拟机,我分别把它们的主机名命名为:master,slave1,slave2 一.配置免密登陆 首先

    2024年02月10日
    浏览(52)
  • hadoop-3.3.3完全分布式集群搭建

    随着大数据的不断发展,hadoop在前段时间就已经更新到了3.x版本,与2.x版本存在着一些差异,在某大数据竞赛中也是使用的hadoop3.x的版本,本文就介绍hadoop3.x版本的完全分布式集群搭建。 jdk:1.8 hadoop:3.3.3 操作系统:centos7 需要的所有安装包都放在master节点的/opt目录下,安

    2024年02月09日
    浏览(42)
  • Linux环境搭建Hadoop及完全分布式集群

    Hadoop是一个开源的分布式计算框架,旨在处理大规模数据集和进行并行计算。核心包括两个组件:HFDS、MapReduce。 配置方案 各虚拟机的用户名分别为test0、test1、test2,主机名为hadoop100、hadoop101、hadoop102 虚拟机的分配如下: hadoop100:NameNode + ResourceManager hadoop101:DataNode + NodeM

    2024年03月23日
    浏览(41)
  • Hadoop3.1.4完全分布式集群搭建

    在Centos7中直接使用root用户执行hostnamectl命令修改,重启(reboot)后永久生效。 要求:三台主机的名字分别为:master slave1 slave2 关闭后,可查看防火墙状态,当显示disavtive(dead)的字样,说明CentOS 7防火墙已经关闭。 但要注意的是,上面的命令只是临时关闭了CentOS 7防火墙,

    2024年04月17日
    浏览(52)
  • 写给大忙人看Hadoop完全分布式集群搭建

    vi /usr/local/hadoop/hadoop-2.10.0/etc/hadoop/hdfs-site.xml 修改其内容为: dfs.replication 3 dfs.name.dir /usr/local/hadoop/hdfs/name dfs.data.dir /usr/local/hadoop/hdfs/data 复制mapred-site.xml.template为mapred-site.xml cp /usr/local/hadoop/hadoop-2.10.0/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/hadoop-2.10.0/etc/hadoop/mapred-site.xml

    2024年03月27日
    浏览(52)
  • 用三台云服务器搭建hadoop完全分布式集群

    本次利用云服务器搭建Hadoop集群, 在开始之前,你需要3台云服务器,可以在同一家购买也可以在不同家购买。此次教程采用百度云产品,可以换不同账号新手免费试用几个月,具体配置如下: 服务器名称 配置 磁盘容量 master 2cpu 内存4GB 40G slave1 1cpu 内存2GB 60G slave2 1cpu 内存

    2024年02月04日
    浏览(57)
  • 大数据内容分享(九):Hadoop-生产集群搭建(完全分布式)

    目录 Hadoop运行模式——完全分布式 1、准备3台虚拟机(关闭防火墙、配置静态IP 和 主机名称) 2、安装JDK 和 Hadoop 并配置JDK和Hadoop的环境变量 3、配置完全分布式集群 4、集群配置 1)集群部署规划 2)配置文件说明 3)配置集群 5、集群启动 与 测试 1)workers的配置 2)启动集

    2024年02月21日
    浏览(100)
  • 搭建Hadoop3.x完全分布式集群(CentOS 9)

    虚拟机相关: VMware workstation 16:虚拟机 vmware_177981.zip CentOS Stream 9:虚拟机 CentOS-Stream-9-latest-x86_64-dvd1.iso Hadoop相关 jdk1.8:JDK jdk-8u261-linux-x64.tar.gz Hadoop 3.3.6:Hadoop Hadoop 3.3.6.tar.gz 辅助工具 putty:tools putty.exe mtputty:tools mtputty.exe winscp:tools WinSCP-6.3.1-Portable.zip 本文相关资源可以

    2024年04月14日
    浏览(51)
  • Hadoop分布式集群搭建(三台虚拟机)

    搭建好VMware Workstation Pro(我这里装的版本是16) 搭建hadoop集群需要三台虚拟机 1.新建虚拟机——自定义(高级)  2.不用改动,点击下一步  3.映像文件稍后再加入  4.选择Linux——CentOS 7 64位  5.可以在存放虚拟机的文件内新建一个文件夹,专门放hadoop集群需要的虚拟机(有三

    2024年02月08日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包