搭建Hadoop3.x完全分布式集群(CentOS 9)

这篇具有很好参考价值的文章主要介绍了搭建Hadoop3.x完全分布式集群(CentOS 9)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

零、资源准备

  • 虚拟机相关:
    • VMware workstation 16:虚拟机 > vmware_177981.zip
    • CentOS Stream 9:虚拟机 > CentOS-Stream-9-latest-x86_64-dvd1.iso
  • Hadoop相关
    • jdk1.8:JDK > jdk-8u261-linux-x64.tar.gz
    • Hadoop 3.3.6:Hadoop > Hadoop 3.3.6.tar.gz
  • 辅助工具
    • putty:tools > putty.exe
    • mtputty:tools > mtputty.exe
    • winscp:tools > WinSCP-6.3.1-Portable.zip

本文相关资源可以在文末提供的百度网盘资源中下载,除了vmware(你懂的…),以上资源均来源于官网,putty和winscp都是便捷式软件,无需安装

一、安装准备

1. 创建虚拟机

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

1) 选择典型安装

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

2)安装来源暂时不指定

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

3)操作系统选择Linux

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

4)设置虚拟机名称和位置

注意:位置可以根据自己电脑的使用情况,选择空闲更多的磁盘

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

5)磁盘容量指定

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

6)完成新建

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

7)虚拟机设置

注意:配置内存为2G,处理器2个,可根据电脑配置适当增加

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装
192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

2. 安装CentOS

1)设置CentOS映像文件

ISO映像选择下载的CentOS-Stream-9-xxxxxxx.iso

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

2)启动虚拟机

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

3)开始安装

选择Install CentOS Stream 9进行安装

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

4)语言选择English

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

5)安装前的配置

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

① 安装目的地

默认配置即可

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

② 软件选择

选择最小安装

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

③ 时区

区域选择Asia, 城市选择shanghai

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

④ 网络设置

确保网卡已经打开

设置主机名,也可以后续设置

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

⑤ 配置root用户密码

注意勾选Allow root SSH login with password,作为练习,密码可以设置简单点,比如123456

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

6)等待安装完成后重启系统。

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

7)配置虚拟机SSH远程登录

① 启动hadoop1

进入登录界面输入用户名root和密码,注意:密码输入时光标不会跳动

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

②配置虚拟机SSH远程登录

第一步,检查SSH服务是否安装和启动

在虚拟机中,分别执行rpm -qa | grep sshps -ef | grep sshd命令,查看当前虚拟机是否安装了SSH服务,以及SSH服务是否启动。

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

  • rpm(英文全拼:redhat package manager) 原本是 Red Hat Linux 发行版专门用来管理 Linux 各项套件的程序,由于它遵循 GPL 规则且功能强大方便,因而广受欢迎。逐渐受到其他发行版的采用。RPM 套件管理方式的出现,让 Linux 易于安装,升级,间接提升了 Linux 的适用度。

  • ps (英文全拼:process status)命令用于显示当前进程的状态,类似于 windows 的任务管理器。

  • grep (global regular expression) 命令用于查找文件里符合条件的字符串或正则表达式。该命令用于查找内容包含指定的范本样式的文件,如果发现某文件的内容符合所指定的范本样式,预设 grep 指令会把含有范本样式的那一列显示出来。若不指定任何文件名称,或是所给予的文件名为 -,则 grep 指令会从标准输入设备读取数据。

如果没有安装,可以使用以下命令进行安装

yum install  openssh-server openssh-clients

第二步,修改SSH服务配置文件

默认情况下,CentOS Stream 9不允许用户root进行远程登录,在虚拟机Hadoop2中执行vi /etc/ssh/sshd_config命令编辑配置文件sshd_config。

PermitRootLogin yes

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

对于小白,这里介绍下vi命令的简单使用方式:使用vi命令打开文件后,输入字母i进入插入模式 => 修改相应的文件内容 => 按Esc键进入命令行模式 => 输入:进入底行模式 => 输入x或者wq保存退出。

如果文件修改后不想保存,进行底行模式后输入q!进行不保存退出

第三步, 重启SSH服务

systemctl restart sshd

3. 克隆主机

1)关闭hadoop1

使用命令shutdown -h now关闭hadoop1

或者

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装?origin_url=images%2F192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

2)克隆虚拟机

克隆虚拟机hadoop2、hadoop3,以克隆hadoop2为例

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装
->192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

  • 完整克隆的虚拟机是通过复制原虚拟机创建完全独立的新虚拟机,不和原虚拟机共享任何资源,可以脱离原虚拟机独立使用。

  • 链接克隆的虚拟机需要和原虚拟机共享同一个虚拟磁盘文件,不能脱离原虚拟机独立运行。

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

4. 网络设置

网络整体规划如下:

虚拟机名 主机名 IP
hadoop1 hadoop1 192.168.121.160
hadoop2 hadoop2 192.168.121.161
hadoop3 hadoop3 192.168.121.162

1)配置VMware Workstation网络

在VMware Workstation主界面,依次单击“编辑”→“虚拟网络编辑器…”选项,配置VMware Workstation网络。

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

2)配置静态IP

以hadoop1主机为例,类似配置hadoop2、 hadoop3

编辑配置文件

vi /etc/NetworkManager/system-connections/ens33.nmconnection

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

method=manual
address1=192.168.121.160/24,192.168.121.2
dns=114.114.114.114

修改uuid(只需要修改hadoop2、 hadoop3主机)

uuid的作用是使分布式系统中的所有元素都有唯一的标识码。

sed -i '/uuid=/c\uuid='`uuidgen`'' /etc/NetworkManager/system-connections/ens33.nmconnection

重启ens33网卡和重新加载网络配置文件

nmcli c reload
nmcli c up ens33

查看网络信息

ip a

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

检测网络

ping www.baidu.com

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

输入ctrl+c退出检测

3)主机名

配置hadoop2主机名

hostnamectl set-hostname hadoop2

配置hadoop3主机名

hostnamectl set-hostname hadoop3

4)配置虚拟机SSH远程登录

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

① 配置putty

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

② 配置winscp

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

5)修改映射文件

在虚拟机hadoop1主机执行vi /etc/hosts命令编辑映射文件hosts,在配置文件中添加如下内容。

192.168.121.160 hadoop1
192.168.121.161 hadoop2
192.168.121.162 hadoop3

在虚拟机hadoop1主机执行如下命令,拷贝配置到hadoop2, hadoop3

scp /etc/hosts root@hadoop2:/etc/hosts
scp /etc/hosts root@hadoop3:/etc/hosts

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

6) 关闭防火墙

关闭虚拟机Hadoop1、Hadoop2和Hadoop3的防火墙,分别在3台虚拟机中运行如下命令关闭防火墙并禁止防火墙开启启动。

  • 关闭防火墙systemctl stop firewalld

  • 禁止防火墙开机启动systemctl disable firewalld

5. 免密登录

在集群环境中,主节点需要频繁的访问从节点,以获取从节点的运行状态,主节点每次访问从节点时都需要通过输入密码的方式进行验证,确定密码输入正确后才建立连接,这会对集群运行的连续性造成不良影响,为主节点配置SSH免密登录功能,可以有效避免访问从节点时频繁输入密码。接下来,虚拟机hadoop1作为集群环境的主节点实现SSH免密登录。

SSH免密登录原理(原理:非对称加密算法:公钥加密(给别人)、私钥解密给自己)

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

1)生成密钥

在虚拟机hadoop1中执行ssh-keygen -t rsa命令,生成密钥。

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

查看秘钥文件

在虚拟机hadoop1中执行ll /root/.ssh命令查看密钥文件。

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

2)复制公钥文件

将虚拟机hadoop1生成的公钥文件复制到集群中相关联的所有虚拟机,实现通过虚拟机hadoop1可以免密登录虚拟机hadoop1、hdp3-2和hdp3-3。

ssh-copy-id hadoop1

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

ssh-copy-id hadoop2
ssh-copy-id hadoop3

3)测试免密登录

ssh hadoop1
ssh hadoop2
ssh hadoop3

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

6. 安装JDK

约定:软件安装包存放于/software,软件安装至/opt

1)创建目录

在虚拟机hadoop1中执行mkdir /software

2)上传jdk

利用winscp将jdk-8u261-linux-x64.tar.gz上传至hadoop1的/software目录

3)解压jdk

cd /software
ll
tar -xvf jdk-8u261-linux-x64.tar.gz -C /opt

4)配置JDK系统环境变量

在虚拟机hadoop1执行vi /etc/profile命令编辑环境变量文件profile,在该文件的底部添加配置JDK系统环境变量的内容。

export JAVA_HOME=/opt/jdk1.8.0_261
export PATH=$PATH:$JAVA_HOME/bin

记得执行source /etc/profile重新加载系统环境变量

5)验证jdk

java -version

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

6)同步文件

分发JDK安装目录和系统环境变量文件至hadoop2、hadoop3

scp -r  /opt/jdk* root@hadoop2:/opt
scp  /etc/profile root@hadoop2:/etc

scp -r  /opt/jdk* root@hadoop3:/opt
scp  /etc/profile root@hadoop3:/etc

二、完全分布式部署

基于完全分布式模式部署Hadoop,需要将Hadoop中HDFS和YARN的相关服务运行在不同的计算机中,我们使用已经部署好的3台虚拟机Hadoop1、Hadoop2和Hadoop3。为了避免在使用过程中造成混淆,先规划HDFS和YARN的相关服务所运行的虚拟机。

虚拟机名 主机名 IP 角色 服务
hadoop1 hadoop1 192.168.121.160 master NameNode、ResourceManager
hadoop2 hadoop2 192.168.121.161 workers SecondaryNameNode、DataNode、NodeManager
hadoop3 hadoop3 192.168.121.162 workers DataNode、NodeManager

1. 安装Hadoop

1)解压

以解压方式安装Hadoop,将Hadoop安装到虚拟机Hadoop1的/opt目录。

tar -xvf /software/hadoop-3.3.6.tar.gz   -C /opt

2)配置环境变量

在Hadoop1执行vi /etc/profile命令配置系统环境变量,在该文件的底部添加如下内容。

export HADOOP_HOME=/opt/hadoop-3.3.6
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

3)验证

在虚拟机Hadoop1的任意目录执行hadoop version命令查看当前虚拟机中Hadoop的版本号。

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

2. 修改配置文件

配置文件 功能描述
hadoop-env.sh 配置Hadoop运行时的环境,确保HDFS能够正常运行NameNode、SecondaryNameNode和DataNode服务
yarn-env.sh 配置YARN运行时的环境,确保YARN能够正常运行ResourceManager和NodeManager服务
core-site.sh Hadoop核心配置文件
hdfs-site.xml HDFS核心配置文件
mapred-site.xml MapReduce核心配置文件
yarn-site.xml YARN核心配置文件
workers 控制从节点所运行的服务器

1)配置Hadoop运行时环境

在Hadoop安装目录/etc/hadoop/目录,执行vi hadoop-env.sh命令,在hadoop-env.sh文件的底部添加如下内容。

export JAVA_HOME=/opt/jdk1.8.0_261
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
  • 指定Hadoop使用的JDK

  • 指定管理NameNode、DataNode等服务的用户为root

2)配置hadoop

在Hadoop安装目录/etc/hadoop/目录,执行vi core-site.xml命令,在core-site.xml文件中添加如下内容。

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop1:9000</value>
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/data/hadoop-3.3.6</value>
</property>
<property>
   <name>hadoop.http.staticuser.user</name>
   <value>root</value>
</property>
<property>
    <name>hadoop.proxyuser.root.hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.root.groups</name>
    <value>*</value>
</property>
<property>
    <name>fs.trash.interval</name>
    <value>1440</value>
</property>

注意:

  • 上面的配置项要配置到<configuration>标签中,后面的配置项类似

配置项:

  • fs.defaultFS:指定HDFS的通信地址
  • hadoop.tmp.dir:指定Hadoop临时数据的存储目录
  • hadoop.http.staticuser.user:指定通过Web UI访问HDFS的用户root
  • hadoop.proxyuser.root.hosts:允许任何服务器的root用户可以向Hadoop提交任务
  • hadoop.proxyuser.root.groups:允许任何用户组的root用户可以向Hadoop提交任务
  • fs.trash.interval:指定HDFS中被删除文件的存活时长为1440秒

更多参数请参考官网:https://hadoop.apache.org/docs/r3.3.6/hadoop-project-dist/hadoop-common/core-default.xml

3)配置HDFS

在Hadoop安装目录/etc/hadoop/目录,执行vi hdfs-site.xml命令,在hdfs-site.xml文件中添加如下内容。

<property>
    <name>dfs.replication</name>
    <value>2</value>
</property>
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>hadoop2:9868</value>
</property>

配置项:

  • dfs.replication:指定数据副本个数

  • dfs.namenode.secondary.http-address:指定SecondaryNameNode服务的通信地址

更多参数请参考官网:https://hadoop.apache.org/docs/r3.3.6/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

4)配置MapReduce

在Hadoop安装目录/etc/hadoop/目录,执行vi mapred-site.xml命令,在mapred-site.xml文件中添加如下内容。

<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>
<property>
    <name>mapreduce.job.ubertask.enable</name>
    <value>true</value>
</property>
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop1:10020</value>
</property>
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop1:19888</value>
</property>
<property>
    <name>yarn.app.mapreduce.am.env</name>
    <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
    <name>mapreduce.map.env</name>
    <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
    <name>mapreduce.reduce.env</name>
 <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

配置项:

  • mapreduce.framework.name:MapReduce的执行模式,默认是本地模式,另外可以设置成classic(采用MapReduce1.0模式运行) 或 yarn(基于YARN框架运行).
  • mapreduce.job.ubertask.enable:是否允许开启uber模式,当开启后,小作业会在一个JVM上顺序运行,而不需要额外申请资源
  • mapreduce.jobhistory.address:指定MapReduce历史服务的通信地址
  • mapreduce.jobhistory.webapp.address:指定通过Web UI访问MapReduce历史服务的地址
  • yarn.app.mapreduce.am.env:指定MapReduce任务的运行环境
  • mapreduce.map.env:指定MapReduce任务中Map阶段的运行环境
  • mapreduce.reduce.env:指定MapReduce任务中Reduce阶段的运行环境

更多参数请参考官网:https://hadoop.apache.org/docs/r3.3.6/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

5)配置YARN

在Hadoop安装目录/etc/hadoop/目录,执行vi yarn-site.xml命令,在yarn-site.xml文件中添加如下内容。

<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop1</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<property>
    <name>yarn.log.server.url</name>
    <value>http://hadoop1:19888/jobhistory/logs</value>
</property>
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

配置项:

  • yarn.resourcemanager.hostname:指定ResourceManager服务运行的主机
  • yarn.nodemanager.aux-services:指定NodeManager运行的附属服务
  • yarn.nodemanager.pmem-check-enabled:指定是否启动检测每个任务使用的物理内存
  • yarn.nodemanager.vmem-check-enabled:指定是否启动检测每个任务使用的虚拟内存
  • yarn.log-aggregation-enable:指定是否开启日志聚合功能
  • yarn.log.server.url:指定日志聚合的服务器
  • yarn.log-aggregation.retain-seconds:指定日志聚合后日志保存的时间

更多参数请参考官网:https://hadoop.apache.org/docs/r3.3.6/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

6)配置workers

在虚拟机Hadoop1的/opt/hadoop-3.3.6/etc/hadoop/目录,执行vi workers命令,将workers文件默认的内容修改为如下内容。

hadoop2
hadoop3

3. 同步文件

使用scp命令将虚拟机Hadoop1的Hadoop安装目录分发至虚拟机Hadoop2和Hadoop3中存放安装程序的目录。

scp -r /opt/hadoop-3.3.6 root@hadoop2:/opt
scp -r /opt/hadoop-3.3.6 root@hadoop3:/opt

scp /etc/profile root@hadoop2:/etc
scp /etc/profile root@hadoop3:/etc

4. 格式化

在虚拟机Hadoop1执行hdfs namenode -format命令,对基于完全分布式模式部署的Hadoop进行格式化HDFS文件系统的操作。

注意:格式化HDFS文件系统的操作只在初次启动Hadoop集群之前进行。

5. 启动

在虚拟机Hadoop1中执行命令启动Hadoop

start-dfs.sh
start-yarn.sh

6. 检测

1)jps查看进程

HDFS和YARN的相关服务运行在JVM进程中,可以执行jps命令查看当前虚拟机中运行的JVM进程。

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装
192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装
192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

2)Web UI

① 在本地计算机的浏览器输入http://192.168.121.160:9870查看HDFS的运行状态。

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

② 在本地计算机的浏览器输入http://192.168.121.160:8088查看YARN的运行状态。

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

如果希望在本地计算机上使用 http://hadoop1:9870和http://hadoop1:8088查看Hadoop运行状态, 需要配置本机的hosts文件

C:\Windows\System32\drivers\etc\hosts, 添加如下内容即可

192.168.121.160 hadoop1
192.168.121.161 hadoop2
192.168.121.162 hadoop3

7. Hadoop启动服务总结

下面就Hadoop的服务启动进行简单的总结:

1)整体启动和关闭

start-all.sh
stop-all.sh

2)各个服务组件逐一启动/停止

(1)分别启动/停止HDFS组件

hdfs --daemon start namenode
hdfs --daemon start datanode
hdfs --daemon start secondarynamenode
hdfs --daemon stop namenode
hdfs --daemon stop datanode
hdfs --daemon stop secondarynamenode

(2)分别启动/停止YARN组件

yarn --daemon  start resourcemanager
yarn --daemon  start nodemanager
yarn --daemon  stop resourcemanager
yarn --daemon  stop nodemanager

3) 各个模块分开启动/停止

(1)整体启动/停止HDFS

start-dfs.sh
stop-dfs.sh

(2)整体启动/停止YARN

 start-yarn.sh 
 stop-yarn.sh

8. 常见错误及解决办法

1)出现command not found错误

  • 检查/etc/profile文件中是否配置了正确的PATH

  • 如果/etc/profile设置正确,是否没有执行source /etc/profile 使环境变量生效

2)所有命令都不能运行

如果你发现不止安装的程序命令,就连原系统的内置命令都使用不了(比如lsvicat等),很明显,你在修改/etc/profile时,将PATH路径设置错了。最常见的是错误就是在设置PATH时,PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin,把$PATH:漏掉了,这就相当于现在的PATH路径只有两个值$HADOOP_HOME/bin$HADOOP_HOME/sbin

解决办法:

1)恢复默认的PATH路径:

export PATH=/root/.local/bin:/root/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin

2)使用vi命令修改/etc/profile文件,检查设置PATH的地方是否漏掉了$PATH:

3)不小心多次格式化

多次格式化导致DataNode 与 NameNode namespaceID不一致,导致启动HDFS失败,这里告诉最直接暴力的解决办法:

首先清空$hadoop.tmp.dir这个目录,以本文为例:

stop-all.sh
#本教程配置的hadoop.tmp.dir目录为/home/xiaobai/opt/hadoop/tmp
rm -fr /opt/data/hadoop-3.3.6

然后重新格式化HDFS即可

4)NameNode启动不成功

  • NameNode没有格式化

  • 环境变量配置错误

  • Ip和hostname绑定失败,需要通过ip a查看ip地址,重新配置/etc/hosts文件,设置正确的ip和hostname

  • hostname含有特殊符号如.(符号点),会被误解析

5)万能大法

一切的错误,最好的解决办法是查看日志

Hadoop的默认日志文件目录在$HADOOP_HOME/logs

三、案例——词频统计

WordCount示例是大数据计算里的”Hello World”, 它的功能是对输入文件的单词进行统计,输出每个单词的出现次数。

1. 准备数据

1)创建文本数据

在hadoop1上使用 vi /opt/data/word.txt命令编辑如下内容:

hello world
hello hadoop
hello hdfs
hello yarn

2)创建目录

在HDFS创建/wordcount/input目录,用于存放文件word.txt。

hdfs dfs -mkdir -p /wordcount/input

3)在虚拟机Hadoop1执行如下命令将文件word.txt上传到HDFS的/wordcount/input目录。

hdfs dfs -put /opt/data/word.txt /wordcount/input

4)查看文件是否上传成功

通过HDFS的Web UI查看文件word.txt是否上传成功。

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

2. 运行MapReduce程序

1)查看示例程序

进入虚拟机Hadoop1的/opt/hadoop-3.3.6/share/hadoop/mapreduce 目录,在该目录下执行“ll”命令,查看Hadoop提供的MapReduce程序。

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

2)执行程序

在MapReduce程序所在的目录执行下列命令,统计word.txt中每个单词出现的次数。

hadoop jar hadoop-mapreduce-examples-3.3.6.jar  wordcount /wordcount/input /wordcount/output
  • hadoop jar:用于指定运行的MapReduce程序;也可以使用yarn jar运行
  • wordcount:表示程序名称;
  • wordcount/input:表示文件word.txt所在目录;
  • wordcount/output:表示统计结果输出的目录

3)MapReduce程序部分运行效果。

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

3. 查看程序运行状态

MapReduce程序运行过程中,使用浏览器访问YARN的Web UI查看MapReduce程序的运行状态。

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

在HDFS的Web UI查看统计结果。

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

192.168.121.160:9870,# Hadoop,Hadoop3,完全分布式集群搭建,Hadoop集群搭建,Hadoop安装,虚拟机安装

附、网盘资源

链接:https://pan.baidu.com/s/1MSUdwbPArIAglQTDRhOjrg?pwd=jiau
提取码:jiau文章来源地址https://www.toymoban.com/news/detail-850524.html

到了这里,关于搭建Hadoop3.x完全分布式集群(CentOS 9)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Hadoop】完全分布式集群搭建

    大家好,我是向阳花花花花,这篇文章是我历时三天,推翻重做两小时进行搭建的Hadoop集群(完全分布式)个人笔记和感想,收录于初心的《大数据》专栏。 🏠 个人主页:初心%个人主页 🧑 个人简介:大家好,我是初心,一名正在努力的双非二本院校计算机专业学生 💕

    2024年02月15日
    浏览(28)
  • Hadoop 完全分布式集群搭建

    部署前可以先了解下 Hadoop运行模式及目录结构-CSDN博客 服务 hadoop102 hadoop103 hadoop104 NameNode √ DataNode √ √ √ Secondary NameNode √ ResourceManager √ NodeManager √ √ √ JobHistoryServer √ IPv4 192.168.88.102 192.168.88.103 192.168.88.104 NodeObject master worker1 worker2 最小化安装 Neokylin7.0 用于搭建 Had

    2024年02月04日
    浏览(42)
  • Hadoop完全分布式集群搭建

    1.在虚拟机关机的状态下选择克隆 2.开始克隆 3.选择从当前状态创建 4.创建一个完整的克隆 5.选择新的虚拟机存储位置(选择内存充足的磁盘) 6.开始克隆 7.克隆完成 8.同样的方法克隆第二台虚拟机 9.在计算机中存在三台虚拟机 将第一台虚拟机更名为hadoop01 修改hadoop01的主机

    2024年02月02日
    浏览(33)
  • 基于Linux环境下搭建Hadoop3.3.5伪分布式集群

    目录 架构设计: 一、下载hadoop安装包 二、解压及构建软连接 三、 修改配置文件 1. 配置workers文件   //hadoop02中叫slaves 2. 修改hadoop-env.sh          3. 修改core-site.xml     4. 修改hdfs-site.xml 5. 配置:mapred-site.xml文件   6. 配置yarn-site.xml文件  四、根据hdfs-site.xml的配置项,准备数

    2024年01月19日
    浏览(36)
  • hadoop完全分布式集群搭建(超详细)-大数据集群搭建

    本次搭建完全分布式集群用到的环境有: jdk1.8.0 hadoop-2.7.7 本次搭建集群所需环境也给大家准备了,下载链接地址:https://share.weiyun.com/dk7WgaVk 密码:553ubk 本次完全分布式集群搭建需要提前建立好三台虚拟机,我分别把它们的主机名命名为:master,slave1,slave2 一.配置免密登陆 首先

    2024年02月10日
    浏览(34)
  • hadoop-3.3.3完全分布式集群搭建

    随着大数据的不断发展,hadoop在前段时间就已经更新到了3.x版本,与2.x版本存在着一些差异,在某大数据竞赛中也是使用的hadoop3.x的版本,本文就介绍hadoop3.x版本的完全分布式集群搭建。 jdk:1.8 hadoop:3.3.3 操作系统:centos7 需要的所有安装包都放在master节点的/opt目录下,安

    2024年02月09日
    浏览(29)
  • Ubuntu搭建Hadoop3.X分布式和高可用集群,一步步深入

    目录 1. 介绍 2. 基础环境 2.1 关闭防火墙 2.2 修改主机名和主机映射 2.3 免密登录 2.4 安装jdk 3. 搭建hadoop3.x完全分布式 3.1 下载包地址 3.2 上传并解压 3.3 创建目录 3.4 修改配置文件  3.4.1 core.site.xml  3.4.2 hdfs-site.xml  3.4.3 yarn-site.xml 3.4.4 mapred-site.xml 3.4.5 workers 3.4.6 hadoop-env.sh

    2024年02月04日
    浏览(52)
  • Linux环境搭建Hadoop及完全分布式集群

    Hadoop是一个开源的分布式计算框架,旨在处理大规模数据集和进行并行计算。核心包括两个组件:HFDS、MapReduce。 配置方案 各虚拟机的用户名分别为test0、test1、test2,主机名为hadoop100、hadoop101、hadoop102 虚拟机的分配如下: hadoop100:NameNode + ResourceManager hadoop101:DataNode + NodeM

    2024年03月23日
    浏览(29)
  • 写给大忙人看Hadoop完全分布式集群搭建

    vi /usr/local/hadoop/hadoop-2.10.0/etc/hadoop/hdfs-site.xml 修改其内容为: dfs.replication 3 dfs.name.dir /usr/local/hadoop/hdfs/name dfs.data.dir /usr/local/hadoop/hdfs/data 复制mapred-site.xml.template为mapred-site.xml cp /usr/local/hadoop/hadoop-2.10.0/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/hadoop-2.10.0/etc/hadoop/mapred-site.xml

    2024年03月27日
    浏览(41)
  • 大数据内容分享(九):Hadoop-生产集群搭建(完全分布式)

    目录 Hadoop运行模式——完全分布式 1、准备3台虚拟机(关闭防火墙、配置静态IP 和 主机名称) 2、安装JDK 和 Hadoop 并配置JDK和Hadoop的环境变量 3、配置完全分布式集群 4、集群配置 1)集群部署规划 2)配置文件说明 3)配置集群 5、集群启动 与 测试 1)workers的配置 2)启动集

    2024年02月21日
    浏览(84)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包