【Hadoop】-HDFS集群环境部署[2]

这篇具有很好参考价值的文章主要介绍了【Hadoop】-HDFS集群环境部署[2]。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一、VMware虚拟机中部署

1、安装包下载

2、集群规划

3、上传&解压

3.1.上传hadoop安装包到node1节点中

3.2.解压缩安装包到/export/server/中

3.3.构建软连接

4、进入hadoop安装包内

4.1Hadoop安装包目录结构

4.2修改配置文件,应用自定义设置

4.2.1.配置workers文件

4.2.2.配置hadoop-env.sh文件

4.2.3.配置core-site.xml文件

4.2.4.配置hdfs-site.xml文件

​编辑4.2.5.准备数据目录

5、分发Hadoop文件夹

6、配置环境变量

7、授权为hadoop用户

8、格式化整个文件系统

9.查看HDFS WEBUI


HDFS(Hadoop Distributed File System)是Hadoop生态系统的一部分,用于存储和处理大规模数据集。

一、VMware虚拟机中部署

1、安装包下载

官方网址:https://hadoop.apache.org,

2、集群规划

在前置准备章节,准备了基于VMware的三台虚拟机,其硬件配置如下。

节点 CPU 内存
node1 1核心 4GB
node2 1核心 2GB
node3 1核心 2GB

Hadoop HDFS的角色包含:

  • NameNode,主节点管理者
  • DataNode,从节点工作者
  • SecondaryNameNode,主节点辅助
服务规划
节点 服务
node1 NameNode、DataNode、SecondaryNameNode
node2 DataNode
node3 DataNode

3、上传&解压

!注意:请确认已经完成前置准备中的服务器创建,固定IP、防火墙关闭、Hadoop用户创建、SSH免密、JDK部署等操作。

node1节点执行,以root身份登录:

3.1.上传hadoop安装包到node1节点中

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

通过ll命令可以查看目录,可见hadoop上传成功

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

3.2.解压缩安装包到/export/server/中

tar -zxvf hadoop-3.0.0.tar.gz -C /export/server/

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

3.3.构建软连接

 cd /export/server
 ln -s /export/server//hadoop-3.0.0/ hadoop

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

4、进入hadoop安装包内

4.1Hadoop安装包目录结构

cd进入Hadoop安装包内,通过ls -l 命令查看文件夹内部结构

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

各个文件夹含义如下:

  • bin,存放Hadoop的各类程序(命令)
  • etc,存放Hadoop的配置文件
  • include,C语言的一些头文件
  • lib,存放Linux系统的动态链接库(.so文件)
  • libexec,存放配置Hadoop系统的脚本文件(.sh和.cmd)
  • licenses-binary,存放许可证文件
  • sbin,管理员程序(super bin)
  • share,存放二进制源码(java jar包)

4.2修改配置文件,应用自定义设置

配置HDFS集群,我们主要涉及到如下文件的修改:

  • workers:                配置从节点(DataNode)有哪些
  • hadoop-env.sh        配置Hadoop的相关环境变量
  • core-site.xml:        Hadoop核心配置文件
  • hdfs-site.xml:        HDFS核心配置文件

这些文件均存在于$HADOOP_HOME/etc/hadoop文件夹中

ps:$HADOOP_HOME是后续我们要设置的环境变量,其指代Hadoop安装文件夹即/export/server/hadoop。

4.2.1.配置workers文件

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

填入的node1、node2、node3表明集群记录了三个从节点。

4.2.2.配置hadoop-env.sh文件

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

  • JAVA_HOME,指明JDK环境的位置在哪
  • HADOOP_HOME,指明Hadoop安装位置
  • HADOOP_CONF_DIR,指明Hadoop配置文件目录位置
  • HADOOP_LOG_DIR,指明Hadoop运行日志目录位置

通过记录这些环境变量,来指明上述运行时的重要信息。

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

4.2.3.配置core-site.xml文件

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

  • hdfs://node1:8020为整个HDFS内部的通讯地址,应用协议为hdfs://(Hadoop内置协议)
  • 表明DataNode将和node1的8020端口通讯,node1是NameNode所在机器
  • 此配置固定了node1必须启动NameNode进程

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

4.2.4.配置hdfs-site.xml文件

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据4.2.5.准备数据目录
  •  namenode数据存放node1的/data/nn
  • datanode数据存放node1、node2、node3的/data/dn

所以应该

  • 在node1节点:
    • mkdir -p /data/nn
    • mkdir /data/dn
  • 在node2和node3节点:
    • mkdir -p /data/dn

5、分发Hadoop文件夹

目前,已经基本完成Hadoop的配置操作,可以从node1将Hadoop安装文件远程复制到node2、node3。因为在前边的设置中并没有将hadoop上传给node2、node3。

以下是复制到node2的操作示例,同样操作复制到node3,

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

node2复制完毕

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

分别在node2、node3构建软连接(需要分别切换到node2与node3执行):

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

构建软连接相当于给一个快捷操作。

6、配置环境变量

为了方便操作Hadoop,可以将Hadoop的一些脚本、程序配置到PATH中,方便后续使用,在Hadoop文件夹中bin、sbin两个文件夹内有许多的脚本和程序,现在来配置一下环境变量。

在三台虚拟机都需要配置:

vim  /etc/profile

在文件底部追加一下内容

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

添加保存退出后需要source

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

7、授权为hadoop用户

hadoop部署的准备工作基本完成

为了确保安全,hadoop系统不以root用户启动,我们以普通用户hadoop来启动整个Hadoop服务

所以,现在需要对文件权限进行授权。

ps:先确保已经提前创建好了hadoop用户,并配置了hadoop用户之间的免密登录

  • 以root身份,分别在node1、node2、node3三台虚拟机均执行以下代码

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

8、格式化整个文件系统

前期准备全部完成,现在对整个文件系统执行初始化

以下操作只需要在node1执行

  • 格式化namenode

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

  • 启动

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

 node2、node3的结果如下:

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

根据hadoop集群部署规划规划配置文件,hadoop,hadoop,hdfs,大数据

9.查看HDFS WEBUI

启动完成后,可以在浏览器打开:http://node1.9870

即可查看到hdfs文件系统的管理网页文章来源地址https://www.toymoban.com/news/detail-859772.html

到了这里,关于【Hadoop】-HDFS集群环境部署[2]的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop入门学习笔记——二、在虚拟机里部署HDFS集群

    视频课程地址:https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接:https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd=5ay8 Hadoop入门学习笔记(汇总) 下载Hadoop:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz 本次演示部署结构如下图所示: 本次部署服务清单如下表所示

    2024年02月01日
    浏览(32)
  • hadoop环境配置及HDFS配置

    环境与配置 centos8 hadoop 3.3.5 安装步骤 创建一个虚拟机,克隆三个虚拟机,master内存改大一点4G,salve内存1Gj 参考链接: https://blog.csdn.net/alfiy/article/details/122279914 报错参考: https://blog.csdn.net/weixin_41891385/article/details/118631106

    2024年02月08日
    浏览(33)
  • 【运维】hadoop 集群安装(三)hdfs、yarn集群配置、nodemanager健康管理讲解

    上篇简单说明了多节点的hadoop节点怎么安装,但是没有细致的分析hadoop相关配置,具体怎么根据环境进行配置,接下来我们对这些配置进行讲解 Daemon Environment Variable NameNode HDFS_NAMENODE_OPTS DataNode HDFS_DATANODE_OPTS Secondary NameNode HDFS_SECONDARYNAMENODE_OPTS ResourceManager YARN_RESOURCEMANAGER_OP

    2024年02月10日
    浏览(34)
  • 【生产级实践】Docker部署配置Hadoop3.x + HBase2.x实现真正分布式集群环境

    网上找了很多资料,但能够实现Docker安装Hadoop3.X和Hbase2.X真正分布式集群的教程很零散,坑很多, 把经验做了整理, 避免趟坑。 1、机器环境 这里采用三台机器来部署分布式集群环境: 192.168.1.101 hadoop1 (docker管理节点) 192.168.1.102 hadoop2 192.168.1.103 hadoop3 2、下载Docker Hadoop的

    2024年02月02日
    浏览(35)
  • Hadoop集群环境配置搭建

    Hadoop最早诞生于Cutting于1998年左右开发的一个全文文本搜索引擎 Lucene,这个搜索引擎在2001年成为Apache基金会的一个子项目,也是 ElasticSearch等重要搜索引擎的底层基础。 项目官方:https://hadoop.apache.org/ 首先准备三台Linux服务器,预装CentOS7。三台服务器之间需要网络互通。本地

    2024年02月03日
    浏览(25)
  • 大数据云计算——Docker环境下部署Hadoop集群及运行集群案列

    本文着重介绍了在Docker环境下部署Hadoop集群以及实际案例中的集群运行。首先,文章详细解释了Hadoop的基本概念和其在大数据处理中的重要性,以及为何选择在Docker环境下部署Hadoop集群。接着,阐述了在Docker中配置和启动Hadoop集群所需的步骤和技术要点。 在展示部署过程中,

    2024年02月04日
    浏览(33)
  • HDFS 跨集群数据同步(hive,hadoop)

    两个不同的HDFS 集群数据迁移( A集群的数据 - B 集群) 采用的是 SHELL 脚本  按表进行; 日期分区进行; #!/bin/bash ##################### #创建人:DZH #创建日期: 2020-04 #内容: 数据迁移 ##################### ##################################### [ \\\"$#\\\" -ne 0 ] FILE=$1 path=$(cd `dirname $0`; pwd) ############## 获取执

    2024年04月27日
    浏览(36)
  • Hadoop依赖环境配置与安装部署

      Hadoop是一个 分布式系统基础架构 , 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是 大数据 技术中的基石。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理,用户可以在不了解分布式底层细节的情况下,开发分布式程序,用户可以轻松

    2024年02月09日
    浏览(34)
  • Centos7原生hadoop环境,搭建Impala集群和负载均衡配置

    Impala集群包含一个Catalog Server (Catalogd)、一个Statestore Server (Statestored) 和若干个Impala Daemon (Impalad)。Catalogd主要负责元数据的获取和DDL的执行,Statestored主要负责消息/元数据的广播,Impalad主要负责查询的接收和执行。 Impalad又可配置为coordinator only、 executor only 或coordinator and exe

    2024年02月04日
    浏览(45)
  • 大数据技术之Hadoop:HDFS集群安装篇(三)

    目录 分布式文件系统HDFS安装篇 一、为什么海量数据需要分布式存储 二、 分布式的基础架构分析 三、 HDFS的基础架构 四 HDFS集群环境部署 4.1 下载安装包 4.2 集群规划 4.3 上传解压 4.4 配置HDFS集群 4.5 准备数据目录 4.6 分发hadoop到其他服务器 4.7 配置环境变量 4.8 为普通用户授

    2024年02月14日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包