HDFS 架构剖析

这篇具有很好参考价值的文章主要介绍了HDFS 架构剖析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一、HDFS 架构整体概述

二、HDFS 集群角色介绍 

2.1 整体概述 

2.2 主角色:namenode 

2.3 从角色:datanode 

2.4 主角色辅助角色: secondarynamenode 

三、HDFS 重要特性

3.1 主从架构 

3.2 分块存储机制

3.3 副本机制 

3.4 namespace 

3.5 元数据管理 

3.6 数据块存储 


 

一、HDFS 架构整体概述

        HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。HDFS 是Hadoop 核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在HDFS 解决的问题就是大数据如何存储它是横跨在多台计算机上的文件存储系统并且具有高度的容错能力。

HDFS 架构剖析,Hadoop,hdfs,架构,hadoop        HDFS 集群遵循主从架构(master/slave通常包括一个主节点和多个从节点。在内部,文件分块存储每个块根据复制因子存储在不同的从节点计算机上形成备份。主节点存储和管理文件系统 namespace即有关文件块的信息,例如块位置,权限等;从节点存储文件的数据块。主从各司其职,互相配合,共同对外提供分布式文件存储服务。当然内部细节对于用户来说是透明的。

HDFS 架构剖析,Hadoop,hdfs,架构,hadoop

二、HDFS 集群角色介绍 

2.1 整体概述 

        HDFS 遵循主从架构。NameNode 是主节点,负责存储和管理文件系统元数据信息,包括 namespace 目录结构、文件块位置信息等;  DataNode 是从节点,负责存储文件具体的数据块。两种角色各司其职,共同协调完成分布式的文件存储服务。SecondaryNameNode 是主角色的辅助角色,帮助主角色进行元数据的合并。

HDFS 架构剖析,Hadoop,hdfs,架构,hadoop

2.2 主角色:namenode 

        NameNode 是 Hadoop 分布式文件系统的核心,架构中的主角色NameNode 维护和管理文件系统元数据,包括名称空间目录树结构、文件和块的位置信息、访问权限等信息。基于此,NameNode 成为了访问 HDFS 的唯一入口

        NameNode 内部通过内存磁盘文件两种方式管理元数据。其中磁盘上的元数据文件包括Fsimage 内存元数据镜像文件和 edits logJournal)编辑日志。在 Hadoop2 之前,NameNode 是单点故障。Hadoop 2 中引入的高可用性。Hadoop 群集体系结构允许在群集中以热备配置运行两个或多个 NameNode

HDFS 架构剖析,Hadoop,hdfs,架构,hadoop

2.3 从角色:datanode 

        DataNode 是 Hadoop HDFS 中的从角色,负责具体的数据块存储。DataNode 数量决定了HDFS 集群的整体数据存储能力。通过和 NameNode 配合维护着数据块。

HDFS 架构剖析,Hadoop,hdfs,架构,hadoop

2.4 主角色辅助角色: secondarynamenode 

        除了 DataNode 和 NameNode 之外,还有另一个守护进程,它称为 secondary NameNode。充当 NameNode 的辅助节点,但不能替代 NameNode

        当 NameNode 启动时,NameNode 合并 Fsimage 和 edits log 文件以还原当前文件系统名称空间。如果 edits log 过大不利于加载,Secondary NameNode 就辅助 NameNode NameNode 下载 Fsimage 文件和 edits log 文件进行合并

HDFS 架构剖析,Hadoop,hdfs,架构,hadoop

三、HDFS 重要特性

3.1 主从架构 

        HDFS 采用 master/slave 架构。一般一个 HDFS 集群是有一个 Namenode 和一定数目的 Datanode 组成Namenode 是 HDFS 主节点,Datanode 是 HDFS 从节点,两种角色各司其职,共同协调完成分布式的文件存储服务。

HDFS 架构剖析,Hadoop,hdfs,架构,hadoop

3.2 分块存储机制

        HDFS 中的文件在物理上是分块存储(block的,块的大小可以通过配置参数来规定,参数位于 hdfs-default.xml 中:dfs.blocksize。默认大小是 128M134217728)。

HDFS 架构剖析,Hadoop,hdfs,架构,hadoop

3.3 副本机制 

        文件的所有 block 都会有副本。每个文件的 block 大小(dfs.blocksize)和副本系数(dfs.replication)都是可配置的。副本系数可以在文件创建的时候指定,也可以在之后通过命令改变。

默认 dfs.replication 的值是 3,也就是会额外再复制 份,连同本身总共 份副本。

HDFS 架构剖析,Hadoop,hdfs,架构,hadoop

3.4 namespace 

        HDFS 支持传统的层次型文件组织结构。用户可以创建目录,然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现有的文件系统类似:用户可以创建、删除、移动或重命名文件。

        Namenode 负责维护文件系统的 namespace 名称空间,任何对文件系统名称空间或属性的修改都将被 Namenode 记录下来。

        HDFS 会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data

HDFS 架构剖析,Hadoop,hdfs,架构,hadoop

3.5 元数据管理 

在HDFS中,Namenode 管理的元数据具有两种类型:

  • 文件自身属性信息

  文件名称、权限,修改时间,文件大小,复制因子,数据块大小。

  • 文件块位置映射信息

  记录文件块和 DataNode 之间的映射信息,即哪个块位于哪个节点上。

HDFS 架构剖析,Hadoop,hdfs,架构,hadoop 

3.6 数据块存储 

        文件的各个 block 的具体存储管理由 DataNode 节点承担。每一个 block 都可以在多个 DataNode 上存储。

HDFS 架构剖析,Hadoop,hdfs,架构,hadoop

下一篇文章:Hadoop 3.2.4 集群搭建详细图文教程_Stars.Sky的博客-CSDN博客文章来源地址https://www.toymoban.com/news/detail-702059.html

到了这里,关于HDFS 架构剖析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • HDFS 架构剖析

    目录 一、HDFS 架构整体概述 二、HDFS 集群角色介绍  2.1 整体概述  2.2 主角色:namenode  2.3 从角色:datanode  2.4 主角色辅助角色: secondarynamenode  三、HDFS 重要特性 3.1 主从架构  3.2 分块存储机制 3.3 副本机制  3.4 namespace  3.5 元数据管理  3.6 数据块存储          

    2024年02月09日
    浏览(25)
  • hadoop-HDFS

    1.HDFS简介 2.1  Hadoop 分布式文件系统-HDFS架构 2.2  HDFS 组成角色及其功能 (1)Client:客户端 (2)NameNode (NN):元数据节点 管理文件系统的Namespace元数据 一个HDFS集群只有一个Active的NN (3)DataNode (DN):数据节点 数据存储节点,保存和检索Block 一个集群可以有多个数据节点 (

    2024年02月11日
    浏览(43)
  • Hadoop生态体系-HDFS

    Hadoop:允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。 核心组件有: HDFS(分布式文件系统):解决海量数据存储 YARN(作业调度和集群资源管理的框架):解决资源任务调度 MAPREDUCE(分布式运算编程框架):解决海量数据计算 特点:扩容能力(

    2024年02月16日
    浏览(75)
  • Hadoop --- HDFS介绍

    HDFS 全称是Hadoop Distributed File System hadoop分布式(cluser)文件存储系统。适合一次写入,多次读出的场景。 HDFS不需要单独安装,安装Hadoop的时候带了HDFS系统。 Hadoop安装可以参考:  有基础的,已经安装了虚拟机的 : Hadoop安装 没有基础, 也没有安装虚拟机的: Hadoop集群安

    2024年02月10日
    浏览(42)
  • hadoop与HDFS交互

    在进行HDFS编程实践前,需要首先启动Hadoo p。可以执行如下命令启动Hadoop: cd /usr/local/hadoop ./sbin/start-dfs.sh #启动hadoop Hadoop支持很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。 注意 本教程 的命令是以”./bin/

    2024年02月14日
    浏览(36)
  • Hadoop - HDFS文件系统

    目录 HDFS文件系统  1、文件系统定义 2、大数据时代,面对海量数据,传统的文件存储系统会面临哪些挑战? 3、分布式存储系统的核心属性及功能含义 一、分布式存储的优点 二、元数据记录的功能 三、分块存储好处 四、副本机制的作用 4、HDFS简介 HDFS适用场景 5、HDFS主从架

    2023年04月08日
    浏览(39)
  • hadoop与hdfs

    简介 Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的 项目结构 应用框架 版本演变 项目结构 组件 功能 HDFS 分布式文件系统 MapReduce 分布式并行

    2024年01月22日
    浏览(29)
  • 【Hadoop精讲】HDFS详解

    目录 理论知识点 角色功能 元数据持久化 安全模式 SecondaryNameNode(SNN) 副本放置策略 HDFS写流程 HDFS读流程 HA高可用 CPA原则 Paxos算法 HA解决方案 HDFS-Fedration解决方案(联邦机制) 另一台机器就是SecondaryNameNode(SNN) 不保存位置信息的原因,是因为当机器重启恢复后,DN会和NN建立心

    2024年02月02日
    浏览(36)
  • HADOOP HDFS详解

    目录 第一章 概述 1.1大数据的特征(4V) 1.2 大数据的应用场景 1.3大数据的发展前景 1.4企业大数据的一般处理流程 1.4.1数据源 1.4.2数据采集或者同步 1.4.3数据存储 1.4.4 数据清洗 1.4.5 数据分析 1.4.6数据展示 第二章 hadoop介绍 2.1.hadoop 目标 2.2 hadoop的介绍 2.3 hadoop起源 2.4 Hadoop版本

    2024年03月13日
    浏览(57)
  • Hadoop Hdfs基本命令

    1.hadoop 安装问题处理 2.hdfs 基本命令 3. 上传/下载文件和文件夹 1.hadoop安装问题处理 如果安装有进程无法启动,如下图 重新检查6个配置文件 Core-site.xml hdfs-site.xml hadoop-env.sh yarn-site.xml workers yarn-site.xml 来到hadoop313目录 清空data和yarndata 重新初始化 测试 2.hadoop hdfs基本命

    2024年02月11日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包