Hadoop理论及实践-HDFS四大组件关系(参考Hadoop官网)

这篇具有很好参考价值的文章主要介绍了Hadoop理论及实践-HDFS四大组件关系(参考Hadoop官网)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

NameNode(名称节点,Master主节点)

NameNode主要功能

        1、NameNode负责管理HDFS文件系统的元数据,包括文件,目录,块信息等。它将元数据Fsimage与Edit_log持久化到硬盘上。一个是Fsimage(镜像文件),一个是Edit_log(操作日志)。

        Fsimage是一个静态映像,保存了文件系统的整体状态信息,包括文件、目录结构、权限、块信息等,它记录了文件和目录的层次结构以及其属性;

        edit_log则包含了最近发生的文件系统变更的日志记录。通过这两个文件,NameNode能够恢复文件系统的状态。(下头有一个小案例)

       2、当客户端请求读取文件时,NameNode会确定该文件的位置信息,并将这些信息返回给客户端,以便客户端可以直接与相应的DataNode进行通信并获取所需数据。

突然断电恢复时HDFS做了什么(IM理论)

        当突然断电并重新启动时,Fsimage与Edit_log在恢复中起着很大的作用。

        第一步,Fsimage是HDFS的元数据镜像文件,保存了文件系统整体状态信息,包括文件、目录结构,权限,块信息等,他记录了文件和目录层次结构及属性。HDFS重启时,会先读取NameNode中的Fsimage文件,恢复文件系统初始状态。

        第二步,Edit_log是HDFS的事务日志文件,用于记录所有对文件系统的修改操作,例如创建,删除,重命名文件或者目录等。每个修改操作都被追加到Editlog中,确保对文件系统更改的持久化记录。HDFS重启后,程序会读取Editlog文件,并将其中的每个操作应用到初始状态的文件系统中,以此恢复文件系统的最新状态。

        在HDFS突然断电并重新启动时,系统通过读取Fsimage文件来恢复文件系统的初始状态,然后再将Editlog中的操作应用到初始状态的文件系统,实现文件系统的完全恢复。保证了数据的一致性和可靠性,避免数据丢失或损坏。(很重要!)

Checkpoint机制(检查点)

checkpoint功能:HDFS为了将Fsimage与Editlog文件合并成完整的文件系统镜像而使用的一种机制。

        Edits文件和Fsimage文件的合并关系是通过Checkpoint过程实现的,Checkpoint将当前的Fsimage文件和最新的Edits文件合并为一个新的Fsimage文件,从而得到最新的文件系统镜像。

checkpoint流程:执行Checkpoint过程时,HDFS会首先将当前的Fsimage文件复制到一个临时的目录中,随后将新的editlog文件追加到复制的Fsimage文件中,最后生成一个新的Fsimage文件。

        这个过程中确保了原始Fsimage文件不会被修改,同时保证了最新文件系统操作记录被正确应用到镜像中。

Secondary NameNode

        备注:老版本的Hadoop是Secondary NameNode干这个合并的活,协助NameNode执行一些管理任务。S N定期合并NameNode的Fsimage文件和Edits文件,生成新的Fsimage文件,以减少NameNode的启动时间和内存占用。

NameNode HA机制(High Availability)(IM)

        NameNode HA是HDFS的高可用性解决方案,它通过在集群中配置多个NameNode实例来提供故障转移和无缝切换的能力。

        在NN HA配置中,有两个NameNode实例,一个被称为Active NameNode,另一个被称为Standby NameNode。 Active NameNode负责处理客户端的请求,维护文件系统的元数据以及管理数据块的位置信息。Standby NameNode则处于备用状态,与Active NameNode保持同步,并监控其健康状态。

         在生产环境中,为避免NameNode宕机,HDFS无法提供服务,产生单点故障问题,因此HDFS通常会配置了一个备用的NameNode被称为Standby NameNode,用于提供冗余和故障转移。

DataNode(数据节点,worker节点)

DataNode主要功能

        1、DataNode是存储实际数据块的节点,它负责在本地磁盘上存储和管理数据块。

        2、与namenode保持心跳机制,同时上报块信息,执行namenode的操作

        DataNode通过与NameNode的交互,定期向NameNode报告所存储的数据块的列表和状态信息,发送心跳信号和块报告,以确保数据的完整性和可用性。

        3、存储和提供数据块给客户端

timeout  = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval
心跳 超时时间 10分钟 + 30秒

ZKFC(ZooKeeper故障转移控制器)IM

ZCFC主要功能

        ZKFC是HDFS的故障转移组件,它通过监视和控制活动NameNode和备用NameNode之间的状态来实现自动故障转移。

        它在主备NameNode之间进行状态同步,以便在主节点发生故障时,能够快速切换到备用节点。 

        ZKFC与和JournalNode紧密合作,通过与其通信来实现高可用性和容错性。

JournalNode(日志节点)

        JournalNode的功能用于存储和管理NameNode的操作日志,确保元数据更新的持久性。

        它接收来自NameNode的事务日志,并将其写入本地磁盘和共享存储中,以便在需要时进行恢复。分布式系统中,NameNode和其他JournalNode一起工作,构成了分布式的高可用日志系统,用于保证元数据的一致性和可靠性。

组件之间的联系

Hadoop理论及实践-HDFS四大组件关系(参考Hadoop官网),Hadoop,hadoop,hdfs,大数据

        NameNode是HDFS的核心,负责管理文件系统的命名空间和元数据。它通过与DataNode进行通信来读取和写入数据块。

        DataNode存储实际的数据块,向NameNode报告数据块的状态和位置信息。

        ZKFC通过与NameNode和JournalNode的交互,实现主备节点之间的状态同步和故障转移。

        JournalNode负责存储和管理NameNode的操作日志,为HDFS提供持久性和可靠性。它与NameNode和其他JournalNode一起工作,构成了分布式的高可用日志系统。

参考文章

https://hadoop.apache.org/ hadoop官网

https://www.cnblogs.com/shun7man/p/11521290.html

Hadoop 三大组件之HDFS_hdfs组件_不忘初欣丶的博客-CSDN博客


 文章来源地址https://www.toymoban.com/news/detail-636902.html

到了这里,关于Hadoop理论及实践-HDFS四大组件关系(参考Hadoop官网)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【HDFS联邦(2)】HDFS Router-based Federation官网解读:HDFSRouterFederation的架构、各组件基本原理

    本文主要参考官网:HDFSRouterFederation 对HDFSRouterFederation进行了解: viewfs会带来的问题,HDFSRouterFederation是如何解决的 HDFSRouterFederation的架构、各组件基本原理说明 NameNodes have scalability limits because of the metadata overhead comprised of inodes (files and directories) and file blocks, the number of Datan

    2024年02月03日
    浏览(29)
  • 数仓知识11:Hadoop生态及Hive、HBase、Impala、HDFS之间的关系

    Hive、HBase、Impala、HDFS是Hadoop生态体系中常用的开源产品,各个产品间是一个什么样的关系,许多人都搞不清楚,本文将进行研究分析。 Hadoop生态 在了解Hive、HBase、Impala、和HDFS之前,先熟悉一下Hadoop的生态。 Apache Hadoop软件库是一个框架,允许使用简单的编程模型在计算机集

    2023年04月08日
    浏览(39)
  • HDFS编程实践(Hadoop3.1.3)

    1.目录操作 在HDFS中为hadoop用户创建一个用户目录 显示HDFS中与当前用户hadoop对应的用户目录下的内容: 创建一个input目录: 可以使用rm命令删除一个目录 上面命令中,“-r”参数表示如果删除“input”目录及其子目录下的所有内容,如果要删除的一个目录包含了子目录,则必

    2023年04月13日
    浏览(30)
  • HDFS编程实践(Hadoop3.1.3)

    Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop核心组件之一,如果已经安装了 Hadoop,其中就已经包含了 HDFS 组件,不需要另外安装。 接下来介绍Linux操作系统中关于HDFS文件操作的常用Shell命令,利用Web界面查看和管理Hadoop文件系统,以及利用Hadoop提供的Java API进

    2024年02月07日
    浏览(42)
  • Hadoop的分布式文件存储系统HDFS组件的使用

    存储整个HDFS集群的元数据(metaData) —— 整个集群中存储的目录和文件的索引 管理整个HDFS集群 接收客户端的请求 负责节点的故障转移 存储数据,是以block块的形式进行数据的存放。 默认情况下block块的大小是128M。 blocksize大小的计算公式: 寻址时间:下载文件时找到文件

    2024年02月09日
    浏览(51)
  • Hadoop集群安装组件版本对应关系

    图片来源参考官网:http://hbase.apache.org/book.html#hadoop 版本信息来自于hive源码包src.tar.gz的pom.xml: hive-3.1.2 hadoop.version3.1.0/hadoop.version hbase.version2.0.0-alpha4/hbase.version spark.version2.3.0/spark.version scala.binary.version2.11/scala.binary.version scala.version2.11.8/scala.version zookeeper.version3.4.6/zookeeper.ve

    2024年02月07日
    浏览(36)
  • 斯皮尔曼相关系(Spearman‘s rank correlation coefficient)数理论及python代码

    让我用一个简单的方式来解释斯皮尔曼相关系数的计算方法。 想象你和你的朋友们在玩一个游戏,比如赛跑。在比赛结束后,每个人都根据跑得快慢得到一个排名,跑得最快的得第一名,其次是第二名,以此类推。 现在,假设我们还知道每个人在学校的成绩排名。我们想知

    2024年02月03日
    浏览(25)
  • 基于Hadoop的MapReduce网站日志大数据分析(含预处理MapReduce程序、hdfs、flume、sqoop、hive、mysql、hbase组件、echarts)

    需要本项目的可以私信博主!!! 本项目包含:PPT,可视化代码,项目源码,配套Hadoop环境(解压可视化),shell脚本,MapReduce代码,文档以及相关说明教程,大数据集! 本文介绍了一种基于Hadoop的网站日志大数据分析方法。本项目首先将网站日志上传到HDFS分布式文件系统

    2024年02月16日
    浏览(45)
  • 一篇博客彻底掌握:粒子滤波 particle filter (PF) 的理论及实践(matlab版)

    原创不易,路过的各位大佬请点个赞 机动目标跟踪/非线性滤波/传感器融合/导航等探讨代码联系WX: ZB823618313 在非线性条件下,贝叶斯滤波面临一个重要问题是状态分布的表达和积分式的求解,由前面章节中的分析可知,对于一般的非线性/非高斯系统,解析求解的途径是行不通

    2024年01月17日
    浏览(31)
  • UML四大关系

    在软件开发中,统一建模语言(Unified Modeling Language,简称UML)被广泛应用于描述、设计和建模软件系统。UML提供了一套图形化符号和规则,帮助开发人员进行可视化的建模工作。UML的四大关系(Association、Inheritance、Aggregation、Composition)是UML中非常重要的概念,对于正确建模

    2024年02月11日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包