Hadoop HDFS(分布式文件系统)

这篇具有很好参考价值的文章主要介绍了Hadoop HDFS(分布式文件系统)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、Hadoop HDFS(分布式文件系统)

为什么要分布式存储数据

假设一个文件有100tb,我们就把文件划分为多个部分,放入到多个服务器

靠数量取胜,多台服务器组合,才能Hold住

数据量太大,单机存储能力有上限,需要靠数量来解决问题

数量的提升带来的是网络传输,磁盘读写,CUP,内存等各方面的综合提升。分布式组合在一起可以达到

1+1>2的效果

二、大数据体系中,分布式的调度主要有2类架构模式:
1.去(无)中心化模式

去中心化模式,没有明确的中心,众多服务器之间基于特定规则进行同步协调

Hadoop HDFS(分布式文件系统),大数据,hadoop,hdfs,大数据

2.中心化模式

中心化模式

Hadoop HDFS(分布式文件系统),大数据,hadoop,hdfs,大数据

主从模式,大数据框架,大多数的基础架构上,都是符合:中心化模式的

即:有一个中心节点(服务器)来统筹其他服务器的工作,统一指挥,统一调派,避免混乱

这种模式,也被称之为:一主多从模式,简称主从模式(Master And Slaves)

主从模式(中心化模式)在现实生活中同样很常见:
公司企业管理,组织管理,行政管理

我们学习的Hadoop框架,就是一个典型的主从模式(中心化模式)架构的技术框架

三、HDFSHadoop三大组件(HDFSMapReduceYARN)之一

全程是:Hadoop Distributed File SystemHadoop分布文件系统)

Hadoop技术栈内提供的分布式数据存储解决方案

可以在多台服务器上构建存储集群,存储海量的数据

HDFS就是一个典型的主从架构,拥有三个角色,以下就是HDFS的基础架构

Hadoop HDFS(分布式文件系统),大数据,hadoop,hdfs,大数据

1.NameNode:

HDFS系统的主角色,是一个独立的进程

负责管理HDFS整个文件系统

负责管理Datanode

2.Datanode:

HDFS系统的从角色,是一个独立进程

主要负责数据的存储,即存入数据和取出数据

3.SecondaryNameNode:

NameNode的辅助,是一个独立进程

主要帮忙NameNode完成源数据整理工作(打杂)

四、HDFS架构概述

1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。

2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。

3)Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

五、YARN架构概述

1)ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度;

2)NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令;

3)ApplicationMaster:数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。

4)Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关文章来源地址https://www.toymoban.com/news/detail-742352.html

到了这里,关于Hadoop HDFS(分布式文件系统)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • hadoop-hdfs分布式文件系统理论(一)

    可以更好的支持分布式计算。 hadoop distribute file system是一个分布式 文件系统,操作的是文件,增、删都是以文件为单位。 文件线性按字节切割成块(block),具有offset,id offset是指block的偏移量,比如block大小是10,offset可以是0,10,20,30。。。 id是block的名称,比如block1,block

    2024年02月11日
    浏览(50)
  • Hadoop的分布式文件存储系统HDFS组件的使用

    存储整个HDFS集群的元数据(metaData) —— 整个集群中存储的目录和文件的索引 管理整个HDFS集群 接收客户端的请求 负责节点的故障转移 存储数据,是以block块的形式进行数据的存放。 默认情况下block块的大小是128M。 blocksize大小的计算公式: 寻址时间:下载文件时找到文件

    2024年02月09日
    浏览(73)
  • Hadoop HDFS分布式文件系统(介绍以及基础操作命令)

    目录 一、为什么需要分布式存储? 二、分布式的基础架构分析  三、HDFS基础架构 1.HDFS简介 四、HDFS集群启停命令 1.一键启停脚本 2.单进程启停 五、HDFS基本操作命令 1.创建文件夹  2.查看指定目录下内容  3.上传文件到HDFS指定目录下  4.查看HDFS文件内容 5.下载HDFS文件  6.拷贝

    2024年02月05日
    浏览(64)
  • Hadoop分布式文件系统(三)

    目录 一、Hadoop 1、MapReduce 1.1、理解MapReduce思想 1.2、分布式计算概念 1.3、MapReduce介绍 1.4、MapReduce特点 1.5、MapReduce局限性 1.6、MapReduce实例进程 1.7、MapReduce阶段组成 1.8、MapReduce数据类型 1.9、MapReduce官方示例 1.9.1、示例说明--圆周率PI评估 1.9.2、官方示例--WordCount单词统计 1.10、

    2024年01月16日
    浏览(44)
  • 一篇搞定分布式大数据系统所有概念,包括有Hadoop、MapReduce、HDFS、HBASE、NoSql 、ZooKeeper 、Reidis 、Nginx 、BASE、CAP定义、特点和应用场景

    1.1hadoop定义和特点 Hadoop定义: Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。它基于Google的MapReduce论文和Google文件系统(GFS)的设计理念,并由Apache软件基金会进行开发和维护。 Hadoop的主要特点包括: 分布式存储:Hadoop通过分布式文件系统(Hadoop Dist

    2024年02月03日
    浏览(53)
  • 部署HDFS集群(完全分布式模式、hadoop用户控制集群、hadoop-3.3.4+安装包)

    目录 前置 一、上传解压 (一 )上传 (二)解压 二、修改配置文件 (一)配置workers文件 (二)配置hadoop-env.sh文件 (三)配置core-site.xml文件 (四)配置hdfs-site.xml文件 三、分发到hp2、hp3, 并设置环境变量 (一)准备数据目录    (二)配置环境变量 四、创建数据目录,并

    2024年04月14日
    浏览(56)
  • 大数据 | 实验零:安装 Hadoop 伪分布式系统

    👀 前言 :本篇是个人配置环境的总结,基于指导书,补充了许多在配置过程中出现的问题的解决细节。希望能帮到你😄。 Vmware workstation pro 16 Ubuntu 20.04 JDK 1.8 Hadoop 3.2.2 下边资源是本篇博客会用到的相关文件 (建议直接下载,相关代码直接对应的下述文件, 下载完先不要动

    2023年04月17日
    浏览(47)
  • 头歌Hadoop 开发环境搭建及HDFS初体验(第2关:配置开发环境 - Hadoop安装与伪分布式集群搭建)

    注: 1 头歌《Hadoop 开发环境搭建及HDFS初体验》三关在一个实验环境下,需要三关从前往后按顺序评测,跳关或者实验环境结束后重新打开 不能单独评测通过 2 复制粘贴请用右键粘贴,CTRL+C/V不管用哦~ 第1关:配置开发环境 - JavaJDK的配置: 解压: 配置环境变量: 细节: vi

    2024年02月08日
    浏览(189)
  • 大数据——HDFS(分布式文件系统)

    Hadoop的两大核心组件 HDFS ( Hadoop Distributed Filesystem ):是一个易于扩展的 分布式文件系统 ,运行在 成百上千 台 低成本 的 机器 上。 HDFS 具有 高度容错能力 ,旨在部署在低成本机器上。 HDFS 主要用于对 海量文件信息 进行 存储 和 管理 ,也就是解决大数据文件(如 TB 乃至

    2023年04月17日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包