大数据——HDFS(分布式文件系统)

这篇具有很好参考价值的文章主要介绍了大数据——HDFS(分布式文件系统)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

 一,分布式系统概述

Hadoop的两大核心组件

大数据——HDFS(分布式文件系统)

HDFSHadoop Distributed Filesystem):是一个易于扩展的分布式文件系统,运行在成百上千低成本机器上。HDFS具有高度容错能力,旨在部署在低成本机器上。HDFS主要用于对海量文件信息进行存储管理,也就是解决大数据文件(如TB乃至PB级)的存储问题,是目前应用最广泛的分布式文件系统

分布式系统的演变:
大数据——HDFS(分布式文件系统)

传统文件系统遇到的问题 :

传统文件系统的问题:

当数据量越来越大时,会遇到存储瓶颈,需要扩容;

由于文件过大,上传下载都非常耗时

分布式文件系统的雏形

横向扩容,即增加服务器数量,构成计算机集群

大文件切割成多个数据块将数据块以并行的方式,分布地在多个计算机节点上进行存储、读取

DHFS集群架构:

大数据——HDFS(分布式文件系统)

  • 普通Hadoop集群结构由一个两阶网络构成。
  • 机架内的节点之间、机架之间,通过光纤高速交换机完成彼此的连接与交互。
  • 每个机架(Rack)有30-40个服务器,配置一个1GB的交换机,并向上连接到一个核心交换机或者路由器(1GB或以上)。

 HDFS的集群中的节点分为两类

名称结点(NameNode :又称为 主节点 (Master Node) ,存储元数据,元数据可看作是数据目录,存放一些其他服务器的信息(相当于一个代理服务器);
数据节点DataNode:又称为 从节点( Slave Node )存储数据块,即实际数据。
大数据——HDFS(分布式文件系统)
DHFS的优点:
支持超大文件 流式数据读写 高数据吞吐量 硬件设备要求低 高容错性 ……

  一次写入、多次读取的流式数据访问模式:

一次写入 从数据源收集或生成的数据集,向HDFS中的文件一次性写入,关闭之后不可修改,只能在文件末尾追加。
多次读取 在该数据集上进行各种分析,每次分析都需要读取该数据集的大部分甚至全部数据
流式数据访问: 读取数据文件就像流水一样,不是一次性过来而是 “流”过来,来一部分、处理一部分。例如,下载电影,用迅雷边下边播。
综上 :即批量数据处理,不能随机读写、不能交互式处理

 DHFS的缺点

不适合低延迟数据访问 无法高效存储大量小文件 不支持多用户写入和修改 ……

无法高效存储大量小文件:

由于名称节点HDFS文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于名称节点的内存容量。一般每个文件、目录和数据块的元数据存储信息大约占150字节(B)。因此,如果有一百万个文件,且每个文件占一个数据块,那至少需要300MB的内存。尽管存储上百万个文件是可行的,但是存储数十亿个文件就超出了当前硬件的能力。

二,相关的概念

1,(block)数据块的概念:

HDFS 中,文件被拆分成多个 数据块 Hadoop2.x 版本下, 默认是 128MB ,每个块作为 独立单元 进行存储。
所有的块( block )同样大小,除了最后一个块
每个块 备份3 ,存储于 不同 的数据节点 DataNode 中。
大数据——HDFS(分布式文件系统)
如果一个文件有1000MB则在hadoop2.x版本下,将会被分成7份128MB的数据块和一个0.812MB的数据块。

2,元数据

HDFS中文件和目录的信息 :文件名 (/user/data/File.txt )、 目录名、父目录信息、文件大小、文件的创建 修改 时间等;
文件数据块及其存储信息 :文件分块情况(块数、块的编号)、副本个数、每个副本所在的DataNode信息等;
HDFS中所有DataNode的信息 :用于DataNode管理。
/user/data/File.txt是文件所在的路径,有三个备份,2号,8号,9号,然后每个里面备份三个不同服务器的数据。
大数据——HDFS(分布式文件系统)

3,(NameNode)名称结点(我的理解是代理服务器)

NameNode HDFS 集群 主服务器 ,通常称为 名称节点 或者 主节点 一旦 NameNode 关闭,       就无法访问 Hadoop 集群。

     主要作用:

存储、 管理、更新 元数据
管理 客户端 对文件的访问, 记录 对文件系统的更改操作

4,(DtaNode)数据节点

    数据节点HDFS集群中的从服务器,称为数据节点它与NameNode保持不断的通信,其主要作用:

负责 数据块 的存储和读取
根据客户端或名称节点的调度,存储并检索数据块,对数据块进行创建、删除等操作
向名称节点定期发送自己存储的数据块的列表信息(心跳信息)
每个数据节点存储的实际数据,保存在该节点本地的Linux文件系统中
总结图:
我的理解就是 ,你上传到服务器的数据,为了保证数据的安全性,如果一个服务器出现了问题 ,那么必须保证你的数据不能丢失,那么在其他服务器上也会备份一份出问题服务器的数据,以保证数据不丢失,就是一个存有你数据的服务器坏掉了,也不会影响你的数据。
大数据——HDFS(分布式文件系统)

      以上仅仅是我的理解,仅供参考。文章来源地址https://www.toymoban.com/news/detail-416451.html

到了这里,关于大数据——HDFS(分布式文件系统)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【头歌】大数据从入门到实战 - 第2章 分布式文件系统HDFS

    任务描述 本关任务:使用 Hadoop 命令来操作分布式文件系统。 编程要求 在右侧命令行中启动 Hadoop ,进行如下操作。 在 HDFS 中创建 /usr/output/ 文件夹; 在本地创建 hello.txt 文件并添加内容:“ HDFS 的块比磁盘的块大,其目的是为了最小化寻址开销。”; 将 hello.txt 上传至 H

    2024年02月05日
    浏览(34)
  • 头歌Educoder云计算与大数据——实验三 分布式文件系统HDFS

    本关任务:使用Hadoop命令来操作分布式文件系统。 为了完成本关任务你需要了解的知识有:1.HDFS的设计,2.HDFS常用命令。 HDFS的设计 点点点…题目省略,懒得写了,下同 分布式文件系统 NameNode与DataNode HDFS的常用命令 在右侧命令行中启动Hadoop,进行如下操作。 在HDFS中创建

    2024年02月13日
    浏览(39)
  • 分布式文件系统HDFS

    分布式文件系统 把文件分布存储到多个计算机节点 上,通过网络实现文件在多台主机上进行分布式存储的文件系统。 分布式文件系统有两大模式: Remote Access Model: 非本地文件不会复制到本地,所以对非本地文件的读取和修改,利用RPC进行。 Upload/ Download Model:所有非本地文

    2024年02月09日
    浏览(41)
  • 《大数据技术原理与应用(第3版)》期末复习——第三章分布式文件系统HDFS习题

    分布式文件系统的结构 1、 名称节点 (“主节点”): 负责文件和目录的创建、删除和重命名等,同时管理着数据节点和文件块之间的映射关系。 2、 数据节点 (“从节点”): 负责数据的存储和读取。在存储时,由名称节点分配存储位置,然后由客户端把数据直接写入相应

    2024年02月12日
    浏览(41)
  • 2. 分布式文件系统 HDFS

    问题一:如果一个文件中有 10 个数值,一行一个,并且都可以用 int 来度量。现在求 10 个数值的和 思路: 逐行读取文件的内容 把读取到的内容转换成 int 类型 把转换后的数据进行相加 输出最后的一个累加和 问题二:10000 个文件,每个文件 2T,文件里的内容依然是每行一个

    2024年02月08日
    浏览(44)
  • 大数据技术原理与应用 概念、存储、处理、分析和应用(林子雨)——第三章 分布式文件系统HDFS

    大数据要解决数据存储问题,所以有了分布式文件系统(DFS),但可能不符合当时的一些应用需求,于是谷歌公司开发了GFS(Google file System)。GFS是闭源的,而HDFS是对GFS的开源实现。 1.GFS和DFS有什么区别? GFS(Google File System)和DFS(Distributed File System)都是分布式文件系统,

    2024年02月03日
    浏览(65)
  • Hadoop分布式文件系统-HDFS

    HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。 HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成: - NameNode : 负责执行有关 ` 文件系统命名空间 ` 的操作,例如打开,关闭、

    2024年02月07日
    浏览(44)
  • Hadoop HDFS(分布式文件系统)

    一、Hadoop HDFS(分布式文件系统) 为什么要分布式存储数据 假设一个文件有100tb,我们就把文件划分为多个部分,放入到多个服务器 靠数量取胜,多台服务器组合,才能Hold住 数据量太大,单机存储能力有上限,需要靠数量来解决问题 数量的提升带来的是网络传输,磁盘读写,

    2024年02月06日
    浏览(40)
  • 头歌 分布式文件系统HDFS 答案

    第1关:HDFS的基本操作 在右侧命令行中启动 Hadoop ,进行如下操作。 在 HDFS 中创建 /usr/output/ 文件夹; 在本地创建 hello.txt 文件并添加内容:“ HDFS的块比磁盘的块大,其目的是为了最小化寻址开销。 ”; 将 hello.txt 上传至 HDFS 的 /usr/output/ 目录下; 删除 HDFS 的 /user/hadoop 目录

    2023年04月27日
    浏览(35)
  • 【头歌实训】分布式文件系统 HDFS

    本关任务:使用 Hadoop 命令来操作分布式文件系统。 为了完成本关任务你需要了解的知识有:1. HDFS 的设计,2. HDFS 常用命令。 HDFS的设计 分布式文件系统 客户:帮我保存一下这几天的数据。 程序猿:好嘞,有多大呢? 客户: 1T 。 程序猿:好没问题,买个硬盘就搞定了。

    2024年04月15日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包