大数据入门-五分钟读懂HDFS-Toy模板网

这篇具有很好参考价值的文章主要介绍了大数据入门-五分钟读懂HDFS。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

=========

1.大数据入门-大数据是什么

2.大数据入门-大数据技术概述(一)

3.大数据入门-大数据技术概述(二)

4.大数据入门-三分钟读懂Hadoop

一、概念

====

HDFS英文全称为：Hadoop Distributed File System，是指被设计成适合运行在通用硬件的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

这里再强调一下几个特点，注意看黑板。

超大文件：可以存放TB到PB级别的数据量。

**流式访问：**一次写入，多次读取。更加关注所有数据集的查询时间。

**商用硬件：**机器都是普通的机器，可以组合起来一起使用，三个臭皮匠顶个诸葛亮。但是单节点故障会较多，所以要有一种机制和方法来迅速恢复业务。

**不适合低延时数据：**针对的问题和解决方案是高吞吐，所以不适合低延时数据，当然后面会有专门的低延时架构。所以问题出来了总有方案。不要慌。

不支持任意修改： 系统以读数据为主，支持在文末追加数据，不支持任意修改。

二、架构及组件概念

=========

hdfs是指被设计成合适运行在通用硬件,程序员,大数据,hdfs,hadoop

**数据块：**默认一个块（block）的大小为128MB（HDFS的块这么大主要是为了最小化寻址开销），要在HDFS中存储的文件可以划分为多个分块，每个分块可以成为一个独立的存储单元。与本地磁盘不同的是，HDFS中小于一个块大小的文件并不会占据整个HDFS数据块。

**NameNode：**管理整个文件系统的元数据。例如管理元数据，维护维护目录结构、响应客户端请求。

详解说明：NameNode作为管理节点，它负责整个文件系统的命名空间，并且维护着文件系统树和整棵树内所有的文件和目录，这些信息以两个文件的形式（命名空间镜像文件和编辑日志文件）永久存储在NameNode的本地磁盘上。除此之外，同时，NameNode也记录每个文件中各个块所在的数据节点信息，但是不永久存储块的位置信息，因为块的信息可以在系统启动时重新构建。

**DataNode：**复制管理用户的文件数据块。例如管理用户提交的数据心跳机制块报告。

**NameNode容错性：**NameNode作为管理节点，它的地位是非同寻常的，一旦NameNode宕机，那么所有文件都会丢失，因为NameNode是唯一存储了元数据、文件与数据块之间对应关系的节点，所有文件信息都保存在这里，NameNode毁坏后无法重建文件。

第一种机制是备份那些组成文件系统元数据持久状态的文件，比如：将文件系统的信息写入本地磁盘的同时，也写入一个远程挂载的网络文件系统（NFS），这些写操作实时同步并且保证原子性。

第二种机制是运行一个辅助NameNode，用以保存命名空间镜像的副本，在NameNode发生故障时启用。（也可以使用热备份NameNode代替辅助NameNode）。

**心跳机制：**维护集群的可用性

NameNode启动的时候，会有一个加载元数据（数据的数据，类似于表的索引）和块报告（DataNode会定时（可以再配置文件中设置，所以一定要时间同步）对块信息进行统计）的过程，NameNode通过心跳机制维护整个集群的可用性。如果块报告上传失败，NameNode不会更新元数据，在块报告的时候就会将其删除掉。

**块缓存：**数据通常情况下都保存在磁盘，但是对于访问频繁的文件，其对应的数据块可能被显式的缓存到DataNode的内存中，以堆外缓存的方式存在，一些计算任务（比如MapReduce）可以在缓存了数据的DataNode上运行，利用块的缓存优势提高读操作的性能。

**高可用性：**通过备份NameNode存储的文件信息或者运行辅助NameNode可以防止数据丢失，但是依旧没有保证了系统的高可用性。一旦NameNode发生了单点失效，那么必须能够快速的启动一个拥有文件系统信息副本的新NameNode。

这个就是主NameNode与备份的NameNode之间的交互了。

**存放策略：**默认的HDFS block放置策略在最小化写开销和最大化数据可靠性、可用性以及总体读取带宽之间进行了一些折中。一般情况下复制因子为3，HDFS的副本放置策略是将第一个副本放在本地节点，将第二个副本放到本地机架上的另外一个节点而将第三个副本放到不同机架上的节点。这种方式减少了机架间的写流量，从而提高了写的性能。机架故障的几率远小于节点故障。这种方式并不影响数据可靠性和可用性的限制，并且它确实减少了读操作的网络聚合带宽，因为文件块仅存在两个不同的机架，而不是三个。文件的副本不是均匀地分布在机架当中，1/3在同一个节点上，1/3副本在同一个机架上，另外1/3均匀地分布在其他机架上。这种方式提高了写的性能，并且不影响数据的可靠性和读性能。

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Java工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。 hdfs是指被设计成合适运行在通用硬件,程序员,大数据,hdfs,hadoop