【Hadoop】-HDFS的存储原理[4]-Toy模板网

这篇具有很好参考价值的文章主要介绍了【Hadoop】-HDFS的存储原理[4]。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

一、fsck命令

1、HDFS副本块数量的配置

2、fsck命令查看文件的副本数

3、block配置

二、NameNode元数据

1、edits文件

2、fsigame文件

3、NameNode元数据管理维护

4、元数据合并控制参数

5、SecondaryNameNode的作用

三、HDFS数据的读写流程

1、数据写入流程

2、数据读取流程

前言

HDFS的存储原理是将大文件切分成固定大小的数据块，并在集群中的不同节点上存储数据块的副本，以提高数据的可靠性和性能。同时，HDFS采用流式的数据读写方式，减少了寻址的开销，提高了数据的传输效率。设定统一的管理单位，block块。Block块，HDFS最小存储单位，每个256MB（可以修改）

一、fsck命令

1、HDFS副本块数量的配置

HDFS文件系统的数据安全，是依靠多个副本来确保的。

如何设置默认文件上传到HDFS中拥有的副本数量呢？可以在hdfs-site.xml中配置如下属性：

  <property>
    <name>dis.replication</name>
    <value>3</value>
  </property>

这个属性默认是3，一般情况下，我们无需主动配置（除非需要设置非3的数值）

如果需要自定义这个属性，请修改每一台服务器的hdfs-site.xml文件，并设置此属性。

除了配置文件之外，我们还可以在上传文件的时候，临时决定被上传文件以多少个副本存储。

hadoop fs -D dfs.replication=2 -put test.txt /tmp/

【Hadoop】-HDFS的存储原理[4],hadoop,hadoop,hdfs,大数据

如上命令，就可以在上传test.txt的时候，临时设置其副本数为2.

对于已经存在HDFS的文件，修改dfs.replication属性不会修改，如果要修改已存在文件可以通过命令

hadoop fs -setrep [-R] 2 path

如上命令，指定path的内容将会被修改为2个副本存储。-R选项可选，使用-R表示对子目录也生效。

【Hadoop】-HDFS的存储原理[4],hadoop,hadoop,hdfs,大数据

2、fsck命令查看文件的副本数

我们可以使用hdfs提供的fsck命令来检查文件的副本数

hdfs fsck path [-files [-blocks [-locations]]]

-files可以列出指定路径是否正常
-files -block 输出文件块报告（有几个块，多少副本）
-files -block -locations 输出每一个block的详情

【Hadoop】-HDFS的存储原理[4],hadoop,hadoop,hdfs,大数据

3、block配置

可以看到通过fsck命令我们验证了：

文件有多个副本
文件被分成多个块存储在hdfs

对于块（block），hdfs默认设置为256MB一个，也就是1GB文件会被划分为4个block存储。

块大小可以通过参数修改：

  <property>
    <name>dfs.blocksize</name>
    <value>268435456</value>
    <description>设置HDFS块大小，单位是b</description>
  </property>

如上，设置为256MB。

二、NameNode元数据

NameNode基于一批edits和一个fsimage文件的配合完成整个文件系统的管理和维护。

1、edits文件

edits文件，是一个流水账文件，记录了hdfs中的每一次操作，以及本次操作影响的文件其对于的block。edits记录每一次HDFS的操作，逐渐变得越来越大；所以会存在多个edits文件，确保不会有超大edits的存在，保证检索性能。

【Hadoop】-HDFS的存储原理[4],hadoop,hadoop,hdfs,大数据

2、fsigame文件

将全部的edits文件，合并为最终结果，即可得到一个fsimage文件、

【Hadoop】-HDFS的存储原理[4],hadoop,hadoop,hdfs,大数据

3、NameNode元数据管理维护

NameNode基于edits和fsimage的配合，完成整个文件系统文件的管理。

每次对HDFS的操作，均被edits文件记录
edits达到大下上限后，开启新的edits记录
定期进行edits的合并操作
1. 如当前没有fsimage文件，将全部edits合并为第一个fsimage
2. 如当前已存在fsimage文件，将全部edits和已存在的fsimage进行合并，形成新的fsimage。
重复123流程

【Hadoop】-HDFS的存储原理[4],hadoop,hadoop,hdfs,大数据