HDFS的文件块大小（重点）

9月前作者：bankq 分类：Toy博客阅读(34) 违法举报

这篇具有很好参考价值的文章主要介绍了HDFS的文件块大小（重点）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

HDFS 中的文件在物理上是分块存储（Block ），块的大小可以通过配置参数( dfs.blocksize）来规定，默认大小在Hadoop2.x/3.x版本中是128M，1.x版本中是64M。

如果一个文件文件小于128M，该文件会占用128M的空间吗？不是的，它只占用文件本身大小的空间，其它空间别的文件也可以用，所以这128M的含义是HDFS数据块的大小，和每个文件的大小没有关系。

把下图的流程过一下

HDFS的文件块大小（重点）,hdfs,hadoop,大数据

思考：为什么块的大小不能设置太小，也不能设置太大？

HDFS的块设置太小，会增加寻址时间。例如，块的大小是1KB，文件大小是100KB，这时候要分100个块来存储文件，读取文件时要找到100个块的地址，会大大增加寻址时间。
如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时，会非常慢。比如，块的大小是1TB，传输这个1TB的数据会非常慢，并且程序处理这个1TB的数据时，也非常的慢。
总结：HDFS块的大小设置主要取决于磁盘传输速率。对于一般硬盘来说，传输速率为100M/s，一般设置块的大小128M，因为128是2的7次方，最接近于100M。固态硬盘一般传输速率为200M/s~300M/s，可以设置块大小为256M。在企业，128M和256M是常用的块大小。文章来源地址https://www.toymoban.com/news/detail-604516.html

到了这里，关于HDFS的文件块大小（重点）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Hadoop上传文件到hdfs中

hadoop常见指令： hdfs dfs -copyFromLocal /local/data /hdfs/data ：将本地文件上传到 hdfs 上（原路径只能是一个文件） hdfs dfs -put /tmp/ /hdfs/ ：和 copyFromLocal 区别是，put 原路径可以是文件夹等 hadoop fs -ls / ：查看根目录文件 hadoop fs -ls /tmp/data ：查看/tmp/data目录 hadoop fs -cat /tmp/a.txt ：查看

2023年04月15日
浏览(41)
hadoop调用HDFS java api实现在HDFS上创建文件夹

目录一、前期准备 1、Hadoop集群已配置完毕 2、Linux系统安装jdk 3、安装并破解IntelliJ IDEA 二、通过JAVA API操纵HDFS 1.在IDEA中创建项目 2.在hdfs项目的src-main-java路径下创建一个包，然后在包下创建一个java类实现hdfs的文件操作 3.java类的代码 4.对JAVA程序传入参数后运行程序 5

2024年02月08日
浏览(74)
Hadoop分布式文件系统-HDFS

HDFS （Hadoop Distributed File System）是 Hadoop 下的分布式文件系统，具有高容错、高吞吐量等特性，可以部署在低成本的硬件上。 HDFS 遵循主/从架构，由单个 NameNode(NN) 和多个 DataNode(DN) 组成： - NameNode : 负责执行有关 ` 文件系统命名空间 ` 的操作，例如打开，关闭、

2024年02月07日
浏览(54)
Hadoop HDFS(分布式文件系统)

一、Hadoop HDFS(分布式文件系统) 为什么要分布式存储数据假设一个文件有100tb，我们就把文件划分为多个部分，放入到多个服务器靠数量取胜，多台服务器组合，才能Hold住数据量太大，单机存储能力有上限，需要靠数量来解决问题数量的提升带来的是网络传输，磁盘读写，

2024年02月06日
浏览(50)
Hadoop：HDFS--分布式文件存储系统

目录 HDFS的基础架构 VMware虚拟机部署HDFS集群 HDFS集群启停命令 HDFS Shell操作 hadoop 命令体系：创建文件夹 -mkdir 查看目录内容 -ls 上传文件到hdfs -put 查看HDFS文件内容 -cat 下载HDFS文件 -get 复制HDFS文件 -cp 追加数据到HDFS文件中 -appendToFile HDFS文件移动 -mv 删除HDFS文件 -rm

2024年02月09日
浏览(59)
Hadoop中命令检查hdfs的文件是否存在

在Hadoop中，可以使用以下命令检查HDFS文件是否存在： hadoop fs -test -e 其中，是要检查的HDFS文件的路径。如果文件存在，命令返回0；如果文件不存在，命令返回非0值。以下是一个示例：示例中，使用hadoop fs -test -e命令检查/user/hadoop/myfile.txt文件是否存在。接着，通过检查命

2024年02月14日
浏览(58)
Hadoop入门学习笔记——三、使用HDFS文件系统

视频课程地址：https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接：https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd=5ay8 Hadoop入门学习笔记（汇总） 3.1.1. HDFS文件系统基本信息 HDFS和Linux系统一样，均是以 / 作为根目录的组织形式；如何区分HDFS和Linux文件系统： Linux文件系统以 file:// 作为

2024年01月16日
浏览(37)
HDFS Hadoop分布式文件存储系统整体概述

整体概述举例：包括机架 rack1、rack2 包括5个Datanode,一个Namenode( 主角色 )带领5个Datanode( 从角色 )，每一个rack中包含不同的block模块文件为分块存储模式。块与块之间通过replication进行副本备份，进行冗余存储，Namenode对存储的元数据进行记录。该架构可以概括为一个抽象

2024年02月16日
浏览(72)
hadoop(学习笔记) 4----怎么把文件放到hdfs上?

怎么把文件放到hdfs上? 首先就是需要将hdfs相关程序启动起来----namenode和datanode namendoe-相当于目录,不进行文件信息的存储 datanode-真正数据存放的位置但namenode的默认存放位置在tmp文件下,tmp又是临时文件,随时可能被系统清除,我们存放在hdfs上的数据并不安全,所以我们需要修改

2024年02月04日
浏览(42)
hadoop-hdfs分布式文件系统理论（一）

可以更好的支持分布式计算。 hadoop distribute file system是一个分布式文件系统，操作的是文件，增、删都是以文件为单位。文件线性按字节切割成块（block），具有offset，id offset是指block的偏移量，比如block大小是10，offset可以是0,10,20,30。。。 id是block的名称，比如block1，block

2024年02月11日
浏览(55)