HDFS的数据存储

9月前作者：Walter Sun 分类：Toy博客阅读(32) 违法举报

这篇具有很好参考价值的文章主要介绍了HDFS的数据存储。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

文章首发地址

HDFS的数据存储

HDFS的数据存储包括两块：
- 一块是HDFS内存存储
- 另一块是HDFS异构存储

HDFS内存存储是一种十分特殊的存储方式，将会对集群数据的读写带来不小的性能提升，而HDFS异构存储则能帮助我们更加合理地把数据存到应该存的地方。

HDFS内存存储

异步存储的大体步骤可以归纳如下：

对目标文件目录设置StoragePolicy为LAZY_PERSIST的内存存储策略。
客户端进程向NameNode发起创建/写文件的请求。
客户端请求到具体的DataNode后DataNode会把这些数据块写入RAM内存中，同时启动异步线程服务将内存数据持久化写到磁盘上。

内存的异步持久化存储是内存存储与其他介质存储不同的地方。这也是LAZY_PERSIST名称的源由，数据不是马上落盘，而是懒惰的、延时地进行处理。文章来源地址https://www.toymoban.com/news/detail-579661.html

LAZY_PERSIST内存存储

LAZY_PERSIST相关结构如下：
- FsDatasetImpl：FsDatasetImpl，它是一个管理DataNode所有磁盘读写的管家
  - RamDiskReplica

到了这里，关于HDFS的数据存储的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

HDFS Hadoop分布式文件存储系统整体概述

整体概述举例：包括机架 rack1、rack2 包括5个Datanode,一个Namenode( 主角色 )带领5个Datanode( 从角色 )，每一个rack中包含不同的block模块文件为分块存储模式。块与块之间通过replication进行副本备份，进行冗余存储，Namenode对存储的元数据进行记录。该架构可以概括为一个抽象

2024年02月16日
浏览(64)
Hadoop 存储占用分析命令，查看 Hdfs 文件夹占用大小

兼职公司 Hadoop 运维之后，经常要解决 Hdfs 空间占用的问题，不知道哪天谁又在集群上留下一大堆缓存文件也不清掉，Hadoop 本身默认就是三副本，人一多每个人留一点结果占用了一堆的存储空间。在 Linux 上游 du 这个指令可以很轻松的结合 sort 对文件夹的大小进行排序，分析

2024年02月15日
浏览(50)
Hadoop的分布式文件存储系统HDFS组件的使用

存储整个HDFS集群的元数据（metaData） —— 整个集群中存储的目录和文件的索引管理整个HDFS集群接收客户端的请求负责节点的故障转移存储数据，是以block块的形式进行数据的存放。默认情况下block块的大小是128M。 blocksize大小的计算公式：寻址时间：下载文件时找到文件

2024年02月09日
浏览(73)
大数据技术之Hadoop（HDFS）

1）HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 2）HDFS定义

2024年02月04日
浏览(49)
大数据开发之Hadoop（HDFS）

1、HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 2、HDFS定义 H

2024年01月20日
浏览(56)
HDFS 跨集群数据同步（hive,hadoop）

两个不同的HDFS 集群数据迁移( A集群的数据 - B 集群) 采用的是 SHELL 脚本按表进行; 日期分区进行; #!/bin/bash ##################### #创建人:DZH #创建日期: 2020-04 #内容：数据迁移 ##################### ##################################### [ \\\"$#\\\" -ne 0 ] FILE=$1 path=$(cd `dirname $0`; pwd) ############## 获取执

2024年04月27日
浏览(56)
0201hdfs集群部署-hadoop-大数据学习

下面我们配置下单namenode节点hadoop集群，使用vmware虚拟机环境搭建。vmware虚拟机的配置，在下面链接2有，或者自行查阅文档。hadoop安装包可到官网下载，当前相关软件环境如下：软件版本说明 hadoop 3.3.4 jar包 vmware 15.5 虚拟机 centos 7.6 服务器操作系统 xshell 6 远程连接 jdk 1.8

2024年02月11日
浏览(45)
大数据技术之Hadoop（HDFS）——超详细

1.1 HDFS产出背景及定义 1）HDFS产生背景先给大家介绍一下什么叫HDFS，我们生活在信息爆炸的时代，随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这

2024年02月03日
浏览(53)
HDFS的数据存储

文章首发地址 HDFS的数据存储包括两块：一块是HDFS内存存储另一块是HDFS异构存储 HDFS内存存储是一种十分特殊的存储方式，将会对集群数据的读写带来不小的性能提升，而HDFS异构存储则能帮助我们更加合理地把数据存到应该存的地方。异步存储的大体步骤可以归纳如下：

2024年02月16日
浏览(32)
Hadoop理论及实践-HDFS读写数据流程（参考Hadoop官网）

主节点和副本节点通常指的是Hadoop分布式文件系统（HDFS）中的NameNode和DataNode。 NameNode（主节点）：NameNode是Hadoop集群中的一个核心组件，它负责管理文件系统的命名空间和元数据。它记录了文件的目录结构、文件的块分配信息以及每个文件块所在的DataNode等关键信息。NameNo

2024年02月14日
浏览(45)