【Hadoop精讲】HDFS详解

10月前作者：话数Science 分类：Toy博客阅读(35) 违法举报

这篇具有很好参考价值的文章主要介绍了【Hadoop精讲】HDFS详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

目录

理论知识点

角色功能

元数据持久化

安全模式

SecondaryNameNode(SNN)

副本放置策略

HDFS写流程

HDFS读流程

HA高可用

CPA原则

Paxos算法

HA解决方案

HDFS-Fedration解决方案（联邦机制）

理论知识点

角色功能

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

元数据持久化

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据另一台机器就是SecondaryNameNode(SNN)

安全模式

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据不保存位置信息的原因，是因为当机器重启恢复后，DN会和NN建立心跳，汇报块信息。这个过程叫安全模式。

SecondaryNameNode(SNN)

非HA模式下才有，SNN跟版本没有关系，企业一般不用SNN，而用高可用HA方式。

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

副本放置策略

塔式服务器：竖的，价格便宜

机架服务器：扁的，价格中等，最上面放一个交换机，ups(电源，电池防断电)
【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

刀片服务器：插入的，价格较贵

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

2.x修正为第二个副本立即出机架，因为有可能把副本数修改为2

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

HDFS写流程

某个时间点，传其中一个block的时候状态图

client向NN请求创建文件，这个时候NN返回副本放置策略，按距离排序

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

HDFS读流程

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

HA高可用

主从：单点故障、压力过大、内存受限

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

2.x匆匆上线HA，只实现了一主一备，3.0之后一周多备，可以支持5个，官方推荐3个

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

一份为二，上面蓝色是故障切换自动化，下面是手动的HA模式

CPA原则

分区容忍性：即脑裂，

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

Paxos算法

帕克索斯算法：Google Chubby的作者Mike Burrows说过这个世界上只有一种一致性算法，那就是Paxos，其它的算法都是残次品。

主从+过半

参考：https://www.cnblogs.com/crazymakercircle/p/14341015.html

强一致、弱一致都能做，区块链中也是基于该算法

ZooKeeper中使用的是Paxos的简化版本ZAB，ZK做分布式协调
早期用的多，后来大家都把他剔除了，最多用zk选个主，做配置的同步，或者唯一性。因为zk解决是解决的是事件的触发，解决决策之间某一种事件的调用，不适合存东西。

JournalNodes(Journal杂志、期刊) 跟ZK不是一个东西，JournalNodes做分布式存储
JournalNodes是为了解决节点之间数据同步的。

HA解决方案

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

FalioverController是用来做健康检查的。

跟NN在同一个节点，它们是不同的进程，FalioverController会监控NN是否活着。

ZK维护一个目录树结构，主备FalioverController会在ZK同时申请在X节点下抢锁，谁抢到谁就是active，否则是standby。

当FalioverController进程监控到了Active的NN挂了，然后FalioverController会把ZK当中抢到的锁删掉。锁删除是一种事件机制，会有callback。

ZK Watch监控：FC抢锁时还在ZK的锁上注册了自己的地址还包括回调函数，当FC删除锁时，产生删除事件，这个删除事件就会触发callback，就会回调FC里的方法，在fc的进程里执行，这是FC发现锁没有了会重新抢锁。

如果是轮询查询锁在不在，会存在轮询间隔，所以会用事件callback机制。

NN还活着，FC挂了，与ZK节点挂了，FC临时节点随着TCP连接的消失，会触发删除事件。

FC会去检查之前Active的NN是不是真死了，没死就把它降级为standby，再把自己升级为active。当网络不通或者什么异常导致无法判断对方是不是真的挂了，此时不会把自己升级为active，这种情况出现的几率很低。（两台主机通过串口相连，这个连接可以当成可靠的）

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

HA模式下，SNN的角色被Standby替代了，不承担服务，滚动生成FsImage，并把生成的FsImage推回去，以便宕机后的快速恢复。

HDFS-Fedration解决方案（联邦机制）

联邦机制：各个联邦，属于同一个国家，统一一套资源

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据

【Hadoop精讲】HDFS详解,Hadoop,大数据,hadoop,hdfs,大数据文章来源地址https://www.toymoban.com/news/detail-784933.html

到了这里，关于【Hadoop精讲】HDFS详解的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Java 操作 Hadoop 集群之 HDFS 的应用案例详解

注意：本文内容基于 Hadoop 集群搭建完成基础上： Linux 系统 CentOS7 上搭建 Hadoop HDFS集群详细步骤本文的内容是基于下面前提： Hadoop 集群搭建完成并能正常启动和访问 Idea 和 Maven 分别安装完成需要有 JavaSE 基础和熟悉操作hadoop 的 hdfs dfs 命令 Maven 及 idea 中 Maven 相关配置本地

2024年04月16日
浏览(43)
大数据技术之Hadoop（HDFS）

1）HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 2）HDFS定义

2024年02月04日
浏览(53)
大数据开发之Hadoop（HDFS）

1、HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 2、HDFS定义 H

2024年01月20日
浏览(57)
Hadoop理论及实践-HDFS读写数据流程（参考Hadoop官网）

主节点和副本节点通常指的是Hadoop分布式文件系统（HDFS）中的NameNode和DataNode。 NameNode（主节点）：NameNode是Hadoop集群中的一个核心组件，它负责管理文件系统的命名空间和元数据。它记录了文件的目录结构、文件的块分配信息以及每个文件块所在的DataNode等关键信息。NameNo

2024年02月14日
浏览(54)
尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】

视频地址：尚硅谷大数据Hadoop教程（Hadoop 3.x安装搭建到集群调优）尚硅谷大数据技术Hadoop教程-笔记01【大数据概论】尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】尚硅谷大数据技术Hadoop教程-笔记04【Hadoop-MapReduce】尚硅谷

2023年04月08日
浏览(98)
大数据技术之Hadoop（HDFS）——超详细

1.1 HDFS产出背景及定义 1）HDFS产生背景先给大家介绍一下什么叫HDFS，我们生活在信息爆炸的时代，随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这

2024年02月03日
浏览(56)
0201hdfs集群部署-hadoop-大数据学习

下面我们配置下单namenode节点hadoop集群，使用vmware虚拟机环境搭建。vmware虚拟机的配置，在下面链接2有，或者自行查阅文档。hadoop安装包可到官网下载，当前相关软件环境如下：软件版本说明 hadoop 3.3.4 jar包 vmware 15.5 虚拟机 centos 7.6 服务器操作系统 xshell 6 远程连接 jdk 1.8

2024年02月11日
浏览(47)
HDFS 跨集群数据同步（hive,hadoop）

两个不同的HDFS 集群数据迁移( A集群的数据 - B 集群) 采用的是 SHELL 脚本按表进行; 日期分区进行; #!/bin/bash ##################### #创建人:DZH #创建日期: 2020-04 #内容：数据迁移 ##################### ##################################### [ \\\"$#\\\" -ne 0 ] FILE=$1 path=$(cd `dirname $0`; pwd) ############## 获取执

2024年04月27日
浏览(58)
Hadoop HDFS：海量数据的存储解决方案

在大数据时代，数据的存储与处理成为了业界面临的一大挑战。Hadoop的分布式文件系统（Hadoop Distributed File System，简称HDFS）作为一个高可靠性、高扩展性的文件系统，提供了处理海量数据的有效解决方案。本文将深入探讨HDFS的设计原理、架构组成、核心功能以及实际应用场

2024年04月23日
浏览(43)
hadoop之hdfs生产数据块损坏修复方法

1、手动修复检查数据块丢失情况 hdfs fsck / 修复指定路径的hdfs文件，尝试多次 hdfs debug recoverLease -path 文件位置 -retries 重复次数删除所有损坏的块的数据文件 hdfs fsck / -delete 2、自动修复 hdfs会自动修复损坏的数据块，当数据块损坏后， DN节点执行directoryscan(datanode进行内村和

2023年04月11日
浏览(63)