=========
1.大数据入门-大数据是什么
2.大数据入门-大数据技术概述(一)
3.大数据入门-大数据技术概述(二)
4.大数据入门-三分钟读懂Hadoop
一、概念
====
HDFS英文全称为:Hadoop Distributed File System,是指被设计成适合运行在通用硬件的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
这里再强调一下几个特点,注意看黑板。
超大文件:可以存放TB到PB级别的数据量。
**流式访问:**一次写入,多次读取。更加关注所有数据集的查询时间。
**商用硬件:**机器都是普通的机器,可以组合起来一起使用,三个臭皮匠顶个诸葛亮。但是单节点故障会较多,所以要有一种机制和方法来迅速恢复业务。
**不适合低延时数据:**针对的问题和解决方案是高吞吐,所以不适合低延时数据,当然后面会有专门的低延时架构。所以问题出来了总有方案。不要慌。
不支持任意修改: 系统以读数据为主,支持在文末追加数据,不支持任意修改。
二、架构及组件概念
=========
**数据块:**默认一个块(block)的大小为128MB(HDFS的块这么大主要是为了最小化寻址开销),要在HDFS中存储的文件可以划分为多个分块,每个分块可以成为一个独立的存储单元。与本地磁盘不同的是,HDFS中小于一个块大小的文件并不会占据整个HDFS数据块。
**NameNode:**管理整个文件系统的元数据。例如管理元数据,维护维护目录结构、响应客户端请求。
详解说明:NameNode作为管理节点,它负责整个文件系统的命名空间,并且维护着文件系统树和整棵树内所有的文件和目录,这些信息以两个文件的形式(命名空间镜像文件和编辑日志文件)永久存储在NameNode的本地磁盘上。除此之外,同时,NameNode也记录每个文件中各个块所在的数据节点信息,但是不永久存储块的位置信息,因为块的信息可以在系统启动时重新构建。
**DataNode:**复制管理用户的文件数据块。例如管理用户提交的数据 心跳机制 块报告。
**NameNode容错性:**NameNode作为管理节点,它的地位是非同寻常的,一旦NameNode宕机,那么所有文件都会丢失,因为NameNode是唯一存储了元数据、文件与数据块之间对应关系的节点,所有文件信息都保存在这里,NameNode毁坏后无法重建文件。
第一种机制是备份那些组成文件系统元数据持久状态的文件,比如:将文件系统的信息写入本地磁盘的同时,也写入一个远程挂载的网络文件系统(NFS),这些写操作实时同步并且保证原子性。
第二种机制是运行一个辅助NameNode,用以保存命名空间镜像的副本,在NameNode发生故障时启用。(也可以使用热备份NameNode代替辅助NameNode)。
**心跳机制:**维护集群的可用性
NameNode启动的时候,会有一个加载元数据(数据的数据,类似于表的索引)和块报告(DataNode会定时(可以再配置文件中设置,所以一定要时间同步)对块信息进行统计)的过程,NameNode通过心跳机制维护整个集群的可用性。如果块报告上传失败,NameNode不会更新元数据,在块报告的时候就会将其删除掉。
**块缓存:**数据通常情况下都保存在磁盘,但是对于访问频繁的文件,其对应的数据块可能被显式的缓存到DataNode的内存中,以堆外缓存的方式存在,一些计算任务(比如MapReduce)可以在缓存了数据的DataNode上运行,利用块的缓存优势提高读操作的性能。
**高可用性:**通过备份NameNode存储的文件信息或者运行辅助NameNode可以防止数据丢失,但是依旧没有保证了系统的高可用性。一旦NameNode发生了单点失效,那么必须能够快速的启动一个拥有文件系统信息副本的新NameNode。
这个就是主NameNode与备份的NameNode之间的交互了。
**存放策略:**默认的HDFS block放置策略在最小化写开销和最大化数据可靠性、可用性以及总体读取带宽之间进行了一些折中。一般情况下复制因子为3,HDFS的副本放置策略是将第一个副本放在本地节点,将第二个副本放到本地机架上的另外一个节点而将第三个副本放到不同机架上的节点。这种方式减少了机架间的写流量,从而提高了写的性能。机架故障的几率远小于节点故障。这种方式并不影响数据可靠性和可用性的限制,并且它确实减少了读操作的网络聚合带宽,因为文件块仅存在两个不同的机架, 而不是三个。文件的副本不是均匀地分布在机架当中,1/3在同一个节点上,1/3副本在同一个机架上,另外1/3均匀地分布在其他机架上。这种方式提高了写的性能,并且不影响数据的可靠性和读性能。
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数Java工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!
如果你觉得这些内容对你有帮助,可以扫码获取!!(备注Java获取)
言尽于此,完结
无论是一个初级的 coder,高级的程序员,还是顶级的系统架构师,应该都有深刻的领会到设计模式的重要性。
- 第一,设计模式能让专业人之间交流方便,如下:
程序员A:这里我用了XXX设计模式
程序员B:那我大致了解你程序的设计思路了
- 第二,易维护
项目经理:今天客户有这样一个需求…
程序员:明白了,这里我使用了XXX设计模式,所以改起来很快
- 第三,设计模式是编程经验的总结
程序员A:B,你怎么想到要这样去构建你的代码
程序员B:在我学习了XXX设计模式之后,好像自然而然就感觉这样写能避免一些问题
- 第四,学习设计模式并不是必须的
程序员A:B,你这段代码使用的是XXX设计模式对吗?
程序员B:不好意思,我没有学习过设计模式,但是我的经验告诉我是这样写的
从设计思想解读开源框架,一步一步到Spring、Spring5、SpringMVC、MyBatis等源码解读,我都已收集整理全套,篇幅有限,这块只是详细的解说了23种设计模式,整理的文件如下图一览无余!
搜集费时费力,能看到此处的都是真爱!
《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》,点击传送门即可获取!
览无余!
[外链图片转存中…(img-qnORWGZg-1712423599091)]文章来源:https://www.toymoban.com/news/detail-850322.html
搜集费时费力,能看到此处的都是真爱!
《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》,点击传送门即可获取!文章来源地址https://www.toymoban.com/news/detail-850322.html
到了这里,关于大数据入门-五分钟读懂HDFS的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!