Hadoop中HDFS的架构

这篇具有很好参考价值的文章主要介绍了Hadoop中HDFS的架构。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、Switch语句

语法规则:
①语句中的变量类型可以是byte、short、int或者char;从javaSE5开始支持枚举类型; javaSE7开始,switch支持String。
②没有break时,后续case的语句都会执行

二、修饰符

访问修饰符

Java中,可以使用访问控制符来保护对类、变量、方法和构造方法的访问。Java 支持 4 种不同的访问权限。

default (即默认,什么也不写): 在同一包内可见,不使用任何修饰符。使用对象:类、接口、变量、方法。

private : 在同一类内可见。使用对象:变量、方法。 注意:不能修饰类(外部类)

public : 对所有类可见。使用对象:类、接口、变量、方法

protected : 对同一包内的类和所有子类可见。使用对象:变量、方法。 注意:不能修饰类(外部类)。

非访问修饰符

static: 可以使用classname.variablename 和classname.methodname的方式访问
final: final方法可以被子类继承,但不能被子类重写
abstract:抽象类的唯一目的是为了将来对该类进行扩充
synchronized:修饰的方法同一时间只能被一个线程访问
transient:序列化的对象包含被transient修饰的变量时,JVM跳过该特定的变量。
(transient单词含义:转瞬即逝的,短暂的;暂住的,(工作)临时的)

持久化:持久化是将程序数据在持久状态和瞬时状态间转换的机制。 持久化(Persistence),即把数据(如内存中的对象)保存到可永久保存的存储设备。

所以被transient修饰的变量不会被持久化处理。

volatile: 翻译 – >易变的,动荡不定的,反复无常的;(情绪)易变的,易怒的,突然发作的;(液体或固体)易挥发的,易气化的;(计算机内存)易失的。

volatile 修饰的成员变量在每次被线程访问时,都强制从共享内存中重新读取该成员变量的值。而且,当成员变量发生变化时,会强制线程将变化值回写到共享内存。这样在任何时刻,两个不同的线程总是看到某个成员变量的同一个值。

三、HDFS

HDFS(Hadoop distribute file system)是一个分布式的文件管理系统。文件上传之后就无法修改,适合一次写入,多次读出的场景。

1 优缺点

优点
  1. 高容错性:某一个副本丢失以后,他可以自动恢复
  2. 适合处理大数据:无论是文件很大,还是文件数量很大,都可以处理。
  3. 可以构建在廉价机器上,通过多副本机制,提供可靠性。
缺点
  1. 不适合低延时数据访问:做不到毫秒级的存储数据
  2. 无法高效对大量的小文件进行存储:会占用NameNode大量的内存来存储文件目录和块信息。小文件存储的寻址时间会超过读取时间,违反了HDFS的设计目标。
  3. 不支持并发写入、文件随机修改:仅仅支持数据追加,不支持文件随机修改。

2 HDFS架构

①NameNode: 就是Master,它是一个主管,管理者
(1)管理HDFS的名称空间;
(2)配置副本策略;
(3)管理数据块(Block)映射信息;
(4)处理客户端的读写请求
②DataNode: 就是Slave. NameNode下达命令,DataNode执行实际的操作。
(1)存储实际的数据块;
(2)执行数据块的读/写操作;
③客户端
(1)文件切分:根据NameNode的文件大小进行切分,Hadoop2.x/3.x默认为128MB,1.x版本为64M;
(2)与NameNode交互,获取文件的位置信息;
(3)与DataNode交互,读取或者写入数据;
(4)Client提供一些命令来管理HDFS,增删改查相关操作;

④Secondary NameNode: 并非NameNode的热备。当NameNode挂掉的时候,并不能马上替换NameNode并提供服务。
(1)辅助NameNode, 分担其工作量,比如定期合并Fsimage和Edits, 并推送给NameNode;
(2)在紧急情况下,可辅助恢复NameNode;
Hadoop中HDFS的架构,hadoop,hdfs,架构

3 文件块

寻址时间为传输时间的1%时,为最佳状态。机械硬盘建议128MB,固态硬盘建议256MB。文章来源地址https://www.toymoban.com/news/detail-602890.html

  • 文件块太小,会增加寻址时间,程序一直在找块的开始位置。
  • 文件块太大,从磁盘传输数据的时间会明显大于定位这个块位置所需的时间,导致处理这块数据时,会非常慢。

到了这里,关于Hadoop中HDFS的架构的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • hadoop与hdfs

    简介 Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的 项目结构 应用框架 版本演变 项目结构 组件 功能 HDFS 分布式文件系统 MapReduce 分布式并行

    2024年01月22日
    浏览(30)
  • Hadoop --- HDFS介绍

    HDFS 全称是Hadoop Distributed File System hadoop分布式(cluser)文件存储系统。适合一次写入,多次读出的场景。 HDFS不需要单独安装,安装Hadoop的时候带了HDFS系统。 Hadoop安装可以参考:  有基础的,已经安装了虚拟机的 : Hadoop安装 没有基础, 也没有安装虚拟机的: Hadoop集群安

    2024年02月10日
    浏览(43)
  • Hadoop - HDFS文件系统

    目录 HDFS文件系统  1、文件系统定义 2、大数据时代,面对海量数据,传统的文件存储系统会面临哪些挑战? 3、分布式存储系统的核心属性及功能含义 一、分布式存储的优点 二、元数据记录的功能 三、分块存储好处 四、副本机制的作用 4、HDFS简介 HDFS适用场景 5、HDFS主从架

    2023年04月08日
    浏览(40)
  • 【Hadoop精讲】HDFS详解

    目录 理论知识点 角色功能 元数据持久化 安全模式 SecondaryNameNode(SNN) 副本放置策略 HDFS写流程 HDFS读流程 HA高可用 CPA原则 Paxos算法 HA解决方案 HDFS-Fedration解决方案(联邦机制) 另一台机器就是SecondaryNameNode(SNN) 不保存位置信息的原因,是因为当机器重启恢复后,DN会和NN建立心

    2024年02月02日
    浏览(36)
  • HADOOP HDFS详解

    目录 第一章 概述 1.1大数据的特征(4V) 1.2 大数据的应用场景 1.3大数据的发展前景 1.4企业大数据的一般处理流程 1.4.1数据源 1.4.2数据采集或者同步 1.4.3数据存储 1.4.4 数据清洗 1.4.5 数据分析 1.4.6数据展示 第二章 hadoop介绍 2.1.hadoop 目标 2.2 hadoop的介绍 2.3 hadoop起源 2.4 Hadoop版本

    2024年03月13日
    浏览(57)
  • Hadoop Hdfs基本命令

    1.hadoop 安装问题处理 2.hdfs 基本命令 3. 上传/下载文件和文件夹 1.hadoop安装问题处理 如果安装有进程无法启动,如下图 重新检查6个配置文件 Core-site.xml hdfs-site.xml hadoop-env.sh yarn-site.xml workers yarn-site.xml 来到hadoop313目录 清空data和yarndata 重新初始化 测试 2.hadoop hdfs基本命

    2024年02月11日
    浏览(43)
  • hadoop-HDFS

    1.HDFS简介 2.1  Hadoop 分布式文件系统-HDFS架构 2.2  HDFS 组成角色及其功能 (1)Client:客户端 (2)NameNode (NN):元数据节点 管理文件系统的Namespace元数据 一个HDFS集群只有一个Active的NN (3)DataNode (DN):数据节点 数据存储节点,保存和检索Block 一个集群可以有多个数据节点 (

    2024年02月11日
    浏览(43)
  • Hadoop生态体系-HDFS

    Hadoop:允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。 核心组件有: HDFS(分布式文件系统):解决海量数据存储 YARN(作业调度和集群资源管理的框架):解决资源任务调度 MAPREDUCE(分布式运算编程框架):解决海量数据计算 特点:扩容能力(

    2024年02月16日
    浏览(75)
  • Eclipse连接Hadoop(HDFS)

    1、在Windows机上下载安装好WinSCP软件。 2、打开WinSCP,新建会话,配置信息如下(用户名和密码都是hadoop): 3、点击登入,将hadoop-eclipse-plugin-2.6.0.jar拖到虚拟机的/home/hadoop/eclipse/plugins文件夹下: 4、可以看到该文件上传到虚拟机成功。 1、首先打Eclipse,按Window—Show View—Ot

    2023年04月16日
    浏览(38)
  • Hadoop -HDFS常用操作指令

    path 指定目录路径 -h 人性化显示文件size -R 递归查看指定目录及其子目录 -f 覆盖目标文件(已存在下) -p 保留访问和修改时间,所有权和权限。 localsrc 本地文件系统(客户端所在机器 ) dst 目标文件系统(HDFS) 下载文件到本地文件系统指定目录,localdst必须是目录 -f 覆盖目

    2024年02月10日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包