HDFS Hadoop分布式文件存储系统整体概述

这篇具有很好参考价值的文章主要介绍了HDFS Hadoop分布式文件存储系统整体概述。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

HDFS

整体概述举例:

HDFS Hadoop分布式文件存储系统整体概述,hadoop,hadoop,分布式,hdfs

包括机架 rack1、rack2 包括5个Datanode,一个Namenode(主角色)带领5个Datanode(从角色),每一个rack中包含不同的block模块文件为分块存储模式。块与块之间通过replication进行副本备份,进行冗余存储,Namenode对存储的元数据进行记录。该架构可以概括为一个抽象统一的目录树结构

  1. 主从架构

    HDFS集群是标准的master/slave主从架构群,一般一个HDFS集群有一个Namenode和一定数目的Datanode组成,Namenode是HDFS主节点(维护元数据),Datanode(管理数据块)是HDFS从节点,两种角色共同完成分布式文件的存储服务。

  2. 分块存储

    HDFS中文件在物理上是分块存储的,每一块默认大小是128M,不足128M则自身为一块。

    块的大小可以通过配置参数来规定,位于hdfs-default.xml中,dfs.blocksize

  3. 副本机制

    文件的每个block都会有副本,副本系数可以在文件创建的时候指定,也可以在之后通过命令改变,副本数量由参数dfs.replication控制,默认数为3,连同本身共三块副本。

  4. 元数据(解释型数据)管理

    HDFS中元数据包括两种类型:

    1)文件自身属性信息:文件名称、权限,修改时间、文件大小、复制因子、数据块大小。

    2)文件块位置映射信息:记录文件块和Datenode之间的映射信息,即哪个块位于哪个节点上。

  5. 抽象目录树(namespace)

    即传统的层次文件组织结构。用户可以创建目录,然后将文件保存在目录中,Namenode负责维护文件系统的namespace名称空间,任何对文件系统名称空间或属性的修改都将被Namenode记录下。

  6. 数据块存储

    文件各个block的具体存储管理由DataNode节点承担,每一个block都可以在多个DataNode上存储。

常用操作

文件系统的shell命令 hadoop fs [generic options]

hadoop fs -ls file:/// #操作本地文件系统

hadoop fs -ls hdfs://node1:8020/ #操作HDFS分布文件系统

hadoop fs -ls / #直接根目录,没有指定协议,将加载读取fs.defaultFS

​ 2.创建文件夹 hadoop fs -mkdir [-p]

… (-p 沿着路径创建父目录)

​ 3.查看指定目录下内容 hadoop fs -ls [-h] [-R] [

…] (path 指定目录路径、-h 人性化显示文件size、 -R递归查看指定目录及其子目录)

​ 4.上传文件到HDFS指定目录下 hadoop fs -put [-f] [-p] … ( -f覆盖目标文件【已经存在下】,-p保留访问和修改时间,所有权和权限,localsrc本地文件系统, dst目标文件系统)

​ 5.查看HDFS文件内容 hadoop fs -cat … 读取指定文件全部内容,显示在标准输出控制台。

​ 6.下载HDFS文件 hadoop fs -get [-f] [-p] … (下载文件到本地文件系统指定目录, localdst必须是目录, -f 覆盖目标文件 -p保留访问和修改时间,所有权和权限)

​ 7.拷贝HDFS文件 hadoop fs -cp [-f] …(-f 覆盖目标文件)

​ 8.追加数据到HDFS文件中 hadoop fs -appendToFile …(将所有给定本地文件的内容追加到给定dst文件,dst如果不存在,将创建该文件)

工作流程

HDFS Hadoop分布式文件存储系统整体概述,hadoop,hadoop,分布式,hdfs文章来源地址https://www.toymoban.com/news/detail-599706.html

  1. 管道传输
  2. ACK校验
  3. 副本原则

到了这里,关于HDFS Hadoop分布式文件存储系统整体概述的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • hadoop-hdfs分布式文件系统理论(一)

    可以更好的支持分布式计算。 hadoop distribute file system是一个分布式 文件系统,操作的是文件,增、删都是以文件为单位。 文件线性按字节切割成块(block),具有offset,id offset是指block的偏移量,比如block大小是10,offset可以是0,10,20,30。。。 id是block的名称,比如block1,block

    2024年02月11日
    浏览(55)
  • Hadoop HDFS分布式文件系统(介绍以及基础操作命令)

    目录 一、为什么需要分布式存储? 二、分布式的基础架构分析  三、HDFS基础架构 1.HDFS简介 四、HDFS集群启停命令 1.一键启停脚本 2.单进程启停 五、HDFS基本操作命令 1.创建文件夹  2.查看指定目录下内容  3.上传文件到HDFS指定目录下  4.查看HDFS文件内容 5.下载HDFS文件  6.拷贝

    2024年02月05日
    浏览(71)
  • Hadoop大数据从入门到实战(二)分布式文件系统HDFS

    头歌实践教学平台 教学课堂 大数据从入门到实战 - 第2章 分布式文件系统HDFS 任务描述 本关任务:使用 Hadoop 命令来操作分布式文件系统。 编程要求 在右侧命令行中启动 Hadoop ,进行如下操作。 在 HDFS 中创建 /usr/output/ 文件夹; 在本地创建 hello.txt 文件并添加内容:“ HDFS的

    2024年02月12日
    浏览(46)
  • 大数据技术原理与应用 概念、存储、处理、分析和应用(林子雨)——第三章 分布式文件系统HDFS

    大数据要解决数据存储问题,所以有了分布式文件系统(DFS),但可能不符合当时的一些应用需求,于是谷歌公司开发了GFS(Google file System)。GFS是闭源的,而HDFS是对GFS的开源实现。 1.GFS和DFS有什么区别? GFS(Google File System)和DFS(Distributed File System)都是分布式文件系统,

    2024年02月03日
    浏览(84)
  • 分布式文件系统HDFS

    分布式文件系统 把文件分布存储到多个计算机节点 上,通过网络实现文件在多台主机上进行分布式存储的文件系统。 分布式文件系统有两大模式: Remote Access Model: 非本地文件不会复制到本地,所以对非本地文件的读取和修改,利用RPC进行。 Upload/ Download Model:所有非本地文

    2024年02月09日
    浏览(53)
  • 2. 分布式文件系统 HDFS

    问题一:如果一个文件中有 10 个数值,一行一个,并且都可以用 int 来度量。现在求 10 个数值的和 思路: 逐行读取文件的内容 把读取到的内容转换成 int 类型 把转换后的数据进行相加 输出最后的一个累加和 问题二:10000 个文件,每个文件 2T,文件里的内容依然是每行一个

    2024年02月08日
    浏览(57)
  • 大数据——HDFS(分布式文件系统)

    Hadoop的两大核心组件 HDFS ( Hadoop Distributed Filesystem ):是一个易于扩展的 分布式文件系统 ,运行在 成百上千 台 低成本 的 机器 上。 HDFS 具有 高度容错能力 ,旨在部署在低成本机器上。 HDFS 主要用于对 海量文件信息 进行 存储 和 管理 ,也就是解决大数据文件(如 TB 乃至

    2023年04月17日
    浏览(62)
  • 头歌 分布式文件系统HDFS 答案

    第1关:HDFS的基本操作 在右侧命令行中启动 Hadoop ,进行如下操作。 在 HDFS 中创建 /usr/output/ 文件夹; 在本地创建 hello.txt 文件并添加内容:“ HDFS的块比磁盘的块大,其目的是为了最小化寻址开销。 ”; 将 hello.txt 上传至 HDFS 的 /usr/output/ 目录下; 删除 HDFS 的 /user/hadoop 目录

    2023年04月27日
    浏览(47)
  • 【头歌实训】分布式文件系统 HDFS

    本关任务:使用 Hadoop 命令来操作分布式文件系统。 为了完成本关任务你需要了解的知识有:1. HDFS 的设计,2. HDFS 常用命令。 HDFS的设计 分布式文件系统 客户:帮我保存一下这几天的数据。 程序猿:好嘞,有多大呢? 客户: 1T 。 程序猿:好没问题,买个硬盘就搞定了。

    2024年04月15日
    浏览(66)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包