Hadoop3.0大数据处理学习2(HDFS)

这篇具有很好参考价值的文章主要介绍了Hadoop3.0大数据处理学习2(HDFS)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、简介

HDFS:Hadoop Distributed File System。Hadoop分布式存储系统
一种允许文件通过网络在多台主机上分享的文件系统,可以让多机器上的用户分享文件和存储空间。
两大特性:通透性、容错性

分布式文件管理系统的实现很多,HDFS只是其中一种,HDSF不适合存储小文件。GFS、TFS。文章来源地址https://www.toymoban.com/news/detail-714524.html

二、HDSF的shell

  • 使用格式:bin/hdfs dfs -[commond] [schema]😕/[authority]/[path]
  • HDFS的schema是hdfs,authority是NameNode的节点IP和对应的端口号(默认9000),path是我们要操作的路径信息。

操作commond

  • ls:查询指定路径信息
  • put:从本地上传文件
  • cat:查看hdfs文件内容
  • get:下载文件到本地
  • mkdir [-p]:创建文件夹(-p递归创建)
  • rm [-r]:删除文件/文件夹
# 查看
[root@cent7-1 hadoop-3.2.4]# bin/hdfs dfs -ls hdfs://cent7-1:9000/
Found 3 items
drwxr-xr-x   - root supergroup          0 2023-09-07 14:25 hdfs://cent7-1:9000/hbase
drwx-wx-wx   - root supergroup          0 2023-09-01 16:49 hdfs://cent7-1:9000/tmp
drwxr-xr-x   - root supergroup          0 2023-09-01 16:47 hdfs://cent7-1:9000/user
# 上传文件(到根目录)
[root@cent7-1 hadoop-3.2.4]# bin/hdfs dfs -put README.txt hdfs://cent7-1:9000/
# 查看的简写
[root@cent7-1 hadoop-3.2.4]# bin/hdfs dfs -ls /
Found 4 items
-rw-r--r--   1 root supergroup       1361 2023-10-16 21:35 /README.txt
drwxr-xr-x   - root supergroup          0 2023-09-07 14:25 /hbase
drwx-wx-wx   - root supergroup          0 2023-09-01 16:49 /tmp
drwxr-xr-x   - root supergroup          0 2023-09-01 16:47 /user
# 查看文件内容
[root@cent7-1 hadoop-3.2.4]# bin/hdfs dfs -cat /README.txt
For the latest information about Hadoop, please visit our website at:
# 下载文件
[root@cent7-1 hadoop-3.2.4]# bin/hdfs dfs -get /tmp
[root@cent7-1 hadoop-3.2.4]# ls
bin  etc  include  lib  libexec  LICENSE.txt  nohup.out  NOTICE.txt  README.txt  sbin  share  tmp
# 创建多级文件夹
[root@cent7-1 hadoop-3.2.4]# hdfs dfs -mkdir /dirtest
[root@cent7-1 hadoop-3.2.4]# hdfs dfs -mkdir /dirtest/xixi
## 或者使用命令[root@cent7-1 hadoop-3.2.4]# hdfs df s -mkdir -p /dirtest/xixi
[root@cent7-1 hadoop-3.2.4]# hdfs dfs -ls /
Found 5 items
-rw-r--r--   1 root supergroup       1361 2023-10-16 21:35 /README.txt
drwxr-xr-x   - root supergroup          0 2023-10-16 21:51 /dirtest
drwxr-xr-x   - root supergroup          0 2023-09-07 14:25 /hbase
drwx-wx-wx   - root supergroup          0 2023-09-01 16:49 /tmp
drwxr-xr-x   - root supergroup          0 2023-09-01 16:47 /user
# 删除文件
[root@cent7-1 hadoop-3.2.4]# hdfs dfs -rm /README.txt
Deleted /README.txt
# 删除文件夹
[root@cent7-1 hadoop-3.2.4]# hdfs dfs -rm -r /dirtest
Deleted /dirtest

三、HDFS体系结构

  • hdfs包含:NameNode、SecondaryNameNode、DataNode(前俩个是在主节点启动,DataNode在从节点启动。而伪分布式启动三个)

NameNode(管理节点)

  • NameNode是整个文件系统的管理节点,主要维护整个文件系统的文件目录树,文件/目录的元信息,每个文件对应的数据块列表,并且还负责接受用户的操作请求。
  • NameNode文件保存在内存中,并持久化到磁盘的repo/dfs/name/current目录。包含以下文件类型:fsimage(某一时刻的元数据快照)、edits(修改操作日志)、seed_txid(存储edits文件id,在重启时,会按顺序执行,来恢复元数据信息。如果发现文件不存在,则NameNode不会启动)、VERSION(版本信息)。
  • 上面的文件保存路径是由hdfs-default.xml文件中的dfs.namenode.name.dir属性控制

SecondaryNameNode(合并操作)

  • 主要负责定期的把edits文件中的内容合并到fsimages中
  • 这个合并操作称为checkpoint,在合并的时候会对edits中的内容进行转换,生成新的内容保存到fsimages文件中
  • 距离上一次checkpoint已有一小时,或者对hdfs进行了100W次的操作。
  • 注意:在NameNode的HA架构中是没有SecondaryNameNode进程的,这个文件合并操作是由Standby NameNode负责实现的。

DataNode(从节点)

  • 提供真实文件数据的存储服务
  • HDFS会按照固定的大小、顺序来对文件进行划分编号,划分好的每个文件块称为Block,Hdfs默认Block大小是128MB。
  • HDFS中,如果一个文件小于一个数据块的大小,那么并不会占用整个数据块的存储空间。

总结

NameNode维护了两份关系

  1. 第一个是File和Block List的关系,对应的关系信息存储在fsimages和edits文件中(当NameNode启动的时候会把文件中的内容加载到内存中)
  2. 第二个关系:DataNode与Block的关系(当DataNode启动的时候,会把当前节点上的Block信息和节点信息上报给NameNode)

到了这里,关于Hadoop3.0大数据处理学习2(HDFS)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • HDFS编程实践(Hadoop3.1.3)

    Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop核心组件之一,如果已经安装了 Hadoop,其中就已经包含了 HDFS 组件,不需要另外安装。 接下来介绍Linux操作系统中关于HDFS文件操作的常用Shell命令,利用Web界面查看和管理Hadoop文件系统,以及利用Hadoop提供的Java API进

    2024年02月07日
    浏览(56)
  • HDFS编程实践(Hadoop3.1.3)

    1.目录操作 在HDFS中为hadoop用户创建一个用户目录 显示HDFS中与当前用户hadoop对应的用户目录下的内容: 创建一个input目录: 可以使用rm命令删除一个目录 上面命令中,“-r”参数表示如果删除“input”目录及其子目录下的所有内容,如果要删除的一个目录包含了子目录,则必

    2023年04月13日
    浏览(41)
  • Hadoop3.x基础(2)- HDFS

    来源:B站尚硅谷 1)HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。 HDFS只是分布式文件管理系统中的一种

    2024年02月22日
    浏览(44)
  • springboot集成hadoop3.2.4HDFS

    记录springboot集成hadoop3.2.4版本,并且调用HDFS的相关接口,这里就不展示springboot工程的建立了,这个你们自己去建工程很多教程。 完整pom配置如下: 加入以下配置 name-node是这个服务的地址,可以在hadoop的配置文件中找,或者直接看hadoop集群namenode网页也可以看到端口号。 我

    2024年02月07日
    浏览(43)
  • Hadoop3教程(二):HDFS的定义及概述

    随着实际生产环境中的数据越来越大,在一台服务器上无法存储下所有的数据,那么就要把数据分散到多台服务器的磁盘里存放。但是像这样做跨服务器的数据管理和维护是很难的,所以就迫切需要一种方式,来协调管理多台机器上的文件,这就是分布式文件管理系统。 HD

    2024年02月07日
    浏览(45)
  • Hadoop3教程(三):HDFS文件系统常用命令一览

    hdfs命令的完整形式: 其中subcommand有三种形式: admin commands client commands:如本节重点要讲的dfs daemon commands dfs(文件系统命令),这个是HDFS里,日常使用 最为频繁的一种命令 ,用来在HDFS的文件系统上运行各种文件系统命令,如查看文件、删除文件等。 基本语法: 这俩基本

    2024年02月06日
    浏览(69)
  • 0201hdfs集群部署-hadoop-大数据学习

    下面我们配置下单namenode节点hadoop集群,使用vmware虚拟机环境搭建。vmware虚拟机的配置,在下面链接2有,或者自行查阅文档。hadoop安装包可到官网下载,当前相关软件环境如下: 软件 版本 说明 hadoop 3.3.4 jar包 vmware 15.5 虚拟机 centos 7.6 服务器操作系统 xshell 6 远程连接 jdk 1.8

    2024年02月11日
    浏览(47)
  • 0202hdfs的shell操作-hadoop-大数据学习

    以下命令执行默认配置了hadoop的环境变量,且使用新命令。 一键启停脚本 独立进程启停 2.1 HDFS文件系统基本信息 HDFS作为分布式存储的文件系统,有其对数据的路径表达式。如果熟悉Linux文件系统,可以对比学习。 HDFS同Linux系统一样,均是以/作为根目录的组织形式 如何区分

    2024年02月10日
    浏览(52)
  • Hadoop学习笔记之HDFS

    分布式存储系统 支持海量数据的存储,成百上千的计算机组成存储集群,HDFS可以运行在低成本的硬件之上,具有的高容错、高可靠性、高可扩展性、高吞吐率等特征,非常适合大规模数据集上的应用。 优点 高容错性 适合批处理 适合大数据处理 流式文件访问 可构建在廉价

    2024年02月07日
    浏览(40)
  • hadoop学习之hdfs学习

    HDFS 文件系统,可以说是分布式数据库吧 结构是 目录树 适用场景:一次写入,多次读出.好像不太支持改删 优点: 1.高容错: 因为他会备份,所以一份出问题了,并不影响其他几份 如果副本丢失后,定时恢复.应该是定时检查然后恢复 每次启动,DN向NN汇报备份的存储情况.默认每个6个小

    2024年02月16日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包