Hadoop HDFS分布式文件系统(介绍以及基础操作命令)

这篇具有很好参考价值的文章主要介绍了Hadoop HDFS分布式文件系统(介绍以及基础操作命令)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一、为什么需要分布式存储?

二、分布式的基础架构分析

 三、HDFS基础架构

1.HDFS简介

四、HDFS集群启停命令

1.一键启停脚本

2.单进程启停

五、HDFS基本操作命令

1.创建文件夹

 2.查看指定目录下内容 

3.上传文件到HDFS指定目录下

 4.查看HDFS文件内容

5.下载HDFS文件

 6.拷贝HDFS文件

 7.追加数据到HDFS文件中

8.HDFS数据移动操作 

 9.HDFS数据删除操作

六、HDFS权限不足解决方法

1.超级用户

2.修改权限(和Linu一致)


一、为什么需要分布式存储?

        ①数据量太大,单机存储能力有上限,需要靠数量来解决问题。

        ②数量的提升带来的是网络传输、磁盘读写、CPU、内存等方面综合提升。分布式组合在引擎可以达到1+1>2的效果。

二、分布式的基础架构分析

大数据体系中,分布式的调度主要有两类价格模式:

        1.去(无)中心化模式

        去中心化模式没有明确的中心,众多服务器之间基于特定规则进行同步协调。区块链和P2P就是典型的去中心化模式。

        2.中心化模式(大部分基础架构)

        以一个节点作为中心,去同意调度其他节点。这种模式也被称为一主多从模式,简称主从模式(Master And Slaves)。Hadoop就是典型的主从模式(中心化模式)架构的技术框架。

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

 三、HDFS基础架构

1.HDFS简介

        HDFS是Hadoop三大组件(HDFS、MApReduce、YARN)之一。全称是Hadoop Distributed File System(Hadoop分布式文件系统)。是Hadoop技术栈内提供的分布式数据存储解决方案,可以在多台服务器上构建集群,存储海量的数据。

2.HDFS基础架构

        HDFS是一个典型的主从模式的架构

        HDFS集群分为三个角色:

        ·主节点(NameNode):HDFS系统的主角色,是一个独立的进程,负责管理HDFS整个文件系统,负责管理DataNode。

        ·从节点(DataNode):HDFS系统的从角色,是一个独立进程,主要负责数据的存储,即存入数据和取出数据。

        ·主节点辅助节点(SecondaryNameNode):Name Node的辅助,是一个独立的进程,主要帮助NameNode完成元数据整理工作(打杂)。

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

四、HDFS集群启停命令

1.一键启停脚本

·$HADOOP_HOME/sbin/start-dfs.sh,一键启动HDFS集群

        执行原理:

        ·在执行此脚本的机器上,启动SecondaryNameNode

        ·读取core-site.xml内容(fs.defaultFS项),确认NameNode所在的机器,启动NameNode

        ·读取workers内容,确认DataNode所在的机器,启动全部DataNode

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

·$HADOOP_HOME/sbin/stop-dfs.sh,一键关闭HDFS集群

        执行原理:

        ·在执行此脚本的机器上,关闭SecondaryNameNode

        ·读取core-site.xml(fs.defaultFS项),确认NameNode所在机器,关闭NameNode

        ·读取workers内容,确认DataNode所在机器,关闭全部NameNodehadoop分布式文件系统,大数据,hadoop,hdfs,大数据

2.单进程启停

(1)$HADOOP_HOME/sbin/hadoop-daemon.sh,此脚本可以单独控制所在机器的进程的启停(只能在对应机器管理对应服务)

用法:hadoop-daemon.sh ( start | status | stop ) ( namenode | secondarynamenode | datanode )

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

(2)$HADOOP_HOME/bin/hdfs,此程序也可以用以单独控制所在机器的进程的启停(只能在对应机器管理对应的服务)

用法:hdfs --daemon( start | status | stop )( namenode | secondarynamenode | datanode )

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

五、HDFS基本操作命令

        HDFS文件系统基本信息

        HDFS作为分布式存储的文件系统,有其对数据的路径表达方式。HDFS同Linux系统一样,均是以 / 作为根目录的组织形式。

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

 路径表示:

        ·Linux:file:///

        ·HDFS:hdfs://namenode:port/

例:

        Linux:file:///usr/local/hello.txt

        HDFS: hdfs://node1:8020/usr/local/hello.txt

         协议头 file:/// 或 hdfs://node1:8020/ 可以省略,需要提供Linux路径的参数,会自动识别为file://,需要HDFS路径的参数,会自动识别为hdfs://,除非你明确需要写或不写会有BUG,否则一般不用写协议头.

        HDFS命令体系介绍

        关于HDFS文件系统的操作命令,Hadoop提供了两套命令体系。

(1)hadoop命令(老版本用法),用法:hadoop fs [ generic options ]

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

(2)hdfs命令(新版本用法),用法:hdfs dfs [ generic options ] 

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据       

         两者在文件系统操作,用法完全一致,用哪个都可以。

1.创建文件夹

        hadoop  fs  -mkdir  [-p]  <path>  ....

        hdfs  dfs -mkdir [-p]  <path> ....

                path为待创建的目录

                -p选项的行为与Linux mkdir -p 一致

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

 2.查看指定目录下内容 

        hadoop  fs  -ls  [-h] [-R] [ <path> ...]

        hdfs dfs -ls [-h] [-R] [<path> ...]

                -h 人性化显示文件size

                path 指定目录路径

                -R 递归查看指定目录及其子目录

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

3.上传文件到HDFS指定目录下

        hadoop fs -put [-f] [-p] <localsrc>...<dst> 

        hdfs dfs -put [-f] [-p] <localsrc>...<dst>

                -f 覆盖目标文件(已存在下)

                -p 保留访问和修改时间,所有权和权限。

                localsrc 本地文件系统(客户端所在机器)

                dst 目标文件系统(HDFS)

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

 4.查看HDFS文件内容

        hadop fs -cat <src>...

        hdfs dfs -cat <src>...

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

 读取大文件可以使用管道符配合more对文件进行翻页处理

        hadoop fs -cat <src> | more

        hdfs dfs -cat <src> | more

5.下载HDFS文件

        hadoop fs -get [-f] [-p] <src>...<localdst>

        hdfs dfs -get [-f] [-p] <src>...<localdst>

                下载文件到本地文件系统指定目录,localdst必须是目录

                 -f 覆盖目标文件(已存在下)

                -p 保留访问和修改时间,所有权和权限

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

 6.拷贝HDFS文件

        hadoop fs  -cp [-f] <src>...<dst>

        hdfs dfs -cp [-f] <src>...<dst>

                -f 覆盖目标文件(已存在下)

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

 7.追加数据到HDFS文件中

        hadoop fs -appendToFile <localsrc>...<dst>

        hdfs dfs -appendToFile <localsrc>...<dst>

        将所以给本地文件的内容追加到给定dst文件,如果dst文件不存在,将创建该文件,如果<localSrc>为-,则输入为从标准输入中读取。hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

8.HDFS数据移动操作 

        hadoop fs -mv <src>...<dst>

        hdfs dfs -mv <src>...<dst>

        移动文件到指定文件夹下

        可以使用该命令移动数据,重命名文件的名称

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

 9.HDFS数据删除操作

        hadoop fs -rm -r [-skipTrash] URI [URI ...]

        hdfs dfs -rm -r [-skipTrash] URI [URI ...]

        删除指定路径的文件或文件夹(-r)

        -skipTrash 跳过回收站,直接删除hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

 回收站功能默认关闭,如果要开启需要在 core-site.xml 内配置:
<property>
        <name>fs.trash.interval</name>  #设置文件保留期间,1440为一个星期
        <value>1440</value>
</property>
<property>
        <name>fs.trash.checkpoint.interval</name>  #检查区间,表示回收站每120分钟检查一次
        <value>120</value>
</property>
无需重启集群,在哪个机器配置的,在哪个机器执行命令就生效。
回收站默认位置在: /user/ 用户名 (hadoop)/.Trash

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

六、HDFS权限不足解决方法

1.超级用户

        HDFS中,也是有权限控制的,其控制逻辑和Linux系统完全一致。但Linux的超级用户是root,HDFS文件系统的超级用户:是启动namenode的用户。

hadoop分布式文件系统,大数据,hadoop,hdfs,大数据

2.修改权限(和Linu一致)

(1)修改所属用户和组

        hadoop fs -chown [-R] root:root /xxx.txt

        hdfs dfs -chown [-R] root:root /xxx.txt

(2)修改权限

        hadoop fs -chmod [-R] 777 /xxx.txt

        hdfs dfs -chmod [-R] 777 /xxx.txt文章来源地址https://www.toymoban.com/news/detail-744399.html

到了这里,关于Hadoop HDFS分布式文件系统(介绍以及基础操作命令)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • hadoop-hdfs分布式文件系统理论(一)

    可以更好的支持分布式计算。 hadoop distribute file system是一个分布式 文件系统,操作的是文件,增、删都是以文件为单位。 文件线性按字节切割成块(block),具有offset,id offset是指block的偏移量,比如block大小是10,offset可以是0,10,20,30。。。 id是block的名称,比如block1,block

    2024年02月11日
    浏览(54)
  • Hadoop的分布式文件存储系统HDFS组件的使用

    存储整个HDFS集群的元数据(metaData) —— 整个集群中存储的目录和文件的索引 管理整个HDFS集群 接收客户端的请求 负责节点的故障转移 存储数据,是以block块的形式进行数据的存放。 默认情况下block块的大小是128M。 blocksize大小的计算公式: 寻址时间:下载文件时找到文件

    2024年02月09日
    浏览(77)
  • Hadoop大数据从入门到实战(二)分布式文件系统HDFS

    头歌实践教学平台 教学课堂 大数据从入门到实战 - 第2章 分布式文件系统HDFS 任务描述 本关任务:使用 Hadoop 命令来操作分布式文件系统。 编程要求 在右侧命令行中启动 Hadoop ,进行如下操作。 在 HDFS 中创建 /usr/output/ 文件夹; 在本地创建 hello.txt 文件并添加内容:“ HDFS的

    2024年02月12日
    浏览(45)
  • 分布式集群——搭建Hadoop环境以及相关的Hadoop介绍

    分布式集群——jdk配置与zookeeper环境搭建 分布式集群——搭建Hadoop环境以及相关的Hadoop介绍 文章目录 前言 一 hadoop的相关概念 1.1 Hadoop概念 补充:块的存储 1.2 HDFS是什么 1.3 三种节点的功能 I、NameNode节点 II、fsimage与edits文件存放的内容介绍 III、DataNode节点 IV、SecondaryNameNod

    2024年02月10日
    浏览(54)
  • 分布式文件系统HDFS

    分布式文件系统 把文件分布存储到多个计算机节点 上,通过网络实现文件在多台主机上进行分布式存储的文件系统。 分布式文件系统有两大模式: Remote Access Model: 非本地文件不会复制到本地,所以对非本地文件的读取和修改,利用RPC进行。 Upload/ Download Model:所有非本地文

    2024年02月09日
    浏览(52)
  • 2. 分布式文件系统 HDFS

    问题一:如果一个文件中有 10 个数值,一行一个,并且都可以用 int 来度量。现在求 10 个数值的和 思路: 逐行读取文件的内容 把读取到的内容转换成 int 类型 把转换后的数据进行相加 输出最后的一个累加和 问题二:10000 个文件,每个文件 2T,文件里的内容依然是每行一个

    2024年02月08日
    浏览(57)
  • 头歌 分布式文件系统HDFS 答案

    第1关:HDFS的基本操作 在右侧命令行中启动 Hadoop ,进行如下操作。 在 HDFS 中创建 /usr/output/ 文件夹; 在本地创建 hello.txt 文件并添加内容:“ HDFS的块比磁盘的块大,其目的是为了最小化寻址开销。 ”; 将 hello.txt 上传至 HDFS 的 /usr/output/ 目录下; 删除 HDFS 的 /user/hadoop 目录

    2023年04月27日
    浏览(47)
  • 大数据——HDFS(分布式文件系统)

    Hadoop的两大核心组件 HDFS ( Hadoop Distributed Filesystem ):是一个易于扩展的 分布式文件系统 ,运行在 成百上千 台 低成本 的 机器 上。 HDFS 具有 高度容错能力 ,旨在部署在低成本机器上。 HDFS 主要用于对 海量文件信息 进行 存储 和 管理 ,也就是解决大数据文件(如 TB 乃至

    2023年04月17日
    浏览(62)
  • 【头歌实训】分布式文件系统 HDFS

    本关任务:使用 Hadoop 命令来操作分布式文件系统。 为了完成本关任务你需要了解的知识有:1. HDFS 的设计,2. HDFS 常用命令。 HDFS的设计 分布式文件系统 客户:帮我保存一下这几天的数据。 程序猿:好嘞,有多大呢? 客户: 1T 。 程序猿:好没问题,买个硬盘就搞定了。

    2024年04月15日
    浏览(66)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包