大数据02-HDFS的使用和基本命令

这篇具有很好参考价值的文章主要介绍了大数据02-HDFS的使用和基本命令。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Hadoop分布式文件系统

HDFS简介

  HDFS(Hadoop Distribute File System)是大数据领域一种非常可靠的存储系统,它以分布式方式存储超大数据量文件,但它并不适合存储大量的小数据量文件。同时HDFS是Hadoop和其他组件的数据存储层,运行在由价格廉价的商用机器组成的集群上的,而价格低廉的机器发生故障的几率比较高,因此HDFS在设计上采取了多种机制,在硬件故障的情况下保障数据的完整性。

  总体而言,HDFS要实现以下目标:

  • 兼容廉价的硬件设备: 实现在硬件故障的情况下也能保障数据的完整性
  • 流数据读写:不支持随机读写的操作
  • 大数据集:数据量一般在GB、TB以上的级别
  • 简单的文件模型:一次写入、多次读取
  • 强大的跨平台兼容性:采用Java语言实现

  但是,HDFS也有如下局限性:

  • 不适合低延迟数据访问:HDFS主要是面向大规模数据批量处理而设计的,采用流式数据读取,具有很高的数据吞吐率,但是,这也意味着较高的延迟,因此,HDFS不适合用在需要较低延迟(如数十毫秒)的应用场合。对于低延迟要求的应用程序而言,HBase是一个更好的选择;
  • 无法高效存储大量小文件:小文件是指文件大小小于一个块的文件,HDFS无法高效存储和处理大量的小文件,过多小文件会给系统扩展性和性能带来诸多问题:
    1. HDFS采用名称节点(NameNode)来管理文件系统的元数据,这些元数据被保存在内存中,使客户端可以快速获取文件实际存储位置。通常,每个文件、目录和块大约占150字节,如果有1000万个文件,每个文件对应一个块,那么,名称节点至少要消耗3GB的内存来保存这些元数据信息。很显然,这时元数据检索的效率就比较低了,需要花费较多的时间找到一个文件的实际存储位置。而且,如果继续扩展到数十亿个文件时,名称节点保存元数据所需要的内存空间就会大大增加,以现有的硬件水平,是无法在内存中保存如此大量的元数据;
    2. 用MapReduce处理大量小文件时,会产生过多的Map任务,线程管理开销会大大增加,因此处理大量小文件的速度远远低于处理同等大小的大文件的速度;
    3. 访问大量小文件的速度远远低于访问大文件的速度,因为访问大量小文件,需要不断从一个数据节点跳到另一个数据节点,严重影响性能。
  • 不支持多用户写入及任意修改文件:HDFS只允许一个文件有一个写入者,不允许多个用户对同一个文件执行写操作,而且只允许对文件执行追加操作,不能执行随机写操作。

HDFS的体系结构

  HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点(NameNode)若干个数据节点(DataNode)

  • 名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问。
  • 数据节点负责处理文件系统客户端的读/写请求,在名称节点的统一调度下进行数据块的创建、删除和复制等操作。
  • 每个数据节点会周期性地向名称节点发送**“心跳"信息**,报告自己的状态,没有按时发送心跳信息的数据节点会被标记为“宕机”,不会再给它分配任何I/O请求。

  用户在使用HDFS时,仍然可以像在普通文件系统中那样,使用文件名去存储和访问文件。

  实际上,在系统内部,一个文件会被切分成若干个数据块,这些数据块被分布存储到若干个数据节点上。当客户端需要访问一个文件时,首先把文件名发送给名称节点,名称节点根据文件名找到对应的数据块(一个文件可能包括多个数据块),再根据每个数据块信息找到实际存储在各个数据块的数据节点的位置,并把数据节点位置发送给客户端,最后客户端直接访问这些数据节点获取数据。在整个访问过程中,名称节点并不参与数据的传输。这种设计方式,使得各个文件的数据能够在不同的数据节点上实现并发访问,大大提高了数据访问速度。

HDFS的使用和基本命令

1.启动Hadoop的HDFS相关进程
切换到root用户

sudo passwd root
su

切换到/hadoop/sbin路径下:

cd /opt/hadoop/sbin/

打开文件添加内容

输入i 回车,进入插入模式,在该文件末尾,添加内容;
按下esc键,退出编辑;
输入 :wq 回车,保存退出。

vim /opt/hadoop/sbin/start-dfs.sh

vim /opt/hadoop/sbin/stop-dfs.sh

vim /opt/hadoop/sbin/start-yarn.sh

vim /opt/hadoop/sbin/stop-yarn.sh

将start-dfs.sh,stop-dfs.sh两个文件顶部添加以下参数

#!/usr/bin/env bash
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

还有,start-yarn.sh,stop-yarn.sh顶部也需添加以下:

#!/usr/bin/env bash
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

  启动Hadoop的HDFS服务,使用root用户执行如下命令:

./start-dfs.sh

执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop
执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop
执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop
启动ssh服务
执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop

启动 HDFS 守护进程,出现警告信息:

WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER. Using value of HADOOP_SECURE_DN_USER.

解决办法:

vim /opt/hadoop/sbin/start-dfs.sh

vim /opt/hadoop/sbin/stop-dfs.sh
#把start-dfs.sh,stop-dfs.sh文件的如下代码:

HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs 
HDFS_NAMENODE_USER=root 
HDFS_SECONDARYNAMENODE_USER=root


#改为,如下代码:

HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs 
HDFS_NAMENODE_USER=root 
HDFS_SECONDARYNAMENODE_USER=root

2.查看HDFS进程

启动Java环境

source /etc/profile

输入jps命令可以查看所有的Java进程

jps

执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop
执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop

3.验证HDFS运行状态

  在hdfs上创建一个目录,执行如下命令,验证能够创建成功:

hadoop fs -mkdir /myhadoop1

  如果创建成功,执行如下命令,可查询hdfs文件系统根目录,将看到/myhadoop1目录:

hadoop fs -ls /

执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop

4.ls命令

  列出hdfs文件系统根目录下的目录和文件,执行命令如下:

hadoop fs -ls /

  列出hdfs文件系统所有的目录和文件,执行命令如下:

hadoop fs -ls -R /

  执行结果如下:
执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop
5.put命令

1)拷贝文件
  将本地文件上传到hdfs上,命令格式如下:

hadoop fs -put <local file> <hdfs file>

  其中<hdfs file>的父目录必须存在,否则命令执行失败,例如将/opt/hadoopREADME.txt文件上传到hdfs文件系统根目录,命令如下:

hadoop fs -put /opt/hadoop/README.txt /

2)拷贝目录
  将本地文件夹上传到hdfs的文件夹中,命令格式如下:

hadoop fs -put <local dir> <hdfs dir>

  其中<hdfs dir>的父目录必须存在,否则命令执行失败。例如将/opt/hadoop/log文件夹上传到hdfs文件系统根目录,命令如下:

hadoop fs -put /opt/hadoop/logs / 

3)查看是否拷贝成功
  查看上传文件或目录是否成功,执行如下命令:

hadoop fs -ls <hdfs file/hdfs dir>

  例如,查看刚刚上传的README.txt文件和log目录是否在hdfs根目录下存在,命令如下:

hadoop fs -ls /

执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop
6.moveFromLocal命令

1)拷贝文件或目录
  将本地文件/文件夹上传到hdfs中,但本地文件/文件夹会被删除,命令格式如下:

hadoop fs -moveFromLocal <local src> <hdfs dst>

  例如,执行如下命令,上传本地文件/文件夹至hdfs中:

hadoop fs -moveFromLocal /opt/hadoop/NOTICE.txt /myhadoop1
hadoop fs -moveFromLocal /opt/hadoop/logs /myhadoop1

2)查看是否拷贝成功
  查看上传文件或目录是否成功,执行如下命令:

hadoop fs -ls <hdfs file/hdfs dir>

  例如,查看刚刚上传的NOTICE.txt文件和log目录是否在hdfs文件系统的/myhadoop1目录下存在,命令如下:

hadoop fs -ls /myhadoop1

执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop
7.get命令

1)拷贝文件或目录到本地
  将hdfs文件系统中的文件/文件夹下载到本地,命令格式如下:

hadoop fs -get < hdfs file or dir > < local file or dir>

  例如,将hdfs文件系统中/myhadoop1目录下的NOTICE.txtlogs分别下载到本地路径/opt/hadoop目录,执行命令如下:

hadoop fs -get /myhadoop1/NOTICE.txt /opt/hadoop/
hadoop fs -get /myhadoop1/logs /opt/hadoop/

注意:

  1. 拷贝多个文件或目录到本地时,本地要为文件夹路径
  2. local file不能和hdfs file名字不能相同,否则会提示文件已存在。
  3. 如果用户不是root用户local路径要使用该用户文件夹下的路径,否则会出现权限问题

2)查看是否成功拷贝到本地
  查看本地是否在/opt/hadoop目录下存在已拷贝完毕的NOTICE文件或logs目录,执行如下命令:

cd /opt/hadoop
ls -l

执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop
8. rm命令

1)删除一个或多个文件
  在hdfs文件系统中,删除一个或多个文件,命令格式如下:

hadoop fs -rm <hdfs file> ...

  例如,删除hdfs文件系统中根目录下的README.txt文件,命令如下:

hadoop fs -rm /README.txt

2)删除一个或多个目录
  在hdfs文件系统中,删除一个或多个目录,命令格式如下:

hadoop fs -rm -r <hdfs dir> ...

  例如,删除hdfs文件系统中根目录下的logs目录,命令如下:

hadoop fs -rm -r /logs

3)查看是否删除成功
  查看刚刚删除的README.txt文件和log目录是否在hdfs根目录下存在,命令如下:

hadoop fs -ls /

  如果删除成功,将不会看到/logs/NOTICE.txt
9.mkdir命令

1)创建一个新目录
  使用如下命令,在hdfs文件系统中创建一个目录,该命令只能一级一级的创建目录,如果父目录不存在,则会报错:

hadoop fs -mkdir <hdfs path>

  例如,在hdfs文件系统的/myhadoop1目录下创建test目录,命令如下:

hadoop fs -mkdir /myhadoop1/test

2)创建一个新目录(-p选项)
  使用如下命令,在hdfs文件系统中创建一个目录,如果父目录不存在,则创建该父目录:

hadoop fs -mkdir -p <hdfs dir> ...

  例如,在hdfs文件系统创建/myhadoop1/test目录,命令如下:

hadoop fs -mkdir -p /myhadoop2/test

3)查询目录
  查看刚刚创建的/myhadoop1/test/myhadoop2/test目录是否存在,命令如下:

hadoop fs -ls /
hadoop fs -ls /myhadoop1
hadoop fs -ls /myhadoop2

执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop
10.cp命令

  使用如下命令,在hdfs文件系统上进行文件或目录的拷贝,如果目标文件不存在,则命令执行失败,相当于给文件重命名并保存,源文件还存在:

hadoop fs -cp <hdfs file or dir>... <hdfs dir>

  按照下面的步骤,使用cp命令,将/LICENSE.txt拷贝到/myhadoop1目录下:
1) 拷贝一个本地文件到HDFS的根目录下
  将本地/opt/hadoop目录下的LICENSE.txt文件上传到hdfs文件系统的根目录下,命令如下:

hadoop fs -put /opt/hadoop/LICENSE.txt /

  查看hdfs文件系统的根目录下的LICENSE.txt是否存在,命令如下:

hadoop fs -ls /

2)将此文件拷贝到/myhadoop1目录下
  使用cp命令,将hdfs文件系统中根目录下的LICENSE.txt文件拷贝到/myhadoop1目录下,命令如下:

hadoop fs -cp /LICENSE.txt /myhadoop1

3)查看/myhadoop1目录
  使用如下命令,查看hdfs文件系统的/myhadoop1目录下是否存在LICENSE.txt文件:

hadoop fs -ls /myhadoop1

执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop
11. mv命令

  使用如下命令,在hdfs文件系统上进行文件或目录的移动,如果目标文件不存在,则命令执行失败,相当于给文件重命名并保存,源文件不存在;源路径有多个时,目标路径必须为目录,且必须存在:

hadoop fs -mv <hdfs file or dir>... <hdfs dir>

**注意:**跨文件系统的移动(local到hdfs或者反过来)都是不允许的。

  按照下面的步骤,使用mv命令,将/myhadoop1/LICENSE.txt移动到/myhadoop2目录下:
1)移动一个 HDFS文件
  使用mv命令,将hdfs文件系统的/myhadoop1目录下的LICENSE.txt文件移动到/myhadoop2目录下,命令如下:

hadoop fs -mv /myhadoop1/LICENSE.txt /myhadoop2

2)查询/myhadoop2目录
  使用如下命令,查看hdfs文件系统的/myhadoop2目录下是否存在LICENSE.txt文件:

hadoop fs -ls /myhadoop2

执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop

12.count命令

  使用如下命令,统计hdfs对应路径下的目录个数,文件个数,文件总计大小:

hadoop fs -count <hdfs path>

  例如,查看/myhadoop1/logs目录下的目录个数,文件个数,文件总计大小,命令如下:

hadoop fs -count /myhadoop1/logs
  1. du命令
  • 显示hdfs对应路径下每个文件夹和文件的大小
hadoop fs -du <hdsf path>
  • 显示hdfs对应路径下所有文件大小的总和
hadoop fs -du -s <hdsf path>
  • 显示hdfs对应路径下每个文件夹和文件的大小,文件的大小用方便阅读的形式表示,例如用64M代替67108864
hadoop fs -du -h <hdsf path>

  例如,执行如下命令,可以查看hdfs文件系统/myhadoop2目录下的每个文件夹和文件的大小、所有文件大小的总和:

hadoop fs -du /myhadoop2
hadoop fs -du -s /myhadoop2
hadoop fs -du -h /myhadoop2
hadoop fs -du -s -h /myhadoop2

  执行结果说明:

  • 第一列:表示该目录下总文件大小
  • 第二列:表示该目录下所有文件在集群上的总存储大小,该大小和副本数相关,设置的默认副本数为3 ,所以第二列的是第一列的三倍 (第二列内容 = 文件大小 × \times × 副本数)
  • 第三列:表示查询的目录

执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop
14.setrep命令

  使用如下命令,改变一个文件在hdfs文件系统中的副本个数,数字3表示所设置的副本个数,其中,-R选项可以对一个目录下的所有目录和文件递归执行改变副本个数的操作:

hadoop fs -setrep -R 3 <hdfs path>

  例如,对hdfs文件系统中/myhadoop1目录下的所有目录和文件递归执行,设置为3个副本,命令如下:

hadoop fs -setrep -R 3 /myhadoop1

执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop
15. stat命令
  使用如下命令,查看对应路径的状态信息:

hdoop fs -stat [format] < hdfs path >

  其中,[format]可选参数有:

  • %b:文件大小
  • %o:Block大小
  • %n:文件名
  • %r:副本个数
  • %y:最后一次修改日期和时间

  例如,查看hdfs文件系统中/myhadoop2/LICENSE.txt文件的大小,命令如下:

hadoop fs -stat %b /myhadoop2/LICENSE.txt

执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop
16.balancer命令

  该命令主要用于,当管理员发现某些DataNode保存数据过多,某些DataNode保存数据相对较少,可以使用如下命令手动启动内部的均衡过程:

hadoop balancer
或
hdfs balancer
  1. dfsadmin命令

  该命令主要用于管理员通过dfsadmin管理HDFS:

1)使用-help参数,查看相关的帮助:

hdfs dfsadmin -help

2) 使用-report参数,查看文件系统的基本数据:

hdfs dfsadmin -report

执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop

3) 使用-safemode参数,操作安全模式:

hdfs dfsadmin -safemode <enter | leave | get | wait>

其中:

  • enter:进入安全模式
  • leave:离开安全模式
  • get:查看是否开启安全模式
  • wait:等待离开安全模式

  例如,进入安全模式,执行命令如下:

hdfs dfsadmin -safemode enter

执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop

18 cat命令

  使用cat命令,查看hdfs文件系统中文本文件的内容,例如,查看根目录下的deom.txt文件内容:

 hadoop fs -cat /demo.txt
 hadoop fs -tail -f /demo.txt

执行hdfs查看datanode存活状态的指令,大数据,大数据,hdfs,hadoop

  当使用hadoop fs -tail -f命令后,终端会根据文件描述符进行追踪,当文件改名或被删除,追踪停止。终端操作如下:

  • 此时要想暂停刷新,使用Ctrl+S暂停终端,S表示sleep
  • 若想要继续刷新终端,使用Ctrl+QQ表示quiet
  • 若想退出tail命令,直接使用Ctrl+C,也可以使用Ctrl+Z
    Ctrl+CCtrl+Z都是中断命令,当他们的作用却不一样的:
    1. Ctrl+C比较暴力,就是发送Terminal到当前的程序,比如正在运行一个查找功能,文件正在查找中,使用Ctrl+C会强制结束当前这个进程
    2. Ctrl+Z则会将当前程序挂起,暂停执行这个程序,比如mysql终端下,需要跳出来执行其他的文件操作,又不想退出mysql终端(因为下次还需要输入用户名密码进入,很麻烦),于是可以使用Ctrl+Zmysql挂起,然后进行其他操作,输入fg回车可以回到mysql终端,担任也可以挂起很多进程到后台,执行fg <编号>就能将挂起的进程返回到当前的终端。配合bgfg命令能更方便的进行前后台切换
  1. appendToFile命令

  将本地文件内容追加到hdfs文件系统中的文本文件里,命令格式如下:

hadoop fs -appendToFile <local file> <hdfs file>
  1. chown命令
      使用chown命令,修改hdfs文件系统中文件的读、写、执行的权限,命令示例如下:
hadoop fs -chown user:group /datawhale
hadoop fs -chmod 777 /datawhale

其中,参数说明如下:

  • chown:定义谁拥有文件
  • chmod:定义可以对该文件做什么

学习参考

https://github.com/datawhalechina/juicy-bigdata文章来源地址https://www.toymoban.com/news/detail-781354.html

到了这里,关于大数据02-HDFS的使用和基本命令的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • HDFS学习笔记【Datanode/BlockManager】

    Datanode存储多个块池的数据块,BlockPoolManager管理块池。 BlockPoolManager管理多个块池 BlockOfferService对象管理的单个块池 BlockServiceActor封装了对单个Namenode的操作 BockServiceActor与Namenode交互 心跳(heartbeat) 增量块(blockReceivedAndDeleted) 全量块(blockReport) 缓存块 (cacheReport) 具体的块

    2023年04月09日
    浏览(18)
  • 【大数据】HDFS客户端命令行(hdfs dfs)详细使用说明

    hadoop分布式文件系统客户端命令行操作 全局变量说明 Path 路径支持正则表达式 通配符 名称 匹配 * 星号 匹配0或多个字符 ? 问号 匹配单一字符 [ab] 字符类别 匹配{a,b}中的一个字符 [^ab] 非字符类别 匹配不是{a,b}中的一个字符 [a-b] 字符范围 匹配一个在{a,b}范围内的 字符(包括

    2024年02月09日
    浏览(52)
  • HDFS基本操作命令

    hdfs shell cli支持操作多种文件系统,包括本地文件系统(file:///),分布式文件系统(hdfs:nn:8020)等 操作的是什么文件系统取决于URL种的前缀协议 如果没有指定前缀,则将会读取环境变量汇总的fs.defaultFS属性,以该属性作为默认文件系统 hdfs dfs -ls file:/// #操作本地文件系统 hdfs dfs

    2024年02月16日
    浏览(33)
  • HDFS基本命令

    目录 1.上传文件到HDFS文件系统 2.-appendToFile:追加一个文件到已经存在的文件末尾  3.查看HDFS文件系统中的文件 4.查看上传到HDFS文件系统中指定文件的内容 5.从HDFS文件系统下载指定文件,并存放在指定文件中 6.删除HDFS文件系统中的指定文件 7.创建目录 8.创建多级目录 9.递归

    2024年02月05日
    浏览(50)
  • Hadoop Hdfs基本命令

    1.hadoop 安装问题处理 2.hdfs 基本命令 3. 上传/下载文件和文件夹 1.hadoop安装问题处理 如果安装有进程无法启动,如下图 重新检查6个配置文件 Core-site.xml hdfs-site.xml hadoop-env.sh yarn-site.xml workers yarn-site.xml 来到hadoop313目录 清空data和yarndata 重新初始化 测试 2.hadoop hdfs基本命

    2024年02月11日
    浏览(43)
  • hdfs --daemon start datanode指令介绍

    hdfs --daemon start datanode 是Hadoop分布式文件系统(HDFS)命令之一,用于启动一个数据节点(Datanode)守护进程。 在HDFS中,数据节点是存储HDFS数据块的物理节点。数据节点存储和管理数据块,并向客户端和其他数据节点提供读写操作。通过启动 hdfs --daemon start datanode 命令,可以

    2024年02月16日
    浏览(33)
  • Hadoop datanode启动异常 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode

    现象 线上收到hadoop集群datanode掉线告警。 排查 1、确认datanode状态 发现未存在datanode进程。 2、尝试单独启动datanode,发现还是不行,错误日志信息如下: $ hadoop-daemon.sh start datanode 2022-11-25 15:58:43,267 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool (Datanod

    2023年04月08日
    浏览(49)
  • 大数据技术之Hadoop:使用命令操作HDFS(四)

    目录 一、创建文件夹 二、查看指定目录下的内容 三、上传文件到HDFS指定目录下 四、查看HDFS文件内容 五、下载HDFS文件 六、拷贝HDFS文件 七、HDFS数据移动操作 八、HDFS数据删除操作 九、HDFS的其他命令 十、hdfs web查看目录 十一、HDFS客户端工具 11.1 下载插件 11.2 本地安装Had

    2024年02月09日
    浏览(47)
  • Hadoop 存储占用分析命令,查看 Hdfs 文件夹占用大小

    兼职公司 Hadoop 运维之后,经常要解决 Hdfs 空间占用的问题,不知道哪天谁又在集群上留下一大堆缓存文件也不清掉,Hadoop 本身默认就是三副本,人一多每个人留一点结果占用了一堆的存储空间。 在 Linux 上游 du 这个指令可以很轻松的结合 sort 对文件夹的大小进行排序,分析

    2024年02月15日
    浏览(53)
  • Hadoop原理与技术——hdfs命令行基本操作

    点击链接查看文档 一、实验目的 熟悉hdfs命令行基本操作 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 三、实验内容 1:hdfs常见命令: (1)查看帮助:hdfs dfs -help (2)查看当前目录信息:hdfs dfs -ls / (3)创建文件夹:hdfs dfs -mkdir /文件夹名 (4)上传文件:

    2023年04月16日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包