0202hdfs的shell操作-hadoop-大数据学习

这篇具有很好参考价值的文章主要介绍了0202hdfs的shell操作-hadoop-大数据学习。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

以下命令执行默认配置了hadoop的环境变量，且使用新命令。

1 进程启停管理

一键启停脚本

# 开启命令
start-dfs.sh
# 停止命令
stop-dfs.sh

独立进程启停

hdfs --daemon (start|status|stop) (namenode|secondarynamenode|datanode)

2 文件系统操作命令

2.1 HDFS文件系统基本信息

HDFS作为分布式存储的文件系统，有其对数据的路径表达式。如果熟悉Linux文件系统，可以对比学习。

HDFS同Linux系统一样，均是以/作为根目录的组织形式

0202hdfs的shell操作-hadoop-大数据学习,# Hadoop,hdfs,hadoop,大数据

如何区分呢？

•Linux：file:/// 为linux的文件协议头

•HDFS：hdfs://为hdfs协议头

如上路径：

•Linux：file:///usr/local/hello.txt

•HDFS：hdfs://node1:8020/usr/local/hello.txt

协议头file:/// 或 hdfs://node1:8020/可以省略

•需要提供Linux路径的参数，会自动识别为file://

•需要提供HDFS路径的参数，会自动识别为hdfs://

除非你明确需要写或不写会有BUG，否则一般不用写协议头

2.2 介绍

关于HDFS文件系统的操作命令，Hadoop提供了2套命令体系

•hadoop命令（老版本用法），用法：hadoop fs [generic options]

•hdfs命令（新版本用法），用法：hdfs dfs [generic options]

两者在文件系统操作上，用法完全一致

用哪个都可以

某些特殊操作需要选择hadoop命令或hdfs命令

讲到的时候具体分析

下面以新版本用户hdfs命令为例介绍

2.3 创建文件夹

语法：

hdfs dfs -mkdir [-p] <path> ...

mkdir：创建文件夹
-p：如果父目录不存在，创建
path：待创建的目录

示例：

hdfs dfs -mkdir -p /gaogzhen/bigdata

2.4 查看指定文件夹下的内容

语法：

hadfs -ls [-h] [-R] [<path> ...]

-h：人性化显示文件size
-R：递归查看指定目录及其子目录

示例：

hdfs dfs -ls -R /
[hadoop@node1 ~]$ hdfs dfs -ls -R /
drwxr-xr-x   - hadoop supergroup          0 2023-08-30 20:44 /gaogzhen
drwxr-xr-x   - hadoop supergroup          0 2023-08-30 20:46 /gaogzhen/bigdata
-rw-r--r--   3 hadoop supergroup         20 2023-08-30 20:46 /gaogzhen/bigdata/words.txt

2.5 上传文件到HDFS

语法：

hdfs dfs -put [-f] [-p] <src> ... <dst>

-f ：覆盖目标文件（如果存在）；
-p：保留访问和修改权限，所有权和权限；
src：本地文件系统
dst：目的文件系统（HDFS)

示例：

hdfs dfs -put -f words.txt /gaogzhen/bigdata

2.6 查看HDFS文件内容

语法：

hdfs dfs -cat <src> ...

读取指定文件全部内容，显示在标准输出控制台

同Linux一样，可以配置more less 使用。

示例：

hdfs dfs -cat /gaogzhen/bigdata/words.txt
node1
node2
node3
`

2.7 下载HDFS文件

hdfs dfs -get [-f] [-p] <src> ... <localdst>

下载文件到本地文件系统指定目录，localdst必须是目录
-f 覆盖目标文件（已存在下）
-p 保留访问和修改时间，所有权和权限。

2.8 HDFS数据删除操作

hdfs dfs -rm -r [-skipTrash] URI [URI ...]

删除指定路径的文件或文件夹
- -skipTrash 跳过回收站，直接删除

回收站功能默认关闭，如果要开启需要在core-site.xml内配置：

<property>

<name>fs.trash.interval</name>

<value>1440</value>

</property>

 

<property>

<name>fs.trash.checkpoint.interval</name>

<value>120</value>

</property>

无需重启集群，在哪个机器配置的，在哪个机器执行命令就生效。

回收站默认位置在：/user/用户名(hadoop)/.Trash

其他常用命令可以查看官网文档，这里不在一一介绍，属性Linux系统的话，这些命令都轻车熟路。

3 HDFS客户端-jetbrians产品插件

我们使用DataGrip来安装和配置插件。

3.1 Big Data Tools 安装

打开设置settings->plugins->搜索Big Data Tools->install,如下图所示：

0202hdfs的shell操作-hadoop-大数据学习,# Hadoop,hdfs,hadoop,大数据

安装之后，重启DataGrip。

3.2 配置windows

需要对Windows系统做一些基础设置，配合插件使用

解压Hadoop安装包到Windows系统，如解压到：E:\gaogzhen\dev\bigdata\hadoop\hadoop-3.3.4
设置$HADOOP_HOME环境变量指向：E:\gaogzhen\dev\bigdata\hadoop\hadoop-3.3.4
path中添加$HADOOP_HOME\bin

下载

hadoop.dll（https://github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/bin/hadoop.dll）
winutils.exe（https://github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/bin/winutils.exe）

可以自行下载，或从课程资料中获取