大数据上课笔记之使用Java API操作HDFS

这篇具有很好参考价值的文章主要介绍了大数据上课笔记之使用Java API操作HDFS。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一、HDFS Java API的了解

1、HDFS常见类与接口

 二、编写Java程序访问HDFS

1、在IEDA上创建Maven项目

2、添加相关依赖

3、创建日志属性文件

4、启动集群HDFS服务

5、在HDFS上创建文件 

6、写入HDFS文件 

7、读取HDFS文件 

8、重命名目录或文件

9、显示文件列表 

9.1、显示指定目录下文件全部信息

9.2、显示指定目录下文件路径和长度信息

10、获取文件块信息

11、创建目录

12、判断目录或文件是否存在

13、判断Path指向目录还是文件

14、删除目录或文件 

14.1、删除文件

14.2、删除目录 

14.3、删除目录或文件

 三、课后复习


一、HDFS Java API的了解

  • HDFS Java API 位于“org.apache.hadoop.fs"包中,这些API能够支持的操作包含打开文件、读写文件、删除文件等。Hadoop类库中最终面向用户提供接口类是FileSystem,该类是个抽象类,只能通过类的get方法得到具体类,该类封装了大部分的文件操作,如mkdir、delete等。更多的API接口说明请访问Hadoop官方网站:Overview (Apache Hadoop Main 3.2.1 API)

1、HDFS常见类与接口

  • Hadoop整合了众多文件系统,HDFS只是这个文件系统的一个实例。
类或接口 功能描述
org.apache.hadoop.fs.FileSystem 一个通用文件系统的抽象基类,可被分布式文件系统继承。
org.apache.hadoop.fs.FileStatus 文件状态接口,用于向客户端展示系统中文件和目录的元数据。具体包括文件大小、块大小、副本信息、所有者、修改时间等,可通过FileSystem.listStatus()方法获得具体的实例对象。
org.apache.hadoop.fs.FileDataInputStream 文件输入流,用于读取Hadoop文件。
org.apache.hadoop.fs.FileDataOutputStream 文件输出流,用于写Hadoop文件。
org.apache.hadoop.fs.Configuration 访问配置项,所有配置项的值,如果在core-site.xml中有对应的配置,则以core-site.xml为准。
org.apache.hadoop.fs.Path 路径,用于表示Hadoop文件系统中的一个文件或一个目录的路径。
org.apache.hadoop.fs.PathFilter 路径过滤器接口,通过实现方法PathFilter.accept(Path path)来判断是否接收路径path表示的文件或目录。
  • FileSystem对象的一些方法可以对文件进行操作

方法名 功能描述
copyFromLocalFile(Path src, Path dst) 从本地磁盘复制文件到HDFS
copyToLocalFile(Path src, Path dst) 从HDFS复制文件到本地磁盘
mkdirs(Path f) 建立子目录
rename(Path src, Path dst) 重命名文件或文件夹
delete(Path f) 删除指定文件

 二、编写Java程序访问HDFS

1、在IEDA上创建Maven项目

  • 创建Maven项目,选中Maven,然后选择jdk版本,然后点next

hdfs://master:9000,大数据,hdfs,java

hdfs://master:9000,大数据,hdfs,java

 hdfs://master:9000,大数据,hdfs,java

  • 选择存放位置,点击Finish完成创建。

2、添加相关依赖

  • pom.xml文件里添加hadoopjunit依赖

hdfs://master:9000,大数据,hdfs,java

<dependencies>             
    <!--hadoop客户端-->                       
    <dependency>                                  
        <groupId>org.apache.hadoop</groupId>      
        <artifactId>hadoop-client</artifactId>    
        <version>3.3.4</version>                  
    </dependency>     
    <!--单元测试框架-->                            
    <dependency>                                  
        <groupId>junit</groupId>                  
        <artifactId>junit</artifactId>            
        <version>4.13.2</version>                 
    </dependency>                                 
</dependencies>                                                      
  •  点击刷新,会自动下载依赖文件

hdfs://master:9000,大数据,hdfs,java

  •  Maven Repository(Maven仓库)- https://mvnrepository.com/

hdfs://master:9000,大数据,hdfs,java

  • 搜索hadoop

hdfs://master:9000,大数据,hdfs,java 

  • 单击hadoop-client超链接

 hdfs://master:9000,大数据,hdfs,java

  •  单击3.3.4超链接

hdfs://master:9000,大数据,hdfs,java

3、创建日志属性文件

  • resources目录里创建log4j.properties文件

hdfs://master:9000,大数据,hdfs,java

log4j.rootLogger=stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/hdfs.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

4、启动集群HDFS服务

  • 在主节点上执行命令:start-dfs.sh

hdfs://master:9000,大数据,hdfs,java

  • 在Hadoop WebUI界面查看

hdfs://master:9000,大数据,hdfs,java

5、在HDFS上创建文件 

  • 在HDFS Shell里利用hdfs dfs -touchz命令可以创建时间戳文件
  • 实例:在/ied01目录创建hadoop.txt文件
  • 创建net.hw.hdfs包,在包里创建CreateFileOnHDFS

hdfs://master:9000,大数据,hdfs,java

  • 编写create1()方法

hdfs://master:9000,大数据,hdfs,java

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Test;

import java.net.URI;


public class CreateFileOnHDFS {
    @Test
    public void create1() throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 定义统一资源标识符(uri: uniform resource identifier)
        String uri = "hdfs://master:9000";
        // 创建文件系统对象(基于HDFS的文件系统)
        FileSystem fs = FileSystem.get(new URI(uri), conf);
        // 创建路径对象(指向文件)
        Path path = new Path(uri + "/ied01/hadoop.txt");
        // 基于路径对象创建文件
        boolean result = fs.createNewFile(path);
        // 根据返回值判断文件是否创建成功
        if (result) {
            System.out.println("文件[" + path + "]创建成功!");
        } else {
            System.out.println("文件[" + path + "]创建失败!");
        }
    }
}
  •  注意:导包不能错,不然不能运行

hdfs://master:9000,大数据,hdfs,java

  • 运行程序,查看结果

hdfs://master:9000,大数据,hdfs,java

  • 利用Hadoop WebUI查看

hdfs://master:9000,大数据,hdfs,java

  • 在/ied01目录里确实创建了一个0字节的hadoop.txt文件,有点类似于Hadoop Shell里执行hdfs dfs -touchz /ied01/hadoop.txt命令的效果,但是有一点不同,hdfs dfs -touchz命令重复执行,不会失败,只是不断改变该文件的时间戳。
  • 新建一个文件CreateFileOnHDFS_,事先判断文件是否存在

hdfs://master:9000,大数据,hdfs,java

hdfs://master:9000,大数据,hdfs,java

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.IOException;
import java.net.URI;

public class CreateFileOnHDFS_ {
    public static void main(String[] args) throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        //定义uri字符串
        String uri="hdfs://192.168.219.75:9000";
        //创建文件系统对象
        FileSystem fs = FileSystem.get(new URI(uri), conf);
        // 创建路径对象
        Path path = new Path(uri + "/ied01/hadoop.txt");
        //判断路径对象指向的文件是否存在
        if(fs.exists(path)){
            //提示用户文件已经存在
            System.out.println("文件["+path+"]已经存在!");
        }else {
            try {
                //基于路径对象创建文件
                boolean result =fs.createNewFile(path);
                //根据返回值判断文件是否创建成功
                if (result) {
                    System.out.println("文件[" + path + "]创建成功!");
                } else {
                    System.out.println("文件[" + path + "]创建失败!");
                }
            } catch (IOException e) {
                System.out.println("异常信息:"+e.getMessage());
            }
        }

    }

}
  •  运行程序,查看结果

hdfs://master:9000,大数据,hdfs,java

6、写入HDFS文件 

  • 类似于HDFS Shell里的hdfs dfs -put命令
  • net.hw.hdfs包里创建WriteFileOnHDFS
  • 实例:在/ied01目录里创建hello.txt文件

hdfs://master:9000,大数据,hdfs,java

public class WriteFileOnHDFS {
    @Test
    public void write1() throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 定义uri字符串
        String uri = "hdfs://192.168.219.75:9000";
        // 创建文件系统对象
        FileSystem fs = FileSystem.get(new URI(uri), conf);
        // 创建路径对象(文件或目录)
        Path path = new Path(uri + "/ied01/hello.txt");
        // 创建文件输出流
        FSDataOutputStream out = fs.create(path);
        // 写数据
        out.write("hello hadoop world".getBytes());
        // 提示用户写文件成功
        System.out.println("文件[" + path + "]写入成功!");
        // 关闭输出流
        out.flush();
        // 关闭文件
        fs.close();
    }
  •  运行,查看结果

hdfs://master:9000,大数据,hdfs,java

  • 利用Hadoop WebUI查看hello.txt文件

hdfs://master:9000,大数据,hdfs,java

  •  将本地文件写入HDFS文件
  • 在项目根目录创建一个文本文件test.txt

hdfs://master:9000,大数据,hdfs,java

  • 创建write2()方法

hdfs://master:9000,大数据,hdfs,java

@Test
    public void write2() throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");
        // 定义uri字符串
        String uri = "hdfs://192.168.219.75:9000";
        // 创建文件系统对象
        FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
        // 创建路径对象(指向目录或文件)
        Path path = new Path(uri + "/ied01/exam.txt");
        // 创建文件系统数据字节输出流对象
        FSDataOutputStream out = fs.create(path);
        // 创建文件字符输入流对象
        FileReader fr = new FileReader("test.txt");
        // 创建缓冲字符输入流对象
        BufferedReader br = new BufferedReader(fr);
        // 定义行字符串
        String nextLine = "";
        // 通过循环读取缓冲字符输入流
        while ((nextLine = br.readLine()) != null) {
            // 在控制台输出读取的行
            System.out.println(nextLine);
            // 通过文件系统数据字节输出流对象写入指定文件
            out.write(nextLine.getBytes());
        }
        // 关闭文件系统字节输出流
        out.close();
        // 关闭缓冲字符输入流
        br.close();
        // 关闭文件字符输入流
        fr.close();
        // 提示用户写入文件成功
        System.out.println("本地文件[test.txt]成功写入[" + path + "]!");
    }
  •  这是WriteFileOnHDFS里面的所有包,注意不要导错了
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Test;
import org.apache.hadoop.io.IOUtils;
import java.io.BufferedReader;
import java.io.FileReader;
import java.net.URI;
import java.io.FileInputStream;
  • 运行write2()测试方法,查看结果

hdfs://master:9000,大数据,hdfs,java

  • 编写write2_()方法

hdfs://master:9000,大数据,hdfs,java

@Test
    public void write2_() throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");
        // 定义统一资源标识符(uri: uniform resource identifier)
        String uri = "hdfs://192.168.219.75:9000";
        // 创建文件系统对象(基于HDFS的文件系统)
        FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
        // 创建路径对象(指向文件)
        Path path = new Path(uri + "/ied01/test.txt");
        // 创建文件系统数据字节输出流(出水管:数据从程序到文件)
        FSDataOutputStream out = fs.create(path);
        // 创建文件字节输入流(进水管:数据从文件到程序)
        FileInputStream in = new FileInputStream("test.txt");
        // 利用IOUtils类提供的字节拷贝方法在控制台显示文件内容
        IOUtils.copyBytes(in, System.out, 1024, false);
        //再次读取文件数据到文件字节输入流
        in=new FileInputStream("test.txt");
        // 利用IOUtils类提供的字节拷贝方法来复制文件
        IOUtils.copyBytes(in, out, conf);
        // 关闭文件字节输入流
        in.close();
        // 关闭文件系统数据字节输出流
        out.close();
        // 提示用户写入文件成功
        System.out.println("本地文件[test.txt]成功写入[" + path + "]!");
    }
  •  运行write2_()测试方法,查看结果

hdfs://master:9000,大数据,hdfs,java

  • 查看/ied01/test.txt内容,文件是存在的,但是没有内容

hdfs://master:9000,大数据,hdfs,java

  • 是因为字节输入流的数据已经输出到到控制台,此时字节输入流里已经没有数据,此时执行IOUtils.copyBytes(in, out, conf);,因此输出流肯定也没有数据可以写入文件,那该怎么办呢?再次读取文件,让字节输入流有数据。 

hdfs://master:9000,大数据,hdfs,java

  • 运行write2_()方法,查看结果

hdfs://master:9000,大数据,hdfs,java

  • 查看/ied01/test.txt文件

hdfs://master:9000,大数据,hdfs,java

7、读取HDFS文件 

  • 相当于Shell里的两个命令:hdfs dfs -cathdfs dfs -get
  • net.hw.hdfs包里创建ReadFileOnHDFS

hdfs://master:9000,大数据,hdfs,java

  • 准备读取hdfs://master:9000/ied01/test.txt文件

hdfs://master:9000,大数据,hdfs,java

  • 编写read1()方法 

hdfs://master:9000,大数据,hdfs,java

  • 运行read1()测试方法,查看结果

hdfs://master:9000,大数据,hdfs,java

  • 读取HDFS文件,保存为本地文件
  • 实例:将/ied01/test.txt下载到项目的download目录里
  • 创建download目录

hdfs://master:9000,大数据,hdfs,java

  • 创建read2()方法

hdfs://master:9000,大数据,hdfs,java

@Test
    public void read2() throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");
        // 定义统一资源标识符(uri: uniform resource identifier)
        String uri = "hdfs://192.168.219.75:9000";
        // 创建文件系统对象(基于HDFS的文件系统)
        FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
        // 创建路径对象(指向文件)
        Path path = new Path(uri + "/ied01/test.txt");
        // 创建文件系统数据字节输入流(进水管:数据从文件到程序)
        FSDataInputStream in = fs.open(path);
        // 创建文件字节输出流(出水管:数据从程序到文件)
        FileOutputStream out = new FileOutputStream("download/exam.txt");
        // 利用IOUtils工具类读取HDFS文件(靠输入流),写入本地文件(靠输出流)
        IOUtils.copyBytes(in, out, conf);
        // 关闭文件字节输出流
        out.close();
        // 关闭文件系统数据字节流输入流
        in.close();
        // 关闭文件系统
        fs.close();
        // 提示用户文件下载成功
        System.out.println("文件[" + path + "]下载到本地文件[download/exam.txt]!");
    }
  •  运行read2()测试方法,查看结果

hdfs://master:9000,大数据,hdfs,java

8、重命名目录或文件

  • 相当于Shell里的hdfs dfs -mv命令
  • net.hw.hdfs包里创建RenameDirOrFile
  • 实例:将/ied01目录更名为/lzy01

hdfs://master:9000,大数据,hdfs,java

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Test;

import java.net.URI;

@Test
    public void renameDir() throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");
        // 定义统一资源标识符(uri: uniform resource identifier)
        String uri = "hdfs://192.168.219.75:9000";
        // 创建文件系统对象(基于HDFS的文件系统)
        FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
        // 创建源路径对象(指向目录)
        Path sourcePath = new Path(uri + "/ied01");
        // 创建目标路径对象(指向目录)
        Path destinationPath = new Path(uri + "/lzy01");
        // 利用文件系统对象重命名目录
        fs.rename(sourcePath, destinationPath);
        // 关闭文件系统
        fs.close();
        // 提示用户目录更名成功
        System.out.println("目录[" + sourcePath.getName() + "]更名为目录[" + destinationPath.getName() + "]!");
    }
  •  运行renameDir()方法,查看结果

hdfs://master:9000,大数据,hdfs,java

  • 利用Hadoop WebUI界面查看

hdfs://master:9000,大数据,hdfs,java

  • 实例:将lzy01目录下的hello.txt重命名为hi.txt

hdfs://master:9000,大数据,hdfs,java

  •  编写renameFile()方法

hdfs://master:9000,大数据,hdfs,java

@Test
    public void renameFile() throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");
        // 定义统一资源标识符(uri: uniform resource identifier)
        String uri = "hdfs://192.168.219.75:9000";
        // 创建文件系统对象(基于HDFS的文件系统)
        FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
        // 创建源路径对象(指向文件)
        Path sourcePath = new Path(uri + "/lzy01/hello.txt");
        // 创建目标路径对象(指向文件)
        Path destinationPath = new Path(uri + "/lzy01/hi.txt");
        // 利用文件系统对象重命名文件
        fs.rename(sourcePath, destinationPath);
        // 关闭文件系统
        fs.close();
        // 提示用户文件更名成功
        System.out.println("文件[" + sourcePath.getName() + "]更名为文件[" + destinationPath.getName() + "]!");
    }
  •  运行renameFile()测试方法,查看结果

hdfs://master:9000,大数据,hdfs,java

  • 利用Hadoop WebUI界面查看

hdfs://master:9000,大数据,hdfs,java

9、显示文件列表 

  • net.hw.hdfs包里创建ListHDFSFiles

hdfs://master:9000,大数据,hdfs,java

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;
import org.junit.Test;

import java.net.URI;

9.1、显示指定目录下文件全部信息

  • 实例:显示/lzy01目录下的文件列表

hdfs://master:9000,大数据,hdfs,java
 

  • 编写list1()方法

hdfs://master:9000,大数据,hdfs,java

@Test
    public void list1() throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");
        // 定义uri字符串
        String uri = "hdfs://192.168.219.75:9000";
        // 创建文件系统对象
        FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
        // 创建远程迭代器对象,泛型是位置文件状态类(相当于`hdfs dfs -ls -R /lzy01`)
        RemoteIterator<LocatedFileStatus> ri = fs.listFiles(new Path("/lzy01"), true);
        // 遍历远程迭代器
        while (ri.hasNext()) {
            System.out.println(ri.next());
        }
    }
  •  运行list1()测试方法,查看结果

hdfs://master:9000,大数据,hdfs,java

9.2、显示指定目录下文件路径和长度信息

  • 编写list2()方法

hdfs://master:9000,大数据,hdfs,java

  • 运行list2()测试方法,查看结果

hdfs://master:9000,大数据,hdfs,java

  • 对照Hadoop WebUI上给出的文件长度信息

hdfs://master:9000,大数据,hdfs,java

10、获取文件块信息

  • 实例:获取/lzy01/hadoop-3.3.4.tar.gz文件块信息
  • net.hw.hdfs包里创建GetBlockLocations

hdfs://master:9000,大数据,hdfs,java

  • 运行程序,查看结果(切点位置,块大小,块存在位置)

hdfs://master:9000,大数据,hdfs,java

  •  可以看出来,hadoop-3.3.4.tar.gz被hadoop物理切分成6块,前5块长度均为134217728字节(128MB),第6块长度为24369142字节(23.24MB)

11、创建目录

  • 实例:在HDFS上创建/ied01目录
  • net.hw.hdfs包里创建MakeDirOnHDFS

hdfs://master:9000,大数据,hdfs,java

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import java.net.URI;

public class MakeDirOnHDFS {
    public static void main(String[] args) throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");
        // 定义uri字符串
        String uri = "hdfs://192.168.219.75:9000";
        // 创建文件系统对象
        FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
        // 创建路径对象,指向目录
        Path path = new Path("/ied01");
        // 利用文件系统创建指定目录
        boolean result = fs.mkdirs(path);
        // 判断目录是否创建成功
        if (result) {
            System.out.println("目录[" + path + "]创建成功!" );
        } else {
            System.out.println("目录[" + path + "]创建失败!" );
        }
    }

}
  •  运行程序,查看结果

hdfs://master:9000,大数据,hdfs,java

  • 利用Hadoop WebUI界面查看

hdfs://master:9000,大数据,hdfs,java

12、判断目录或文件是否存在

  • 实例:判断HDFS上/ied01目录是否存在,判断/ied01/hadoop.txt文件是否存在
  • net.hw.hdfs包里创建DirFileExistsOrNot
  • 编写dirExists()方法

hdfs://master:9000,大数据,hdfs,java

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Test;

import java.net.URI;


public class DirFileExistsorNot {
    @Test
    public void dirExists() throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");
        // 定义uri字符串
        String uri = "hdfs://192.168.219.75:9000";
        // 创建文件系统对象
        FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
        // 创建路径对象,指向目录
        Path path = new Path("/ied01");
        // 判断目录是否存在
        if (fs.exists(path)) {
            System.out.println("目录[" + path + "]存在!");
        } else {
            System.out.println("目录[" + path + "]不存在!");
        }
    }

}
  •  运行程序,查看结果

hdfs://master:9000,大数据,hdfs,java

13、判断Path指向目录还是文件

  • net.hw.hdfs包里创建PathToFileOrDir类 

hdfs://master:9000,大数据,hdfs,java

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import java.net.URI;

public class PathToFileOrDir {
    public static void main(String[] args) throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");
        // 定义uri字符串
        String uri = "hdfs://192.168.219.75:9000";
        // 创建文件系统对象
        FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
        // 创建路径对象,指向目录
        Path path1 = new Path("/ied01");
        if (fs.isDirectory(path1)) {
            System.out.println("[" + path1 + "]指向的是目录!");
        } else {
            System.out.println("[" + path1 + "]指向的是文件!");
        }
        // 创建路径对象,指向文件
        Path path2 = new Path("/lzy01/test.txt");
        if (fs.isFile(path2)) {
            System.out.println("[" + path2 + "]指向的是文件!");
        } else {
            System.out.println("[" + path2 + "]指向的是目录!");
        }
    }

}
  • 运行程序,查看结果

hdfs://master:9000,大数据,hdfs,java

14、删除目录或文件 

14.1、删除文件

  • 实例:删除/lzy01/test2.txt文件

hdfs://master:9000,大数据,hdfs,java

  •  在net.hw.hdfs包里创建DeleteFileOrDir
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Test;

import java.net.URI;
  • 编写deleteFile()方法

hdfs://master:9000,大数据,hdfs,java

@Test
    public void deleteFile1() throws Exception {
        Configuration conf = new Configuration();
        String uri = "hdfs://192.168.219.75:9000";
        FileSystem fs = FileSystem.get(new URI(uri), conf);
        Path path = new Path("/lzy01/hadoop.txt");
        boolean result = fs.delete(path, true);
        if (result) {
            System.out.println("文件[" + path + "]删除成功!");
        } else {
            System.out.println("文件[" + path + "]删除失败!");
        }
    }
  •  运行deleteFile()测试方法,查看结果

hdfs://master:9000,大数据,hdfs,java

  • 利用HDFS集群WebUI界面查看

hdfs://master:9000,大数据,hdfs,java

  • 可以在删除文件之前,判断文件是否存在
  • 编写deleteFile2()方法 

 hdfs://master:9000,大数据,hdfs,java

//判断文件是否存在,在进行删除
    @Test
    public void deleteFile2() throws Exception {
        Configuration conf = new Configuration();
        String uri = "hdfs://192.168.219.75:9000";
        FileSystem fs = FileSystem.get(new URI(uri), conf);
        Path path = new Path("/lzy01/hadoop.txt");
        if (fs.exists(path)) {
            boolean result = fs.delete(path, true);
            if (result) {
                System.out.println("文件[" + path + "]删除成功!");
            } else {
                System.out.println("文件[" + path + "]删除失败!");
            }
        } else {
            System.out.println("文件[" + path + "]不存在!");
        }
    }
  •  此时运行deleteFile()测试方法,查看结果

hdfs://master:9000,大数据,hdfs,java

14.2、删除目录 

  • 实例:删除/ied01目录
  • 删除/ied01目录

hdfs://master:9000,大数据,hdfs,java

  • 运行deleteDir()方法,查看结果

hdfs://master:9000,大数据,hdfs,java

再运行deleteDir()方法,查看结果

hdfs://master:9000,大数据,hdfs,java

14.3、删除目录或文件

  • 进行三个层面的判断:判断类型(目录或文件)、判断是否存在、判断删除是否成功。
  • 任务:删除/lzy01目录下的test.txt

hdfs://master:9000,大数据,hdfs,java

  •  编写delete()方法

hdfs://master:9000,大数据,hdfs,java

//删除/lzy01目录下的test1.txt 判断类型(目录或文件)、判断是否存在、判断删除是否成功。
    @Test
    public void delete() throws Exception {
        Configuration conf = new Configuration();
        String uri = "hdfs://192.168.219.75:9000";
        FileSystem fs = FileSystem.get(new URI(uri), conf);
        Path path1 = new Path("/lzy01/test.txt");
        String type = "";
        if (fs.isFile(path1)) {
            type = "文件";
        } else {
            type = "目录";
        }
        if (fs.exists(path1)) {
            boolean result = fs.delete(path1, true);
            if (result) {
                System.out.println(type + "[" + path1 + "]删除成功!");
            } else {
                System.out.println(type + "[" + path1 + "]删除失败!");
            }
        } else {
            System.out.println(type + "[" + path1 + "]不存在!");
        }
        Path path2 = new Path("/lzy01");
        if (fs.isFile(path1)) {
            type = "文件";
        } else {
            type = "目录";
        }
        if (fs.exists(path2)) {
            boolean result = fs.delete(path1, true);
            if (result) {
                System.out.println(type + "[" + path2 + "]删除成功!");
            } else {
                System.out.println(type + "[" + path2 + "]删除失败!");
            }
        } else {
            System.out.println(type + "[" + path2 + "]不存在!");
        }
    }
  •  运行delete()测试方法,查看结果

hdfs://master:9000,大数据,hdfs,java文章来源地址https://www.toymoban.com/news/detail-726598.html

 三、课后复习

  • 课后多去看一下代码,运行代码,了解代码的作用,并单独进行一些文件操作。

到了这里,关于大数据上课笔记之使用Java API操作HDFS的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • HBase Java API 开发:批量操作 第2关:批量删除数据

    删除单行数据 删除一行数据很简单,我们来看个示例: 这段代码就可以删除行键为 row1 的行。 删除多行数据 如何删除多行数据呢? 相信你已经猜到了,既然 get() 方法有重载方法,那应该 delete() 方法也有,确实: 这样就可以删除多行数据啦。 编程要求 还等啥,亲自试一试

    2024年02月05日
    浏览(53)
  • 【ES使用】Java API操作ES宝典(8.x版本)

    大家好,我是老坛。  本篇文章全部代码资源请关注同名公众号:老坛聊开发 回复:\\\"8.x模板\\\" 即可获取 Elasticsearch是一个分布式的RESTful 风格的搜索和数据分析引擎,它使用方便,查询速度快,因此也被越来越多的开发人员使用。 在Java项目中,使用ES的场景也十分常见。除了

    2024年02月02日
    浏览(40)
  • 使用Java API对HDFS进行如下操作:文件的创建、上传、下载以及删除等操作

    HDFS-JAVA接口:上传文件 将一个本地文件(无具体要求)上传至HDFS中的/hdfs-test路径下(如无此路径,新建一个)。 新建路径:   首先在路径/usr/test/ 下新建test.txt,指令为:/usr/test/test.txt,然后进行上传操作。      2.HDFS-JAVA接口:创建文件 在HDFS中的/hdfs-test路径下新建一个da

    2024年02月07日
    浏览(50)
  • 24、Flink 的table api与sql之Catalogs(java api操作数据库、表)-2

    一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。 2、Flink基础系列 本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。 3、

    2024年02月04日
    浏览(55)
  • 【ElasticSearch】ElasticSearch Java API的使用——常用索引、文档、查询操作(二)

    Elaticsearch ,简称为es,es是一个开源的 高扩展 的 分布式全文检索引擎 ,它可以近乎 实时的存储 、 检索数据; 本身扩展性很好,可以扩展到上百台服务器,处理PB级别(大数据时代)的数据。es也使用java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的 目的

    2024年01月16日
    浏览(82)
  • Minio入门系列【5】JAVA集成Minio之存储桶操作API使用详解

    官方文档:https://min.io/docs/minio/kubernetes/upstream/index.html?ref=docs-redirect SDK:https://github.com/minio/minio-java Minio 提供了多种语言的SDK,比如java、go、python等。JAVA开发平台可以选择JS和java SDK,也就是前端和后端都可以直接集成minio。 每个OSS的用户都会用到上传服务。Web端常见的上传

    2024年02月05日
    浏览(49)
  • Java SpringBoot API 实现ES(Elasticsearch)搜索引擎的一系列操作(超详细)(模拟数据库操作)

    小编使用的是elasticsearch-7.3.2 基础说明: 启动:进入elasticsearch-7.3.2/bin目录,双击elasticsearch.bat进行启动,当出现一下界面说明,启动成功。也可以访问http://localhost:9200/ 启动ES管理:进入elasticsearch-head-master文件夹,然后进入cmd命令界面,输入npm run start 即可启动。访问http

    2024年02月04日
    浏览(53)
  • 使用kafka-clients的Java API操作Kafka集群的Topic

    记录 :464 场景 :在Spring Boot微服务集成Kafka客户端kafka-clients-3.0.0操作Kafka集群的Topic的创建和删除。 版本 :JDK 1.8,Spring Boot 2.6.3,kafka_2.12-2.8.0,kafka-clients-3.0.0。 Kafka集群安装 :https://blog.csdn.net/zhangbeizhen18/article/details/131156084 1.微服务中 配置Kafka信息 1.1在pom.xml添加依赖 pom.xml文

    2024年02月09日
    浏览(42)
  • 使用spring-kafka的Java API操作Kafka集群的Topic

    记录 :462 场景 :在Spring Boot微服务集成spring-kafka-2.8.2操作Kafka集群的Topic的创建和删除。 版本 :JDK 1.8,Spring Boot 2.6.3,kafka_2.12-2.8.0,spring-kafka-2.8.2。 Kafka集群安装 :https://blog.csdn.net/zhangbeizhen18/article/details/131156084 1.微服务中 配置Kafka信息 1.1在pom.xml添加依赖 pom.xml文件: 解析:

    2024年02月10日
    浏览(42)
  • 使用Kafka客户端(spring-kafka)的Java API操作Kafka的Topic

    记录 :458 场景 :在Spring Boot微服务集成Kafka客户端spring-kafka-2.8.2操作Kafka的Topic的创建和删除。 版本 :JDK 1.8,Spring Boot 2.6.3,kafka_2.12-2.8.0,spring-kafka-2.8.2。 Kafka安装 :https://blog.csdn.net/zhangbeizhen18/article/details/129071395 1.微服务中 配置Kafka信息 1.1在pom.xml添加依赖 pom.xml文件: 解析

    2024年02月09日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包