HDFS常用操作以及使用Spark读取文件系统数据

这篇具有很好参考价值的文章主要介绍了HDFS常用操作以及使用Spark读取文件系统数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、实验目的

  1. 掌握在Linux虚拟机中安装Hadoop和Spark的方法;
  2. 熟悉HDFS的基本使用方法;
  3. 掌握使用Spark访问本地文件和HDFS文件的方法。

二、实验具体内容

2.1 HDFS常用操作

  1. 启动Hadoop,在HDFS中创建用户目录“/user/hadoop”

    cd /usr/local/hadoop/
    ./bin/hdfs dfs -mkdir -p /user/hadoop
    

    spark读取hdfs数据,大数据基础,hdfs,spark,hadoop,大数据,python

  2. 在Linux系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件test.txt,并在该文件中随便输入一些内容,然后上传到HDFS的“/user/hadoop”目录下;
    使用vim命令在本地新建一个文件,使用hdfs dfs -put将文件上传到hdfs,使用hdfs dfs -ls命令查看是否上传成功。

    vim /home/hadoop/test.txt
    ./bin/hdfs dfs -put /home/hadoop/test.txt
    ./bin/hdfs dfs -ls
    

    spark读取hdfs数据,大数据基础,hdfs,spark,hadoop,大数据,python

  3. 把HDFS中“/user/hadoop”目录下的test.txt文件,下载到Linux系统的本地文件系统中的“/home/hadoop/下载”目录下;
    使用hdfs dfs -get命令下载hdfs文件到本地
    spark读取hdfs数据,大数据基础,hdfs,spark,hadoop,大数据,python

  4. 将HDFS中“/user/hadoop”目录下的test.txt文件的内容输出到终端中进行显示;
    使用hdfs dfs -cat将文件内容输出到终端显示
    spark读取hdfs数据,大数据基础,hdfs,spark,hadoop,大数据,python

  5. 在HDFS中的“/user/hadoop”目录下,创建子目录input,把HDFS中“/user/hadoop”目录下的test.txt文件,复制到“/user/hadoop/input”目录下;
    hdfs dfs -mkdir /user/hadoop/input来创建目录,
    hdfs dfs -cp来进行文件复制操作
    spark读取hdfs数据,大数据基础,hdfs,spark,hadoop,大数据,python

  6. 删除HDFS中“/user/hadoop”目录下的test.txt文件,删除HDFS中“/user/hadoop”目录下的input子目录及其子目录下的所有内容。

    hdfs dfs -rm /user/hadoop/test.txt
    hdfs dfs -rm -r /user/hadoop/input
    

    spark读取hdfs数据,大数据基础,hdfs,spark,hadoop,大数据,python

2.2 Spark读取文件系统数据(本地和HDFS)

  1. 下面是我们的test.txt文件的内容(该文件已经在Linux本地和hdfs中存在了):
    spark读取hdfs数据,大数据基础,hdfs,spark,hadoop,大数据,python

  2. 在pyspark中读取Linux系统本地文件“/home/hadoop/test.txt”(如果该文件不存在,请先创建),然后统计出文件的行数;

    在shell中依次输入下面的代码:
    file_path = "file:///home/hadoop/test.txt" # 这是你自己的文件地址
    data = sc.textFile(file_path)
    print("该文件的行数为:", data.count())
    

    spark读取hdfs数据,大数据基础,hdfs,spark,hadoop,大数据,python

  3. 在pyspark中读取HDFS系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),然后,统计出文件的行数;

    在shell中依次输入下面代码:
    file_path = "hdfs://localhost:9000/user/hadoop/test.txt"
    data = sc.textFile(file_path)
    print("该文件的行数为:", data.count())
    

    spark读取hdfs数据,大数据基础,hdfs,spark,hadoop,大数据,python

  4. 编写独立应用程序,读取HDFS系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),然后,统计出文件的行数;通过spark-submit提交到Spark中运行程序。
    创建~/mycode/LineCount.py文件,其中代码如下:

    from pyspark import SparkConf, SparkContext
    conf = SparkConf().setMaster("local").setAppName("line count")
    sc = SparkContext(conf = conf)
    file_path = "hdfs://localhost:9000/user/hadoop/test.txt"
    data = sc.textFile(file_path)
    print("该文件的行数为:", data.count())
    

    使用/usr/local/spark/bin/spark-submit ~/mycode/LineCount.py提交程序

    spark读取hdfs数据,大数据基础,hdfs,spark,hadoop,大数据,python文章来源地址https://www.toymoban.com/news/detail-855280.html

到了这里,关于HDFS常用操作以及使用Spark读取文件系统数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop HDFS分布式文件系统(介绍以及基础操作命令)

    目录 一、为什么需要分布式存储? 二、分布式的基础架构分析  三、HDFS基础架构 1.HDFS简介 四、HDFS集群启停命令 1.一键启停脚本 2.单进程启停 五、HDFS基本操作命令 1.创建文件夹  2.查看指定目录下内容  3.上传文件到HDFS指定目录下  4.查看HDFS文件内容 5.下载HDFS文件  6.拷贝

    2024年02月05日
    浏览(36)
  • Hadoop 使用Linux操作系统与Java熟悉常用的HDFS操作

    注意看评论区获取完整代码资料 目录 一、实验目的 二、实验平台 三、实验步骤 理解HDFS在Hadoop体系结构中的角色; 熟练使用HDFS操作常用的Shell命令; 熟悉HDFS操作常用的Java API。 操作系统:Linux(建议Ubuntu16.04); Hadoop版本:2.7.1; JDK版本:1.8或以上版本; Java IDE:Eclipse。

    2024年02月03日
    浏览(42)
  • 使用Java API对HDFS进行如下操作:文件的创建、上传、下载以及删除等操作

    HDFS-JAVA接口:上传文件 将一个本地文件(无具体要求)上传至HDFS中的/hdfs-test路径下(如无此路径,新建一个)。 新建路径:   首先在路径/usr/test/ 下新建test.txt,指令为:/usr/test/test.txt,然后进行上传操作。      2.HDFS-JAVA接口:创建文件 在HDFS中的/hdfs-test路径下新建一个da

    2024年02月07日
    浏览(40)
  • python hdfs远程连接以及上传文件,读取文件内容,删除文件

    目录 一、python连接操作hdfs 1 往hdfs上传文件 2 处理并存储到hdfs 3 读取hdfs上的txt文件 这里使用的是 pip 安装,很方便:      

    2024年02月11日
    浏览(40)
  • 使用命令操作HDFS文件系统

    HDFS作为分布式存储的文件系统,有其对数据的路径表达方式。 HDFS同Linux系统一样,均是以/作为根目录的组织形式 Linux:/usr/local/hello.txt HDFS:/usr/local/hello.txt http://node1:9870/explorer.html#/ https://hadoop.apache.org/docs/r3.3.4/hadoop-project-dist/hadoop-common/FileSystemShell.html

    2024年02月08日
    浏览(38)
  • 2.2 如何使用FlinkSQL读取&写入到文件系统(HDFS\Local\Hive)

    目录 1、文件系统 SQL 连接器 2、如何指定文件系统类型 3、如何指定文件格式 4、读取文件系统 4.1 开启 目录监控  4.2 可用的 Metadata 5、写出文件系统 5.1 创建分区表 5.2 滚动策略、文件合并、分区提交 5.3 指定 Sink Parallelism 6、示例_通过FlinkSQL读取kafka在写入hive表 6.1、创建

    2024年02月07日
    浏览(29)
  • “远程客户端操作hdfs创建文件夹”,验证环境是否配置成功,以及HDFS错误整改

    编写“远程客户端操作hdfs创建文件夹”代码,验证环境是否配置成功! 1、错误点1: 改正方法: 第一步:点击文件项目文件模块 第二步:会发现红色框里的显示的是15,这里我们需要改成8,如下图: 2、错误点2: 改正方法: 第一步:点击文件项目文件设置,后按照图中步

    2024年02月12日
    浏览(50)
  • 大数据 | 实验一:大数据系统基本实验 | 熟悉常用的HDFS操作

    1 )理解 HDFS 在 Hadoop 体系结构中的角色。 2 )熟练使用 HDFS 操作常用的 shell 命令。 3 )熟悉 HDFS 操作常用的 Java API。 1 )操作系统:Linux; 2 )Hadoop 版本:3.2.2; 3 )JDK 版本:1.8; 4 )Java IDE:Eclipse。 编程实现 以下功能,并利用 Hadoop 提供的 Shell 命令 完成相同任务 1)向

    2024年02月02日
    浏览(33)
  • Hadoop3教程(三):HDFS文件系统常用命令一览

    hdfs命令的完整形式: 其中subcommand有三种形式: admin commands client commands:如本节重点要讲的dfs daemon commands dfs(文件系统命令),这个是HDFS里,日常使用 最为频繁的一种命令 ,用来在HDFS的文件系统上运行各种文件系统命令,如查看文件、删除文件等。 基本语法: 这俩基本

    2024年02月06日
    浏览(46)
  • 分布式文件系统与HDFS的shell操作及查看元数据

      启动hadoop和hive的metastore 查看sbin的目录下的文件 执行./start-all.sh  查看相关的进程

    2024年02月16日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包