14 | Spark SQL 的 DataFrame API 读取CSV 操作

这篇具有很好参考价值的文章主要介绍了14 | Spark SQL 的 DataFrame API 读取CSV 操作。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

sales.csv 内容

date,category,product,full_name,sales
2023-01-01,Electronics,Laptop,John Smith,1200.0
2023-01-02,Electronics,Smartphone,Jane Doe,800.0
2023-01-03,Books,Novel,Michael Johnson,15.0
2023-01-04,Electronics,Tablet,Emily Wilson,450.0
2023-01-05,Books,Textbook,James Brown,40.0

当使用 Spark SQL 的 DataFrame API 读取 CSV 文件时,你可以按照以下步骤进行操作。文章来源地址https://www.toymoban.com/news/detail-701100.html

package com.sparksql.operation;

import org.apache.spark.sql.*;

import org.apache.spark.sql.expressions.*;

import static org.apache.spark.sql.functions.*;


public class SparkDataFrame {

    public static void main(String[] args) {
        // 创建 SparkSession
        SparkSession spark = SparkSession.builder()
                .appName("SparkDataFrameTutorial")
                .master("local[*]")
                .getOrCreate();

        // 读取包含日期的 CSV 文件
        String csvPath = SparkDataFrame.class.getClassLoader().getResource("sparksqldata/sales.csv").getPat

到了这里,关于14 | Spark SQL 的 DataFrame API 读取CSV 操作的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 15 | Spark SQL 的 SQL API 操作

    SQL API :Spark SQL 允许使用标准 SQL 语句来查询和分析数据。用户可以通过 SparkSession 执行 SQL 查询,并将结果返回为 DataFrame。这使得熟悉 SQL 的用户能够方便地使用 Spark SQL 进行数据处理。 示例 1: 基本查询 执行基本的 SQL 查询,选择数据中的特定列并过滤数据。

    2024年02月09日
    浏览(22)
  • Spark SQL、DataFrame、DataSet是什么

    在很多情况下,开发人员并不了解Scala语言,也不了解Spark常用的API,但又非常想要使用Spark框架提供的强大的数据分析能力。Spark的开发工程师们考虑到了这个问题,于是利用SQL语言的语法简洁、学习门槛低以及在编程语言中普及程度和流行程度高等诸多优势,开发了Spark S

    2024年02月12日
    浏览(37)
  • 使用Spark SQL读取阿里云OSS的数据

    创建一个table,并关联OSS目录路径 如果数据文件是 Parquet 格式的,可以自动推断出表的schema,很方便。 这样就可以使用sql语句读取数据了。 首先创建一个关联OSS目录的 database : 现在就可以通过sql写入数据到OSS了,如下:

    2024年02月02日
    浏览(38)
  • HDFS常用操作以及使用Spark读取文件系统数据

    掌握在Linux虚拟机中安装Hadoop和Spark的方法; 熟悉HDFS的基本使用方法; 掌握使用Spark访问本地文件和HDFS文件的方法。 启动Hadoop,在HDFS中创建用户目录“/user/hadoop” 在Linux系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件test.txt,并在该文件中随便输入一些内容,

    2024年04月22日
    浏览(30)
  • 大数据编程实验一:HDFS常用操作和Spark读取文件系统数据

    这是我们大数据专业开设的第二门课程——大数据编程,使用的参考书是《Spark编程基础》,这门课跟大数据技术基础是分开学习的,但这门课是用的我们自己在电脑上搭建的虚拟环境进行实验的,不是在那个平台上,而且搭建的还是伪分布式,这门课主要偏向于有关大数据

    2024年04月10日
    浏览(40)
  • Python操作写入/读取csv文件

    网络工程师Python数据存储(第1节,CSV文件) 网络自动化运维演进的一个方向大致过程:网络工程师从关注配置制作脚本,完成后上设备刷配置,慢慢地演化为网络工程师关注和确定设备配置的某些重要控制参数,而把制作脚本任务交给Jinja2等去渲染生成,把下发脚本工作交

    2024年02月03日
    浏览(42)
  • Spark SQL数据源 - 基本操作

    一、案例演示读取Parquet文件 执行命令: cd $SPARK_HOME/examples/src/main/resources ,查看Spark的样例数据文件users.parquet 将数据文件users.parquet上传到HDFS的/datasource/input目录 二、在Spark Shell中演示 启动Spark Shell,执行命令: spark-shell --master spark://master:7077 执行命令: val userdf = spark.read

    2024年02月09日
    浏览(31)
  • spark-sql(jdbc)本地模式导出csv或Excel文件

    注意: 当前excel和commons-io版本都是较较新版本,而commons-io在spark的jars安装目录下也在commons-io的包,如版本冲突,找不到 orgapachecommonsiooutputByteArrayOutputStream.class 。如果spark的是2.4或者更低版本,则找不到 orgapachecommonsiooutputUnsynchronizedByteArrayOutputStream.class ,请同步spa

    2024年02月02日
    浏览(24)
  • Spark SQL数据源的基本操作

    Spark SQL提供了两个常用的加载数据和写入数据的方法:load()方法和save()方法。load()方法可以加载外部数据源为一个DataFrame,save()方法可以将一个DataFrame写入指定的数据源。 默认情况下,load()方法和save()方法只支持Parquet格式的文件,Parquet文件是以二进制方式存储数据的,因此

    2024年02月09日
    浏览(37)
  • Spark大数据处理讲课笔记4.2 Spark SQL数据源 - 基本操作

      目录 零、本讲学习目标 一、基本操作 二、默认数据源 (一)默认数据源Parquet (二)案例演示读取Parquet文件 1、在Spark Shell中演示 2、通过Scala程序演示 三、手动指定数据源 (一)format()与option()方法概述 (二)案例演示读取不同数据源 1、读取房源csv文件 2、读取json,保

    2024年02月09日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包