14 | Spark SQL 的 DataFrame API 读取CSV 操作

1年前作者：小森分类：Toy博客阅读(6)违法举报

这篇具有很好参考价值的文章主要介绍了14 | Spark SQL 的 DataFrame API 读取CSV 操作。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

sales.csv 内容

date,category,product,full_name,sales
2023-01-01,Electronics,Laptop,John Smith,1200.0
2023-01-02,Electronics,Smartphone,Jane Doe,800.0
2023-01-03,Books,Novel,Michael Johnson,15.0
2023-01-04,Electronics,Tablet,Emily Wilson,450.0
2023-01-05,Books,Textbook,James Brown,40.0

当使用 Spark SQL 的 DataFrame API 读取 CSV 文件时，你可以按照以下步骤进行操作。文章来源地址https://www.toymoban.com/news/detail-701100.html

package com.sparksql.operation;

import org.apache.spark.sql.*;

import org.apache.spark.sql.expressions.*;

import static org.apache.spark.sql.functions.*;


public class SparkDataFrame {

    public static void main(String[] args) {
        // 创建 SparkSession
        SparkSession spark = SparkSession.builder()
                .appName("SparkDataFrameTutorial")
                .master("local[*]")
                .getOrCreate();

        // 读取包含日期的 CSV 文件
        String csvPath = SparkDataFrame.class.getClassLoader().getResource("sparksqldata/sales.csv").getPat

到了这里，关于14 | Spark SQL 的 DataFrame API 读取CSV 操作的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

15 | Spark SQL 的 SQL API 操作
SQL API ：Spark SQL 允许使用标准 SQL 语句来查询和分析数据。用户可以通过 SparkSession 执行 SQL 查询，并将结果返回为 DataFrame。这使得熟悉 SQL 的用户能够方便地使用 Spark SQL 进行数据处理。示例 1: 基本查询执行基本的 SQL 查询，选择数据中的特定列并过滤数据。
2024年02月09日
浏览(9)
Spark SQL、DataFrame、DataSet是什么
在很多情况下，开发人员并不了解Scala语言，也不了解Spark常用的API，但又非常想要使用Spark框架提供的强大的数据分析能力。Spark的开发工程师们考虑到了这个问题，于是利用SQL语言的语法简洁、学习门槛低以及在编程语言中普及程度和流行程度高等诸多优势，开发了Spark S
2024年02月12日
浏览(8)
使用Spark SQL读取阿里云OSS的数据
创建一个table，并关联OSS目录路径如果数据文件是 Parquet 格式的，可以自动推断出表的schema，很方便。这样就可以使用sql语句读取数据了。首先创建一个关联OSS目录的 database : 现在就可以通过sql写入数据到OSS了，如下：
2024年02月02日
浏览(11)
HDFS常用操作以及使用Spark读取文件系统数据
掌握在Linux虚拟机中安装Hadoop和Spark的方法；熟悉HDFS的基本使用方法；掌握使用Spark访问本地文件和HDFS文件的方法。启动Hadoop，在HDFS中创建用户目录“/user/hadoop” 在Linux系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件test.txt，并在该文件中随便输入一些内容，
2024年04月22日
浏览(14)
大数据编程实验一：HDFS常用操作和Spark读取文件系统数据
这是我们大数据专业开设的第二门课程——大数据编程，使用的参考书是《Spark编程基础》，这门课跟大数据技术基础是分开学习的，但这门课是用的我们自己在电脑上搭建的虚拟环境进行实验的，不是在那个平台上，而且搭建的还是伪分布式，这门课主要偏向于有关大数据
2024年04月10日
浏览(13)
Python操作写入/读取csv文件
网络工程师Python数据存储（第1节，CSV文件）网络自动化运维演进的一个方向大致过程：网络工程师从关注配置制作脚本，完成后上设备刷配置，慢慢地演化为网络工程师关注和确定设备配置的某些重要控制参数，而把制作脚本任务交给Jinja2等去渲染生成，把下发脚本工作交
2024年02月03日
浏览(38)
Spark SQL数据源 - 基本操作
一、案例演示读取Parquet文件执行命令： cd $SPARK_HOME/examples/src/main/resources ，查看Spark的样例数据文件users.parquet 将数据文件users.parquet上传到HDFS的/datasource/input目录二、在Spark Shell中演示启动Spark Shell，执行命令： spark-shell --master spark://master:7077 执行命令： val userdf = spark.read
2024年02月09日
浏览(11)
spark-sql(jdbc)本地模式导出csv或Excel文件
注意：当前excel和commons-io版本都是较较新版本，而commons-io在spark的jars安装目录下也在commons-io的包，如版本冲突，找不到 orgapachecommonsiooutputByteArrayOutputStream.class 。如果spark的是2.4或者更低版本，则找不到 orgapachecommonsiooutputUnsynchronizedByteArrayOutputStream.class ，请同步spa
2024年02月02日
浏览(9)
Spark SQL数据源的基本操作
Spark SQL提供了两个常用的加载数据和写入数据的方法：load()方法和save()方法。load()方法可以加载外部数据源为一个DataFrame，save()方法可以将一个DataFrame写入指定的数据源。默认情况下，load()方法和save()方法只支持Parquet格式的文件，Parquet文件是以二进制方式存储数据的，因此
2024年02月09日
浏览(9)
Spark大数据处理讲课笔记4.2 Spark SQL数据源 - 基本操作
目录零、本讲学习目标一、基本操作二、默认数据源（一）默认数据源Parquet （二）案例演示读取Parquet文件 1、在Spark Shell中演示 2、通过Scala程序演示三、手动指定数据源（一）format()与option()方法概述（二）案例演示读取不同数据源 1、读取房源csv文件 2、读取json，保
2024年02月09日
浏览(12)