Spark SQL基本操作

9月前作者：Ashigogo 分类：Toy博客阅读(60) 违法举报

这篇具有很好参考价值的文章主要介绍了Spark SQL基本操作。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大数据学习笔记03

Spark SQL基本操作

将下列json数据复制到你的ubuntu系统/usr/local/spark下，并保存命名为employee.json

{ "id":1 ,"name":" Ella","age":36 }
{ "id":2,"name":"Bob","age":29 }
{ "id":3 ,"name":"Jack","age":29 }
{ "id":4 ,"name":"Jim","age":28 }
{ "id":5 ,"name":"Damon" }
{ "id":5 ,"name":"Damon" }

首先为employee.json创建DataFrame，并写出Python语句完成以下操作：
创建DataFrame

from pyspark import SparkContext,Sparkconf
form pyspark.sql import Sparksession
spark=SparkSession.builder().getOrCreate()

查询DataFrame的所有数据

df = spark.read.json("file:///usr/local/spark/employee.json")
df.show()

查询所有数据，并去除重复的数据

df.distinct().show()

查询所有数据，打印时去除id字段

df.drop("id").show()

筛选age>30的记录

df.filter(df.age > 30 ).show()

将数据按name分组

df.groupBy("name").count().show()

将数据按name升序排列

df.sort(df.name.asc()).show()

取出前3行数据

df.take(3) 或python> df.head(3)

查询所有记录的name列，并为其取别名为username

df.select(df.name.alias("username")).show()

查询年龄age的平均值

df.agg({"age": "mean"}).show()

查询年龄age的最大值

df.agg({"age": "max"}).show()

文章来源地址https://www.toymoban.com/news/detail-448394.html

到了这里，关于Spark SQL基本操作的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

黑马大数据学习笔记2-HDFS基本操作

https://www.bilibili.com/video/BV1WY4y197g7?p=26 切换到hadoop用户 Hadoop HDFS组件内置了HDFS集群的一键启停脚本。 $HADOOP_HOME/sbin/start-dfs.sh，一键启动HDFS集群执行原理：在执行此脚本的机器上，启动SecondaryNameNode 读取core-site.xml内容（fs.defaultFS项），确认NameNode所在机器，启动NameNode 读取

2024年02月16日
浏览(40)
黑马大数据学习笔记4-Hive部署和基本操作

p48、51、52 https://www.bilibili.com/video/BV1WY4y197g7/?p=48 Hive是分布式运行的框架还是单机运行的？ Hive是单机工具，只需要部署在一台服务器即可。 Hive虽然是单机的，但是它可以提交分布式运行的MapReduce程序运行。我们知道Hive是单机工具后，就需要准备一台服务器供Hive使用即可。

2024年02月14日
浏览(47)
深度学习精选笔记（1）数据基本操作与线性代数

学习参考：动手学深度学习2.0 Deep-Learning-with-TensorFlow-book pytorchlightning ①如有冒犯、请联系侵删。 ②已写完的笔记文章会不定时一直修订修改(删、改、增)，以达到集多方教程的精华于一文的目的。 ③非常推荐上面（学习参考）的前两个教程，在网上是开源免费的，写的很棒

2024年03月10日
浏览(59)
SQL 数据库基本操作

打开 SSMS（Microsoft SQL Server Management Studio），“对象资源管理器” 窗口列表中依次双击 “UERE-20220228OY” → ”数据库“ → ”系统数据库“ （”UERE-20220228OY“ 是系统连接的服务器名称，不同的计算机中名称不尽相同），在展开的列表中可看到 4个已经存在的数据库，分别为

2024年02月08日
浏览(52)
Linux学习笔记——基本操作命令

Linux 操作系统的 Shell 作为操作系统的外壳，为用户提供使用操作系统的接口。它是命令语言、命令解释程序及程序设计语言系统。 Shell 是用户和 Linux 内核之间的接口程序，如果把 Linux 内核想象成一个球体的中心，Shell 就是围绕内核的外层。当从 Shell 或其他程序向

2024年03月12日
浏览(66)
【SQL server】数据库入门基本操作教学

个人主页：【😊个人主页】系列专栏：【❤️初识JAVA】数据库是计算机系统中用于存储和管理数据的一种软件系统。它通常由一个或多个数据集合、管理系统和应用程序组成，被广泛应用于企业、政府和个人等各种领域。目前常用的数据库系统包括关系型数据库和非关系型

2024年02月07日
浏览(47)
王道操作系统学习笔记(1)——操作系统基本概念

本文介绍了操作系统的基本概念，文章中的内容来自B站王道考研操作系统课程，想要完整学习的可以到B站官方看完整版。操作系统：系统资源的管理者（处理机管理、存储器管理、文件管理、设备管理）交互式命令（在终端中输命令）和批处理命令（Shell脚本）并发：宏

2024年02月10日
浏览(50)
【MySQL 】：测试数据准备、SQL语句规范与基本操作

欢迎来到小K的MySQL专栏，本节将为大家准备MySQL测试数据、以及带来SQL语句规范、数据库的基本操作的详细讲解要学习SQL查询语句，首先必须解决一个问题，数据问题。为了方便大家学习阅读我的文章，在这里提供了一个test.sql文件 ✨ 登录MySQL，输入 source xxx/test.sql 导入sql文

2024年02月10日
浏览(43)
【②MySQL 】：测试数据准备、SQL语句规范与基本操作

欢迎来到小K的MySQL专栏，本节将为大家准备MySQL测试数据、以及带来SQL语句规范、数据库的基本操作的详细讲解要学习SQL查询语句，首先必须解决一个问题，数据问题。为了方便大家学习阅读我的文章，在这里提供了一个test.sql文件 ✨ 登录MySQL，输入 source xxx/test.sql 导入sql文

2024年02月10日
浏览(45)
数据库SQL2000最基本的安装和操作教程

Chengg0769 2012年转载请保留以下版权来源 www.mis2erp.com http://blog.csdn.net/chengg0769 http://www.haojiaocheng.cc 题外话：之前写了一个项目，因为是国企，各种文档都要给到他们。当时就写了一个简单的维护管理 SQL2000 的文档。这是给客户管理员看的。有时候很需要客户管理员的密切配合

2024年02月08日
浏览(54)