一文详解pyspark中sql的join

9月前作者：不负长风分类：Toy博客阅读(77) 违法举报

这篇具有很好参考价值的文章主要介绍了一文详解pyspark中sql的join。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大家好，今天分享一下pyspark中各种sql join。

数据准备

本文以学生和班级为单位进行介绍。

学生表有sid（学生id）、sname（学生姓名）、sclass（学生班级id）。

班级表有cid（班级id）、cname（班级名称）。

通过学生表的sclass和班级表的cid将两张表关联在一起。

下面是数据文件

数据的重点在于：

学生表的sclass是1，2，3，4，5

班级表的cid是1，2，4，6

即学生表比班级表多了3，5，班级表比学生表多了6

students.json

{"sid": 1, "sname": "xiaoming", "sclass":1}
{"sid": 2, "sname": "xiaogang", "sclass":2}
{"sid": 3, "sname": "xiaozhi", "sclass":3}
{"sid": 4, "sname": "xiaofang", "sclass":4}
{"sid": 5, "sname": "xiaohong", "sclass":5}

classes.json

{"cid": 1, "cname":"class1"}
{"cid": 2, "cname":"class2"}
{"cid": 4, "cname":"class4"}
{"cid": 6, "cname":"class6"}

数据读取

from pyspark.sql import SparkSession

spark = SparkSession.builder.enableHiveSupport().getOrCreate()

stu_df = spark.read.json('./data/students.json')
class_df = spark.read.json('./data/classes.json')

注意两个json文件的路径，我是放在了当前工作目录的data子目录下。

然后看下读取的学生df和班级df。文章来源地址https://www.toymoban.com/news/detail-811128.html

stu_df.show()

+------+---+--------+
|sclass|sid|   sname|
+------+---+--------+
|     1|  1|xiaoming|
|     2|  2|xiaogang|
|     3|  3| xiaozhi|
|     4|  4|xiaofang|
|     5|  5|xiaohong|
+------+---+--------+

class_df.show()

+---+------+
|cid| cname|
+---+------+
|  1|class1|
|  2|class2|
|  4|class4|
|  6|class6|
+---+------

到了这里，关于一文详解pyspark中sql的join的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

《PySpark大数据分析实战》-27.数据可视化图表Pyecharts介绍

📋 博主简介 💖 作者简介：大家好，我是wux_labs。😜 热衷于各种主流技术，热爱数据科学、机器学习、云计算、人工智能。通过了TiDB数据库专员（PCTA）、TiDB数据库专家（PCTP）、TiDB数据库认证SQL开发专家（PCSD）认证。通过了微软Azure开发人员、Azure数据工程师、Azure解决

2024年01月24日
浏览(47)
PySpark实战指南：大数据处理与分析的终极指南【上进小菜猪大数据】

上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货。大数据处理与分析是当今信息时代的核心任务之一。本文将介绍如何使用PySpark（Python的Spark API）进行大数据处理和分析的实战技术。我们将探讨PySpark的基本概念、数据准备、数据处理和分析的关键步骤，并提

2024年02月06日
浏览(43)
一文了解ChatGPT4+Python近红外光谱数据分析及机器学习与深度学习建模应用

2022年11月30日，可能将成为一个改变人类历史的日子——美国人工智能开发机构OpenAI推出了聊天机器人ChatGPT3.5，将人工智能的发展推向了一个新的高度。2023年4月，更强版本的ChatGPT4.0上线，文本、语音、图像等多模态交互方式使其在各行各业的应用呈现了更多的可能性。202

2024年01月20日
浏览(42)
《PySpark大数据分析实战》-12.Spark on YARN配置Spark运行在YARN上

📋 博主简介 💖 作者简介：大家好，我是wux_labs。😜 热衷于各种主流技术，热爱数据科学、机器学习、云计算、人工智能。通过了TiDB数据库专员（PCTA）、TiDB数据库专家（PCTP）、TiDB数据库认证SQL开发专家（PCSD）认证。通过了微软Azure开发人员、Azure数据工程师、Azure解决

2024年02月03日
浏览(53)
Python多线程爬虫——数据分析项目实现详解

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家：https://www.captainbed.cn/z 「个人网站」：雪碧的个人网站 ChatGPT体验地址爬虫是指一种自动化程序，能够模拟人类用户在互联网上浏览网页、抓取网页内容、提取数据等操作。爬虫通常

2024年01月18日
浏览(48)
Python基础知识详解：数据类型、对象结构、运算符完整分析

Python提供了丰富的数据类型，让我们可以灵活地处理各种数据。首先是数值类型。数值类型包括整型、浮点型和复数。整型（int）用于表示整数，例如年龄、数量等。我们可以直接将一个整数赋值给一个变量，如下所示：浮点型（float）用于表示带有小数点的数，例如长度

2024年02月09日
浏览(65)
python机器学习数据建模与分析——决策树详解及可视化案例

你是否玩过二十个问题的游戏，游戏的规则很简单:参与游戏的一方在脑海里想某个事物，其他参与者向他提问题，只允许提20个问题，问题的答案也只能用对或错回答。问问题的人通过推断分解，逐步缩小待猜测事物的范围。决策树的工作原理与20个问题类似，用户输人一系

2024年02月03日
浏览(43)
Python 数据分析入门教程：Numpy、Pandas、Matplotlib和Scikit-Learn详解

NumPy是一个Python的科学计算基础模块,提供了多维数组和矩阵操作功能。 NumPy中的数组比Python自带的列表更适合进行数值计算和数据分析。 Pandas建立在NumPy之上,提供了更高级的数据分析功能。 Pandas中的DataFrame可以看成是一个二维表格,便于加载和分析数据。 Matplotlib可以用来绘

2024年02月07日
浏览(49)
漫画sql数据分析

1.1数据分析定义数据分析是指根据分析目的，用适当的分析方法及工具，对数据进行处理分析，提取有价值的信息，形成有效结论的过程。 1.2数据分析作用数据分析在我们日常工作中主要有三大作用，分别是：现状分析、原因分析、预测分析。 1.3数据分析步骤明确分析目

2024年02月20日
浏览(22)
数据分析---SQL(3)

在SQL中，IF和CASE WHEN都是条件表达式，用于根据条件执行不同的逻辑操作。它们的区别如下

2024年01月20日
浏览(31)