一文详解pyspark中sql的join

这篇具有很好参考价值的文章主要介绍了一文详解pyspark中sql的join。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大家好,今天分享一下pyspark中各种sql join。

数据准备

本文以学生和班级为单位进行介绍。

学生表有sid(学生id)、sname(学生姓名)、sclass(学生班级id)。

班级表有cid(班级id)、cname(班级名称)。

通过学生表的sclass和班级表的cid将两张表关联在一起。

下面是数据文件

数据的重点在于:

学生表的sclass是1,2,3,4,5

班级表的cid是1,2,4,6

即学生表比班级表多了3,5,班级表比学生表多了6

students.json

{"sid": 1, "sname": "xiaoming", "sclass":1}
{"sid": 2, "sname": "xiaogang", "sclass":2}
{"sid": 3, "sname": "xiaozhi", "sclass":3}
{"sid": 4, "sname": "xiaofang", "sclass":4}
{"sid": 5, "sname": "xiaohong", "sclass":5}

classes.json

{"cid": 1, "cname":"class1"}
{"cid": 2, "cname":"class2"}
{"cid": 4, "cname":"class4"}
{"cid": 6, "cname":"class6"}
数据读取
from pyspark.sql import SparkSession

spark = SparkSession.builder.enableHiveSupport().getOrCreate()

stu_df = spark.read.json('./data/students.json')
class_df = spark.read.json('./data/classes.json')

注意两个json文件的路径,我是放在了当前工作目录的data子目录下。

然后看下读取的学生df和班级df。文章来源地址https://www.toymoban.com/news/detail-811128.html

stu_df.show()
+------+---+--------+
|sclass|sid|   sname|
+------+---+--------+
|     1|  1|xiaoming|
|     2|  2|xiaogang|
|     3|  3| xiaozhi|
|     4|  4|xiaofang|
|     5|  5|xiaohong|
+------+---+--------+
class_df.show()
+---+------+
|cid| cname|
+---+------+
|  1|class1|
|  2|class2|
|  4|class4|
|  6|class6|
+---+------

到了这里,关于一文详解pyspark中sql的join的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《PySpark大数据分析实战》-27.数据可视化图表Pyecharts介绍

    📋 博主简介 💖 作者简介:大家好,我是wux_labs。😜 热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。 通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。 通过了微软Azure开发人员、Azure数据工程师、Azure解决

    2024年01月24日
    浏览(47)
  • PySpark实战指南:大数据处理与分析的终极指南【上进小菜猪大数据】

    上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货。 大数据处理与分析是当今信息时代的核心任务之一。本文将介绍如何使用PySpark(Python的Spark API)进行大数据处理和分析的实战技术。我们将探讨PySpark的基本概念、数据准备、数据处理和分析的关键步骤,并提

    2024年02月06日
    浏览(43)
  • 一文了解ChatGPT4+Python近红外光谱数据分析及机器学习与深度学习建模应用

    2022年11月30日,可能将成为一个改变人类历史的日子——美国人工智能开发机构OpenAI推出了聊天机器人ChatGPT3.5,将人工智能的发展推向了一个新的高度。2023年4月,更强版本的ChatGPT4.0上线,文本、语音、图像等多模态交互方式使其在各行各业的应用呈现了更多的可能性。202

    2024年01月20日
    浏览(42)
  • 《PySpark大数据分析实战》-12.Spark on YARN配置Spark运行在YARN上

    📋 博主简介 💖 作者简介:大家好,我是wux_labs。😜 热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。 通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。 通过了微软Azure开发人员、Azure数据工程师、Azure解决

    2024年02月03日
    浏览(53)
  • Python多线程爬虫——数据分析项目实现详解

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家 :https://www.captainbed.cn/z 「个人网站」 :雪碧的个人网站 ChatGPT体验地址 爬虫是指一种自动化程序,能够模拟人类用户在互联网上浏览网页、抓取网页内容、提取数据等操作。爬虫通常

    2024年01月18日
    浏览(48)
  • Python基础知识详解:数据类型、对象结构、运算符完整分析

    Python提供了丰富的数据类型,让我们可以灵活地处理各种数据。 首先是数值类型。数值类型包括整型、浮点型和复数。 整型(int)用于表示整数,例如年龄、数量等。我们可以直接将一个整数赋值给一个变量,如下所示: 浮点型(float)用于表示带有小数点的数,例如长度

    2024年02月09日
    浏览(65)
  • python机器学习数据建模与分析——决策树详解及可视化案例

    你是否玩过二十个问题的游戏,游戏的规则很简单:参与游戏的一方在脑海里想某个事物,其他参与者向他提问题,只允许提20个问题,问题的答案也只能用对或错回答。问问题的人通过推断分解,逐步缩小待猜测事物的范围。决策树的工作原理与20个问题类似,用户输人一系

    2024年02月03日
    浏览(43)
  • Python 数据分析入门教程:Numpy、Pandas、Matplotlib和Scikit-Learn详解

    NumPy是一个Python的科学计算基础模块,提供了多维数组和矩阵操作功能。 NumPy中的数组比Python自带的列表更适合进行数值计算和数据分析。 Pandas建立在NumPy之上,提供了更高级的数据分析功能。 Pandas中的DataFrame可以看成是一个二维表格,便于加载和分析数据。 Matplotlib可以用来绘

    2024年02月07日
    浏览(49)
  • 漫画sql数据分析

    1.1数据分析定义 数据分析是指根据分析目的,用适当的分析方法及工具,对数据进行处理分析,提取有价值的信息,形成有效结论的过程。 1.2数据分析作用 数据分析在我们日常工作中主要有三大作用,分别是:现状分析、原因分析、预测分析。 1.3数据分析步骤 明确分析目

    2024年02月20日
    浏览(22)
  • 数据分析---SQL(3)

    在SQL中,IF和CASE WHEN都是条件表达式,用于根据条件执行不同的逻辑操作。它们的区别如下

    2024年01月20日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包