【spark-Spark编程-笔记3】join、zip、combineByKey、计算学生平均成绩

9月前作者：冬雪落江南分类：Toy博客阅读(35) 违法举报

这篇具有很好参考价值的文章主要介绍了【spark-Spark编程-笔记3】join、zip、combineByKey、计算学生平均成绩。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

目录

使用join连接两个RDD

用zip组合两个RDD

使用combineByKey合并相同键的值

计算学生平均成绩

使用join连接两个RDD

选取rdd1与rdd2共有的键进行连接，

因为k3键只在rdd1中，rdd2中没有k3，所以k3不进行连接

spark求学生平均成绩,spark,大数据,spark

同理：

spark求学生平均成绩,spark,大数据,spark

用zip组合两个RDD

这里要求两个RDD的partition(分区)数量以及元素数量都相同，否则会抛出异常(两个一维)

spark求学生平均成绩,spark,大数据,spark

同理：一个一维，一个二维连接

spark求学生平均成绩,spark,大数据,spark

spark求学生平均成绩,spark,大数据,spark

使用combineByKey合并相同键的值

combineByKey用于将相同键的数据聚合，并且允许返回类型与输入数据类型不同的返回值

string类型：

spark求学生平均成绩,spark,大数据,spark

spark求学生平均成绩,spark,大数据,spark

int类型：

spark求学生平均成绩,spark,大数据,spark

spark求学生平均成绩,spark,大数据,spark

计算学生平均成绩

1、提取两个成绩表中的学号和成绩

spark求学生平均成绩,spark,大数据,spark

spark求学生平均成绩,spark,大数据,spark

2、将两个表进行合并

spark求学生平均成绩,spark,大数据,spark

spark求学生平均成绩,spark,大数据,spark

3、将两个表中相同学号的成绩进行相加，并统计科目数量（2）

spark求学生平均成绩,spark,大数据,spark

spark求学生平均成绩,spark,大数据,spark

4、求平均成绩

spark求学生平均成绩,spark,大数据,spark 文章来源地址https://www.toymoban.com/news/detail-659908.html

到了这里，关于【spark-Spark编程-笔记3】join、zip、combineByKey、计算学生平均成绩的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Spark SQL join的三种实现方式

join是SQL中的常用操作，良好的表结构能够将数据分散到不同的表中，使其符合某种规范(mysql三大范式)，可以最大程度的减少数据冗余，更新容错等，而建立表和表之间关系的最佳方式就是join操作。对于Spark来说有3种Join的实现，每种Join对应的不同的应用场景(SparkSQL自动决策

2024年02月11日
浏览(48)
Spark DataFrame join后移除重复的列

在Spark，两个DataFrame做join操作后，会出现重复的列。例如：其schema如下：我们在继续操作这个DataFrame时，可能就会报错，如下：org.apache.spark.sql.AnalysisException: Reference ‘movieId’ is ambiguous 解决方案有两种方法可以用来移除重复的列方法一：join表达式使用字符串数组（用于

2024年01月21日
浏览(42)
spark 的group by ,join数据倾斜调优

spark任务中最常见的耗时原因就是数据分布不均匀，从而导致有些task运行时间很长，长尾效应导致的整个job运行耗时很长首先我们要定位数据倾斜，我们可以通过在spark ui界面中查看某个stage下的task的耗时，如果发现某些task耗时很长，对应要处理的数据很多，证明有数据倾斜

2024年02月21日
浏览(46)
尚硅谷大数据技术Spark教程-笔记05【SparkCore（核心编程，累加器、广播变量）】

视频地址：尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01【SparkCore（概述、快速上手、运行环境、运行架构）】尚硅谷大数据技术Spark教程-笔记02【SparkCore（核心编程，RDD-核心属性-执行原理-基础编程-并行度与分区-转换算子）】尚硅

2024年02月01日
浏览(83)
spark sql 数据倾斜--join 同时开窗去重的问题优化

背景：需求：在一张查询日志表中，有百亿数据，需要join上维表，再根据几个字段进行去重开窗去重和join 一定要分步进行，按照需求先做join再开窗，或者去重完成后在进行join。 dwd_tmp1 中存在百亿用户查询日志数据数据倾斜数据量超百亿，资源给到200 * 2c * 20G，执行引擎

2024年02月11日
浏览(57)
Spark编程实验四：Spark Streaming编程

目录一、目的与要求二、实验内容三、实验步骤 1、利用Spark Streaming对三种类型的基本数据源的数据进行处理 2、利用Spark Streaming对Kafka高级数据源的数据进行处理 3、完成DStream的两种有状态转换操作 4、把DStream的数据输出保存到文本文件或MySQL数据库中四、结果分析与实验

2024年02月03日
浏览(37)
Spark编程实验三：Spark SQL编程

目录一、目的与要求二、实验内容三、实验步骤 1、Spark SQL基本操作 2、编程实现将RDD转换为DataFrame 3、编程实现利用DataFrame读写MySQL的数据四、结果分析与实验体会 1、通过实验掌握Spark SQL的基本编程方法； 2、熟悉RDD到DataFrame的转化方法； 3、熟悉利用Spark SQL管理来自不同

2024年02月03日
浏览(39)
Spark编程实验五：Spark Structured Streaming编程

目录一、目的与要求二、实验内容三、实验步骤 1、Syslog介绍 2、通过Socket传送Syslog到Spark 3、Syslog日志拆分为DateFrame 4、对Syslog进行查询四、结果分析与实验体会 1、通过实验掌握Structured Streaming的基本编程方法； 2、掌握日志分析的常规操作，包括拆分日志方法和分析场景

2024年02月20日
浏览(39)
Spark编程实验六：Spark机器学习库MLlib编程

目录一、目的与要求二、实验内容三、实验步骤 1、数据导入 2、进行主成分分析（PCA） 3、训练分类模型并预测居民收入 4、超参数调优四、结果分析与实验体会 1、通过实验掌握基本的MLLib编程方法； 2、掌握用MLLib解决一些常见的数据分析问题，包括数据导入、成分分析

2024年02月20日
浏览(41)
spark实验三-spark进阶编程

实验目标： (1) 掌握在IntelliJ IDEA 中操作spark程序开发 (2) 打包程序提交集群运行实验说明：现有一份某省份各地区租房信息文件 house.txt，文件中共有8个数据字段，字段说明如下表所示：字段名称说明租房ID 租房编号标题发布的租房标题链接网址，可查看租房信息

2024年04月27日
浏览(31)