【spark-Spark编程-笔记3】join、zip、combineByKey、计算学生平均成绩

这篇具有很好参考价值的文章主要介绍了【spark-Spark编程-笔记3】join、zip、combineByKey、计算学生平均成绩。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

使用join连接两个RDD

用zip组合两个RDD

使用combineByKey合并相同键的值

计算学生平均成绩


使用join连接两个RDD

选取rdd1与rdd2共有的键进行连接,

因为k3键只在rdd1中,rdd2中没有k3,所以k3不进行连接

spark求学生平均成绩,spark,大数据,spark

同理:

spark求学生平均成绩,spark,大数据,spark

 

用zip组合两个RDD

这里要求两个RDD的partition(分区)数量以及元素数量都相同,否则会抛出异常(两个一维)

spark求学生平均成绩,spark,大数据,spark

同理:一个一维,一个二维连接

spark求学生平均成绩,spark,大数据,spark

spark求学生平均成绩,spark,大数据,spark

使用combineByKey合并相同键的值

combineByKey用于将相同键的数据聚合,并且允许返回类型与输入数据类型不同的返回值

string类型:

spark求学生平均成绩,spark,大数据,spark

spark求学生平均成绩,spark,大数据,spark

int类型:

spark求学生平均成绩,spark,大数据,spark

spark求学生平均成绩,spark,大数据,spark

计算学生平均成绩

1、提取两个成绩表中的学号和成绩

spark求学生平均成绩,spark,大数据,spark

spark求学生平均成绩,spark,大数据,spark

2、将两个表进行合并

spark求学生平均成绩,spark,大数据,spark

spark求学生平均成绩,spark,大数据,spark

3、将两个表中相同学号的成绩进行相加,并统计科目数量(2)

spark求学生平均成绩,spark,大数据,spark

spark求学生平均成绩,spark,大数据,spark

4、求平均成绩

spark求学生平均成绩,spark,大数据,spark文章来源地址https://www.toymoban.com/news/detail-659908.html

到了这里,关于【spark-Spark编程-笔记3】join、zip、combineByKey、计算学生平均成绩的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark SQL join的三种实现方式

    join是SQL中的常用操作,良好的表结构能够将数据分散到不同的表中,使其符合某种规范(mysql三大范式),可以最大程度的减少数据冗余,更新容错等,而建立表和表之间关系的最佳方式就是join操作。 对于Spark来说有3种Join的实现,每种Join对应的不同的应用场景(SparkSQL自动决策

    2024年02月11日
    浏览(48)
  • Spark DataFrame join后移除重复的列

    在Spark,两个DataFrame做join操作后,会出现重复的列。例如: 其schema如下: 我们在继续操作这个DataFrame时,可能就会报错,如下:org.apache.spark.sql.AnalysisException: Reference ‘movieId’ is ambiguous 解决方案有两种方法可以用来移除重复的列 方法一:join表达式使用字符串数组(用于

    2024年01月21日
    浏览(42)
  • spark 的group by ,join数据倾斜调优

    spark任务中最常见的耗时原因就是数据分布不均匀,从而导致有些task运行时间很长,长尾效应导致的整个job运行耗时很长 首先我们要定位数据倾斜,我们可以通过在spark ui界面中查看某个stage下的task的耗时,如果发现某些task耗时很长,对应要处理的数据很多,证明有数据倾斜

    2024年02月21日
    浏览(46)
  • 尚硅谷大数据技术Spark教程-笔记05【SparkCore(核心编程,累加器、广播变量)】

    视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01【SparkCore(概述、快速上手、运行环境、运行架构)】 尚硅谷大数据技术Spark教程-笔记02【SparkCore(核心编程,RDD-核心属性-执行原理-基础编程-并行度与分区-转换算子)】 尚硅

    2024年02月01日
    浏览(83)
  • spark sql 数据倾斜--join 同时开窗去重的问题优化

    背景: 需求:在一张查询日志表中,有百亿数据,需要join上维表,再根据几个字段进行去重 开窗去重和join 一定要分步进行 ,按照需求先做join再开窗,或者去重完成后在进行join。 dwd_tmp1 中存在百亿用户查询日志数据 数据倾斜 数据量超百亿,资源给到200 * 2c * 20G,执行引擎

    2024年02月11日
    浏览(57)
  • Spark编程实验四:Spark Streaming编程

    目录 一、目的与要求 二、实验内容 三、实验步骤 1、利用Spark Streaming对三种类型的基本数据源的数据进行处理 2、利用Spark Streaming对Kafka高级数据源的数据进行处理 3、完成DStream的两种有状态转换操作 4、把DStream的数据输出保存到文本文件或MySQL数据库中 四、结果分析与实验

    2024年02月03日
    浏览(37)
  • Spark编程实验三:Spark SQL编程

    目录 一、目的与要求 二、实验内容 三、实验步骤 1、Spark SQL基本操作 2、编程实现将RDD转换为DataFrame 3、编程实现利用DataFrame读写MySQL的数据 四、结果分析与实验体会 1、通过实验掌握Spark SQL的基本编程方法; 2、熟悉RDD到DataFrame的转化方法; 3、熟悉利用Spark SQL管理来自不同

    2024年02月03日
    浏览(39)
  • Spark编程实验五:Spark Structured Streaming编程

    目录 一、目的与要求 二、实验内容 三、实验步骤 1、Syslog介绍 2、通过Socket传送Syslog到Spark 3、Syslog日志拆分为DateFrame 4、对Syslog进行查询 四、结果分析与实验体会 1、通过实验掌握Structured Streaming的基本编程方法; 2、掌握日志分析的常规操作,包括拆分日志方法和分析场景

    2024年02月20日
    浏览(39)
  • Spark编程实验六:Spark机器学习库MLlib编程

    目录 一、目的与要求 二、实验内容 三、实验步骤 1、数据导入 2、进行主成分分析(PCA) 3、训练分类模型并预测居民收入  4、超参数调优 四、结果分析与实验体会 1、通过实验掌握基本的MLLib编程方法; 2、掌握用MLLib解决一些常见的数据分析问题,包括数据导入、成分分析

    2024年02月20日
    浏览(41)
  • spark实验三-spark进阶编程

    实验目标: (1)   掌握在IntelliJ IDEA 中操作spark程序开发 (2)   打包程序提交集群运行 实验说明: 现有一份某省份各地区租房信息文件 house.txt,文件中共有8个数据字段,字段说明如下表所示: 字段名称 说明 租房ID 租房编号 标题 发布的租房标题 链接 网址,可查看租房信息

    2024年04月27日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包