Spark算子-Scala版本 头歌答案

这篇具有很好参考价值的文章主要介绍了Spark算子-Scala版本 头歌答案。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Spark算子--Scala版本

第1关 Spark算子--Scala版本

编程要求

根据提示,在右侧编辑器begin-end处补充代码,输出每个元素及其长度并去重。

测试说明

平台会对你编写的代码进行测试:

预期输出:

(an,2)` `(dog,3)` `(cat,3)

开始你的任务吧,祝你成功!文章来源地址https://www.toymoban.com/news/detail-414050.html

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
​
object EduCoder1 {
    def main(args: Array[String]): Unit = {
    val conf =new SparkConf().setAppName("educoder1").setMaster("local")
    val sc=new SparkContext(conf)
    val rdd = sc.parallelize(List("dog","an","cat","an","cat"))
   
    
    /********** Begin **********/
    //第一步:通过获取rdd中每个元素的长度创建新的rdd1
    val rdd1=rdd.map(x=>x.length)
​
    
    //第二步:通过zip把rdd1和rdd组合创建rdd2
    
     val rdd2=rdd.zip(rdd1)
​
    //第三步:去重
​
    val rdd3=rdd2.distinct()
    
    //第四步:输出结果
    rdd3.foreach(println)
    
    
    /********** End **********/
  
    sc.stop()
  }
​
}
​

第2关:转换算子之flatMap和filter算子

编程要求

根据提示,在右侧编辑器begin-end处补充代码,输出个数大于一的单词。

测试说明

平台会对你编写的代码进行测试:

所给文件内容如下:

hello,world,hello,sparkgood,nice,good,do

预期输出: (hello,2) (good,2)


开始你的任务吧,祝你成功!

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
​
object EduCoder2 {
    def main(args: Array[String]): Unit = {
    val conf =new SparkConf().setAppName("educoder2").setMaster("local")
    val sc=new SparkContext(conf)
    val rdd=sc.textFile("file:///root/step3_fils")
    
​
    /********** Begin **********/
     //对所给数据创建的rdd切割分词
​
    val rdd1=rdd.flatMap(t=>t.split(","))
​
    //每个单词计数为1
​
    val rdd2= rdd1.map(t=>(t,1))
​
    //对相同单词个数进行累加
​
    val rdd3=rdd2.reduceByKey(_+_)
​
    //过滤出单词个数大于一个的
​
    val rdd4= rdd3.filter(t=>t._2>1)
​
    //输出结果
​
    rdd4.foreach(println)
    
    /********** End **********/
​
    sc.stop()
  }
​
}
​

第3关:转换算子之reduceBykey和mapValues算子

编程要求

根据提示,在右侧编辑器begin-end处补充代码,某商店上午卖出10本 spark 书籍,每本50元,4本 Hadoop 书籍,每本40元,下午卖出20本 spark 书籍,每本40元,10本 Hadoop 书籍,每本30元。

现要求求出这两本书这一天销售的平均价格。

数据如下:

spark,10,50spark,40,25hadoop,5,40hadoop,10,25

测试说明

平台会对你编写的代码进行测试:

预期输出:

(spark,30)` `(hadoop,30)

开始你的任务吧,祝你成功!

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
​
object EduCoder3 {
    def main(args: Array[String]): Unit = {
    
    val conf =new SparkConf().setAppName("educoder3").setMaster("local")
    val sc=new SparkContext(conf)
    
    /********** Begin **********/
     //通过给定数据通过序列化方式创建rdd
​
    val rdd = sc.parallelize(List(("spark",(10,50)),("hadoop",(5,40)),("hadoop",(10,25)),("spark",(40,25))))
​
    //求出一天收入总和以及出售本数
​
    val rdd2 = rdd.reduceByKey((x,y) => ((x._1*x._2)+(y._1*y._2), x._1+y._1))
​
    //求出每本平均售价
​
    val rdd3 = rdd2.mapValues(x => x._1 / x._2)
​
    //输出结果
​
    rdd3.foreach(println)
   
    /********** End **********/
   
    sc.stop
​
}
}

第4关:转化算子之groupByKey和sortByKey

编程要求

根据提示,在右侧编辑器begin-end处补充代码,对每人所学书籍本数分组并排序输出。

测试说明

平台会对你编写的代码进行测试:

所给数据说明:("Bob","spark") Bob:人名 spark:所学书籍

预期输出:

(Bob,3)(Candy,1)(Lily,1)

开始你的任务吧,祝你成功!

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
​
object EduCoder4 {
    def main(args: Array[String]): Unit = {
    val conf =new SparkConf().setAppName("educoder4").setMaster("local")
    val sc=new SparkContext(conf)
   val rdd = sc.parallelize(List(("Bob","spark"),("Lily","hadoop"),("Candy","hive"),("Bob","hbase"),("Bob","hive")))
     
    /********** Begin **********/
     //根据姓名对所学书籍分组
​
    val rdd1= rdd.groupByKey()
​
    //求出每个人的书籍本数
​
    val rdd2= rdd1.mapValues(t=>t.toList.size)
​
    //根据姓名排序
​
    val rdd3= rdd2.sortByKey()
​
    //打印结果
​
    rdd3.foreach(println)
    
    /********** End **********/
    sc.stop()
  }
​
}
​

第5关:常见行动算子

编程要求

根据提示,在右侧编辑器begin-end处补充代码输出正确答案。

测试说明

预期输出:

4
dog
sun
an
dogsunancat
dog
sun
an
cat

开始你的任务吧,祝你成功!

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
​
object EduCoder5 {
    def main(args: Array[String]): Unit = {
    val conf =new SparkConf().setAppName("educoder5").setMaster("local")
    val sc=new SparkContext(conf)
    val rdd = sc.parallelize(List("dog","sun","an","cat"))
     
    /********** Begin **********/
   
     //返回所给rdd的元素个数并输出
​
    val r1=rdd.count()
​
        println(r1)
​
    //返回rdd的前三个元素并输出
​
        val rdd1=rdd.take(3)
​
        rdd1.foreach(println)
​
    //累加rdd的所有元素并输出结果
​
        val r2=rdd.reduce(_+_)
​
        println(r2)
​
        //收集所有元素并且输出
​
       rdd.collect().foreach(println)
    
    /********** End **********/
   
    sc.stop()
  }
​
}
​

第6关:算子的综合使用案例

编程要求

有一份数据格式如下的文档:

日期,姓名,app,下载渠道,地区,版本号

2017-08-14,Lily,Facebook,360 Shop,NewYork,v1.0 2017-08-14,Bob,Facebook,Amazon Appstore,NewYork,v1.2 2017-08-14,Lily,Facebook,360 Shop,Washington,v1.2 2017-08-14,Lily,Facebook,Google Play Store,Washington,v2.0 2017-08-14,Candy,YouTube,app store,Chicago,v1.8 2017-08-14,Lily,Facebook,Google Play Store,Washington,v2.0 2017-08-14,Candy,YouTube,app store,Chicago,v1.9 2017-08-15,Candy,YouTube,app store,Chicago,v2.0 2017-08-15,Candy,YouTube,app store,Chicago,v2.3 2017-08-15,Lily,Facebook,360 Shop,NewYork,v2.0 2017-08-15,Bob,Facebook,Amazon Appstore,NewYork,v1.2 2017-08-15,Bob,Facebook,Amazon Appstore,NewYork,v1.5 2017-08-15,Candy,YouTube,app store,Chicago,v2.9  

需求: 不考虑地区,列出版本升级情况。

结果格式: 日期,姓名,app,下载渠道,升级前版本,升级后版本。

例: 数据:

2017-08-14,Lily,Facebook,360 Shop,NewYork,v1.0 2017-08-14,Lily,Facebook,360 Shop,Washington,v1.2 2017-08-14,Lily,Facebook,360 Shop,NewYork,v2.0 

结果:

(2017-08-14,Lily,Facebook,360 Shop,v1.0,v1.2) (2017-08-14,Lily,Facebook,360 Shop,v1.2,v2.0)

测试说明

本实训目前是基于Spark单机模式的运行方式,完成整个评测流程所需时间较长,请耐心等待!

开始你的任务吧,祝你成功!

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
​
object EduCoder {
  def main(args: Array[String]): Unit = {
    val conf =new SparkConf().setAppName("educoder").setMaster("local")
    val sc=new SparkContext(conf)
    val line=sc.textFile("file:///root/step1_fils")
    
    /********** Begin **********/
    //根据需求,去除城市字段
​
      val rdd1 = line.map(t => {
​
      val arr = t.split(",")
​
      ((arr(0), arr(1), arr(2), arr(3)), arr(5))
​
      })
​
      //按key分组,key是除城市字段和版本号字段``以外的所有字段,value是版本号
​
      val rdd2=rdd1.groupByKey()
​
      //过滤版本号重复的``(例:(v2.0,v2.0))以及版本号只有一个的(例(v1.0)) 
​
      val rdd3=rdd2.mapValues(t=>t.toList.distinct).filter(t=>t._2.length>1)
​
      //拆分重新组合 例:(key,(v2.0,v2.5,v3.0))拆分成(key,(v2.0,v2.5),((key,(v2.5,v3.0)))
​
      val rdd4= rdd3.mapValues(t => { 
​
      val tai = t.tail 
​
      t.zip(tai)
​
      })
​
      //按需求整理输出格式(例:(2017-08-14,Lily,Facebook,360  Shop,v1.2,v2.0))
​
      val rdd5= rdd4.flatMap(t => {
​
      t._2.map(tp => {
​
      (t._1._1, t._1._2, t._1._3, t._1._4, tp._1, tp._2)
​
      })
​
      })
​
      //执行foreach操作,打印出结果
​
      rdd5.foreach(println)
​
    
    /********** End **********/
   
    sc.stop()
  }
​
}
​

到了这里,关于Spark算子-Scala版本 头歌答案的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Spark】Spark的常用算子

    Spark的常用算子 Spark 内置算子是指 Spark 提供的具有高性能、高效率和高可靠性的数据操作函数。Spark 内置算子可以帮助我们完成大量的数据预处理、处理和分析任务。其主要包括以下 4 类算子: 转换算子(Transformation):用于将一个 RDD 转换为另一个 RDD,常见的有 map、flat

    2024年02月11日
    浏览(38)
  • Spark---RDD算子(单值类型转换算子)

    RDD算子是用于对RDD进行转换(Transformation)或行动(Action)操作的方法或函数。通俗来讲,RDD算子就是RDD中的函数或者方法,根据其功能,RDD算子可以分为两大类: 转换算子(Transformation): 转换算子用于从一个RDD生成一个新的RDD,但是原始RDD保持不变。常见的转换算子包括

    2024年01月21日
    浏览(48)
  • Spark中Rdd算子和Action算子--学习笔记

    filter distinct groupBy groupByKey,sortBy,SortByKey rdd之间的连接 collect,take,count()类的聚合算子,saveAsTextFile, 统计算子,countByKey() countByKey().items() countByValue() , countByValue().items() 词频统计 缓存是将数据存储再内存或者磁盘上,缓存的特点是计算结束后缓存自动清空 为什么使用缓存? 提升

    2024年01月16日
    浏览(60)
  • spark-常用算子

    这种变换并不触发提交作业,这种算子是延迟执行的,也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行,需要等到有Action操作的时候才会真正触发。 这种变换并不触发提交作业,针对处理的数据项是Value型的数据 (1)输入分区与输出分区一对一型: 1.map算子 处

    2024年01月16日
    浏览(32)
  • 【Spark】RDD转换算子

    目录 map mapPartitions mapPartitionsWithIndex flatMap glom groupBy shuffle filter sample distinct coalesce repartition sortBy ByKey intersection union subtract zip partitionBy reduceByKey groupByKey reduceByKey 和 groupByKey 的区别 aggregateByKey foldByKey combineByKey reduceByKey、foldByKey、aggregateByKey、combineByKey 的区别 join leftOuterJoin

    2024年02月12日
    浏览(75)
  • 头歌Elasticsearch 基本用法答案

    su es   /opt/install/elasticsearch-6.5.4/bin/elasticsearch   第1关 Elasticsearch基本概念 #!/bin/bash # 请在此处编写命令 # ********** Begin ********** # # 通过 curl 命令查询 Elasticsearch 中所有文档的数量 curl -i -XGET \\\'http://127.0.0.1:9200/_count?pretty\\\' # ********** End ********** # 第2关 Elasticsearch索引的创建和查询

    2024年02月05日
    浏览(73)
  • linux头歌实验答案

    一.linux之用户管理 (1)创建/删除新用户 新创建一个用户 newUser ,并自动创建其登录目录; 删除系统已经存在的用户 oldUser ,并自动删除其关联的登录目录; 将当前工作目录切换到新创建的用户 newUser 家目录; 使用 pwd 命令打印出当前工作目录。 (2)  Linux 用户密码管理

    2024年02月08日
    浏览(35)
  • 头歌答案--爬虫实战

    目录 urllib 爬虫  第1关:urllib基础 任务描述 第2关:urllib进阶  任务描述 requests 爬虫 第1关:requests 基础 任务描述 第2关:requests 进阶 任务描述 网页数据解析 第1关:XPath解析网页  任务描述 第2关:BeautifulSoup解析网页  任务描述 JSON数据解析 第1关:JSON解析  任务描述 爬虫

    2024年02月04日
    浏览(35)
  • 头歌答案Python,001

    金宝,答案在这里,自己抄。 1,第一关,计算机 2,第1关:练习-Python函数之变量的作用域 3, 第1关 练习-Python函数之函数返回值

    2024年02月08日
    浏览(34)
  • 2023_Spark_实验十二:Spark高级算子使用

    掌握Spark高级算子在代码中的使用 相同点分析 三个函数的共同点,都是Transformation算子。惰性的算子。 不同点分析 map函数是一条数据一条数据的处理,也就是,map的输入参数中要包含一条数据以及其他你需要传的参数。 mapPartitions函数是一个partition数据一起处理,也即是说,

    2024年02月08日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包