Spark实战：词频统计

7月前作者：howard2005 分类：Toy博客阅读(38) 违法举报

这篇具有很好参考价值的文章主要介绍了Spark实战：词频统计。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

spark 词频统计,Scala + Python + Spark 基础,spark,c#

一、Spark实战：词频统计

（一）Scala版

1、分步完成词频统计

（1）基于文本文件创建RDD

执行命令：val lines = sc.textFile("/home/test.txt")

（2）按空格拆分作扁平化映射

执行命令：val words = lines.flatMap(_.split(" "))

（3）将单词数组映射成二元组数组

执行命令：val tuplewords = words.map((_, 1))

（4）将二元组数组按键归约

执行命令：val wordcount = tuplewords.reduceByKey(_ + _)

（5）将词频统计结果按次数降序排列文章来源地址https://www.toymoban.com/news/detail-861116.html

执行命令：val sortwordcount = wordcount.sortBy(_._2, false)

2、一步搞定词频统计

执行命令：sc.textFile("/home/test.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).sortBy(_._2, false).collect.foreach(println)

（二）Python版

1、分步完成词频统计

（1）基于文本文件创建RDD

执行命令：lines = sc.textFile("/home/test.txt")

（2）按空格拆分作扁平化映射

执行命令：words = lines.flatMap(lambda line : line.split(' '))

（3）将单词数组映射成二元组数组

执行命令：tuplewords = words.map(lambda word : (word, 1))

（4）将二元组数组按键归约

执行命令：wordcount = tuplewords.reduceByKey(lambda a, b : a + b)

（5）将词频统计结果按次数降序排列

执行命令：sortwordcount = wordcount.sortBy(lambda wc : wc[1], False)

2、一步搞定词频统计

执行命令

for line in sc.textFile('/home/test.txt').flatMap(lambda line : line.split(' ')).map(lambda word : (word, 1)).reduceByKey(lambda a, b : a + b).sortBy(lambda tup : tup[1], False).collect():
    print(line)

二、实战总结

在Spark实战中，我们通过Scala和Python两个版本分别实现了词频统计的功能。首先，我们从文本文件中创建了RDD，然后按空格拆分进行扁平化映射，接着将单词数组映射成二元组数组，之后对二元组数组进行按键归约，最后将词频统计结果按次数降序排列。在分步实现的基础上，我们还可以通过一步命令直接完成整个流程。通过这次实战，我们对Spark的基本操作有了更深入的了解，为后续的学习和实践打下了基础。

到了这里，关于Spark实战：词频统计的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Spark大数据分析与实战笔记（第一章 Scala语言基础-1）

Spark是专为大规模数据处理而设计的快速通用的计算引擎，它是由Scala语言开发实现的，关于大数据技术，本身就是计算数据，而Scala既有面向对象组织项目工程的能力，又具备计算数据的功能，同时Spark和Scala的紧密集成，本书将采用Scala语言开发Spark程序，所以学好Scala将有助

2024年02月11日
浏览(67)
简单使用Spark、Scala完成对天气数据的指标统计

目录一、前言什么是Spark？什么是Scala 二、数据准备（数据类型的转换）三、Spark部分 1、使用Spark完成数据中的“风级”，“风向”、“天气情况”相关指标统计及筛选四、Scala部分 1、使用Scala统计某月、全年的温差、平均气温以及最值等相关的指标五、遇到的问题

2024年02月03日
浏览(51)
Spark-Scala语言实战（15）

在之前的文章中，我们学习了如何在spark中使用键值对中的学习键值对方法中的lookup，cogroup两种方法。想了解的朋友可以查看这篇文章。同时，希望我的文章能帮助到你，如果觉得我的文章写的不错，请留下你宝贵的点赞，谢谢。 Spark-Scala语言实战（14）-CSDN博客文章浏览阅

2024年04月15日
浏览(52)
Spark-Scala语言实战（7）

在之前的文章中，我们学习了如何在IDEA中导入jars包，并做了一道例题，了解了RDD。想了解的朋友可以查看这篇文章。同时，希望我的文章能帮助到你，如果觉得我的文章写的不错，请留下你宝贵的点赞，谢谢。 Spark-Scala语言实战（6）-CSDN博客文章浏览阅读695次，点赞15次，

2024年04月15日
浏览(55)
Spark-Scala语言实战（16）

在之前的文章中，我们学习了三道任务，运用之前学到的方法。想了解的朋友可以查看这篇文章。同时，希望我的文章能帮助到你，如果觉得我的文章写的不错，请留下你宝贵的点赞，谢谢。 Spark-Scala语言实战（15）-CSDN博客文章浏览阅读1.5k次，点赞38次，收藏32次。今天开始

2024年04月16日
浏览(42)
Spark-Scala语言实战（6）

在之前的文章中，我们学习了如何在scala中定义与使用类和对象，并做了几道例题。想了解的朋友可以查看这篇文章。同时，希望我的文章能帮助到你，如果觉得我的文章写的不错，请留下你宝贵的点赞，谢谢。 Spark-Scala语言实战（5）-CSDN博客文章浏览阅读1.6k次，点赞51次，

2024年04月17日
浏览(44)
Spark-Scala语言实战（14）

在之前的文章中，我们学习了如何在spark中使用键值对中的fullOuterJoin，zip，combineByKey三种方法。想了解的朋友可以查看这篇文章。同时，希望我的文章能帮助到你，如果觉得我的文章写的不错，请留下你宝贵的点赞，谢谢。 Spark-Scala语言实战（13）-CSDN博客文章浏览阅读735次

2024年04月10日
浏览(60)
Spark-Scala语言实战（12）

在之前的文章中，我们学习了如何在spark中使用键值对中的join,rightOuterJoin,leftOuterJoin三种方法。想了解的朋友可以查看这篇文章。同时，希望我的文章能帮助到你，如果觉得我的文章写的不错，请留下你宝贵的点赞，谢谢。 Spark-Scala语言实战（11）-CSDN博客文章浏览阅读670次，

2024年04月14日
浏览(50)
Spark-Scala语言实战（8）

在之前的文章中，我们学习了如何在spark中使用RDD方法的map,sortby,collect。想了解的朋友可以查看这篇文章。同时，希望我的文章能帮助到你，如果觉得我的文章写的不错，请留下你宝贵的点赞，谢谢。 Spark-Scala语言实战（7）-CSDN博客文章浏览阅读802次，点赞22次，收藏8次。

2024年04月11日
浏览(46)
Spark-Scala语言实战（9）

之前的文章中，我们学习了如何在spark中使用RDD方法的flatMap,take,union。想了解的朋友可以查看这篇文章。同时，希望我的文章能帮助到你，如果觉得我的文章写的不错，请留下你宝贵的点赞，谢谢。 Spark-Scala语言实战（8）-CSDN博客文章浏览阅读675次，点赞16次，收藏10次。今

2024年04月15日
浏览(48)