大数据技术原理与应用 实验6 Spark数据处理系统的搭建

这篇具有很好参考价值的文章主要介绍了大数据技术原理与应用 实验6 Spark数据处理系统的搭建。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、实验题目

熟悉常用的Spark操作。

二、实验目的

1.熟悉Spark Shell的使用;
2.熟悉常用的Spark RDD API、Spark SQL API和Spark DataFrames API。

三、实验平台

操作系统:Linux
Spark版本: 1.6
Hadoop版本: 3.3.0
JDK版本:1.8

四、实验内容和要求

使用Spark shell完成如下习题:

1.Spark RDD部分:

a)读取Spark安装目录下的文件README.md(/usr/local/spark/README.md);
b)统计包含“Spark”的单词(区分大小写)的出现次数,给出执行语句与结果截图;
c)统计空白行的出现次数,给出执行语句与结果截图。

2.Spark SQL部分(分别使用Spark SQL API和Spark DataFrames API完成):

a)在Spark安装目录下建立一个文件example.json,内容如下:
{“name”: “Michael”, “age”: 25, “gender”: “male”}
{“name”: “Andy”, “age”: 30, “gender”: “female”}
{“name”: “Justin”, “age”: 19, “gender”: “female”}
b)读取该文件(/usr/local/spark/example.json)
c)筛选性别为”female”的记录并显示结果,给出执行语句与结果截图;
d)统计性别为”male”和”female”的人数并显示结果,给出执行语句与结果截图。
(提示:使用DataFrames API判断字符串相等,应使用”===”操作符;使用SQL API判断字符串相等,应使用”=”操作符)

五、实验步骤

1. Spark RDD部分

1.1 读取文件

val textFile = sc.textFile("file:///usr/local/spark/README.md");

1.2 统计"Spark"词频

textFile.filter(word => word.contains("Spark")).count();

大数据技术原理与应用 实验6 Spark数据处理系统的搭建

1.3 统计空白行出现次数

textFile.flatMap(_.split("\n")).filter(_.size == 0) .count();

大数据技术原理与应用 实验6 Spark数据处理系统的搭建

2. Spark SQL部分

2.1 建立文件

路径:/usr/local/spark/example.json
内容:
{“name”: “Michael”, “age”: 25, “gender”: “male”}
{“name”: “Andy”, “age”: 30, “gender”: “female”}
{“name”: “Justin”, “age”: 19, “gender”: “female”}
大数据技术原理与应用 实验6 Spark数据处理系统的搭建

2.2 Spark DataFrames API实现

a)读取文件

val df = sqlContext.read.json("file:///usr/local/spark/example.json");
df.show();

大数据技术原理与应用 实验6 Spark数据处理系统的搭建
b)筛选性别为"female"的记录

df.filter(df("gender") === "female").show();

大数据技术原理与应用 实验6 Spark数据处理系统的搭建
c)统计性别为"male"和"female"的人数

df.groupBy("gender").count().show();

大数据技术原理与应用 实验6 Spark数据处理系统的搭建

2.3 Spark SQL API实现

a)将df注册为临时表people

df.registerTempTable("people");

b)读取文件

val result = sqlContext.sql("SELECT * FROM people");
result.show();

大数据技术原理与应用 实验6 Spark数据处理系统的搭建
c)筛选性别为"female"的记录

val result = sqlContext.sql("SELECT * FROM people WHERE gender = 'female' ");
result.show();

大数据技术原理与应用 实验6 Spark数据处理系统的搭建
d)统计性别为"male"和"female"的人数

val result = sqlContext.sql("SELECT gender, COUNT (*) AS count FROM people GROUP BY gender");
result.show();

大数据技术原理与应用 实验6 Spark数据处理系统的搭建文章来源地址https://www.toymoban.com/news/detail-489469.html

到了这里,关于大数据技术原理与应用 实验6 Spark数据处理系统的搭建的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark与其他大数据技术的集成:实现数据处理的融合

    大数据技术已经成为当今企业和组织中不可或缺的一部分。随着数据的规模和复杂性的增加,需要更高效、可靠的数据处理和分析方法。Apache Spark作为一个开源的大数据处理框架,已经成为了许多企业和组织中的首选。然而,在实际应用中,Spark往往需要与其他大数据技术进

    2024年02月21日
    浏览(43)
  • Python与大数据:Hadoop、Spark和Pyspark的应用和数据处理技巧

      在当今的数字时代,数据成为了无处不在的关键资源。大数据的崛起为企业提供了无限的机遇,同时也带来了前所未有的挑战。为了有效地处理和分析大规模数据集,必须依靠强大的工具和技术。在本文中,我们将探讨Python在大数据领域的应用,重点介绍Hadoop、Spark和Pysp

    2024年02月16日
    浏览(36)
  • 实时大数据流处理技术:Spark Streaming与Flink的深度对比

    引言 在当前的大数据时代,企业和组织越来越多地依赖于实时数据流处理技术来洞察和响应业务事件。实时数据流处理不仅能够加快数据分析的速度,还能提高决策的效率和准确性。Apache Spark Streaming和Apache Flink是目前两个主要的实时数据流处理框架,它们各自拥有独特的特

    2024年03月10日
    浏览(49)
  • 数据存储和分布式计算的实际应用:如何使用Spark和Flink进行数据处理和分析

    作为一名人工智能专家,程序员和软件架构师,我经常涉及到数据处理和分析。在当前大数据和云计算的时代,分布式计算已经成为了一个重要的技术方向。Spark和Flink是当前比较流行的分布式计算框架,它们提供了强大的分布式计算和数据分析功能,为数据处理和分析提供了

    2024年02月16日
    浏览(44)
  • 处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术

    2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开 测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库 这oracle比sql安全,强大多了,所以你需要学

    2024年02月08日
    浏览(47)
  • 海量遥感数据处理与GEE云计算技术应用【基础、进阶】

    目前,GEE以其强大的功能受到了国外越来越多的科技工作者的重视和应用,然而在国内应用还十分有限。应广大科学工作者的要求,本学习将结合具体范例,重点介绍利用GEE进行数据处理的常用方法,并通过土地遥感信息提取进行进阶训练,掌握实际操作能力。  海 量 遥 感

    2024年01月21日
    浏览(44)
  • 深度学习和大数据技术的进步在自然语言处理领域的应用

    随着深度学习和大数据技术的迅猛发展,自然语言处理(Natural Language Processing,NLP)取得了显著的进步。人们正在积极研究如何使计算机更好地理解和生成人类语言,并且在搜索引擎、语音助手、机器翻译等领域广泛应用NLP技术。本文将重点探讨深度学习和大数据技术在NLP领

    2024年01月23日
    浏览(66)
  • 什么是API网关,解释API网关的作用和特点?解释什么是数据流处理,如Apache Flink和Spark Streaming的应用?

    API网关是一种在分布式系统中的组件,用于管理不同系统之间的通信和交互。API网关的作用是在不同系统之间提供统一的接口和协议,从而简化系统之间的集成和互操作性。 API网关的特点包括: 路由和分发请求:API网关可以根据请求的URL、方法、参数等信息,将请求分发到

    2024年02月11日
    浏览(36)
  • CMIP6数据处理及在气候变化、水文、生态等领域中的实践技术应用

    查看原文 最新CMIP6数据处理及在气候变化、水文、生态等领域中的实践技术应用 气候变化对农业、生态系统、社会经济以及人类的生存与发展具有深远影响,是当前全球关注的核心议题之一。IPCC(Intergovernmental Panel on Climate Change,政府间气候变化专门委员会)的第六次评估报

    2024年02月15日
    浏览(32)
  • 大数据处理:利用Spark进行大规模数据处理

    大数据处理是指对大规模、高速、多源、多样化的数据进行处理、分析和挖掘的过程。随着互联网、人工智能、物联网等领域的发展,大数据处理技术已经成为当今科技的核心技术之一。Apache Spark是一个开源的大数据处理框架,它可以处理批量数据和流式数据,并提供了一系

    2024年03月22日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包