Spark大数据分析与实战课后答案

这篇具有很好参考价值的文章主要介绍了Spark大数据分析与实战课后答案。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Spark大数据分析与实战课后答案(填空判断选择仅供参考)

Scala语言基础

一、填空题

1、Scala语言的特性包含面向对象编程、函数式编程的、静态类型的、可扩展的、可以交互操作的

2、在Scala数据类型层级结构的底部有两个数据类型,分别是 NothingNull

3、在Scala中,声明变量的关键字有var声明变量和val声明常量。

4、在Scala中,获取元组中的值是通过下划线加角标来获取的。

5、在Scala中,模式匹配是由关键字matchcase组成的。

二、判断题

1、安装Scala之前必须配置JDK。(√)

2、Scala语言是一种面向过程编程语言。(×)

3、在Scala中,使用关键字var声明的变量,值是不可变的。(×)

4、在Scala中定义变长数组时,需要导入可变数组包。(√)

5、Scala语言和Java语言一样,都有静态方法或静态字段。(×)

三、选择题

1、下列选项中,哪个是Scala编译后文件的扩展名(A)
A .class B .bash C .pyc D .sc

2、下列方法中,哪个方法可以正确计算数组arr的长度?(D)
A count() B take() C tail() D length()

3、下列关于List的定义,哪个是错误的?(D)
A val list = List(1,22,3) B val list = List(“Hello”, “Scala”)
C val list : String = List(“A”, “B”) D val list = List[Int] (1,2,3)

Spark基础

一、填空题

1、Spark生态系统包含Spark Core 、Spark SQL、Spark Streaming 、MLib、GraphX以及独立调度器组件。

2、Spark计算框架的特点是速度快、易用性、通用性和兼容性

3、Spark集群的部署模式有Standalone模式、 YARN模式和Mesos模式。

4、启动Spark集群的命令为sbin/start-all.sh

5、Spark集群的运行框架由SparkContext、Cluster Manager和Worker组成。

二、判断题

1、Spark诞生于洛桑联邦理工学院(EPFL)的编程方法实验室。(×)

2、Spark比Hadoop计算的速度快。(√)

3、部署Spark高可用集群不需要用到 Zookeeper服务(X)

4、Spark Master HA 主从切换过程不会影响集群已有的作业运行。(√)

5、集群上的任务是由执行器来调度的。(X )

三、选择题

1、下列选项中,( D )不是Spark生态系统中的组件。
A. Spark Streaming B. Mlib C. Graphx D. Spark R

2、下面哪个端口不是Spark自带服务的端口(C)
A. 8080 B. 4040 C. 8090 D. 18080

3、下列选项中,针对Spark运行的基本流程哪个说法是错误的。(B)
A. Driver端提交任务,向Master申请资源
B. Master与Worker进行TCP通信,使得Worker启动Executor
C. Executor启动会主动连接Driver,通过Driver->Master->WorkExecutor,从而得到Driver在哪里
D.Driver会产生Task,提交给Executor中启动Task去做真正的计算

Spark RDD 弹性分布式数据集

1、RDD是分布式内存的一个抽象概念,也是一个容错的、并行的数据结构。

2、RDD的操作主要分为转换算子操作行动算子操作

3、RDD的依赖关系有宽依赖窄依赖

4、RDD的分区方式有哈希分区范围分区

5、RDD的容错方式有血统方式设置检查点方式

二、判断题

1、RDD是一个可变、不可分区、里面的元素是可并行计算的集合。(X)

2、RDD采用了惰性调用,即在RDD的处理过程中,真正的计算发生在RDD的“行动”操作。(√)

3、宽依赖是指每一个父RDD的分区最多被子RDD的一个分区使用。(X)

4、如果一个有向图可以从任意顶点出发经过若干条边回到该点,则这个图就是有向无环图。(X)

5、窄依赖是划分Stage的依据。(X)
三、选择题
1、下列方法中,用于创建RDD的方法是(C)
A. makeRDD B. parallelize C. textFile D. testFile

2、下列选项中,哪个不属于转换算子操作(C)
A. filter(func) B. map(func) C. reduce(func) D. reduceByKey(func)

3、下列选项中,能使RDD产生宽依赖的是(D)
A. map(func) B. filter(func) C. union D. groupByKey()

Spark大数据分析与实战

一、填空题
1、Spark SQL 是Spark用来处理结构化数据的一个模块

2、Spark 要想很好地支持SQL,就需要完成解析、优化、执行三大过程

3、Spark SQL 作为分布式SQL查询引擎,让用户可以通过SQL、DataFrame API和Datasets API 3种方式实现对结构化数据的处理

4、Catalyst优化器在执行计划生成和优化工作时离不开它内部的五大组件,分别是SQLParse、Analyze、Optimizer、SparkPlanner和 CostModel。

5、Dataset是从Spark1.6 Alpha版本中引入的一个新的数据抽象结构,最终在Spark2.0版本被定义成Spark新特性。

二、判断题

1、Spark SQL的前身是 Shark,Shark最初是瑞士洛桑联邦理工学院(EPFL)的编程方法实验室研发的 Spark 生态系统的组件之一。(×)

2、Spark SQL与 Hive 不兼容。(×)

3、在Spark SQL中,若想要使用SQL 风格操作,则需要提前将 DataFrame注册成一张临时表。(√)

4、在Spark SQL中,可以利用反射机制来推断包含特定类型对象的 Schema,从而将已知数据结构的 RDD 转换成 DataFrame。(√)

5、Spark SQL可以通过JDBC从关系数据库中读取数据的方式创建 DataFrame,通过对 DataFrame 进行一系列的操作后,不可以将数据重新写入到关系数据库中。(×)

三、选择题

1、Spark SQL可以处理的数据源包括哪些?(D)
A.Hive 表 B.数据文件、Hive 表 C.数据文件、Hive 表、RDD
D.数据文件、Hive表、RDD、外部数据库

2、下列说法正确的是哪一项?(C)
A.Spark SQL的前身是 Hive B.DataFrame 其实就是 RDD
C. HiveContext继承了SqlContext D.HiveContext 只支持 SQL语法解析器

3、Spark SQL中,mode函数可以接收的参数有哪些?(A)
A.Overwrite、Append、Ignore、ErrorIfExists B. Overwrite、Ignore
C. Overwrite、Append、Ignore D. Append、Ignore、ErrorIfExists

HBase分布式数据库

一、填空题

1、HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式数据库。

2、HBase是构建在HDFS之上,并为 HBase提供了高可靠的底层存储支持。

3、HBase 是通过RPC下协议与客户端进行通信。

4、HBase 表的数据按照行键RowKey的字典序进行排列。

5、当 MemStore存储的数据达到一个阈值时,MemStore 里面的数据就会被flush到StoreFile 文件,这个阈值默认是128MB

二、判断题

1、HBase 起源于 2006年 Google发表的 BigTable论文。(√)

2、HBase 是基于行进行存储的。(×)

3、HBase中,若有多个HMaster节点共存,则所有 HMaster都提供服务(×)

4、StoreFile底层是以HFile文件的格式保存在 HDFS上。(√)

5、在 HBase 中,往 HBase写数据的流程就是一个寻址的流程。(×)

三、选择题

1、下列选项中,哪个不属于 HBase的特点(B)
A.面向列 B.容量小 C.多版本 D.扩展性

2、下列选项中,HBase是将哪个作为其文件存储系统的(C)
A. MySQL B.GFS C. HDFS D. MongoDB

3、HBase官方版本不可以安装在什么操作系统上(D)
A. CentOS B. Ubuntu C. RedHat D. Windows

Kafka分布式发布订阅消息系统

一、填空题
1、Kafka的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。

2、Kafka的消息传递模式有点对点消息传递模式发布订阅消息传递模式。

3、Kafka集群是由生产者(Producer)、消息代理服务器(Broker Server)和***消费者(Consumer)***组成。

4、Kafka Streams是Apache Kafka 开源项目的一个流处理框架。

5、Kafka集群中消息的消费模型有两种,分别是推送模型(push)拉取模型(pull)

二、判断题

1.Kafka是由Twitter软件基金会开发的一个开源流处理平台。(×)

2.Kafka是专门为分布式高吞吐量系统而设计开发的。(√)

3.Consumer是数据的生产者,Producer是数据的消费者。(×)

4.Kafka Streams是一套处理分析Kafka中存储数据的客户端类库,处理完的数据不可以重新写回Kafka,但可以发送给外部存储系统。(×)

5.在 Kafka 中,若想建立生产者和消费者互相通信,就必须提前创建一个“公共频道”,它就是主题(Topic)。(√)

三、选择题

1.下列选项中,哪个不是Kafka的优点?(C)
A.解耦 B.高吞吐量 C.高延迟 D.容错性

2.下列选项中,哪个选项是每个分区消息的唯一序列标识?(D)
A. Topic B. Partmon C.Broker D. Offset

3.下列选项中,哪个不属于消息系统?(D)
A. Kafka B. RabbitMQ C. ActiveMQ D. Zookeeper

Spark Streaming实时计算框架

一、填空题

1.目前,市场上常用的实时计算框架有Apache Spark Streaming、Apache Storm、
Apache Flink和Yahoo!S4。

2.Spark Streaming的特点有易用性、容错性易整合性

3.Spark Streaming支持从多种数据源获取数据,包括KafkaFlume、Twitter、ZeroMQ、Kinesis、TCP Sockets 数据源。

4.Spark Streaming提供了一个高级抽象的流,即 DStream

5.Spark Streaming中对DStream的转换操作会转变成对RDD的转换操作。

二、判断题

1、 Apache Spark Streaming是Apache公司非开源的实时计算框架。(×)

2、DStream的内部结构是由一系列连续的RDD组成,每个RDD都是一小段时间分隔开来的数据集。(√)

3、Spark Streaming中,不可以通过RDD的转换算子生成新的DStream。(×)

4、在Linux系统下执行nc-lk9999命令启动服务端且监听socket服务。(√)

5、在Spark Streaming中,DStream的输出操作是真正触发 DStream上所有转换操作进行计算。(√)

三、选择题

1.下列选项中,说法正确的是哪个?(B)
A. 窗口滑动时间间隔必须是批处理时间间隔的倍数
B.Kafka是 Spark Streaming的基础数据源
C.DStream 不可以通过外部数据源获取
D.reduce(func)是 DStream 的输出操作

2.关于 Spark Streaming,下列说法错误的是哪一项?(D)
A.Spark Streaming 是 Spark的核心子框架之一
B.Spark Streaming 具有可伸缩、高吞吐量、容错能力强等特点
C.Spark Streaming处理的数据源可以来自 Kafka
D.Spark Streaming不能和 Spark SQL、Mlib、GraphX无缝集成

3.DStream 的转换操作方法中,哪个方法可以直接调用RDD上的操作方法?(A)
A. transform(func) B. updateStateByKey(func)
C. countByKey() D.cogroup(otherStream,[numTasks])

Spark MLlib机器学习算法库

一、填空题

1.机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

2.通常,机器学习的学习形式分类有监督学习无监督学习

3.MLlib库中包含了一些通用的机器学习算法和工具类,包括分类、回归、聚类、降维等。

4.MLlib库的主要数据类型包括本地向量、标注点、本地矩阵

5.目前,MLlib 库默认采用皮尔森相关系数计算方法。

二、判断题

1.机器学习中的训练和预测过程可以看作人类的归纳和推测的过程。(×)

2.本地向量分为密集向量和稀疏向量,密集向量是由两个并列的数组(索引、值)支持,而稀疏向量是由 Double类型的数组支持。(×)

3.标注点是一种带有标签的本地向量,通常用于无监督学习算法中。(×)

4.逻辑回归又称为逻辑回归分析,是一种狭义的线性回归分析模型。(×)

5.目前,最为流行的推荐系统所应用的算法是协同过滤,协同过滤通常用于推荐系统,这项技术是为了填补关联矩阵的缺失项,从而实现推荐效果。(√)

三、选择题

1.下列选项中,对于机器学习的理解错误的是哪一项?(C)
A.机器学习是一种让计算机利用数据来进行各种工作的方法
B. 机器学习是研究如何使用机器人来模拟人类学习活动的一门学科
C.机器学习是一种使用计算机指令来进行各种工作的方法
D.机器学习就是让机器能像人一样有学习、理解、认识的能力

2.下列选项中,哪一项是不属于监督学习的方法?(A)
A. KMeans B.线性回归 C. SVM D.朴素贝叶斯

3.下列选项中,哪一项是最常见的评价分类器好坏的指标。(A)
A.准确率(auc) B.精确度(precision)C.召回率(recall) D.F值文章来源地址https://www.toymoban.com/news/detail-797838.html

到了这里,关于Spark大数据分析与实战课后答案的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark大数据分析与实战笔记(第二章 Spark基础-05)

    成长是一条必走的路路上我们伤痛在所难免。 在大数据处理和分析领域,Spark被广泛应用于解决海量数据处理和实时计算的挑战。作为一个快速、可扩展且易于使用的分布式计算框架,Spark为开发人员提供了丰富的API和工具来处理和分析大规模数据集。 其中,Spark-Shell是Spar

    2024年02月03日
    浏览(91)
  • Spark大数据分析与实战笔记(第二章 Spark基础-02)

    人生就像赛跑,不在乎你是否第一个到达尽头,而在乎你有没有跑完全程。 Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室,它是一个可应用于大规模数据处理的统一分析引擎。Spark不仅计算速度快,而且内置了丰富的API,使得我们能够更加容易编写程序。 请参考《

    2024年02月03日
    浏览(47)
  • 企业Spark案例--酒店数据分析实战提交

    第1关:数据清洗--过滤字段长度不足的且将出生日期转: package com.yy   import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, Dataset, SparkSession} object edu{     /**********Begin**********/     // 此处可填写相关代码     case class Person(id:String,Name:String,CtfTp:String,CtfId:String,G

    2024年02月09日
    浏览(40)
  • Spark大数据分析与实战笔记(第三章 Spark RDD 弹性分布式数据集-02)

    人生很长,不必慌张。你未长大,我要担当。 传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。Spark中的RDD可以很好的解决这一缺点。 RDD是Spark提供的最重要的抽象概念

    2024年02月22日
    浏览(48)
  • 《PySpark大数据分析实战》-12.Spark on YARN配置Spark运行在YARN上

    📋 博主简介 💖 作者简介:大家好,我是wux_labs。😜 热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。 通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。 通过了微软Azure开发人员、Azure数据工程师、Azure解决

    2024年02月03日
    浏览(42)
  • 大数据实战(hadoop+spark+python):淘宝电商数据分析

    虚拟机:Ubuntu 20.04.6 LTS docker容器 hadoop-3.3.4 spark-3.3.2-bin-hadoop3 python,pyspark, pandas,matplotlib mysql,mysql-connector-j-8.0.32.jar(下载不需要积分什么的) 淘宝用户数据 以上的技术积累需要自行完成 创建容器(##ubuntu的代码块,在ubuntu中运行,无特殊说明的在docker中运行) 更新软件

    2024年02月11日
    浏览(56)
  • Spark 大数据实战:基于 RDD 的大数据处理分析

    之前笔者参加了公司内部举办的一个 Big Data Workshop,接触了一些 Spark 的皮毛,后来在工作中陆陆续续又学习了一些 Spark 的实战知识。 本文笔者从小白的视角出发,给大家普及 Spark 的应用知识。 Spark 集群是基于 Apache Spark 的分布式计算环境,用于处理 大规模数据集 的计算任

    2024年01月25日
    浏览(38)
  • Spark大数据分析与实战笔记(第一章 Scala语言基础-2)

    Spark是专为大规模数据处理而设计的快速通用的计算引擎,它是由Scala语言开发实现的,关于大数据技术,本身就是计算数据,而Scala既有面向对象组织项目工程的能力,又具备计算数据的功能,同时Spark和Scala的紧密集成,本书将采用Scala语言开发Spark程序,所以学好Scala将有助

    2024年02月11日
    浏览(44)
  • Spark大数据分析与实战笔记(第一章 Scala语言基础-1)

    Spark是专为大规模数据处理而设计的快速通用的计算引擎,它是由Scala语言开发实现的,关于大数据技术,本身就是计算数据,而Scala既有面向对象组织项目工程的能力,又具备计算数据的功能,同时Spark和Scala的紧密集成,本书将采用Scala语言开发Spark程序,所以学好Scala将有助

    2024年02月11日
    浏览(43)
  • Spark大数据分析与实战笔记(第一章 Scala语言基础-3)

    对于每一门编程语言来说,数组(Array)都是重要的数据结构之一,主要用来存储数据类型相同的元素。Scala中的数组分为定长数组和变长数组,定义定长数组,需要使用new,而定义变长数组时,则需要导包 import scala.collection.mutable.ArrayBuffer 。 数组(Array)主要用来存储

    2024年02月10日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包