【Spark大数据习题】习题_Spark SQL&&&Kafka&& HBase&&Hive

这篇具有很好参考价值的文章主要介绍了【Spark大数据习题】习题_Spark SQL&&&Kafka&& HBase&&Hive。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Scala语言基础

PDF资源路径-Spark1
PDF资源路径-Spark2

一、填空题

1、Scala语言的特性包含面向对象编程、函数式编程的、静态类型的、可扩展的、可以交互操作的。

2、在Scala数据类型层级结构的底部有两个数据类型,分别是 Nothing和Null。

3、在Scala中,声明变量的关键字有var声明变量和val声明常量。

4、在Scala中,获取元组中的值是通过下划线加角标来获取的。

5、在Scala中,模式匹配是由关键字match和case组成的。

二、判断题

1、安装Scala之前必须配置JDK。(√)

2、Scala语言是一种面向过程编程语言。(×)

3、在Scala中,使用关键字var声明的变量,值是不可变的。(×)

4、在Scala中定义变长数组时,需要导入可变数组包。(√)

5、Scala语言和Java语言一样,都有静态方法或静态字段。(×)

三、选择题

1、下列选项中,哪个是Scala编译后文件的扩展名(A)
A .class B .bash C .pyc D .sc

2、下列方法中,哪个方法可以正确计算数组arr的长度?(D)
A count() B take() C tail() D length()

3、下列关于List的定义,哪个是错误的?(D)
A val list = List(1,22,3) B val list = List(“Hello”, “Scala”)
C val list : String = List(“A”, “B”) D val list = List[Int] (1,2,3)

Spark基础

一、填空题

1、Spark生态系统包含Spark Core 、Spark SQL、Spark Streaming 、MLib、GraphX以及独立调度器组件。

2、Spark计算框架的特点是速度快、易用性、通用性和兼容性。

3、Spark集群的部署模式有Standalone模式、 YARN模式和Mesos模式。

4、启动Spark集群的命令为sbin/start-all.sh。

5、Spark集群的运行框架由SparkContext、Cluster Manager和Worker组成。

二、判断题

1、Spark诞生于洛桑联邦理工学院(EPFL)的编程方法实验室。(×)

2、Spark比Hadoop计算的速度快。(√)

3、部署Spark高可用集群不需要用到 Zookeeper服务(X)

4、Spark Master HA 主从切换过程不会影响集群已有的作业运行。(√)

5、集群上的任务是由执行器来调度的。(X )

三、选择题

1、下列选项中,( D )不是Spark生态系统中的组件。
A. Spark Streaming B. Mlib C. Graphx D. Spark R

2、下面哪个端口不是Spark自带服务的端口(C)
A. 8080 B. 4040 C. 8090 D. 18080

3、下列选项中,针对Spark运行的基本流程哪个说法是错误的。(B)
A. Driver端提交任务,向Master申请资源
B. Master与Worker进行TCP通信,使得Worker启动Executor
C. Executor启动会主动连接Driver,通过Driver->Master->WorkExecutor,从而得到Driver在哪里
D.Driver会产生Task,提交给Executor中启动Task去做真正的计算

Spark RDD 弹性分布式数据集
1、RDD是分布式内存的一个抽象概念,也是一个容错的、并行的数据结构。

2、RDD的操作主要分为转换算子操作和行动算子操作。

3、RDD的依赖关系有宽依赖和窄依赖。

4、RDD的分区方式有哈希分区和范围分区。

5、RDD的容错方式有血统方式和设置检查点方式。

二、判断题

1、RDD是一个可变、不可分区、里面的元素是可并行计算的集合。(X)

2、RDD采用了惰性调用,即在RDD的处理过程中,真正的计算发生在RDD的“行动”操作。(√)

3、宽依赖是指每一个父RDD的分区最多被子RDD的一个分区使用。(X)

4、如果一个有向图可以从任意顶点出发经过若干条边回到该点,则这个图就是有向无环图。(X)

5、窄依赖是划分Stage的依据。(X)

三、选择题

1、下列方法中,用于创建RDD的方法是(C)
A. makeRDD B. parallelize C. textFile D. testFile

2、下列选项中,哪个不属于转换算子操作(C)
A. filter(func) B. map(func) C. reduce(func) D. reduceByKey(func)

3、下列选项中,能使RDD产生宽依赖的是(D)
A. map(func) B. filter(func) C. union D. groupByKey()

Spark MLlib机器学习算法库

一、填空题

1.机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

2.通常,机器学习的学习形式分类有监督学习和无监督学习。

3.MLlib库中包含了一些通用的机器学习算法和工具类,包括分类、回归、聚类、降维等。

4.MLlib库的主要数据类型包括本地向量、标注点、本地矩阵。

5.目前,MLlib 库默认采用皮尔森相关系数计算方法。

二、判断题

1.机器学习中的训练和预测过程可以看作人类的归纳和推测的过程。(×)

2.本地向量分为密集向量和稀疏向量,密集向量是由两个并列的数组(索引、值)支持,而稀疏向量是由 Double类型的数组支持。(×)

3.标注点是一种带有标签的本地向量,通常用于无监督学习算法中。(×)

4.逻辑回归又称为逻辑回归分析,是一种狭义的线性回归分析模型。(×)

5.目前,最为流行的推荐系统所应用的算法是协同过滤,协同过滤通常用于推荐系统,这项技术是为了填补关联矩阵的缺失项,从而实现推荐效果。(√)

三、选择题

1.下列选项中,对于机器学习的理解错误的是哪一项?(C)
A.机器学习是一种让计算机利用数据来进行各种工作的方法
B. 机器学习是研究如何使用机器人来模拟人类学习活动的一门学科
C.机器学习是一种使用计算机指令来进行各种工作的方法
D.机器学习就是让机器能像人一样有学习、理解、认识的能力

2.下列选项中,哪一项是不属于监督学习的方法?(A)
A. KMeans B.线性回归 C. SVM D.朴素贝叶斯

3.下列选项中,哪一项是最常见的评价分类器好坏的指标。(A)
Spark大数据分析与实战
一、填空题
1、Spark SQL 是Spark用来处理结构化数据的一个模块

2、Spark 要想很好地支持SQL,就需要完成解析、优化、执行三大过程

3、Spark SQL 作为分布式SQL查询引擎,让用户可以通过SQL、DataFrame API和Datasets API 3种方式实现对结构化数据的处理

4、Catalyst优化器在执行计划生成和优化工作时离不开它内部的五大组件,分别是SQLParse、Analyze、Optimizer、SparkPlanner和 CostModel。

5、Dataset是从Spark1.6 Alpha版本中引入的一个新的数据抽象结构,最终在Spark2.0版本被定义成Spark新特性。

二、判断题

1、Spark SQL的前身是 Shark,Shark最初是瑞士洛桑联邦理工学院(EPFL)的编程方法实验室研发的 Spark 生态系统的组件之一。(×)

2、Spark SQL与 Hive 不兼容。(×)

3、在Spark SQL中,若想要使用SQL 风格操作,则需要提前将 DataFrame注册成一张临时表。(√)

4、在Spark SQL中,可以利用反射机制来推断包含特定类型对象的 Schema,从而将已知数据结构的 RDD 转换成 DataFrame。(√)

5、Spark SQL可以通过JDBC从关系数据库中读取数据的方式创建 DataFrame,通过对 DataFrame 进行一系列的操作后,不可以将数据重新写入到关系数据库中。(×)

三、选择题

1、Spark SQL可以处理的数据源包括哪些?(D)
A.Hive 表 B.数据文件、Hive 表 C.数据文件、Hive 表、RDD
D.数据文件、Hive表、RDD、外部数据库

2、下列说法正确的是哪一项?(C)
A.Spark SQL的前身是 Hive B.DataFrame 其实就是 RDD
C. HiveContext继承了SqlContext D.HiveContext 只支持 SQL语法解析器

3、Spark SQL中,mode函数可以接收的参数有哪些?(A)
A.Overwrite、Append、Ignore、ErrorIfExists B. Overwrite、Ignore
C. Overwrite、Append、Ignore D. Append、Ignore、ErrorIfExists

HBase分布式数据库

一、填空题

1、HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式数据库。

2、HBase是构建在HDFS之上,并为 HBase提供了高可靠的底层存储支持。

3、HBase 是通过RPC下协议与客户端进行通信。

4、HBase 表的数据按照行键RowKey的字典序进行排列。

5、当 MemStore存储的数据达到一个阈值时,MemStore 里面的数据就会被flush到StoreFile 文件,这个阈值默认是128MB。

二、判断题

1、HBase 起源于 2006年 Google发表的 BigTable论文。(√)

2、HBase 是基于行进行存储的。(×)

3、HBase中,若有多个HMaster节点共存,则所有 HMaster都提供服务(×)

4、StoreFile底层是以HFile文件的格式保存在 HDFS上。(√)

5、在 HBase 中,往 HBase写数据的流程就是一个寻址的流程。(×)

三、选择题

1、下列选项中,哪个不属于 HBase的特点(B)
A.面向列 B.容量小 C.多版本 D.扩展性

2、下列选项中,HBase是将哪个作为其文件存储系统的(C)
A. MySQL B.GFS C. HDFS D. MongoDB

3、HBase官方版本不可以安装在什么操作系统上(D)
A. CentOS B. Ubuntu C. RedHat D. Windows

Kafka分布式发布订阅消息系统

一、填空题

1、Kafka的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。

2、Kafka的消息传递模式有点对点消息传递模式发布订阅消息传递模式。

3、Kafka集群是由生产者(Producer)、消息代理服务器(Broker Server)和***消费者(Consumer)***组成。

4、Kafka Streams是Apache Kafka 开源项目的一个流处理框架。

5、Kafka集群中消息的消费模型有两种,分别是推送模型(push)和拉取模型(pull)

二、判断题

1.Kafka是由Twitter软件基金会开发的一个开源流处理平台。(×)

2.Kafka是专门为分布式高吞吐量系统而设计开发的。(√)

3.Consumer是数据的生产者,Producer是数据的消费者。(×)

4.Kafka Streams是一套处理分析Kafka中存储数据的客户端类库,处理完的数据不可以重新写回Kafka,但可以发送给外部存储系统。(×)

5.在 Kafka 中,若想建立生产者和消费者互相通信,就必须提前创建一个“公共频道”,它就是主题(Topic)。(√)

三、选择题

1.下列选项中,哪个不是Kafka的优点?(C)
A.解耦 B.高吞吐量 C.高延迟 D.容错性

2.下列选项中,哪个选项是每个分区消息的唯一序列标识?(D)
A. Topic B. Partmon C.Broker D. Offset

3.下列选项中,哪个不属于消息系统?(D)
A. Kafka B. RabbitMQ C. ActiveMQ D. Zookeeper

Spark Streaming实时计算框架

一、填空题

1.目前,市场上常用的实时计算框架有Apache Spark Streaming、Apache Storm、
Apache Flink和Yahoo!S4。

2.Spark Streaming的特点有易用性、容错性和易整合性。

3.Spark Streaming支持从多种数据源获取数据,包括Kafka、Flume、Twitter、ZeroMQ、Kinesis、TCP Sockets 数据源。

4.Spark Streaming提供了一个高级抽象的流,即 DStream。

5.Spark Streaming中对DStream的转换操作会转变成对RDD的转换操作。

二、判断题

1、 Apache Spark Streaming是Apache公司非开源的实时计算框架。(×)

2、DStream的内部结构是由一系列连续的RDD组成,每个RDD都是一小段时间分隔开来的数据集。(√)

3、Spark Streaming中,不可以通过RDD的转换算子生成新的DStream。(×)

4、在Linux系统下执行nc-lk9999命令启动服务端且监听socket服务。(√)

5、在Spark Streaming中,DStream的输出操作是真正触发 DStream上所有转换操作进行计算。(√)

三、选择题

1.下列选项中,说法正确的是哪个?(B)

A. 窗口滑动时间间隔必须是批处理时间间隔的倍数

B.Kafka是 Spark Streaming的基础数据源
C.DStream 不可以通过外部数据源获取
D.reduce(func)是 DStream 的输出操作

2.关于 Spark Streaming,下列说法错误的是哪一项?(D)
A.Spark Streaming 是 Spark的核心子框架之一
B.Spark Streaming 具有可伸缩、高吞吐量、容错能力强等特点
C.Spark Streaming处理的数据源可以来自 Kafka
D.Spark Streaming不能和 Spark SQL、Mlib、GraphX无缝集成

3.DStream 的转换操作方法中,哪个方法可以直接调用RDD上的操作方法?(A)
A. transform(func) B. updateStateByKey(func)
C. countByKey() D.cogroup(otherStream,[numTasks])

原文链接文章来源地址https://www.toymoban.com/news/detail-735400.html

到了这里,关于【Spark大数据习题】习题_Spark SQL&&&Kafka&& HBase&&Hive的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark期末考试练习题

    一、单选题 1. 下面的端口不是 Spark 自带的服务端口的是___________。 A. 8080 B. 4040  C. 8090  D. 18080 2. 下面的描述不是 RDD 的特点的是___________。 A. 可分区 B. 可序列化  C. 可修改  D. 可持久化 3. 关于广播变量的描述错误的是___________。 A. 任何函数调用 B. 是只读的 C. 存储在各个节

    2023年04月25日
    浏览(38)
  • Hadoop+Hive+Spark+Hbase开发环境练习

    1.练习一 1. 数据准备 在hdfs上创建文件夹,上传csv文件 [root@kb129 ~]# hdfs dfs -mkdir -p /app/data/exam 查看csv文件行数 [root@kb129 ~]# hdfs dfs -cat /app/data/exam/meituan_waimai_meishi.csv | wc -l 2. 分别使用 RDD和 Spark SQL 完成以下分析(不用考虑数据去重) 开启spark shell [root@kb129 ~]# spark-shell (1)加载

    2024年02月03日
    浏览(38)
  • Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive

    Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive 完全分布式高可用集群搭建 下载 https://archive.apache.org/dist/  Mysql下载地址 Index of /MySQL/Downloads/ 我最终选择 Zookeeper3.7.1 +Hadoop3.3.5 + Spark-3.2.4 + Flink-1.16.1 + Kafka2.12-3.4.0 + HBase2.4.17 + Hive3.1.3  +JDK1.8.0_391  IP规划 IP hostname 192.168.1.5 node1 192.168.1.6 node

    2024年01月23日
    浏览(38)
  • Spark + HBase 数据处理和存储实验

    了解Spark中的基本概念和主要思想,熟悉Spark与MapReduce的区别; 掌握基本的Spark编程,实现基础RDD编程; 了解HBase的基本特性及其适用场景; 熟悉HBase Shell常用命令; 学习使用HBase的Java API,编程实现HBase常用功能; 实验平台:基于实验一搭建的虚拟机Hadoop大数据实验平台上的

    2024年02月05日
    浏览(36)
  • Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive 完全分布式高可用集群搭建(保姆级超详细含图文)

    说明: 本篇将详细介绍用二进制安装包部署hadoop等组件,注意事项,各组件的使用,常用的一些命令,以及在部署中遇到的问题解决思路等等,都将详细介绍。 ip hostname 192.168.1.11 node1 192.168.1.12 node2 192.168.1.13 node3 1.2.1系统版本 1.2.2内存建议最少4g、2cpu、50G以上的磁盘容量 本次

    2024年02月12日
    浏览(37)
  • 大数据学习06-Spark分布式集群部署

    配置好IP vim /etc/sysconfig/network-scripts/ifcfg-ens33 修改主机名 vi /etc/hostname 做好IP映射 vim /etc/hosts 关闭防火墙 systemctl status firewalld systemctl stop firewalld systemctl disable firewalld 配置SSH免密登录 ssh-keygen -t rsa 下载Scala安装包 配置环境变量 添加如下配置 使环境生效 验证 Spark官网 解压 上

    2024年02月10日
    浏览(46)
  • Apache Spark 练习六:使用Spark分析音乐专辑数据

    本章所分析的数据来自于Kaggle公开的、人工合成的音乐专辑发行数据(https://www.kaggle.com/datasets/revilrosa/music-label-dataset)。以下,我们只针对albums.csv文件进行分析。该数据具体包括以下字段: id: the album identifier; artist_id: the artist identifier; album_title: the title of the album; genre: the

    2024年02月15日
    浏览(49)
  • Spark操作HBase的数据,实现列值的计算

    本文将介绍如何使用Spark操作HBase的数据,实现列之间的计算,以特征值计算为例。特征值是指从原始数据中提取出来的具有代表性或判别性的数值,可以用于数据分析或机器学习等领域。本文将使用hbase-spark连接器,通过Spark RDD的方式,读取和写入HBase的表,实现对Sentinel-2卫

    2024年02月09日
    浏览(27)
  • Linux多虚拟机集群化配置详解(Zookeeper集群、Kafka集群、Hadoop集群、HBase集群、Spark集群、Flink集群、Zabbix、Grafana部署)

    前面安装的软件,都是以单机模式运行的,学习大数据相关的软件部署,后续安装软件服务,大多数都是以集群化(多台服务器共同工作)模式运行的。所以,需要完成集群化环境的前置准备,包括创建多台虚拟机,配置主机名映射,SSH免密登录等等。 我们可以使用VMware提供

    2024年02月04日
    浏览(40)
  • 大数据:Hadoop基础常识hive,hbase,MapReduce,Spark

    Hadoop是根据Google三大论文为基础研发的,Google 三大论文分别是: MapReduce、 GFS和BigTable。 Hadoop的核心是两个部分: 一、分布式存储(HDFS,Hadoop Distributed File System)。 二、分布式计算(MapReduce)。 MapReduce MapReduce是“ 任务的分解与结果的汇总”。 Map把数据切分——分布式存放

    2024年04月25日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包