大数据基础复习题整理

这篇具有很好参考价值的文章主要介绍了大数据基础复习题整理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

第一章

以下关于云计算、大数据和物联网之间的关系,论述错误的是

  • A. 物联网可以借助于大数据实现海量数据的分析
  • B. 物联网可以借助于云计算实现海量数据的存储
  • C. 云计算、大数据和物联网三者紧密相关,相辅相成
  • D. 云计算侧重于数据分析

正确答案:D

第三次信息化浪潮的标志是哪些技术的兴起?

  • A. 个人计算机
  • B. 物联网
  • C. 云计算
  • D. 大数据

正确答案:B,C,D。

第一次浪潮:个人计算机

第二次浪潮:互联网

第三次浪潮:物联网、大数据、云计算

大数据具有哪些特点?

  • A. 数据的“大量化”
  • B. 数据的“快速化”
  • C. 数据的“多样化”
  • D. 数据的“价值密度高”

正确答案:A,B,C

大数据的价值密度是很低的。可能一个记录了一整天道路交通状况的监控视频,只有1s的事故视频是有价值的。

下面哪些特征不是大数据所具有的

  • A. 使用抽样数据而不是全体样本
  • B. 结构化数据的规模远远超过非结构化的数据的规模
  • C. 追求的是数据计算的效率而不是精确性
  • D. 大数据分析追求事物之间的因果关系而不是相关性

正确答案:A,B,D

对于A:这并非大数据的特征。大数据通常涉及 全体样本 的分析,而不仅仅是抽样。

对于B:实际上, 非结构化数据(如文本、图片、视频等)在大数据中占据了很大一部分

对于C:大数据的分析通常确实更注重效率而非精确性,但这并不是说精确性不重要。这个选项可以说部分反映了大数据的特征,但不完全准确。

对于D:大数据分析 更多地关注的是发现数据之间的相关性 ,而不是因果关系。确定因果关系通常需要更为严格和控制得好的实验设计。

第二章

关于Kafka中的生产者和消费者,以下描述错误的是

  • A. 生产者可以发布数据到指定的主题,并可以指定消息写入哪个分区
  • B. 消费者可以订阅一个或多个主题
  • C. 在同一个消费者组中,每个消费者消费相同的分区的消息
  • D. 属于不同消费者组的消费者可以消费同一个分区的消息。

正确答案:C

关于kafka中的概念,以下描述正确的是

  • A. 事件是Kafka通信的基本单位
  • B. 批次是一组属于不同主题和分区的消息的集合
  • C. 同一类消息可被抽象归纳为一个主题
  • D. 每个主题包含一个分区

正确答案:C

以下描述错误的是

  • A. 一个Source可以连接多个channel
  • B. 多个Source可以写入同一个Channel
  • C. 多个Sink可以从同一个Channel中读取数据
  • D. 一个Sink可以从多个channel中读取数据

正确答案:D

ETL操作不包括

  • A. 提取
  • B. 转换
  • C. 加载
  • D. 计算

正确答案:D

关于Flume中的事务,以下描述正确的是

  • A. 每个Flume事务中包含一个事件
  • B. 当事务中的一个事件读/写成功后,事务就可以被提交
  • C. Channel处理器负责Source的事务处理。
  • D. 每个Flume事务中包含一个或多个事件

正确答案:C,D

第三章

分布式文件系统指的是什么?

  • A. 把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群
  • B. 用于在Hadoop与传统数据库之间进行数据传递
  • C. 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
  • D. 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据

正确答案:A

对于文件系统而言,形容其的主语必是 文件 。分布式文件系统简称为DFS。

下列哪一项不属于HDFS采用抽象的块概念带来的好处?

  • A. 简化系统设计
  • B. 支持大规模文件存储
  • C. 强大的跨平台兼容性
  • D. 适合数据备份

正确答案:C

兼容性并不是采用抽象块概念就可以提升的。HDFS必须在Hadoop相关平台运行。

下列关于HDFS的描述,哪个不正确?

  • A. HDFS还采用了相应的数据存放、数据读取和数据复制策略,来提升系统整体读写响应性能
  • B. HDFS采用了主从(Master/Slave)结构模型
  • C. HDFS采用了冗余数据存储,增强了数据可靠性
  • D. HDFS采用块的概念,使得系统的设计变得更加复杂

正确答案:D

采用了抽象块概念是可以简化系统设计的。

HDFS具有较高的容错性,设计了哪些相应的机制检测数据错误和进行自动恢复?

  • A. 数据源太大
  • B. 数据节点出错
  • C. 数据出错
  • D. 名称节点出错

正确答案:B,C,D

关于不同类型节点功能描述正确的是:

  • A. 名称节点负责管理文件系统的命名空间及客户端对文件的访问
  • B. 数据节点是文件系统中真正存储数据的地方
  • C. 名称节点负责处理文件系统客户端的读写请求
  • D. 每个数据节点会周期性地向第二名称节点发送心跳信息

正确答案:A,B

对于C: 数据节点 负责处理文件系统客户端的读写请求

对于D:每个数据节点会周期性地向 名称节点 发送心跳信息

第四章

以下对各类数据库的理解错误的是

  • A. 键值数据库的键和值都可以是任意类型的数据,比如整型和字符型等
  • B. HBase数据库是列族数据库,可扩展性强,支持事务一致性
  • C. 文档数据库旨在将半结构化数据存储为文档,通常用XML、JSON等文档格式来封装和编码数据。
  • D. 图数据库应用图形理论存储实体之间的关系信息,包括顶点以及连接顶点的边

正确答案:B

列族数据库 并不支持事务一致性 ,只是非常适合于处理大规模数据集。

NoSQL数据库的三大理论基石不包括

  • A. BASE
  • B. CAP
  • C. ACID
  • D. 最终一致性

正确答案:C

下列对HBase数据模型的描述错误的是

  • A. HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳
  • B. 每个HBase表都由若干行组成,每个行由行键(row key)来标识
  • C. HBase列族支持动态扩展,可以很轻松地添加一个列族或列
  • D. HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本

正确答案:D

HBase中执行更新操作的时候,不会删除旧的版本,反而将其保留

CAP是指

  • A. 分区容忍性
  • B. 可用性
  • C. 持久性
  • D. 一致性

正确答案:A,B,D

C: Consistency 一致性
A: Availability 可用性(指的是快速获取数据)
P: Tolerance of network Partition 分区容忍性(分布式)

访问HBase表中的行,有哪些方式

  • A. 通过单个行健访问
  • B. 通过一个行健的区间来访问
  • C. 通过某列的值区间
  • D. 全表扫描

正确答案:A,B,D

在HBase中,无法直接通过某列的值区间来访问表中的行,主要是因为HBase的数据模型和索引方式。理解这一点需要考虑HBase的核心设计特性:

  1. 基于行键的存储和访问:HBase是一个基于列族的NoSQL数据库,它的数据存储和访问主要是基于行键(Row Key)。行键在HBase中是主要的索引方式。数据库在物理存储上是按照行键的字典序排序的,这允许快速的行键查找和基于行键范围的扫描。
  2. 列族和列的索引方式:虽然HBase按列族存储数据,但它并没有为列族或列中的数据提供二级索引。这意味着,除了行键之外,HBase无法直接利用列的值来快速定位和访问数据。如果要通过某列的值来查找数据,就需要扫描整个表,这在大数据量下效率极低。
  3. 面向扫描的设计:HBase被设计为支持大规模数据的快速读写,尤其是针对基于行键的访问和扫描。它并不适合需要频繁通过非行键列值进行查询的场景。

因此,如果你需要通过某列的值区间来访问HBase表中的行,你可能需要考虑以下方案:

  • 辅助索引:使用外部系统来维护列值到行键的映射,例如使用Apache Solr或Elasticsearch来实现。
  • 行键设计:在设计行键时,将常用查询列的值包含进行键中,以便能通过行键范围扫描来达到类似效果。
  • 全表扫描:如果数据量较小,可以考虑全表扫描,但这在大数据环境下通常是不可接受的。

下列对HBase的理解正确的是

  • A. HBase是一种关系型数据库,现成功应用于互联网服务领域
  • B. HBase多用于存储非结构化和半结构化的松散数据
  • C. HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件
  • D. HBase是针对谷歌BigTable的开源实现

正确答案:B,D

HBase是一个列族数据库,多用于存储非结构化和半结构化的松散数据,是针对谷歌BigTable的开源实现。

第五章

下列关于Map和Reduce函数的描述,哪个是错误的?

  • A. Map将小数据集进一步解析成一批对,输入Map函数中进行处理
  • B. Map每一个输入的会输出一批。是计算的中间结果
  • C. Reduce输入的中间结果中的List(v 2 )表示是一批属于不同k 2 的value
  • D. Reduce输入的中间结果中的List(v 2 )表示是一批属于同一个k 2 的value

正确答案:C

关于MapReduce1.0的体系结构的描述,下列说法错误的是?

  • A. Task 分为Map Task 和Reduce Task 两种,分别由JobTracker和TaskTracker 启动
  • B. slot 分为Map slot 和Reduce slot 两种,分别供MapTask 和Reduce Task 使用
  • C. TaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)
  • D. TaskTracker 会周期性接收JobTracker 发送过来的命令并执行相应的操作(如启动新任务、杀死任务等)

正确答案:A

下列哪项是Hadoop生态系统中Spark的功能?

  • A. 处理大规模数据的脚本语言
  • B. 工作流和协作服务引擎,协调Hadoop上运行的不同任务
  • C. 不支持DAG作业的计算框架
  • D. 基于内存的分布式并行编程框架,具有较高的实时性,并且较好支持迭代计算

正确答案:D

在Hadoop生态系统中,Kafka主要解决Hadoop 中存在哪些的问题?

  • A. Hadoop生态系统中各个组件和其他产品之间缺乏统一的、高效的数据交换中介
  • B. 不同的MapReduce任务之间存在重复操作,降低了效率
  • C. 延迟高,而且不适合执行迭代计算
  • D. 抽象层次低,需要手工编写大量代码

正确答案:A

关于HDFS Federation 的设计的描述,哪个是错误的?

  • A. 属于不同命名空间的块可以构成同一个“块池”
  • B. HDFS Federation中,所有名称节点会共享底层的数据节点存储资源,数据节点向所有名称节点汇报
  • C. 设计了多个相互独立的名称节点
  • D. HDFS的命名服务能够水平扩展

正确答案:A

每一个块池对应着其唯一的命名空间

下列关于MapReduce1.0的描述,错误的是?

  • A. JobTracker“大包大揽”导致任务过重
  • B. 不存在单点故障
  • C. 容易出现内存溢出(分配资源只考虑MapReduce任务数,不考虑CPU、内存)
  • D. 资源划分不合理(强制划分为slot ,包括Map slot和Reduce slot)

正确答案:B

下列关于MapReduce的体系结构的描述,说法正确的有?

  • A. 用户编写的MapReduce程序通过Client提交到JobTracker端
  • B. JobTracker负责资源监控和作业调度
  • C. TaskTracker监控所有TaskTracker与Job的健康状况
  • D. TaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)

正确答案:A,B,D

对于C: JobTracker 负责资源监控和作业调度。

下列说法正确的是?

  • A. MapReduce体系结构主要由四个部分组成,分别是:Client、JobTracker、TaskTracker以及Task
  • B. Task 分为Map Task 和Reduce Task 两种,均由TaskTracker 启动
  • C. 在MapReduce工作流程中,所有的数据交换都是通过MapReduce框架自身去实现的
  • D. 在MapReduce工作流程中,用户不能显式地从一台机器向另一台机器发送消息

正确答案:A,B,C,D文章来源地址https://www.toymoban.com/news/detail-809943.html

到了这里,关于大数据基础复习题整理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据结构复习题(包含答案)

    1、研究数据结构就是研究( D  )。 A. 数据的逻辑结构                      B. 数据的存储结构    C. 数据的逻辑结构和存储结构    D. 数据的逻辑结构、存储结构及其基本操作 2、算法分析的两个主要方面是(  A )。 A. 空间复杂度和时间复杂度         B. 正

    2024年02月09日
    浏览(27)
  • Python期末复习题:组合数据类型

    有10 名同学的python 课程成绩分别为:94, 89, 96, 88, 92, 86, 69, 95, 78,85。 要求利用列表分析成绩,输出平均值、最高的3个成绩和最低的3个成绩、成绩中位数(是按顺序排列的一组数据中居于中间位置的数,如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数)。

    2024年02月05日
    浏览(36)
  • 【数据结构】——期末复习题题库(1)

    🎃个人专栏: 🐬 算法设计与分析:算法设计与分析_IT闫的博客-CSDN博客 🐳Java基础:Java基础_IT闫的博客-CSDN博客 🐋c语言:c语言_IT闫的博客-CSDN博客 🐟MySQL:数据结构_IT闫的博客-CSDN博客 🐠数据结构:​​​​​​数据结构_IT闫的博客-CSDN博客 💎C++:C++_IT闫的博客-CSDN博

    2024年02月03日
    浏览(46)
  • 【数据结构】——期末复习题题库(4)

    🎃个人专栏: 🐬 算法设计与分析:算法设计与分析_IT闫的博客-CSDN博客 🐳Java基础:Java基础_IT闫的博客-CSDN博客 🐋c语言:c语言_IT闫的博客-CSDN博客 🐟MySQL:数据结构_IT闫的博客-CSDN博客 🐠数据结构:​​​​​​数据结构_IT闫的博客-CSDN博客 💎C++:C++_IT闫的博客-CSDN博

    2024年02月02日
    浏览(47)
  • 数据结构复习题——选择题

    在数据结构中,从逻辑上可以把数据结构分成( )。 A.动态结构和静态结构 B.紧凑结构和非紧凑结构 C.线性结构和非线性结构 D.内部结构和外部结构 与数据元素本身的形式、内容、相对位置、个数无关的是数据的( )。 A.存储结构 B.存储实现 C.逻辑结构 D.运算实现 通常要求

    2024年02月02日
    浏览(37)
  • 利用Python进行数据分析期末复习题

    一、选择题          二、填空题 三、判断题 四、代码分析题 五、程序题 1.sum(range(0,101)的结果是( ) A.5050      B.5151       C.0        D.101 A 2.下面哪个不是python合法的标识符() A.int32     B.70XL       C.self        D.__name__ B 3.’abcabcabc’.count(‘abc’)的值为() A.

    2024年02月04日
    浏览(48)
  • 数据结构复习题——填空题与程序填空题

    填空题 算法效率的比较 假设为解决某问题而设计的若干算法的时间复杂度分别为: A) O ( n ) B) O ( n 2) C) O (log2 n ) D) O ( n log2 n ) E) O (2 n ) F) O (√ n ) G) O ( n !) H) O (1) I) O ( n√n ) J) O ( n^n ) 这些算法按效率由高到低的顺序是 HCFADIBEGJ 基本术语 算法 是对特定问题求解步骤的一种描述

    2024年02月03日
    浏览(30)
  • 阿里云大数据ACA及ACP复习题(121~140)

    121.数据清洗(Data Cleaning)是用于检测和纠正(或删除)记录集,表或数据库中的不准确或损坏的记录。下列选项中,对数据清洗描述正确的是(ABC) A:数据清洗可以检测表中的不准确或损坏的记录 B:数据清洗可以识别不正确,不完整,不相关,不准确或其他有问题(“脏”)的数据

    2024年01月18日
    浏览(31)
  • 数据库系统概述——第六章 关系数据理论(知识点复习+练习题)

    🌟 博主: 命运之光 🦄 专栏: 离散数学考前复习(知识点+题) 🍓 专栏: 概率论期末速成(一套卷) 🐳 专栏: 数字电路考前复习 🦚 专栏: 数据库系统概述 ☀️ 博主的其他文章: 点击进入博主的主页​​​​​ 前言: 身为大学生考前复习一定十分痛苦,你有没有过

    2024年02月09日
    浏览(38)
  • 数据库系统概述——第一章 绪论(知识点复习+练习题)

    ✨ 博主: 命运之光 🦄 专栏: 离散数学考前复习(知识点+题) 🍓 专栏: 概率论期末速成(一套卷) 🐳 专栏: 数字电路考前复习 🦚 专栏: 数据库系统概述 ✨ 博主的其他文章: 点击进入博主的主页​​​​​ 前言: 身为大学生考前复习一定十分痛苦,你有没有过以

    2024年02月09日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包