云计算与大数据第9章 大数据处理习题带答案

这篇具有很好参考价值的文章主要介绍了云计算与大数据第9章 大数据处理习题带答案。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

第9章 大数据处理习题

9.1 选择题

1、在数据预处理阶段,数据合并到一致的存储介质中,使得数据挖掘更有效、挖掘模式更易理解,这一过程是(  B  )。

A. 数据清洗         B. 数据集成        C. 数据归约      D.数据转换

  

2、以下(  B  )不是数据归约策略。

A. 属性子集的选择   B. 属性构造         C. 实例规约    D. 属性值的规约

3、数据转换包括以下的(  A  )策略。

A.合计处理        B.平滑处理         C.规格化处理    D.以上全是

4、目前机器学习的首要步骤一般是(  C  )。

A. 模型训练             B. 交叉验证             C. 特征提取           D. 数据可视化

5、下面哪一项不是监督学习算法(  B  )。

A.K最近邻算法     B.DBSCAN算法     C.决策树算法    D.逻辑回归算法

6、下列属于数据处理任务的是(  D  )。

A.分类                    B.聚类             C.关联分析             D.以上全是

7、支持向量机SVM常常用来进行(  C  )。

A.处理数据                 B.聚类             C.分类               D.关联分析

8、以下(  A  )在神经网络中引入了非线性。

A.修正线性单元(ReLU)B.随机梯度下降    C.卷积函数     D.以上都不是

9、神经网络中过拟合问题的处理方法包括以下的(  A  )。

A.正则化                   B.随机失活          C.池化函数             D.A和B

10、集成学习方法不包括以下的(  C  )。

A.Boosting                 B.Stacking      C.Dropout                 D.Bagging

11、批归一化层的目的是(  C  )。

A.它将权重的归一化平均值和标准差    

B.减少神经元的输出      

C.让每一层的输入的范围都大致固定    

D.使得反向传播(BP)有效

12、下面(  B  )不是数据清洗方法。

A.缺失值处理            B.泛化处理      C.离群点检测                 D.冗余数据处理

13、聚类过程的要求包括(  D  )。

A.可扩展性       

B.可进行基于约束的聚类       

C.对输入数据不敏感              

D.以上全是

14、对分布式处理架构的描述不正确的是(  D  )。

A.多个节点并行工作       

B.数据处理效率高       

C.每个节点负责一部分任务                  

D.存在唯一的中心节点

15、对激活函数Sigmoid的描述不正确的是(  D  )。

A.可用于二分类问题       

B.容易造成梯度消失       

C.可以减少网络计算量                  

D.是一条非线性曲线

9.2 填空题

1、Apriori算法的核心步骤是(   连接步    )和(   剪枝步    )。

2、机器学习的特征选择方法包括(   过滤器方法    )、(   包装器方法   )和(   嵌入式方法   )等。

3、目前大数据处理架构一般分为(  集中式处理架构   )和(  分布式处理架构  )两种。

4、人工神经网络中,当数量众多的神经元全部连接起来后,可呈现网络状,如果各个神经元之间无环,则被称为(    多层前馈    )神经网络。

5、神经网络中的池化方法包括(    最大池化    )和(    平均池化    )。

9.3 简答题

1、请简述数据预处理的目的及典型的几种类型。

答:

数据预处理目的是为数据挖掘模块提供准确、有效、具有针对性的数据,提高数据挖掘与知识发现的效率。

数据预处理方法包括:数据清洗,删除重复数据、纠正数据中存在的错误,并使数据保持一致性;数据集成,将存储在不同存储介质中的数据合并到一致的存储介质中;数据转换,将数据从一种表示形式转换为另一种表现形式;数据归约,在尽可能保持数据原貌的前提下,最大限度地精简数据量。

2、分别简述数据挖掘算法中的监督学习和无监督学习的含义,并列举各自包含的几种典型方法。

答:

监督学习:通过已有的训练样本训练得到一个最优模型,通过模型对未知数据进行分类。主要包括K最近邻算法、决策树、线性回归、逻辑回归等方法。

无监督学习:没有任何训练样本,直接对数据进行建模。主要包括K-Means算法、DBSCAN算法、Apriori算法、FP-growth算法等。

3、请描述卷积神经网络中卷积层和池化层的作用。

答:

卷积层:由数量不定的卷积核加上偏置项(Bias)组成。本质上是个权值矩阵,矩阵中的值是稀疏的。它主要进行局部特征提取,通过卷积核与上一层输出的特征完成点积和累加操作,得到特征矩阵,也称为特征图(Feature Map)。卷积层的所有卷积核在进行特征提取的过程中,其参数值,也就是权值矩阵的值是固定且共享的。

池化层:在构建一个完整的卷积神经网络时的作用仅次于卷积层,具有缩小特征图的作用,由于其不含参数,因此比卷积层中进行的采样更高效。

4、简述机器学习中进行特征选择的原因和目标。

答:

特征选择指选择出适合模型算法的最优特征子集来提升模型的性能。机器学习中进行特征选择的原因是:当数据维度达到一定水平时,将所有特征放入算法中将会带来维度灾难。

特征选择的目标是:1)提高模型的泛化能力,避免过拟合并,降低误差。2)减少特征数量,提高计算效率,提供更快的、具有成本效益的模型。3)筛选出不相关特征,降低模型的学习难度,前提是对特征本身有更深入的了解。

5、请简述分布式大数据处理架构及其优点,并列举出几个著名的分布式大数据开源平台。

答:

分布式处理架构是先将一组节点连接起来形成系统,然后将需要处理的大批量数据分布在多个节点上,由多个节点去执行,通过分布式并行处理提高处理效率,最后合并计算得出最终结果。优点主要有:1)可以平衡负载和共享资源。2)降低大数据处理的成本。3)支持大数据在更多场景下的应用。

目前基于服务器集群的分布式大数据平台:Hadoop、Spark、Storm、Samza、Flink等。

9.4 解答题

1、数据挖掘任务中分类一般分为几个步骤?请描述每个步骤的作用,并列举用于分类的典型数据挖掘算法,并回答交叉验证的方式是如何评价分类模型的。

答:

       1)分类一般分为3个步骤,分别是构建模型、测试模型和使用模型。

       构建模型主要是对每个样本进行类别标记,通过数据的训练集构成分类模型。测试模型主要是通过对比测试样本的识别类别与实际类别来评价模型正确性。使用模型主要是要利用模型来完成数据分类任务,输出最终的分类结果。

用于分类的数据挖掘算法:K最近邻算法、决策树算法。

2)以交叉验证的方式评价分类模型:①数组分组,将原始数组分成训练集和验证集;②模型训练,先用训练集对分类器进行训练,再利用验证集测试训练得到的模型作为评价分类器的性能指标。常见的交叉验证方式有Hold-out验证、K折叠交叉验证、留一验证等。

2、循环神经网络组成部分是什么?请画出按时间展开的前后结构图,并描述图中各个元素是如何进行运算的。

答:

       1)循环神经网络主要由输入层、隐藏层和输出层组成。

      

按时间展开的前后结构图

2)由图可知,将循环神经网络的结构按照时间序列展开之前的X是输入层的值,S是隐藏层的值,O是当前节点的输出,U是输入层到隐藏层的权重矩阵,V是隐藏层到输出层的权重矩阵。循环层的作用是在隐藏层之间运算,隐藏层S的值不仅取决于输入层X的值,还取决于隐藏层上一个节点的值,所以W就是隐藏层上一个节点的值输入当前隐藏层节点的权重矩阵。

展开后,以循环神经网络在t时刻为例,当前的输入是Xt,隐藏层输出的值是St,输出值是OtSt的值不仅取决于输入值,还取决于t-1时刻隐藏层输出的值。当前时刻输出值OtSt的内容计算得出。文章来源地址https://www.toymoban.com/news/detail-493787.html

到了这里,关于云计算与大数据第9章 大数据处理习题带答案的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 云计算与大数据第8章 大数据采集习题及答案

    1、数据采集的数据对象类型包括(  D  )。 A. 结构化数据      B. 半结构化数据     C. 非结构化数据      D. 以上都是 2、数据采集的主要性能要求不包括以下的(  B  )。 A. 全面性          B. 安全性           C. 多维性            D. 高效性 3、大数据

    2024年02月02日
    浏览(37)
  • 云计算与大数据第7章 大数据概览练习题及答案

    1、下列说法错误的是(  B  )。 A. 数据是指对客观事件进行记录并可以鉴别的符号     B. 信息是数据的表现形式和载体 C. 数据只有在传递的过程中才能够被称为信息 D. 信息的时效性对于信息的使用和传递具有重要的意义 2、从数据的表现形式看,大数据的主要典型特征有

    2024年02月02日
    浏览(37)
  • 云计算与大数据第11章 大数据隐私保护习题带答案

    1、以下(  D  )通常不是导致数据隐私泄露问题的来源。 A.  数据被肆意收集   B. 数据集成融合   C. 大数据分析   D. DDOS攻击 2、以下(  C  )不是数据隐私保护的主要目标。 A.  机密性   B. 完整性   C. 合理性   D. 可用性 3、发布数据时将隐私数据中的显式标识符删

    2024年02月13日
    浏览(42)
  • 云计算与大数据第三章 云存储练习题及答案

    1、SAN是一种(B)。 A. 存储设备                            B. 专为数据存储而设计和构建的存储网络系统 C. 光纤交换机                        D. HBA 2、在GFS中,客户端可以并行访问多个(C),提高了系统的整体性能。 A. 客户端               

    2024年02月03日
    浏览(44)
  • 云计算与大数据处理:实时计算与数据流

    云计算和大数据处理是当今信息技术领域的两个热门话题。随着互联网的普及和人们生活中的各种设备的不断增多,我们生活中的数据量不断增加,这些数据需要存储和处理。云计算是一种基于互联网的计算资源共享和分配模式,可以让用户在需要时轻松获取计算资源,从而

    2024年04月13日
    浏览(45)
  • 云计算与大数据处理:数据驱动的决策

    随着互联网的普及和数据的迅速增长,大数据技术已经成为企业和组织的核心竞争力。大数据处理技术涉及到海量数据的收集、存储、处理和分析,以支持企业的决策和优化。云计算是大数据处理的重要技术之一,它为大数据处理提供了高性能、高可扩展性和高可靠性的计算

    2024年04月12日
    浏览(35)
  • 云计算与大数据处理:多云策略与集成

    云计算和大数据处理是当今信息技术领域的两个热门话题。云计算是指通过互联网提供计算资源、存储资源和应用软件等服务,实现资源共享和灵活伸缩。大数据处理是指对海量、多源、多类型的数据进行存储、清洗、分析和挖掘,以获取有价值的信息和知识。 随着云计算和

    2024年04月11日
    浏览(38)
  • 基于Hadoop的云计算与大数据处理技术

    一、实验目的 1.了解Scala语言的基本语法 2.了解Spark Scala开发的原理 3.了解Spark Java API的使用 4.了解Spark的Scala API及Java API对数据处理的不同点 二、实验内容  某电商网站记录了大量用户对商品的收藏数据,并将数据存储在名为buyer_favorite1的文件中,数据格式以及数据内容如下

    2024年02月04日
    浏览(39)
  • 云计算与大数据处理:面向未来的技术路线

    随着互联网的普及和人们对信息的需求不断增加,数据的产生和存储量也随之增长呈指数级增长。大数据技术是应对这种数据爆炸的一种解决方案,它涉及到的领域非常广泛,包括数据存储、数据处理、数据挖掘、数据分析等。云计算是一种基于互联网的计算资源分配和管理

    2024年04月09日
    浏览(43)
  • 【软考数据库】第十三章 云计算与大数据处理

    目录 13.1 云计算 13.1.1 云计算的关键特征 13.1.2 云计算分类 13.1.3 云关键技术 13.1.4 云计算的安全 13.1.5 云安全实施的步骤 13.2 大数据  前言: 笔记来自《文老师软考数据库》教材精讲,精讲视频在b站,某宝都可以找到,个人感觉通俗易懂。 13.1.1 云计算的关键特征 云计算是与

    2024年01月23日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包