第9章 大数据处理习题
9.1 选择题
1、在数据预处理阶段,数据合并到一致的存储介质中,使得数据挖掘更有效、挖掘模式更易理解,这一过程是( B )。
A. 数据清洗 B. 数据集成 C. 数据归约 D.数据转换
2、以下( B )不是数据归约策略。
A. 属性子集的选择 B. 属性构造 C. 实例规约 D. 属性值的规约
3、数据转换包括以下的( A )策略。
A.合计处理 B.平滑处理 C.规格化处理 D.以上全是
4、目前机器学习的首要步骤一般是( C )。
A. 模型训练 B. 交叉验证 C. 特征提取 D. 数据可视化
5、下面哪一项不是监督学习算法( B )。
A.K最近邻算法 B.DBSCAN算法 C.决策树算法 D.逻辑回归算法
6、下列属于数据处理任务的是( D )。
A.分类 B.聚类 C.关联分析 D.以上全是
7、支持向量机SVM常常用来进行( C )。
A.处理数据 B.聚类 C.分类 D.关联分析
8、以下( A )在神经网络中引入了非线性。
A.修正线性单元(ReLU)B.随机梯度下降 C.卷积函数 D.以上都不是
9、神经网络中过拟合问题的处理方法包括以下的( A )。
A.正则化 B.随机失活 C.池化函数 D.A和B
10、集成学习方法不包括以下的( C )。
A.Boosting B.Stacking C.Dropout D.Bagging
11、批归一化层的目的是( C )。
A.它将权重的归一化平均值和标准差
B.减少神经元的输出
C.让每一层的输入的范围都大致固定
D.使得反向传播(BP)有效
12、下面( B )不是数据清洗方法。
A.缺失值处理 B.泛化处理 C.离群点检测 D.冗余数据处理
13、聚类过程的要求包括( D )。
A.可扩展性
B.可进行基于约束的聚类
C.对输入数据不敏感
D.以上全是
14、对分布式处理架构的描述不正确的是( D )。
A.多个节点并行工作
B.数据处理效率高
C.每个节点负责一部分任务
D.存在唯一的中心节点
15、对激活函数Sigmoid的描述不正确的是( D )。
A.可用于二分类问题
B.容易造成梯度消失
C.可以减少网络计算量
D.是一条非线性曲线
9.2 填空题
1、Apriori算法的核心步骤是( 连接步 )和( 剪枝步 )。
2、机器学习的特征选择方法包括( 过滤器方法 )、( 包装器方法 )和( 嵌入式方法 )等。
3、目前大数据处理架构一般分为( 集中式处理架构 )和( 分布式处理架构 )两种。
4、人工神经网络中,当数量众多的神经元全部连接起来后,可呈现网络状,如果各个神经元之间无环,则被称为( 多层前馈 )神经网络。
5、神经网络中的池化方法包括( 最大池化 )和( 平均池化 )。
9.3 简答题
1、请简述数据预处理的目的及典型的几种类型。
答:
数据预处理目的是为数据挖掘模块提供准确、有效、具有针对性的数据,提高数据挖掘与知识发现的效率。
数据预处理方法包括:数据清洗,删除重复数据、纠正数据中存在的错误,并使数据保持一致性;数据集成,将存储在不同存储介质中的数据合并到一致的存储介质中;数据转换,将数据从一种表示形式转换为另一种表现形式;数据归约,在尽可能保持数据原貌的前提下,最大限度地精简数据量。
2、分别简述数据挖掘算法中的监督学习和无监督学习的含义,并列举各自包含的几种典型方法。
答:
监督学习:通过已有的训练样本训练得到一个最优模型,通过模型对未知数据进行分类。主要包括K最近邻算法、决策树、线性回归、逻辑回归等方法。
无监督学习:没有任何训练样本,直接对数据进行建模。主要包括K-Means算法、DBSCAN算法、Apriori算法、FP-growth算法等。
3、请描述卷积神经网络中卷积层和池化层的作用。
答:
卷积层:由数量不定的卷积核加上偏置项(Bias)组成。本质上是个权值矩阵,矩阵中的值是稀疏的。它主要进行局部特征提取,通过卷积核与上一层输出的特征完成点积和累加操作,得到特征矩阵,也称为特征图(Feature Map)。卷积层的所有卷积核在进行特征提取的过程中,其参数值,也就是权值矩阵的值是固定且共享的。
池化层:在构建一个完整的卷积神经网络时的作用仅次于卷积层,具有缩小特征图的作用,由于其不含参数,因此比卷积层中进行的采样更高效。
4、简述机器学习中进行特征选择的原因和目标。
答:
特征选择指选择出适合模型算法的最优特征子集来提升模型的性能。机器学习中进行特征选择的原因是:当数据维度达到一定水平时,将所有特征放入算法中将会带来维度灾难。
特征选择的目标是:1)提高模型的泛化能力,避免过拟合并,降低误差。2)减少特征数量,提高计算效率,提供更快的、具有成本效益的模型。3)筛选出不相关特征,降低模型的学习难度,前提是对特征本身有更深入的了解。
5、请简述分布式大数据处理架构及其优点,并列举出几个著名的分布式大数据开源平台。
答:
分布式处理架构是先将一组节点连接起来形成系统,然后将需要处理的大批量数据分布在多个节点上,由多个节点去执行,通过分布式并行处理提高处理效率,最后合并计算得出最终结果。优点主要有:1)可以平衡负载和共享资源。2)降低大数据处理的成本。3)支持大数据在更多场景下的应用。
目前基于服务器集群的分布式大数据平台:Hadoop、Spark、Storm、Samza、Flink等。
9.4 解答题
1、数据挖掘任务中分类一般分为几个步骤?请描述每个步骤的作用,并列举用于分类的典型数据挖掘算法,并回答交叉验证的方式是如何评价分类模型的。
答:
1)分类一般分为3个步骤,分别是构建模型、测试模型和使用模型。
构建模型主要是对每个样本进行类别标记,通过数据的训练集构成分类模型。测试模型主要是通过对比测试样本的识别类别与实际类别来评价模型正确性。使用模型主要是要利用模型来完成数据分类任务,输出最终的分类结果。
用于分类的数据挖掘算法:K最近邻算法、决策树算法。
2)以交叉验证的方式评价分类模型:①数组分组,将原始数组分成训练集和验证集;②模型训练,先用训练集对分类器进行训练,再利用验证集测试训练得到的模型作为评价分类器的性能指标。常见的交叉验证方式有Hold-out验证、K折叠交叉验证、留一验证等。
2、循环神经网络组成部分是什么?请画出按时间展开的前后结构图,并描述图中各个元素是如何进行运算的。
答:
1)循环神经网络主要由输入层、隐藏层和输出层组成。
按时间展开的前后结构图
2)由图可知,将循环神经网络的结构按照时间序列展开之前的X是输入层的值,S是隐藏层的值,O是当前节点的输出,U是输入层到隐藏层的权重矩阵,V是隐藏层到输出层的权重矩阵。循环层的作用是在隐藏层之间运算,隐藏层S的值不仅取决于输入层X的值,还取决于隐藏层上一个节点的值,所以W就是隐藏层上一个节点的值输入当前隐藏层节点的权重矩阵。文章来源:https://www.toymoban.com/news/detail-493787.html
展开后,以循环神经网络在t时刻为例,当前的输入是Xt,隐藏层输出的值是St,输出值是Ot。St的值不仅取决于输入值,还取决于t-1时刻隐藏层输出的值。当前时刻输出值Ot由St的内容计算得出。文章来源地址https://www.toymoban.com/news/detail-493787.html
到了这里,关于云计算与大数据第9章 大数据处理习题带答案的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!