机器学习——数据仓库与数据挖掘复习(选择题、判断题)

这篇具有很好参考价值的文章主要介绍了机器学习——数据仓库与数据挖掘复习(选择题、判断题)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 以下不是分类问题的是( B )。

A. 用户流失模型 B. 身高和体重关系 C. 信用评分 D. 营销响应

2. 对于回归分析,下列说法错误的是( D

A. 在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定

B. 线性相关系数可以是正的,也可以是负的

C. 回归分析中,如果r^2 = 1,说明x与y之间完全相关

D. 样本相关系数r在区间(-1,1)

3. 数据分类是一个两阶段过程,包括( B )和分类阶段。

A. 分析阶段  B. 学习阶段  C. 预测阶段  D. 实验阶段

4. 线性判别分析是一种( A )的方法。

A. 降维  B. 升维  C. 二分类  D. 多分类

5. 我们想在大数据集上训练决策树,为了使用较少时间,可以( C )。

A. 增加树的深度  B. 增加学习率  C. 减少树的深度  D. 减少树的数量

6. 决策树分类器的构造不需要任何领域知识或参数设置,因此适合于( D )。

A. 实验式知识发现  B. 分析式知识发现  C. 创新式知识发现  D. 探索式知识发现

7. 在决策树创建时,由于数据中的( C ),许多分枝反映的是训练数据中的异常。

A. 鼓声  B. 内部节点  C. 离群点  D. 离散点

8. 决策树中不包含一下哪种结点( C

A. 根结点  B. 内部结点C. 外部结点(external node)D. 叶结点(leaf node)

9. 决策树容易转换成( A

A. 分类规则 B. 分类阶段 C. 类预测 D. 数据

10. 以下属于关联分析的是( B )。

A. CPU性能预测 B. 购物篮分析 C. 自动判断鸢尾花类别 D. 股票趋势建模

11.  当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(   B  )

A. 分类  B. 聚类  C. 关联分析   D. 隐马尔可夫链

12. 关于K均值和DBSCAN的比较,以下说法不正确的是( A )。  

A. K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。

B. K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。

C. K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。 

D. K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇

13. 以下两种描述分别对应哪两种对分类算法的评价标准?(  A  )

  (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

  (b)描述有多少比例的小偷给警察抓了的标准。

A. Precision,  Recall B. Recall,  Precision C. Precision,  ROC D.  Recall,  ROC

14. 下列哪个描述是正确的。( C )

A. 分类和聚类都是有监督的学习  B. 分类和聚类都是无监督的学习

C. 分类是有监督的学习,聚类是无监督的学习

D. 分类是无监督的学习,聚类是有监督的学习

15. 根据信息增益来构造决策树的算法是( A

A. ID3决策树     B. 递归     C. 归约     D. FIFO

16. 变量之间的关系可以分为两大类( A

A. 函数关系与相关关系         B. 线性相关关系和非线性相关关系

C. 正相关关系和负相关关系     D. 简单相关关系和复杂相关关系

17. 对于C4.5算法说法不正确的是( D )。

A. 可以处理连续型属性         B. 可以处理属性值空缺情况

C. 采用基于信息增益率作为选择分裂属性的度量标准

D. 产生的决策树是二叉树

二. 多选题

1. 数据挖掘的对象包含( ABCD

A. 关系数据库  B. 文本  C. 图象与视频数据  D. Web数据

2. 数据挖掘的数据准备阶段的主要工作包含( ABCDE )。

A.消除噪声 B.推导计算缺值数据 C.消除重复记录D. 数据转换E.消减数据维数或降维

3. 数据挖掘的任务包含( ABCDE

A. 关联分析  B. 时序模式分析  C. 聚类  D. 分类  E. 偏差检测 

4. 回归分析中按照自变量和因变量的关系类型可以分为?( AB )

A. 线性回归分析  B. 非线性回归分析  C. 一元回归分析  D. 多元回归分析

5. 常见的距离度量方法包括( ABCD

A. 欧氏距离  B. 汉明距离  C. 曼哈顿距离  D. 切比雪夫距离

6.AB )是预测问题的两种主要类型。

A. 分类  B. 数值预测  C. 分类规则  D. 分类类型

7. 线性模型的优点包括?( ABCD

A. 形式简单、易于建模    B. 可解释性    C. 引入层级结构或高维映射

D. 线性模型中系数直观表达了各属性在预测中的重要性

8. 当在一个决策树中划分一个节点时,以下关于“信息增益”的论述正确的是( BC

A. 较不纯的节点需要更多的信息来描述总体。 B. 信息增益可以通过熵来推导。

C. 信息增益偏向于选择大量值的属性。   D. C4.5算法是根据信息增益来建树。

9. 下面的决策树中,不能解决回归问题的是?( ABC )

A. ID3   B. C4.5   C. C5.0   D. CART

10. 以下哪项关于决策树的说法是正确的( BCD

A. 冗余属性会对决策树的准确率造成不利的影响。  B. 子树可能在决策树中重复多次。

C. 决策树算法对于噪声的干扰不是很敏感。  D. 寻找最佳决策树是NP完全问题。

11. 下列关于决策树的说法正确的是?( ABCD )

A. ID3决策树是根据信息增益来划分属性  B. C4.5决策树是根据增益率来划分属性

C. CART决策树是根据基尼指数来划分属性

D. 基尼指数反映了从样本集D中随机抽取两个样本,其类别标记不一致的概率,因此越小越好

12. 决策树中属性选择的方法有?( BCD

A. 信息值  B. 信息增益  C. 信息增益率  D. GINI系数

13. 在决策树创建时,由于数据中的( BC ),许多分枝反映的是训练数据中的异常。

A. 鼓声 B. 噪声 C. 离群点 D. 离散点

14. 决策算法之间的差别包括在创建树时如何选择?( AB )

A. 属性     B. 用于剪枝的机制     C. 样本     D. 对象

15. 下列属于线性的降维方法有( AB

A. PCA    B. LDA    C. 局部线性嵌套(LLE)    D. 非负矩阵分解(NMF)

16. 特征选择的策略包括?( ABCD )

A. 穷举法    B. 前向选择    C. 后向选择    D. 双向选择

17. 回归分析中按照自变量和因变量的关系类型可以分为( AB

A. 线性回归分析 B. 非线性回归分析 C. 一元回归分析 D. 多元回归分析

18. 关于OLAP和OLTP的说法,下列不正确的是(  A )

A.  OLAP事务量大,但事务内容比较简单且重复率高.

B. OLAP的最终数据来源与OLTP不一样.

C.  OLTP面对的是决策人员和高层管理人员.

D. OLTP以应用为核心,是应用驱动的.

19. 数据清理技术的主要目的包括( ABC

A. 试图填充缺失的值     B. 光滑噪声并识别离群点

C. 纠正数据的不一致     D. 方便数据归约

20. 数据预处理方法包括(  ACD

A. 数据清理 B. 数据可视化 C. 数据变换 D. 数据归约

21. 噪声数据的产生原因主要有?( ABC )

A. 数据采集设备有问题      B. 在数据录入过程中发生了人为或计算机错误

C. 数据传输过程中发生错误  D. 由于命名规则或数据代码不同而引起的不一致

22. OLAP技术的核心是(   D   )

A. 在线性; B. 对用户的快速响应; C. 互操作性. D. 多维分析;

23. 数据清理的基本内容包括( ABCDEFG

A. 尽可能复印属性名和属性值明确的含义  B. 统一多数据源的属性值编码

C. 去除无用的唯一属性或键值  D. 去除重复属性  E. 去除可以忽略的属性

F. 合理选择关联字段  G. 去掉数据中的噪声,填充空值,丢失值和处理不一致的数据

24. 接收者操作特征曲线(Receiver Operating Characteristic Curve,ROC)是一种反映分类模型敏感性和特异性连续变量的综合,ROC的横坐标,纵坐标分别表示( A )

A. 假正例率(FPR),真正例率(TPR)  B. 真正例率(TPR),假正例率(FPR)

C. 假正例率(FPR),精度(Precision)  D. 精度(Precision),召回率(Recall)

25. 噪声数据的产生原因主要有?( ABC )

A. 数据采集设备有问题       B. 在数据录入过程中发生了人为或计算机错误

C. 数据传输过程中发生错误   D. 由于命名规则或数据代码不同而引起的不一致

26. 模型选择方法主要有(  AB )。

A. 正则化    B. 交叉验证   C. 组合选择    D. 梯度下降法

27. 通过数据挖掘过程所推导出的关系和摘要经常被称为( AB

A. 模型   B. 模式   C. 模范   D. 模具

28. 在谈到分类时,数据元组也称为?( ABCD )

A. 样本    B. 实例   C. 数据点   D. 对象

29. 解决分类问题的方法包括?( ABCD )

A. 决策树   B. 贝叶斯   C. 人工神经网络   D. 支持向量机

30. 下列关于聚类的结果说法正确的是( ABCD

A. 聚类的结果和初始中心的选择有关;

B. 聚类初始中心的选择可能使结果严重分离全局最优分类;

C. 为了得到较好的分类结果,通常以不同的初始聚类中心,多次运行K-Means算法。

D. 对于连续数据,聚类中心取该簇的均值。

31. 分类器的构造与评估需要把标记的数据集划分成训练集和检验集,典型方法包含( ABCD )。

A. 保持     B. 随机抽样     C. 交叉验证     D. 自助法

32. 噪声数据处理的方法主要有( ABD

A. 分箱   B. 聚类   C. 关联分析   D. 回归

33. 关于L1正则和L2正则 下面的说法正确的是( BD

A. L2范数可以防止过拟合,提升模型的泛化能力。但L1正则做不到这一点。

B. L2正则化标识各个参数的平方的和的开方值。

C. L2正则化有个名称叫“Lasso regularization”

D. L1范数会使权值稀疏。

34. K均值聚类分析在下面哪种情况下无法得出好的结果?( ABCD )

A. 具有异常值的数据点   B. 具有不同密度的数据点

C. 具有非环形的数据点   D. 具有非凹形的数据点

35. 交叉验证(Cross Validation)的主要方法( ABC )

A. 简单交叉验证             B. k-折交叉验证(k-fold Cross-Validation)

C. 留一交叉验证(Leave-one-out Cross Validation) D. 奥卡姆剃刀原理

36. 组合方法可以通过学习和组合一系列个体(基)分类器模型来提高总体准确率.主要的组合方法有( ABC )。

A. 装袋      B. 提升     C. 随机森林     D. 阈值移动

37. 数据挖掘的挖掘方法包括:( ABCD )

A. 聚类分析   B. 回归分析   C. 神经网络   D. 决策树算法

38. 评估分类器预测能力的度量包括( ABCDE )

A. 准确率   B. 灵敏度(又称为召回率)   C. 特效性  D. 精度  E. F1和Fβ

39. 以下属于分类器评价或比较尺度的有?( ACD )

A. 准确率   B. 召回率   C. 模型描述的简洁度   D. 计算复杂度

40. 特征选择可以?( ABC )

A. 选择区分能力强的数据   B. 降低模型分析的时间复杂度

C. 减少无效特征           D. 创建新的特征

41. 簇评估的主要任务是( ABCDE

A. 确定数据集的聚类趋势   B. 确定正确的簇个数

C. 不引用附加的信息,评估聚类分析结果对数据的拟合情况

D. 将聚类分析结果与已知的客观结果比较   E. 比较两个簇集,确定哪个更好

42. 数据预处理方法主要有?( ABCD )

A. 数据清洗   B. 数据集成   C. 数据变换   D. 数据归约

43. 以下属于聚类算法的有( AB ) 

A. K-Means    B. DBSCAN    C. Apriori     D. KNN

44. 对于数据挖掘中的原始数据,存在的问题有?( ABCD )

A. 不一致     B. 重复      C. 不完整   D. 含噪声

三. 判断题

1. 知识发现(KDD-Knowledge-Discovery in Databases)是从数据中发现有用知识的整个过程。数据挖掘(DM-Data Mining是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns)。()

4. 知识发现(KDD)包含数据准备、数据挖掘、结果评价三个阶段。()

6. 事务型数据库由文件组成,文件包括若干记录,每条记录代表一个事物,每个事物由一些项组成。()

9. 回归分析法即将具有相关关系的两个变量之间的数量关系进行测定,通过建立一个数学表达式进行统计估计和预测的研究。( 

10. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是是连续值。( 

11. 回归和分类都是有监督学习问题。(  )

13. 回归问题和分类问题都有可能发生过拟合。(  )

15. 一般来说,回归不用在分类问题上,但是也有特殊情况,比如logistic 回归可以用来解决0/1分类问题。( 

16. K-Means方法是基于划分的聚类方法;()

17. 回归和分类都是有监督学习问题。()

19. K-Means的计算性能瓶颈发生在距离的计算上。()

20. K均值聚类时,初始化不良会导致收敛速度差。()

22. DBSCAN方法是基于密度的聚类方法;()

24. 决策树可以用来执行聚类。 ()

25. K均值聚类时,K均值对簇中心初始化非常敏感。()

2. 事务型数据库就是关系型数据库。()

3. 聚类分析是一种有监督的学习方法。()

5. 知识发现的原始数据,可以是结构化的,如数据库中的数据; 也可以是半结构化的,如文本、图形和图像数据;但不能是异构型数据。()

7. 在聚类分析中,样本之间的相似性通常采用样本之间的距离来表示。当两个样本之间的距离为零时,表示两个样本完全不同。()

8. 回归方程总体线性显著性检验的原假设是模型中所有的回归参数同时为零。( 

12. 对回归问题和分类问题的评价 最常用的指标都是 准确率和召回率。( 

14. 输出变量为有限个离散变量的预测问题是回归问题;输出变量为连续变量的预测问题是分类问题( )

18. K-Means聚类分析使用目标字段,预测某一结果。()

21. 数据挖掘就是知识发现的过程。()                       数据库知识发现(KDD)中的一个步骤

23. 在聚类分析中,样本之间的相似性通常采用样本之间的距离来表示。当两个样本之间的距离为零时,表示两个样本完全不同。()文章来源地址https://www.toymoban.com/news/detail-460365.html

到了这里,关于机器学习——数据仓库与数据挖掘复习(选择题、判断题)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Python】数据挖掘与机器学习(一)

    大家好 我是寸铁👊 总结了一篇【Python】数据挖掘与机器学习(一)sparkles: 喜欢的小伙伴可以点点关注 💝 问题描述 请从一份数据中预测鲍鱼的年龄,数据集在abalone.cvs中,数据集一共有4177 个样本,每个样本有9个特征。其中rings为鲍鱼环数,鲍鱼每一年长一环,类似树轮,是

    2024年04月12日
    浏览(52)
  • ElasticSearch的数据挖掘与机器学习

    ElasticSearch是一个开源的搜索和分析引擎,它基于Lucene库构建,具有高性能、易用性和扩展性。ElasticSearch可以用于实时搜索、数据分析和机器学习等应用场景。本文将涵盖ElasticSearch的数据挖掘与机器学习方面的核心概念、算法原理、最佳实践以及实际应用场景。 在ElasticSear

    2024年02月22日
    浏览(57)
  • Python 数据挖掘与机器学习教程

    详情点击链接:Python 数据挖掘与机器学习 一: Python编程 Python编程入门 1、Python环境搭建( 下载、安装与版本选择)。 2、如何选择Python编辑器?(IDLE、Notepad++、PyCharm、Jupyter…) 3、Python基础(数据类型和变量、字符串和编码、list和tuple、条件判断、循环、函数的定义与调

    2024年02月16日
    浏览(56)
  • 机器学习和数据挖掘01- lasso regularization

    Lasso正则化是一种线性回归中的正则化技术,旨在减少模型的复杂性并防止过拟合。Lasso(Least Absolute Shrinkage and Selection Operator)通过在损失函数中添加正则项,促使模型的系数变得稀疏,即某些系数会被压缩到零,从而实现特征选择。 在Lasso正则化中,我们引入了一个惩罚项

    2024年02月09日
    浏览(51)
  • 机器学习算法在数据挖掘中的应用

    在数据挖掘的实践中,各种机器学习算法都扮演着重要的角色,它们能够从数据中学习规律和模式,并用于预测、分类、聚类等任务。以下是几种常见的机器学习算法以及它们在数据挖掘任务中的应用场景和优缺点。 1. 决策树(Decision Trees):    - 应用场景:决策树广泛应

    2024年03月17日
    浏览(54)
  • 机器学习和数据挖掘04-PowerTransformer与 MinMaxScaler

    PowerTransformer 是用于对数据进行幂变换(也称为Box-Cox变换)的预处理工具。幂变换可以使数据更接近正态分布,这有助于某些机器学习算法的性能提升。它支持两种常用的幂变换:Yeo-Johnson变换和Box-Cox变换。 MinMaxScaler 是用于将数据进行最小-最大缩放的预处理工具。它将数据

    2024年02月10日
    浏览(54)
  • 机器学习和数据挖掘03-模型性能评估指标

    概念:模型正确预测的样本数量与总样本数量的比例。 公式:Accuracy = (TP + TN) / (TP + TN + FP + FN) TP (True Positives):正确预测为正例的样本数。即模型正确地将正例判定为正例。 TN (True Negatives):正确预测为负例的样本数。即模型正确地将负例判定为负例。 FP (False Positives):错误

    2024年02月10日
    浏览(181)
  • 大数据和智能数据应用架构系列教程之:大数据挖掘与机器学习

    作者:禅与计算机程序设计艺术 随着互联网的普及、移动互联网的爆炸性增长以及电子商务的兴起,传统的基于数据库的数据分析已不能满足当前信息社会对海量数据的处理需求。如何有效地进行大数据分析已经成为众多行业面临的共同难题。而数据挖掘和机器学习(Machi

    2024年02月08日
    浏览(51)
  • 机器学习和数据挖掘02-Gaussian Naive Bayes

    贝叶斯定理: 贝叶斯定理是概率中的基本定理,描述了如何根据更多证据或信息更新假设的概率。在分类的上下文中,它用于计算给定特征集的类别的后验概率。 特征独立性假设: 高斯朴素贝叶斯中的“朴素”假设是,给定类别标签,特征之间是相互独立的。这个简化假设

    2024年02月10日
    浏览(54)
  • 基于数据挖掘机器学习的心脏病患者分类建模与分析

    首先,读取数据集,该数据集是UCI上的心脏病患者数据集,其中包含了 303 条患者信息,每一名患者有 13 个字段记录其基本信息(年龄、性别等)和身体健康信息(心率、血糖等),此外有一个类变量记录其是否患有心脏病。详细的字段信息可见 此处。 类别字段 target 有两

    2024年01月19日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包