机器学习基础知识点题库

这篇具有很好参考价值的文章主要介绍了机器学习基础知识点题库。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

机器学习基础知识测试 知识点题库

(一)1-21 基本概念、分类模型、线性回归模型、线性分类模型

(二)22-37   SVM、K近邻分类、决策树、集成学习、回归模型

(三)38-65  无监督学习、聚类、朴素贝叶斯算法、特征降维、特征抽取、特征筛选

(一)

1、人工智能、机器学习、深度学习的区别与联系

人工智能:让机器展现出人类智力,能够感知、推理、行动、和适应的程序

机器学习:抵达AI目标的一条路径,能够随着数据量的增加不断改进性能的算法

       深度学习:实现机器学习的技术,机器学习的一个子集,利用多层神经网络从大量数据中进行学习

三者之间是相互包含的关系:人工智能涵盖范围最广,它包含了机器学习;而机器学习是人工智能的重要研究内容,它又包含了深度学习

机器学习基础知识点题库

 

2、机器学习的基本概念

机器学习主要是研究如何使计算机从给定的数据中学习规律,即从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或无法观测的数据进行预测。

机器学习是不需要确定性编程就可以赋予机器某项技能的研究领域

3、监督学习的基本概念

有监督学习:是利用一组已知输入x和输出y的数据来学习模型的参数,使得模型预测的输出标记和真实标记尽可能的一致。

无监督学习:无监督学习是用来学习的数据不包含输出目标,需要学习算法自动学习到一些有价值的信息

4、分类的基本概念

分类(Classification)如果输出y是离散的类别标记(符号),就是分类问题。在分类问题中,通过学习得到的决策函数f (x,θ )也叫分类器

5、回归的基本概念

回归(Regression)如果输出y是连续值(实数或连续整数),f (x)的输出也是连续值。这种类型的问题就是回归问题。对于所有已知或未知的(x, y),使得f (x,θ )和y尽可能地一致

6、什么是训练集和测试集

训练集:作用是用来拟合模型,通过设置分类器的参数,训练分类模型

测试集:得出最优模型后,使用测试集进行模型预测,用来衡量该最优模型的性能和分类能力。1/5~1/3样本作为测试集

7、什么是线性分类器

线性分类器(Linear Classifiers),是一种假设特征与分类结果存在线性关系的模型。这个模型通过累加计算每个维度的特征与各自权重的乘积来帮助类别决策。

8、Logistic 回归模型的定义

是一个分类算法,它可以处理二元分类以及多元分类。首先逻辑回归构造广义的线性回归函数,然后使用sigmoid函数将回归值映射到离散类别

9、Sigmoid函数的函数原型和取值范围是什么?

函数原型:机器学习基础知识点题库

 

取值范围:(0,1)

10、 SGD的含义及解释

SGD:随机梯度下降

随机梯度下降(SGD)是一种用于在线性分类器下的线性分类器的判别学习方法

梯度下降的每一步中,用到一个样本,在每一次计算之后便更新参数,而不需要首先将所有的训练集求和

11、关于分类模型的性能评价指标有哪四个?

线性分类器•支持向量机•朴素贝叶斯•决策树

12、分类模型的准确性指标(Accuracy)、F1指标分别是如何定义的?

Accuracy:计算了分类正确的预测数与总预测数的比值

机器学习基础知识点题库

 

F1指标:机器学习综合考虑精确率和召回率的性能度量指标

机器学习基础知识点题库

 

13、分类模型的精确率指标(Precision)、召回率(Recall)分别是如何定义的?

精确率Precision=TP/(TP+FP)预测为正的样本中有多少是预测正确的

机器学习基础知识点题库

 

召回率Recall=TP/(TP+FN):样本中的正例有多少被预测正确了

机器学习基础知识点题库

 

14、简述梯度下降方法中学习率的含义

α表示学习率(步长),学习率决定了每次迭代下降的距离多少。过小的学习率,则会导致训练时间过长,收敛慢;而过大的学习率则会导致训练震荡,而且有可能跳过极小值点,导致发散

15、线性分类器常用的损失函数是?

常用的损失函数包括:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等

16、简述机器学习的一般过程

机器学习基础知识点题库

 机器学习基础知识点题库

 

17、机器学习中的线性模型可以用数学公式表达为:

机器学习基础知识点题库

 

18、简述线性回归的算法流程

1)初始化权重w和截距b来构建最初的模型。

2)使用这个模型来计算代价函数的代价值(即误差之和)

3)对代价函数求偏导值

19、简述使用逻辑斯特回归模型进行分类的算法流程

  1. 确定输入变量和目标变量之间的模型
  2. 确定代价函数形式
  3. 训练算法找到回归系数
  4. 使用算法进行数据预测

20、线性回归模型的损失函数是如何定义的

为了衡量算法在全部训练样本上的表现如何,我们需要定义一个算法的代价函数,算法的代价函数是对m个样本的损失函数求和然后除以m

21、试解释在分类器评价指标中PR图、BEP的含义

PR曲线是准确率和召回率的点连成的线

BEP:平衡点

22、支持向量机分类具有什么特点(优点)?同时说明其缺点。

优点:模型精妙、节省了模型学习的内存、提高了模型预测的性能

缺点:预处理数据和调参都需要非常小心

23、说明K近邻分类模型的基本原理(算法思路)。

1、如果一个样本在特征空间中与k个实例最为相似(即特征空间中最邻近),那么这k个实例中大多数属于哪个类别,则该样本也属于这个类别。

2、对于分类问题:对新的样本,根据其k个最近邻的训练样本的类别,通过多数表决等方式进行预测。

3、对于回归问题:对新的样本,根据其k个最近邻的训练样本标签值的均值作为预测值。

24、在机器学习分类模型中,哪些是针对线性模型,

线性模型:感知机,LDA,逻辑斯蒂回归,SVM(线性核)。

哪些是针对非线性模型(每种回答出至少两个)

非线性模型:朴素贝叶斯,KNN,决策树,SVM(非线性核)

25、决策树适合应用于什么问题的分类?

1、具有决策者期望达到的明确目标;

2、存在决策者可以选择的两个以上的可行备选方案;

3、存在着决策者无法控制的两种以上的自然状态

4、不同行动方案在不同自然状态下的收益值或损失值可以计算出来;

5、决策者能估计出不同的自然状态发生概率。

26、决策树具有什么优点?(至少回答出两条)

决策树是一个白盒模型,易于理解和实现。

数据准备比较简单,能够同时处理数据型和常规型属性

27、根据不同的目标函数,建立决策树主要有哪三种算法?他们特征选择的依据是什么?

机器学习基础知识点题库

 

28、回归模型的评价指标包括哪几个?

MSE(均方误差),RMSE(均方根误差),MAE(平均绝对误差)、R-Squared

29、回归模型的均方误差、平均绝对误差评价指标分别的含义是什么?

均方误差:该统计参数是预测数据和原始数据对应点误差的平方和的均值

平均绝对误差:是MSE的平方根

30、回归模型的R-square(确定系数)评价指标的含义是什么?

R -square越接近1,越好.确定系数”的正常取值范围为[0 1],越接近1,表明方程的变量对y的解释能力越强,这个模型对数据拟合的也较好

31、支持向量机回归中核函数的作用是什么?

核函数:它可以将样本从原始空间映射到一个更高维的特质空间中,使得样本在新的空间中线性可分

32、在svm分类模型中,什么是支持向量?什么是最大边缘超平面。

支持向量:他们就是离分界线最近的向量。也就是说超平面的参数完全由支持向量确定

最大边缘超平面:需要设计具有最大化决策边界边缘的线性分类器,以保证最坏情况下的泛化误差最小

33、支持向量机中常用的核函数有哪些

机器学习基础知识点题库

 

34、简述决策树的生成步骤

机器学习基础知识点题库

 

35、简述几种基于决策树的集成模型

Random Forest(随机森林)是 Bagging的扩展变体,它在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机特征选择

GBDT ( Gradient Boosting Decision Tree)是一种迭代的决策树算法,该算法由多棵决策树组成,GBDT的核心在于累加所有树的结果作为最终结果,所以GBDT中的树都是回归树,不是分类树,它是属于Boosting 策略。

36、什么是集成学习模型?包含哪些典型的算法?

集成学习方法是将几种机器学习技术 组合 成一个预测模型的元算法,以达到减小方差(bagging)、偏差(boosting)或改进预测(stacking)的效果

目前常见的集成学习算法主要有2种:基于Bagging的算法和基于Boosting的算法,基于Bagging的代表算法有随机森林,而基于Boosting的代表算法则有Adaboost、GBDT、XGBOOST等。

37、随机森林的生成规则

  1. 从样本集中通过重采样的方式产生n个样本。
  2. 建设样本特征数目为a,对n个样本选择a中的k个特征,用建立决策树的方式获得最佳分割点。
  3. 重复m次,产生m棵决策树。
  4. 多数投票机制进行预测。

(三)

38、什么是无监督学习?

聚类,主成分分析

39、 K均值聚类算法的核心思想是什么?

通过迭代的方法寻找K个簇的一种划分方案,使得聚类结果对应的代价函数最小,特别地,代价函数可以定义为各个样本距离所属簇中心点的误差平方和

40、K均值聚类算法的迭代停止条件是什么?

1)预先设置好迭代的轮数,一旦超过了迭代的最大轮数则停止迭代;

2)在某次循环中,没有数据点被重新分配到其他的簇,也就是算法已经收敛,则算法结束迭代;

3)某次循环,质心的位置没有发生改变,也是算法发生了收敛,则算法结束迭代;

4)某次循环,均方误差 SSE 递减的增量,小于预先设置的某个阈值,也就是这一次的迭代对聚类结果影响非常小,算法已经趋近于收敛,则算法结束迭代。

41、聚类算法的性能评价指标包含哪两个?

轮廓系数,调整兰德系数

42、聚类算法的ARI性能评价指标的含义是什么?

ARI取值范围为[一1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。与分类问题的准确性指标类似。

43、聚类算法的轮廓系数评价指标的含义是什么?

轮廓系数s(i)值越接近1表示样本i聚类越合理,越接近-1,表示样本i应该分类到另外的簇中,近似为0,表示样本i应该在边界上;所有样本的s(i)的均值被成为聚类结果的轮廓系数。

44、 K均值聚类算法的优缺点?(优缺点分别至少回答出两条)

优点:

原理简单,实现容易、收敛速度快

对大数据集有比较好的伸缩性

缺点:

>只适合于数值属性数据

>需要给出聚类数量K

>对异常值敏感

>对初始值敏感(算法收敛速度和结果受初始质心影响)

45、特征降维的目的

高维数据增加了运算的难度

高维使得学习算法的泛化能力变弱,维度越高,算法的搜索难度和成本就越大。

降维能够增加数据的可读性,利于发掘数据的有意义的结构

46、什么是维度灾难

通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。

47、说明主成分分析(PCA)的基本原理。

PCA的思想很简单——减少数据集的特征数量,同时尽可能地保留信息。

48、朴素贝叶斯分类模型的基本数学假设

机器学习基础知识点题库

 

49、朴素贝叶斯分类模型的应用场合

海量互联网文本分类      人脸识别,电子邮件是否是垃圾,

50、什么是特征抽取

将原始数据转化为特征向量的形式

51、在文本特征向量化中,常用的文本特征表示方法是

词袋法  ,其含义是将字词表示成一个向量,该向量的维度是词典(或字典)的长度

52、什么是特征筛选

在已有的特征中,筛选出最具有代表的一部分特征来进行接下来的学习

53、为什么要做特征筛选

删除冗余数据、筛选出对结果有意义的因子

54、特征筛选与PCA区别是什么

对于PCA而言,我们经常无法解释重建后的特征;但是特征筛选不存在对特征值的修改,而更加侧重于寻找那些对模型的性能提升较大的少量特征。

55、特征筛选的流程

第一步:不进行特征筛选,训练模型得出score 第二步:按等步长筛选特征,训练模型得出score 第三步:选择score最高的特征组合

56、举几个文本处理中的“停用词”

常见的停用词包括代词、介词、连词、冠词等。另外,在英文中还有一些高频词如 "the" "and" "a"

57、简述  交叉验证的含义

就是重复的使用数据,把得到的样本数据进行切分,组合成不同的训练集和测试集,用训练集训练模型,用测试机来评估模型预测的好坏

58、主成分分析的算法步骤

1 均值归一化

2 计算协方差矩阵

3 求协方差矩阵的特征值和特征向量

4 对特征值从大到小排序选最大的K个组成特征向量矩阵P

5 将数据转换到K个特征向量构建的新空间中

59、简述朴素贝叶斯分类中的加法平滑(拉普拉斯平滑)

是一种用于平滑分类数据的技术,解决零概率问题,概率分子分母都+机器学习基础知识点题库通常为1

 

60、简述词频统计的方法含义

只考虑每种词汇在该条训练文本中出现的频率

61、简述逆向文件频率统计的方法含义

对于某个单词,凡是出现了该单词的文档数,占了全部文档的比例,求倒数,再求自然对数。

62、简述朴素贝叶斯分类模型的优缺点

优点:

一、有着坚实的数学基础,以及稳定的分类效率。

二、所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。

缺点:

一、需要知道先验概率。

二、分类决策存在错误率

三、特征相互独立

63、列举三种模型评估方法

留出法,交叉验证法,自助法

64、在文本特征抽取中,试解释CountVectorizer特征量化方式

只考虑每个词汇在该条训练文本中出现的频率

65、在文本特征抽取中,试解释TfidfVectorizer特征量化方式

除了考量某一词汇在当前文本中出现的频率 TF(Term Frequency)之外,同时关注包含这个词汇的所有文本条数的倒数,即逆文本频率指数 文章来源地址https://www.toymoban.com/news/detail-483451.html

到了这里,关于机器学习基础知识点题库的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 物联网技术与应用知识点——期末题库

    1.物联网的核心和基础是( 互联网 )。 2.物联网是指物体通过智能感知装置,经过传输网络,到达制定数据处理中心,实现人与人、物与物、人与物之间信息交互与处理的( 智能化网络 )。 3.物联网的基本特点是( 全面感知 )、( 可靠传输 )、( 智能控制 )。 提示:书

    2024年02月01日
    浏览(45)
  • 数据结构与算法期末复习——知识点+题库

    (1)数据:所有能被计算机识别、存储和处理的符号的集合(包括数字、字符、声音、图像等信息 )。 (2)数据元素:是数据的基本单位,具有完整确定的实际意义。在计算机程序中通常作为一个整体进行考虑和处理。一个数据元素可由若干个数据项组成。 (3)数据项:构成数据元

    2024年02月12日
    浏览(53)
  • C++期末考试选择题题库100道&&C++期末判断题的易错知识点复习

    今天备考C++,看到了一些好的复习资料,整合一起给大家分享一下 对于常数据成员,下面描述正确的是 【 B 】 A. 常数据成员必须被初始化,并且不能被修改 B. 常数据成员可以不初始化,并且不能被修改 C. 常数据成员可以不初始化,并且可以被修改 D. 常数据成员必须被初始

    2024年02月10日
    浏览(53)
  • 【C++】如果你准备学习C++,并且有C语言的基础,我希望你能简单的过一遍知识点。

    相关视频——黑马程序员匠心之作|C++教程从0到1入门编程,学习编程不再难_哔哩哔哩_bilibili(1-83) 我的小站——半生瓜のblog 我知道这个视频早已经被很多人学习并且记录笔记,但是我还是想再过一遍前面的基础知识点,所以我这个笔记会非常的简洁,适合有C语言基础的小伙

    2024年02月01日
    浏览(47)
  • 机器视觉之工业摄像机知识点(二)

    像素: 是图像的最小组成单元。将一张图放大,可以看到每一个小格表示一个像素,其中每一个像素对应一个灰度值。 像元: 是相机芯片上的最小感光单元,每个像元对应图像上的一个像素。 存储每个像素所用的数据位数,称为像元深度。对于黑白相机来说,像元深度定义

    2024年02月15日
    浏览(37)
  • 《人工智能专栏》必读150篇 | 专栏介绍 & 专栏目录 & Python与PyTorch | 机器与深度学习 | 目标检测 | YOLOv5及改进 | YOLOv8及改进 | 关键知识点 | 工具

    各位读者们好,本专栏最近刚推出,限于个人能力有限,不免会有诸多错误,敬请私信反馈给我,接受善意的提示,后期我会改正,谢谢,感谢。 第一步 :[ 购买点击跳转 ] 第二步 : 代码函数调用关系图(全网最详尽-重要) 因文档特殊,不能在博客正确显示,请移步以下链接

    2024年02月02日
    浏览(71)
  • 硬件基础知识点

    D:十进制 B:二进制 H:十六进制 二进制→十六进制 整数部分从右往左,小数部分从左往右。 四个二进制数看作一个十六进制数,不足的补零。 十六进制→二进制同理。 十进制→二进制 方法一:短除法 除二倒取整,乘二正取余 方法二:拆分法(二进制减法) 十进制数转

    2024年02月06日
    浏览(48)
  • Kubernetes基础知识点

    k8s可以看做是一个集群操作系统,能够对容器进行调度和编排。 Kubernetes中的基本对象 pod 是k8s中的最小单位,一个pod封装一个或者多个容器,存储资源。 deployment 是对pod的服务化封装,可以包含一个或多个pod statefulset 为每一个pod维护一个固定化id job 用来控制批处理型人物的

    2024年02月15日
    浏览(44)
  • 集合基础知识点

    当 Java 程序中需要存放数据的时候,通常会定义变量来实现数据的存储,但是,当需要存储大量数据的时候该怎么办呢?这时首先想到的是数组,但是!数组只能存放同一类型的数据,而且其长度是固定的,那怎么办了?集合便应运而生了。 Java 集合类存放在 java.util 包中,

    2024年02月03日
    浏览(57)
  • HTML基础知识点

    1、HTML基础 1.1、什么是网页?        网页是一个包含HTML标签的纯文本文件,它可以存放在世界某个角落的某一台计算机中,是万维网中的一页,是超文本标记语言格式。它通常是由图片、文字、链接、声音、视频等元素组成。通过网页浏览器访问。 1.2、什么是HTML?   

    2024年02月07日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包