西瓜书习题 - 10.机器学习初步考试

这篇具有很好参考价值的文章主要介绍了西瓜书习题 - 10.机器学习初步考试。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、当学习器在训练集上把训练样本自身的一些特征当作了所有潜在样本都具有的一般性质时,泛化性能可能会因此下降,这种现象一般称为 ____。(过拟合/欠拟合)

过拟合

2、对于两个样本点 ( 0 , 0 ) , ( 1 , 1 ) (0,0),(1,1) (0,0),(1,1),若我们将其投影到与拉普拉斯核函数 k ( x , y ) = e − ∣ ∣ x − y ∣ ∣ k(x,y)=e^{-||x-y||} k(x,y)=e∣∣xy∣∣关联的RKHS中时,则两个样本投影后的点距离为 ____(保留三位小数)

1.230

d i s t ( x 1 , x 2 ) = ∥ ϕ ( x 1 ) − ϕ ( x 2 ) ∥ H k 2 = k ( x 1 , x 1 ) − 2 k ( x 1 , x 2 ) + k ( x 2 , x 2 ) dist(x_1,x_2)=\|\phi(x_1)-\phi(x_2)\|_{\mathcal{H}_k}^2=\sqrt{k(x_1,x_1)-2k(x_1,x_2)+k(x_2,x_2)} dist(x1,x2)=ϕ(x1)ϕ(x2)Hk2=k(x1,x1)2k(x1,x2)+k(x2,x2)

3、考虑如下三分类的例子,使用投票法集成的结果的精度为 ____ (保留3位小数)。

西瓜书习题 - 10.机器学习初步考试

0.200

4、如果为了同时得到多个聚类簇数的聚类结果(如下图所示),最适合使用 ____(原型聚类/密度聚类/层次聚类)

西瓜书习题 - 10.机器学习初步考试

层次聚类

5、下列说法错误的是()

  1. 信息增益准则对可取值较多的属性有所偏好
  2. 基尼指数越小,数据集的纯度越高
  3. 决策树学习时,给定划分属性,若样本在该属性上值缺失,会随机进入一个分支
  4. 随着决策树学习时的深度加深,位于叶结点的样本越来越少

6、聚类算法是机器学习中一种典型的 ____(监督/无监督)学习算法。

无监督

7、在上题的例子中,每个基分类器的精度都为0.4,因而都是弱分类器,但集成后的精度下降了。这一现象表明在多分类任务中,弱学习器 ____ (能/不能) 保证集成精度不下降。

不能

8、以下关于模型评估与选择的说法,错误的是

  1. 模型的超参数选择需要在验证集上进行测试
  2. 交叉验证t检验是基于列联表的
  3. 训练模型时,仅仅保证训练误差为0是不够的
  4. 当数据集很大时,通过留一法进行模型评估的计算代价是非常高昂的

9、当多隐层神经网络使用线性激活函数时,下列哪个选项是正确的?

  1. 经验损失最小化具有唯一解
  2. 神经网络具有万有逼近性
  3. 神经网络的输出是权重的线性函数
  4. 神经网络的输出是输入的线性函数

10、以下关于聚类的说法,错误的是

  1. 聚类可以作为其他学习算法的前驱过程
  2. 原型聚类得到的每一簇都是凸的
  3. 聚类好坏存在绝对标准
  4. 密度聚类假设聚类结构可以通过本分布的紧密程度确定

11、Sigmoid函数在一点的函数值总是 ____(大于/等于/小于/无法确定) 该点的导数值。

大于

12、以下哪种方式通常不能帮助解决决策树过拟合()

  1. 去除训练集一半样本
  2. 预剪枝
  3. 限制最大树深度
  4. 后剪枝

13、考虑正类样本(-1,0),(0,1),(-1,1) 和负类样本(1,0),(0,-1),(1,-1),通过支持向量机的基本型得到的解为

  1. y=x-1
  2. 以上答案均不是
  3. y=x+1
  4. y=x

14、下列说法错误的是

  1. CART算法的评价指标是基尼系数
  2. 当样本均匀分布于所有类中时,熵最大
  3. ID3算法能解决过拟合问题
  4. 在某些情况下样本特征向量中一些分量没有值,这称为属性缺失

15、以下关于机器学习的说法错误的是

  1. 在聚类任务中,我们需要事先直到数据的标记信息
  2. 预测离散值的任务一般称为分类任务
  3. 同一个算法在不同数据集上,一般不能得到同样一个模型
  4. 学得模型后,待测试的样本我们称为“测试样本”,亦称“测试示例”

16、下列说法错误的是

  1. 测试数据应和训练数据一样
  2. 用数据建立模型的过程叫训练
  3. 机器学习一般有“独立同分布”假设
  4. 学得模型是用于新样本的能力称为“泛化”能力

17、决策树划分时,若其中一个属性为样本的编号(各样本编号不同),若基于该属性进行划分,则信息增益最 ____(大/小)

18、下列说法错误的是

  1. 决策树相比于对数几率回归更适合分线性分类问题
  2. 根据训练数据是狗有标记信息,学习任务可以大致划分为两类:监督学习、无监督学习
  3. 留一法对模型性能的估计总是比交叉验证法更准确
  4. 支持向量机的原问题和对偶问题都是二次规划问题

19、下列有关支持向量机,说法正确的是

  1. 一般情况下,支持向量机训练完后解与全部样本都有关系
  2. 利用SMO算法求解支持向量机时,只需要迭代更新参数一次
  3. 支持向量机智能处理线性可跟问题
  4. 通过支持向量机求解出的划分超平面是对训练样本局部扰动的“容忍”性最好的划分平面

20、如果决策树过拟合训练集,减少决策树最大深度____(是/否)为一个好主意。

21、下列哪一种数据集切分方式会导致划分的训练集和测试集与初始数据集分布不同?

  1. 自助法
  2. 交叉验证法
  3. 留出法
  4. 以上做法都不对

22、下列关于类别不平衡问题的描述中正确的是哪个?

  1. 当大类和小类一样重要时,需要针对不平衡问题做特殊处理
  2. 阈值移动法需要构造平衡数据集来处理类别不平衡问题
  3. 复制小类样本可以搞笑解决类别不平衡问题
  4. 过采样和欠采样都通过构造平衡数据集来处理类别不平衡问题

23、考虑如图数据集,其中 x1与x2为特征,其取值集合分别为x1={−1,0,1},x2={B,M,S},y为类别标记,其取值集合为y={0,1}。

使用所给训练数据,学习一个朴素贝叶斯分类器,考虑样本x={0,B},请计算P(y=1)P(x|y=1)的值____(保留2位有效数字)。

西瓜书习题 - 10.机器学习初步考试

0.03

24、支持向量机原始问题目标函数最优值是对偶问题得到的目标函数最优值的 ____(上界/下界)

上界

25、朴素贝叶斯分类器采用了()假设:即对已知类别,假设所有属性相互独立。

  1. 独依赖
  2. 道德图
  3. 有向无环图依赖
  4. 属性条件独立性

26、下列关于线性模型的描述中正确的是哪个?

  1. 线性模型既可以处理回归任务,也可以处理分类任务
  2. 线性模型无法你和与输入呈指数关系的输出
  3. 线性模型通过投票法或加权平均法可以得到非线性模型
  4. 线性模型的表达能力与神经网络相同

27、下列说法错误的是

  1. 决策树属于生成式模型
  2. 贝叶斯决策论是概率框架下实施决策的基本理论
  3. 如果概论都能拿到真实值,那么根据贝叶斯判定准则做出的决策是理论上最好的决策
  4. 1 − R ( h ∗ ) 1-R(h^*) 1R(h)反映了分类器所能达到的最好性能

28、若任务中数据的属性是连续值,此类任务称为 ____(分类/回归/不确定)。

不确定

29、使用BP算法优化神经网络,若发现损失函数剧烈波动,可能是优化步长偏 ____ (大/小)。

30、下列说法错误的是()

  1. 极大似然估计需要假设某种概论分布形式
  2. 对连续属性,计算条件概率 P ( x i ∣ c ) P(x_i|c) P(xic)可考虑概率密度函数
  3. 贝叶斯学习等于贝叶斯分类器
  4. 朴素贝叶斯分类器中,对给定类别,模型假设所有属性间相互独立

31、设 n ∈ N + n \in N^+ nN+为一正自然数,考虑数据集 D n = { ( − i , − 1 ) , ( i , 1 ) } i = 1 n D_n=\{(-i, -1), (i, 1)\}_{i=1}^n Dn={(i,1),(i,1)}i=1n。记 w n w_n wn为最小二乘法在数据集 D n D_n Dn 上学得的线性模型的斜率,则的 l i m n → + ∞   n w n \underset{n \rightarrow +\infty}{lim} ~nw_n n+lim nwn 值为 1.234(保留3位小数或填写"不存在")。

1.500

32、下列关于集成学习的说法中正确的是哪个?

  1. 已有的多样性定义可以作为优化目标直接优化
  2. 个体学习器犯错的样本具有一定差异性是集成学习取得好性能的要求之一
  3. Boosting中所有个体学习器的权重是相等的
  4. Bagging中不同个体学习器的数据是从统一数据集中采样得到的,因而需要其他途径使基学习器具有多样性

33、下列关于BP算法的说法中正确的是哪个?

  1. BP算法可以找到神经网络的全局极小解
  2. 只有Sigmoid激活函数的神经网络可以使用BP算法优化
  3. 只要模型的损失函数关于模型权重可微,就可以使用BP算法优化
  4. BP算法能在多项式实践内收敛

34、下列关于多元线性回归中使用正则项的说法中正确的是?

  1. 即便计算机具有无限精度,多元线性回归也需要使用正则项
  2. 使用正则化后,多元线性回归可以找到多个最优解
  3. 样例维度小于样例数是使用正则项的原因之一
  4. 使用正则项只有理论意义,实际应用中无需使用

35、下列关于神经网络万有逼近性的说法中正确的是哪个?

  1. 包含足够多神经元的单隐层神经网络具有万有逼近性
  2. 万有逼近性表明任意一个神经网络在限时任务可以逼近任意函数
  3. 万有逼近性保证了神经网络在显示任务中优异的表现
  4. 万有逼近性是神经网络独有的性质

36、当查准率和查全率均为1时,F1度量为 ____。(计算结果保留三位小数)

1.000

37、对于参数估计过程,统计学界的 ____(频率主义/贝叶斯主义)学派认为参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值。

频率主义

38、当西瓜收购公司去瓜摊收购西瓜时既希望把好瓜都收走又保证收到的瓜中坏瓜尽可能的少,请问他应该分别考虑什么评价指标?

  1. 准确率 查全率
  2. 查全率 查准率
  3. 查全率 准确率
  4. 查准率 查全率

39、对率回归 ____ (是/否) 可以通过极大似然估计求解。

40、下列哪些函数可以作为核函数?文章来源地址https://www.toymoban.com/news/detail-459102.html

  1. 以上函数均可作为核函数
  2. 多项式核
  3. 线性核
  4. 高斯核

到了这里,关于西瓜书习题 - 10.机器学习初步考试的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【机器学习】西瓜书学习心得及课后习题参考答案—第6章支持向量机

    6.1 间隔与支持向量—— w w w 是法向量,垂直与超平面 w T x + b = 0 w^Tx+b=0 w T x + b = 0 。这一节了解了支持向量机的基本型。 min ⁡ w , b 1 2 ∣ ∣ w ∣ ∣ 2 s . t .    y i ( w T x i + b ) ≥ 1 , i = 1 , 2 , . . . , m . min_{w,b} frac{1}{2}||w||^2 \\\\ s.t. y_i(w^Tx_i+b) ge 1, qquad i=1,2,...,m. w , b min ​

    2024年02月14日
    浏览(42)
  • 【学习笔记、面试准备】机器学习西瓜书要点归纳和课后习题参考答案——第3章

    目录地址 线性模型定义: 其中x是输入向量 优点:形式简单,易于建模,可解释性好。 输入预处理:连续值可以直接用,离散值若有序,可以按序赋值变连续(如“高,中,低”变为“1,0.5,0”,否则可以单热点码编码。 回归常用MSE,要偏导数为0,当输入是一维时可以算

    2024年02月08日
    浏览(45)
  • 西瓜书习题 - 8.集成学习

    1、下列关于集成学习描述错误的是哪个? 集成学习只能使用若干个相同类型的学习器 集成学习使用多个学习器解决问题 集成学习在许多比赛中取得了优异的成绩 集成学习在英文中是一个外来词 2、下列哪些学习器可以作为集成学习中的学习器? 支持向量机 决策树 神经网络

    2024年02月12日
    浏览(33)
  • 机器学习-神经网络(西瓜书)

    在生物神经网络中,神经元之间相互连接,当一个神经元受到的外界刺激足够大时,就会产生兴奋(称为\\\"激活\\\"),并将剩余的\\\"刺激\\\"向相邻的神经元传导。 神经元模型 模型中 x i x_i x i ​ 表示各个神经元传来的刺激,刺激强度有大有小,所以 w i w_i w i ​ 表示不同刺激的权重

    2024年02月11日
    浏览(34)
  • [机器学习西瓜书]3.线性回归

    介于看完之后老是不知道看了些啥,所以开这么一部分blog对看到的内容进行记录整理 当然知识介绍肯定没有书上写的详细,仅限于自己对内容的整理 试图学习一个通过属性的线性组合来进行预测的函数 这里学到的主要内容 线性回归——最小二乘法 局部加权线性回归 对数几

    2023年04月26日
    浏览(39)
  • 【机器学习300问】10、学习率设置过大或过小对训练有何影响?

            在上一篇文章中,首次出现了学习率这个词,在这篇文章中我会详细介绍一下它是什么,到底对机器学习的训练有着怎样的影响。         先来复习一下梯度下降算法,在每次迭代过程中,算法计算目标函数关于当前参数值的梯度(即函数在该点的斜率或方向导

    2024年01月20日
    浏览(39)
  • 机器学习西瓜书之线性回归

    目的:仅仅通过一个变量预测因变量 举个例子:仅仅通过发量判断程序员水平 此时表示函数: y = ω omega ω x + b 1.2.1 最小二乘估计 目的:基于军方误差最小化来进行模型求解的方法: 对于函数 y = ω omega ω x + b ,我们定义如下公式求解误差: E ( w , b ) = ∑ i = 1 m ( y i − f (

    2024年01月21日
    浏览(40)
  • 机器学习西瓜书之决策树

    从逻辑角度:通过一系列if-else语句进行多重判断,比如白富美的判断条件(“白”“富”“美”)。 从几何角度:根据定义的标准进行样本空间的划分。 以二分类问题为例,我们希望通过一系列的条件进行分类。 以下是算法原理的伪代码图: 比较形象的图: 输入中的训练

    2024年02月20日
    浏览(47)
  • 机器学习西瓜书期末复习(2022HENU)

    选择题 10 * 2 填空题 10 * 1 判断题 10 * 2 简答题 4 * 5 计算题 2 * 15 机器学习的定义 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。 经验在计算机系统中通常以 数据 的形式存在。 机器学习研究的主要内容是关于在计算机上从数据中产生模型的算法

    2024年02月08日
    浏览(38)
  • 【一起啃西瓜书】机器学习-期末复习(不挂科)

    马上西瓜书期末考试,为了不挂科,需要有针对复习,内容来自专业各个学霸及老师的重点划分。 推荐: 【一起啃西瓜书】机器学习总览 卷面共100分,含5种题型,考试时间120分钟。 判断题,8道,每题2分,共16分; 填空题,7道,每题2分,共14分; 简答题,5道,每题4分,共20分; 演

    2024年02月08日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包