西瓜书习题 - 8.集成学习

这篇具有很好参考价值的文章主要介绍了西瓜书习题 - 8.集成学习。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.集成学习

1、下列关于集成学习描述错误的是哪个?

  1. 集成学习只能使用若干个相同类型的学习器
  2. 集成学习使用多个学习器解决问题
  3. 集成学习在许多比赛中取得了优异的成绩
  4. 集成学习在英文中是一个外来词

2、下列哪些学习器可以作为集成学习中的学习器?

  1. 支持向量机
  2. 决策树
  3. 神经网络
  4. 其他选项都可以

3、由若干个相同类型的学习器构成的集成学习被称为____ (同质/异质) 集成学习。

同质

2.好而不同

1、下列哪个关于集成学习的描述是正确的?

  1. 集成学习一定能取得比最好的个体学习器更好的性能
  2. 集成学习的性能可能与个体学习器的平均性能相同
  3. 集成学习的性能一定不差于最差的个体学习器
  4. 集成学习的性能在个体学习器平均性能与个体学习器最佳性能之间

本题正确答案应该为B选项,错选主要集中在D选项。集成学习仅当基学习器满足“好而不同”的要求时,才可能取得良好的结果。极端情况下,如过基学习器性能都比较差,则可能导致集成后的模型性能反而不如基学习器平均性能。考虑如下反例:在有3个训练样本的2分类任务中,有三个基学习器预测出来分别为(F,F,T)、(F,T,F)、(T,F,F),其平均正确率为1/3,而使用投票法集成的话正确率则为0.

2、下列哪个选项不是集成学习在分类任务中取得好性能的要求?

  1. 个体学习器犯错的样本较为分散
  2. 个体学习器具有较好的性能
  3. 存在一个完美的个体学习器
  4. 个体学习器分对的样本不完全一致

3、误差-分歧分解表明集成学习中____(3个字) 是关键。

多样性

3.两类集成学习方法

1、下列哪个算法不是序列化集成学习方法?

  1. XGBoost
  2. Random Forest
  3. AdaBoost
  4. LPBoost

2、下列哪个算法不是并行化集成学习方法?

  1. GradientBoost
  2. Bagging
  3. Random Forest
  4. Random Subspace

3、集成学习中,后一个个体依赖于前一个个体的方法称为____(3个字) 方法。

序列化

4.Boosting

1、下列关于Boosting算法的说法中错误的是哪个?

  1. Boosting算法适用于分类、回归、排序等机器学习问题
  2. 后一个基学习器更关注前一个基学习器学错的样本
  3. Boosting算法的输出是所有基学习器的加权求和
  4. 不同基学习器使用的样本权重是相同的

2、下列关于Boosting算法中样本权重调整的说法中错误的是哪个?

  1. 所有样本的权重和保持不变
  2. 前一个基学习器分错的样本会获得更大的权重
  3. 只要权重调整的方向正确,Boosting算法的性能就可以获得理论保证
  4. 决策树可以直接处理带权重的样本

本题主要错误集中在误选A。注意在Boosting中,在每一轮循环重新调整完权重之后,会对所有的样本权重进行一个归一化处理(除以目前轮次的权重和Z_t),因此在算法运行过程中,虽然每个样本本身的权重会不断发生变化,但是对所有样本而言,其权重和是保持不变的。

3、Boosting是一种____ (同质/异质) 集成学习方法。

同质

5.Bagging

1、下列关于Bagging算法中采样的描述哪个是错误的?

  1. 可以使用Bootstrap采样
  2. 每个样本在每个基学习器的数据集中只会出现一次
  3. 采样是为了获得不同的基学习器
  4. 不同基学习器的数据从相同分布中采样得到

2、下列关于Bagging算法描述中错误的是哪个?

  1. Bagging算法中每个基学习器使用相同的数据集
  2. 分类任务中使用投票法获得输出
  3. 回归任务中使用平均法获得输出
  4. Random Forest是具有代表性的Bagging算法

3、Bagging算法使用的采样方法是____(有/无) 放回采样。

6.多样性度量

1、下列哪个选项是一种多样性度量?

  1. Q-统计量
  2. 不合度量
  3. 相关系数
  4. 其余选项都是

2、下列关于多样性的描述中错误的是哪个?

  1. 多样性度量中可以考虑模型的结构差异
  2. 多样性的定义是集成学习中的圣杯问题
  3. 可以基于两分类器的预测结果列联表定义许多不同的多样性度量
  4. 已经有公认的多样性定义

3、____(3个字) 是集成学习的关键。

多样性

7.章节测试

1、下列关于误差-分歧分解的说法中正确的是哪个?

  1. 这一分解表明特定条件下,集成学习的性能与个体学习器多样性正相关
  2. 这一分解体现了多样性在回归、分类等机器学习任务中的重要性
  3. 这一分解给出了一种可操作的多样性定义
  4. 这一分解中的误差可以使用训练误差进行估计

2、下列关于同质集成学习与异质集成学习对比的说法中错误的是哪个?

  1. 异质集成学习能获得更多样的个体
  2. 同质集成学习在实现上更加简单
  3. 同质集成学习能更方便的对比个体的结果
  4. 同质集成学习能获得性能更好的个体

3、下列基于两分类器的预测结果连列表定义的表达式中,你认为哪个不适合作为多样性度量?

  1. ( a + b ) ( b + c ) ( a d − b c ) ( a + b ) ( a + c ) ( b + d ) ( c + d ) \frac{(a+b)(b+c)(ad-bc)}{(a+b)(a+c)(b+d)(c+d)} (a+b)(a+c)(b+d)(c+d)(a+b)(b+c)(adbc)
  2. a + d a + b + c + d \frac{a+d}{a+b+c+d} a+b+c+da+d
  3. a d − b c a d + b c \frac{ad-bc}{ad+bc} ad+bcadbc
  4. b − c a + b + c + c \mathbf{\frac{b-c}{a+b+c+c}} a+b+c+cbc

4、下列关于集成学习的说法中错误的是?

  1. 个体学习器准确率很高后,要增加多样性可以不牺牲准确性
  2. 当基分类器的错误率相互独立时,随着个体数目的增大,集成错误率将指数级下降
  3. 现实任务中,个体学习器很难做到相互独立
  4. 集成学习的核心是如何产生并结合好而不同的个体学习器

5、多样性是集成学习的关键,现实任务中往往会在学习过程中引入随机性来增强个体学习器的多样性,你认为下列哪个做法不是合适的增强多样性的方法?

  1. 每个个体学习器使用不同的数据子集
  2. 生成大量随机样本放入到数据集中
  3. 每个个体学习器使用不同的输入属性子集
  4. 当个体学习器有参数可以设置时,对不同个体学习器设置不同的参数

本题正确选项为B,在算法运行过程中,如果产生大量随机样本放入数据集中,将会导致学习器的性能变差,趋近于随机预测,违背了“好而不同”中“好”的要求。A选项是Bagging算法常用操作,C选项为随机森林的做法,D选项通过设置不同的参数,达到“好而不同”中“不同”的要求。

6、AdaBoost算法是一种常用的Boosting算法,该算法的伪代码如图所示,其中 Z t Z_t Zt用于确保 D t + 1 D_{t+1} Dt+1 是一个分布。考虑由3个样本组成的训练集,在第1轮中基学习算法将样本1与样本2分类正确,样本3分类错误。则在第2轮中,样本1的权重为____ (保留3位小数)。

样本足够多时,使用3个基学习器的bagging算法用到的训练数据的比例为 输入答案,西瓜书习题,集成学习,决策树

0.250

7、上题第2轮中,样本3的权重为____(保留3位小数)。

0.500

样本足够多时,使用3个基学习器的bagging算法用到的训练数据的比例为 输入答案,西瓜书习题,集成学习,决策树

8、弱学习器指泛化性能略优于随机猜测的学习器,如二分类问题中指精度略高于0.5的分类器。那么在三分类问题中,弱学习器是指精度略高于____ (保留3位小数) 的学习器。

0.333

9、当样本足够多时,使用3个基学习器的Bagging算法用到的训练数据的比例为____(小数形式并保留3位小数)。

0.950

1-0.368^3≈0.950

10、随机森林是一种典型的Bagging算法。随机森林使用的决策树的每个结点,先从该结点的属性集合中随机选择包含部分属性的属性子集,再从这个子集中选择一个最优的属性用于划分。这样生成的单棵决策树与单棵传统决策树相比,性能往往____ (更高/相同/更低)。

更低

11、随机森林与传统决策树构成的森林相比,多样性往往____(更高/相同/更低)。

更高文章来源地址https://www.toymoban.com/news/detail-519971.html

到了这里,关于西瓜书习题 - 8.集成学习的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【机器学习】西瓜书学习心得及课后习题参考答案—第5章神经网络

    5.1神经元模型——这是神经网络中最基本的成分。 5.2感知机与多层网络——由简单的感知机循序渐进引出多层前馈神经网络。 5.3误差逆传播算法——BP算法,迄今最成功的神经网络学习算法。算法如下(公式参考西瓜书) 停止条件与缓解BP过拟合的策略有关,一种策略是“早

    2024年02月14日
    浏览(44)
  • 【机器学习】西瓜书学习心得及课后习题参考答案—第6章支持向量机

    6.1 间隔与支持向量—— w w w 是法向量,垂直与超平面 w T x + b = 0 w^Tx+b=0 w T x + b = 0 。这一节了解了支持向量机的基本型。 min ⁡ w , b 1 2 ∣ ∣ w ∣ ∣ 2 s . t .    y i ( w T x i + b ) ≥ 1 , i = 1 , 2 , . . . , m . min_{w,b} frac{1}{2}||w||^2 \\\\ s.t. y_i(w^Tx_i+b) ge 1, qquad i=1,2,...,m. w , b min ​

    2024年02月14日
    浏览(42)
  • 【学习笔记、面试准备】机器学习西瓜书要点归纳和课后习题参考答案——第3章

    目录地址 线性模型定义: 其中x是输入向量 优点:形式简单,易于建模,可解释性好。 输入预处理:连续值可以直接用,离散值若有序,可以按序赋值变连续(如“高,中,低”变为“1,0.5,0”,否则可以单热点码编码。 回归常用MSE,要偏导数为0,当输入是一维时可以算

    2024年02月08日
    浏览(45)
  • 西瓜书习题 - 4.决策树

    1、下列选项哪个是决策树的预测过程? 将测试示例从一个中间节点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶节点 将测试示例从一个中间节点开始,沿着划分属性所构成的“判定测试序列”上行,直到根节点 将测试示例从叶节点开始,沿着划分属性所构成

    2024年02月04日
    浏览(26)
  • 西瓜书习题 - 6.支持向量机

    1、对于线性可分的二分类任务样本集,将训练样本分开的超平面有很多,支持向量机试图寻找满足什么条件的超平面? 在正负类样本“正中间”的 靠近正类样本的 靠近负类样本的 以上说法都不对 2、下面关于支持向量机的说法错误的是? 支持向量机基本型是一个凸二次规

    2024年02月06日
    浏览(34)
  • 西瓜书习题 - 5.神经网络

    1、神经网络模型的两个最重要的要素是什么? 网络结构、激活函数 网络结构、神经元模型 激活函数、学习算法 学习算法、神经元模型 《机器学习》中采用的对神经网络的定义为:“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神

    2023年04月08日
    浏览(31)
  • Jenkins持续集成-有这一篇就足够了(基础环境搭建mac版)

    前言: 本人也是小白一枚,之所以写这篇文章主要目的是在实践中学习,既能留着以后给自己观看,还能给一些像我一样的小伙伴提供一些小小的帮助!所以大家加油吧! ···································································

    2023年04月08日
    浏览(44)
  • 机器学习-神经网络(西瓜书)

    在生物神经网络中,神经元之间相互连接,当一个神经元受到的外界刺激足够大时,就会产生兴奋(称为\\\"激活\\\"),并将剩余的\\\"刺激\\\"向相邻的神经元传导。 神经元模型 模型中 x i x_i x i ​ 表示各个神经元传来的刺激,刺激强度有大有小,所以 w i w_i w i ​ 表示不同刺激的权重

    2024年02月11日
    浏览(34)
  • [机器学习西瓜书]3.线性回归

    介于看完之后老是不知道看了些啥,所以开这么一部分blog对看到的内容进行记录整理 当然知识介绍肯定没有书上写的详细,仅限于自己对内容的整理 试图学习一个通过属性的线性组合来进行预测的函数 这里学到的主要内容 线性回归——最小二乘法 局部加权线性回归 对数几

    2023年04月26日
    浏览(39)
  • 机器学习西瓜书之线性回归

    目的:仅仅通过一个变量预测因变量 举个例子:仅仅通过发量判断程序员水平 此时表示函数: y = ω omega ω x + b 1.2.1 最小二乘估计 目的:基于军方误差最小化来进行模型求解的方法: 对于函数 y = ω omega ω x + b ,我们定义如下公式求解误差: E ( w , b ) = ∑ i = 1 m ( y i − f (

    2024年01月21日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包