西瓜书习题 - 4.决策树

这篇具有很好参考价值的文章主要介绍了西瓜书习题 - 4.决策树。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.决策树基本流程

1、下列选项哪个是决策树的预测过程?

  1. 将测试示例从一个中间节点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶节点
  2. 将测试示例从一个中间节点开始,沿着划分属性所构成的“判定测试序列”上行,直到根节点
  3. 将测试示例从叶节点开始,沿着划分属性所构成的“判定测试序列”上行,直到根节点
  4. 将测试示例从根节点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶节点

2、决策树学习的策略是什么?

  1. 分而治之
  2. 集成
  3. 聚类
  4. 排序

3、决策树训练时,若当前结点包含的样本全属于同一类别,则____(需要/无需)划分

无需

2.信息增益划分

1、信息熵是度量样本集合 [填空1] 最常用的一种指标

  1. 纯度
  2. 对称差
  3. 大小
  4. 重要性

2、以下哪个选项是信息增益的定义?

  1. 划分前的信息熵-划分后的信息熵
  2. 划分后的信息熵-划分前的信息熵
  3. 划分前的信息熵/划分后的信息熵
  4. 划分后的信息熵+划分前的信息熵

本题选A。注意到信息熵是衡量样本纯度的概念,相对于物理中的“无序程度”,信息熵越大则代表样本无序程度大,对应样本纯度低;在决策树进行划分后,我们希望的是样本的纯度变大,对应于信息熵应该为熵减的过程;故我们想要求得的信息增益为前后两者之差,为得到一个正值,我们选取前者减后者。

3、在二分类任务中,若当前样本集合的正类和负类的数量刚好各一半,此时信息熵为____(保留一位小数)

1.0

本题答案为1.0。注意到信息熵的计算公式为Σ-pi log(pi),而我们用比特为单位时取的底数正是2,在这里,我们进行计算,信息熵应为-1/2*(-1)±1/2*(-1)=1,答案要求保留一位小数,故在这里填1.0即可。

3.其他属性划分

1、下列说法错误的是()

  1. CART算法在候选属性集合中选取使划分后基尼指数最大的属性
  2. 划分选择的各种准择对泛化性能的影响有限
  3. 划分选择的各种准择对决策树尺寸有较大影响
  4. 相比划分准则,剪枝方法和程度对决策树泛化性能的影响更为显著

本题选A。首先注意到基尼指数和信息熵一样,是衡量一个随机变量的纯度的,其定义为Σpi(1-pi),从定义可以看出随机变量越随机,亦即越不纯,基尼指数越大;我们希望的是更快做好分类,当然是要选取划分后基尼指数最小的属性,这样达到的增益是最大的。对于B选项,影响决策树泛化性能的更为直接的因素是减枝。对于C选项,不同的划分方法准则对决策树的深度宽度等影响较小。对于D,D是正确的。

2、增益率的表达式是Gain_ratio(D,a)=()

  1. Gain(D,a)+IV(a)
  2. Gain(D,a)-IV(a)
  3. Gain(D,a)*IV(a)
  4. Gain(D,a)/IV(a)

3、对西瓜数据集2.0(《机器学习》教材第76页),划分前的信息熵为0.998,若使用编号属性进行划分,则信息增益为____(保留3位小数)

0.998

本题答案为0.998。注意到对编号属性划分后,每个类里只有一个样本,故信息熵为0,故信息增益就是划分前的信息熵,故本题应该填0.998。

4.决策树的剪枝

1、剪枝是决策树学习算法对付什么现象的主要手段?

  1. 标记噪声
  2. 数据少
  3. 过拟合
  4. 欠拟合

2、提前终止某些分支的生长,这个策略的名称是什么?

  1. 预剪枝
  2. 后剪枝
  3. 不剪枝
  4. 随机剪枝

3、决策树剪枝的基本策略有“____”和“后剪枝”

预剪枝

5.缺失值的处理

1、决策树算法一般是如何对缺失属性进行处理的?

  1. 仅使用无缺失的样例
  2. 对缺失值进行随机填充
  3. 用其他属性值预测缺失值
  4. 利用“样本赋权,权重划分”的思想解决

2、决策树处理缺失值的基本思路是“样本赋权,权重划分”,其中“权重划分”指的是以下哪个选项?

  1. 给定划分属性,若样本在该属性上的值缺失,会按进入权重最大的一个分支
  2. 给定划分属性,若样本在该属性上的值缺失,会按权重随机进入一个分支
  3. 给定划分属性,若样本在该属性上的值缺失,会按权重同时进入所有分支
  4. 给定划分属性,若样本在该属性上的值缺失,会按进入权重最小的一个分支

本题选C。决策树处理划分属性时在划分属性上值缺失的问题,会将该带有缺失值的样本同时划入所有子节点,但此时要调整该样本的权重,为样本权重乘以无缺失样本中属性在对应取值上样本所占的比例。直观来看,其实就是让同一个样本以不同的概率到不同的子节点中去,这也符合我们对决策树的直观感觉。

3、决策树处理有缺失值的样本时,仅通过____(有/无)缺失值的样例来判断划分属性的优劣

本题填无。决策树在确定划分属性的优劣时,只采用无缺失值的样例。我们回顾选取划分属性时的准则,在含有属性缺失值时,我们修改后的信息增益公式为无缺失值样本的比例乘以用该属性划分后在无缺失值上带来的信息增益,从这里可以看出对于选取划分属性时和缺失值样本本身并无关系。

6.章节测试

1、决策树划分时,若当前结点包含的样本集合为空,则应该怎么做?

  1. 将结点标记为叶结点,其类别标记为父结点中样本最多的类
  2. 将结点标记为叶结点,其类别标记为父结点中样本最少的类
  3. 将结点标记为叶结点,其类别标记为父结点中任意一个类
  4. 从其他结点获得样本,继续进行划分

2、决策树划分时,当遇到以下哪种情形时,将结点标记为叶节点,其类别标记为当前样本集中样本数最多的类

  1. 当前属性集为空,或所有样本在所有属性上取值相同
  2. 当前属性集不为空,或所有样本在所有属性上取值相同
  3. 当前结点包含的样本集合为空,或当前属性集为空
  4. 当前结点包含的样本集合为空,或所有样本在所有属性上取值相同

本题选A。在决策树基本算法中,有三种情形会导致递归返回:(1)当前结点包含的样本全属于同一类别,无需划分; (2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分; (3)当前结点包含的样本集合为空,不能划分。 在第(2)种情形下,我们把当前结点标记为叶节点,并将其类别设定该结点所含样本最多的类别。 在第(3)种情形下,同样把当前结点标记为叶节点,但将其类别设定为其父结点所含样本最多的类别。综上,本题选A。其他选项错误。

3、ID3决策树划分时,选择信息增益最____(大/小)的属性作为划分属性

4、若数据集的属性全为离散值,决策树学习时,____(可以/不可以)把用过的属性再作为划分属性。

不可以

5、下列说法错误的是()

  1. 信息增益准则对可取值较少的属性有所偏好
  2. C4.5算法并不是直接选择增益率最大的候选划分属性
  3. 基尼指数反映了从数据集中随机抽取两个样本,其类别标记不一致的概率
  4. 基尼指数越小,数据集的纯度越高

本题选A。信息增益准则对可取值较多的属性有所偏好。比如我们选取编号属性作为属性进行划分,由于编号独特唯一,条件熵为0了,每一个结点中只有一类,所以 “纯度” 非常高。其他正确。

6、对西瓜数据集2.0(《机器学习》教材第76页),属性“触感”和“色泽”,____(触感/色泽)的增益率更大

色泽

7、对西瓜数据集2.0(《机器学习》教材第76页),属性“色泽”的基尼指数为____(保留2位有效数字)

0.43

6 / 17 ∗ ( 1 − ( 1 / 2 ) 2 − ( 1 / 2 ) 2 ) + 6 / 17 ∗ ( 1 − ( 4 / 6 ) 2 − ( 2 / 6 ) 2 ) + 5 / 17 ∗ ( 1 − ( 1 / 5 ) 2 − ( 4 / 5 ) 2 ) = 0.4275 6/17*(1-(1/2)^2-(1/2)^2)+6/17*(1-(4/6)^2-(2/6)^2)+5/17*(1-(1/5)^2-(4/5)^2)=0.4275 6/17(1(1/2)21/2)2)+6/17(1(4/6)22/6)2)+5/1711/5)24/5)2=0.4275

8、随着决策树学习时的深度增加,会发生什么现象?

  1. 位于叶结点的样本越来越少
  2. 不会把数据中不该学到的特性学出来
  3. 决策树不会过拟合
  4. 叶结点一定学到一般规律

本题选A。在决策树选取属性进行划分后,每个叶结点的样本数都比上一个结点要少,越来越少是正确的。对于B选项,过拟合后就会学到不该学到的特性。C选项任何模型都会过拟合,决策树解决过拟合的方法就是剪枝。D选项过拟合后学不到一般规律。

9、只学习一颗决策树作为模型时,一般____(要/不要)选择剪枝

不剪枝容易造成过拟合

10、(本题需阅读教材79-83页中剪枝的例子)考虑如图的训练集和验证集,其中“性别”、“喜欢ML作业”是属性,“ML成绩高”是标记。假设已生成如图的决策树,用精度(accuracy)衡量决策树的优劣,预剪枝的结果____(是/不是)原本的决策树。

西瓜书习题 - 4.决策树

不是

首先看性别,划分之前选择标记均为“是”,验证集精度为25%;划分后性别男标记为“否”,性别女标记为“是”,验证集精度为25%,因此没有带来泛化性能的提升。剪枝后决策树为直接判定标记为“是”。

11、(本题需阅读教材79-83页中剪枝的例子)考虑如图的训练集和验证集,其中“性别”、“喜欢ML作业”是属性,“ML成绩高”是标记。假设已生成如图的决策树,用精度(accuracy)衡量决策树的优劣,后剪枝的结果____(是/不是)原本的决策树。

西瓜书习题 - 4.决策树

首先看喜欢,剪枝前验证集精度为50%,剪枝后该结点标记为“否”,验证集精度为25%,因此不剪枝。最终决策树为原本的决策树。

12、下列说法正确的是()

  1. 决策树处理缺失值时,仅通过无缺失值的样例来判断划分属性的优劣
  2. 若数据中存在缺失值,决策树会仅使用无缺失的样例
  3. 若数据维度很高,不容易出现大量缺失值
  4. 对决策树,给定划分属性,若样本在该属性上的值缺失,会随机进入一个分支

本题选A。决策树在确定划分属性的优劣时,只采用无缺失值的样例。我们回顾选取划分属性时的准则,在含有属性缺失值时,我们修改后的信息增益公式为无缺失值样本的比例乘以用该属性划分后在无缺失值上带来的信息增益,从这里可以看出对于选取划分属性时和缺失值样本本身并无关系。对于B选项,缺失值属性的样例也需要在后续被使用。C选项数据维度高时容易出现缺失值。D选项进入的方法是“样本赋权,权重划分”。

13、决策树处理有缺失值样本时,一个样本在各子节点中的权重和为____(保留一位小数)

1.0

本题填1.0。我们知道在处理决策树样本具有缺失值的问题时我们采用的方法是“样本赋权,权重划分”的方法,缺失值样本以一定的权重进入所有的子节点,权重的给定方式为样本权重乘以无缺失样本中属性在对应取值上样本所占的比例,故对所有子节点求和即为样本的初始权重,我们知道根节点各样本的初始权重我们都设为1,故答案为1,这里保留一位小数应该填1.0。

14、关于剪枝,下列说法错误的是()

  1. 对于同一棵树,进行预剪枝和后剪枝得到的决策树是一样的
  2. 决策树的剪枝算法可以分为两类,分别称为预剪枝和后剪枝
  3. 预剪枝在树的训练过程中通过停止分裂对树的规模进行限制
  4. 后剪枝先构造出一棵完整的树,然后通过某种规则消除掉部分节点,用叶子节点替代

15、通常来说,子节点的基尼不纯度与其父节点是什么样的关系?

  1. 通常更低
  2. 通常更高
  3. 永远更高
  4. 永远更低

本题选A。首先我们决策树划分是要选取信息增益更大的属性值进行划分,目的为降低样本的不纯度,故我们希望其基尼不纯度是降低的;但并非所有划分都会让基尼不纯度一致降低,可以想到一种反例:我们假设有一个样本具有大概率,剩余其余所有样本均匀分配小概率;在一次划分中,我们将样本分为上述两类,其基尼不纯度会增大。故本题答案应为通常更低。文章来源地址https://www.toymoban.com/news/detail-442768.html

到了这里,关于西瓜书习题 - 4.决策树的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 西瓜书学习笔记---第四章 决策树

    目录 一、题目要求 二、数据集介绍  三、决策树模型 3.1 决策树模型介绍 3.2 决策树算法原理 3.2.1 决策树的建立 3.2.2 决策树的划分(1)—信息增益ID3 3.2.3 决策树的划分(2)—Gini指数CART 3.2.4 预剪枝pre-pruning 3.2.5 后剪枝post-pruning 3.3 决策树算法核心代码解释 四、运行结果

    2024年02月04日
    浏览(46)
  • 西瓜书读书笔记整理(五)—— 第四章 决策树

    4.1.1 什么是决策树算法 决策树算法 是一种通过构建 树形结构 进行分类和回归的机器学习算法。 决策树由结点 (node) 和有向边 (directed edge) 组成。结点有两种类型:内部结点 (internal node) 和叶结点 ( leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。 4.1.2 决策树学习

    2024年02月13日
    浏览(50)
  • 西瓜书习题 - 8.集成学习

    1、下列关于集成学习描述错误的是哪个? 集成学习只能使用若干个相同类型的学习器 集成学习使用多个学习器解决问题 集成学习在许多比赛中取得了优异的成绩 集成学习在英文中是一个外来词 2、下列哪些学习器可以作为集成学习中的学习器? 支持向量机 决策树 神经网络

    2024年02月12日
    浏览(34)
  • 吃透《西瓜书》第四章 决策树定义与构造、ID3决策树、C4.5决策树、CART决策树

    目录 一、基本概念 1.1 什么是信息熵? 1.2 决策树的定义与构造 二、决策树算法 2.1 ID3 决策树 2.2 C4.5 决策树 2.3 CART 决策树  信息熵: 熵是 度量样本集合纯度 最常用的一种指标,代表一个系统中蕴含多少信息量, 信息量越大 表明一个 系统不确定性就越大, 就存在越多的可

    2024年02月11日
    浏览(52)
  • 西瓜书习题 - 6.支持向量机

    1、对于线性可分的二分类任务样本集,将训练样本分开的超平面有很多,支持向量机试图寻找满足什么条件的超平面? 在正负类样本“正中间”的 靠近正类样本的 靠近负类样本的 以上说法都不对 2、下面关于支持向量机的说法错误的是? 支持向量机基本型是一个凸二次规

    2024年02月06日
    浏览(34)
  • 西瓜书习题 - 5.神经网络

    1、神经网络模型的两个最重要的要素是什么? 网络结构、激活函数 网络结构、神经元模型 激活函数、学习算法 学习算法、神经元模型 《机器学习》中采用的对神经网络的定义为:“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神

    2023年04月08日
    浏览(31)
  • 西瓜书习题 - 10.机器学习初步考试

    1、当学习器在训练集上把训练样本自身的一些特征当作了所有潜在样本都具有的一般性质时,泛化性能可能会因此下降,这种现象一般称为 ____。(过拟合/欠拟合) 过拟合 2、对于两个样本点 ( 0 , 0 ) , ( 1 , 1 ) (0,0),(1,1) ( 0 , 0 ) , ( 1 , 1 ) ,若我们将其投影到与拉普拉斯核函数

    2024年02月06日
    浏览(32)
  • 在西瓜数据集上用Python实现ID3决策树算法完整代码

    在西瓜数据集上用Python实现ID3决策树算法完整代码 1、决策树算法代码ID3.py 2、可视化决策树代码visual_decision_tree.py 3、贴几张运行结果图 1、生成的可视化决策树 2、代码运行结果 输出每次划分的每个属性特征的信息增益以及最后的决策树 3、记事本上手动跑程序的草图

    2024年02月08日
    浏览(48)
  • 【机器学习】西瓜书习题3.3Python编程实现对数几率回归

    参考代码 结合自己的理解,添加注释。 导入相关的库 导入数据,进行数据处理和特征工程 定义若干需要使用的函数 y = 1 1 + e − x y= frac{1}{1+e^{-x}} y = 1 + e − x 1 ​ ℓ ( β ) = ∑ i = 1 m ( − y i β T x ^ i + l n ( 1 + e β T x ^ i ) ) ell(beta) = sum_{i=1}^{m}(-y_{i}beta^{T} hat{x}_{i} + ln(1+e^{

    2024年02月15日
    浏览(44)
  • 【机器学习】西瓜书学习心得及课后习题参考答案—第3章线性模型

    过了一遍第三章,大致理解了内容,认识了线性回归模型,对数几率回归模型,线性判别分析方法,以及多分类学习,其中有很多数学推理过程以参考他人现有思想为主,没有亲手去推。 线性模型 linear model 非线性模型 nonlinear model 可解释性 comprehensibility 可理解性 understanda

    2024年02月15日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包