决策树的划分依据之:信息增益率

这篇具有很好参考价值的文章主要介绍了决策树的划分依据之:信息增益率。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在上面的介绍中,我们有意忽略了"编号"这一列.若把"编号"也作为一个候选划分属性,则根据信息增益公式可计算出它的信息增益为 0.9182,远大于其他候选划分属性。

计算每个属性的信息熵过程中,我们发现,该属性的值为0, 也就是其信息增益为0.9182. 但是很明显这么分类,最后出现的结果不具有泛化效果.无法对新样本进行有效预测.

实际上,信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,著名的 C4.5 决策树算法 [Quinlan, 1993J 不直接使用信息增益,而是使用"增益率" (gain ratio) 来选择最优划分属性.

增益率:增益率是用前面的信息增益Gain(D, a)和属性a对应的"固有值"(intrinsic value) [Quinlan , 1993J的比值来共同定义的。

决策树的划分依据之:信息增益率,决策树,算法,机器学习

属性 a 的可能取值数目越多(即 V 越大),则 IV(a) 的值通常会越大.

案例一

a.计算类别信息熵

b.计算性别属性的信息熵(性别、活跃度)

c.计算活跃度的信息增益(性别、活跃度)

d.计算属性分裂信息度量

用分裂信息度量来考虑某种属性进行分裂时分支的数量信息和尺寸信息,我们把这些信息称为属性的内在信息(instrisic information)。信息增益率用信息增益/内在信息,会导致属性的重要性随着内在信息的增大而减小(也就是说,如果这个属性本身不确定性就很大,那我就越不倾向于选取它),这样算是对单纯用信息增益有所补偿。

决策树的划分依据之:信息增益率,决策树,算法,机器学习

e.计算信息增益率

决策树的划分依据之:信息增益率,决策树,算法,机器学习

活跃度的信息增益率更高一些,所以在构建决策树的时候,优先选择

通过这种方式,在选取节点的过程中,我们可以降低取值较多的属性的选取偏好。

案例二

如下图,第一列为天气,第二列为温度,第三列为湿度,第四列为风速,最后一列该活动是否进行。

我们要解决:根据下面表格数据,判断在对应天气下,活动是否会进行?

决策树的划分依据之:信息增益率,决策树,算法,机器学习
决策树的划分依据之:信息增益率,决策树,算法,机器学习

该数据集有四个属性,属性集合A={ 天气,温度,湿度,风速}, 类别标签有两个,类别集合L={进行,取消}。

a.计算类别信息熵

类别信息熵表示的是所有样本中各种类别出现的不确定性之和。根据熵的概念,熵越大,不确定性就越大,把事情搞清楚所需要的信息量就越多。

Ent(D)=−149log2149−145log2145=0.940

b.计算每个属性的信息熵

每个属性的信息熵相当于一种条件熵。他表示的是在某种属性的条件下,各种类别出现的不确定性之和。属性的信息熵越大,表示这个属性中拥有的样本类别越不“纯”。

决策树的划分依据之:信息增益率,决策树,算法,机器学习

c.计算信息增益

信息增益的 = 熵 - 条件熵,在这里就是 类别信息熵 - 属性信息熵,它表示的是信息不确定性减少的程度。如果一个属性的信息增益越大,就表示用这个属性进行样本划分可以更好的减少划分后样本的不确定性,当然,选择该属性就可以更快更好地完成我们的分类目标。

信息增益就是ID3算法的特征选择指标。

决策树的划分依据之:信息增益率,决策树,算法,机器学习

e.计算信息增益率

天气的信息增益率最高,选择天气为分裂属性。发现分裂了之后,天气是“阴”的条件下,类别是”纯“的,所以把它定义为叶子节点,选择不“纯”的结点继续分裂。

决策树的划分依据之:信息增益率,决策树,算法,机器学习

在子结点当中重复过程1~5,直到所有的叶子结点足够"纯"。

现在我们来总结一下C4.5的算法流程文章来源地址https://www.toymoban.com/news/detail-623131.html

while(当前节点"不纯")1.计算当前节点的类别熵(以类别取值计算)
    2.计算当前阶段的属性熵(按照属性取值吓得类别取值计算)
    3.计算信息增益
    4.计算各个属性的分裂信息度量
    5.计算各个属性的信息增益率
end while
当前阶段设置为叶子节点

到了这里,关于决策树的划分依据之:信息增益率的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 决策树分类算法(一)(信息熵,信息增益,基尼指数计算)

    觉得有用的请先点赞后收藏!不要只收藏不点赞! 例子: : I ( x ) = log ⁡ 2 1 p = − log ⁡ 2 p I(x)=log_{2}{frac{1}{p}}=-log_{2}{p} I ( x ) = lo g 2 ​ p 1 ​ = − lo g 2 ​ p 假设中国足球队和巴西足球队曾经有过8次比赛,其中中国队胜1次。以U表示未来的中巴比赛中国队胜的事件,那么U的先

    2024年01月16日
    浏览(44)
  • 【人工智能】监督学习、分类问题、决策树、信息增益

    什么是决策树 —— 基本概念 非叶节点:一个属性上的测试,每个分枝代表该测试的输出 叶节点:存放一个类标记 规则:从根节点到叶节点的一条属性取值路径 模型训练:从已有数据中生成一棵决策树 分裂数据的特征,寻找决策类别的路径 相同的数据,根据不同的特征顺

    2024年02月16日
    浏览(50)
  • 【机器学习】信息量、香农熵、信息增益(增加例子,方便理解)

    B站视频:“交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵” 举个例子:   如果有人告诉你,今天太阳从东边出来了,那么这条信息的信息量就 很低 ,因为每天的太阳 常常从 东边出来。  但是,突然某一天有人告诉你,今天

    2024年02月04日
    浏览(44)
  • 信息增益-决策树

    表8.1给出的是带有标记类的元组的训练集D; 类标号属性 buys_computer有两个不同值:{yes, no} 设 类 C1 → rightarrow → yes,C2 → rightarrow → no; 已知:C1包含9个元组,C2包含5个元组; age:{‘youth’, ‘middle_aged’, ‘senior’} youth middle_aged senior yes 2 4 3 no 3 0 2 对于 y o u t h youth yo u

    2024年03月19日
    浏览(46)
  • 机器学习 -决策树的案例

    我们对决策树的基本概念和算法其实已经有过了解,那我们如何利用决策树解决问题呢? 数据准备 我们准备了一些数据如下: 这些数据分别是天气,是否闷热,风速和是否出门郊游。 现在要解决的问题是“基于当前的天气和其他条件,我们是否应该进行户外活动? 构建决

    2024年02月01日
    浏览(40)
  • 机器学习——决策树的创建

      目录 一、什么是决策树?           1.决策树概念:                   2.决策树实例: 二、决策树构造的ID3算法         1.决策树的构造过程         2.使用ID3算法划分特征 三、实现决策树  四、总结  1.决策树 2.ID3算法 3.此次实验暂时无法将决策树可视化        

    2024年02月08日
    浏览(50)
  • 决策树之用信息增益选择最优特征

    决策树之用信息增益选择最优特征 熵 ​ 熵的定义: 熵(shāng),热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。 在决策树中,信息增益是由熵构建而成,表示的是[随机变量的不确定性],不确定性越大,代表着熵越大。随机变量的取值

    2024年02月01日
    浏览(36)
  • 信息熵与信息增益在决策树生成中的使用

        决策树是机器学习算法的一种,它主要对给定数据集合根据相关属性生成一个类似树结构的一种决策机制。     生成树结构,其实可以很随便,只要根据特征值的分支做分叉,把所有的特征遍历完成,这棵树就是一颗决策树。但是要生成一个最优决策树,我们需要选择合

    2024年02月16日
    浏览(41)
  • 【Python机器学习】决策树——树的特征重要性

    利用一些有用的属性来总结树的工作原理,其中最常用的事特征重要性,它为每个特征树的决策的重要性进行排序。对于每个特征来说,它都是介于0到1之间的数字,其中0代表“根本没有用到”,1代表“完美预测目标值”。特征重要性的求和为1。 将特征重要性进行可视化:

    2024年02月03日
    浏览(49)
  • 决策树的原理、方法以及python实现——机器学习笔记

    * * * * * *  The Machine Learning Noting Series  * * * * * * 决 策树(Decision Tree)是机器学习的核心算法之一,在较小训练样本或有限计算资源下仍有较好表现,它包括分类树和回归树,是目前应用最广泛的分类预测和回归预测方法。 0 引言 1 决策树的概念     分类树     回归树 2  

    2024年02月04日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包