机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数)

这篇具有很好参考价值的文章主要介绍了机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 熵

物理学上,熵 Entropy 是“混乱”程度的量度。

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

系统越有序,熵值越低;系统越混乱或者分散,熵值越⾼。

1948年⾹农提出了信息熵(Entropy)的概念。

       从信息的完整性上进⾏的描述:当系统的有序状态⼀致时,数据越集中的地⽅熵值越⼩,数据

越分散的地⽅熵值越⼤。 

      从信息的有序性上进⾏的描述:当数据量⼀致时,系统越有序,熵值越低;系统越混乱或者分

散,熵值越⾼。

"信息熵" (information entropy)是度量样本集合纯度最常⽤的⼀种指标。 假定当前样本集合 D 中第

k 类样本所占的⽐例为 pk (k = 1, 2,. . . , |y|) ,机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类,D为样本的所有数量,Ck 为第k类样本

的数量。 则 D 的信息熵定义为(log是以2为底,lg是以10为底):

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类其中:Ent(D) 的值越⼩,则 D 的纯度越⾼。

例子:假设我们没有看世界杯的⽐赛,但是想知道哪⽀球队会是冠军, 我们只能猜测某⽀球队是

或不是冠军,然后观众⽤对或不对来回答, 我们想要猜测次数尽可能少,⽤什么⽅法?

答案: ⼆分法。

假如有 16 ⽀球队,分别编号,先问是否在 1-8 之间,如果是就继续问是否在 1-4 之间, 以此类

推,直到最后判断出冠军球队是哪⽀。 如果球队数量是 16,我们需要问 4 次来得到最后的答案。

那么世界冠军这条消息的信息熵就是 4。

那么信息熵等于4,是如何进⾏计算的呢?

Ent(D) = -(p1 * logp1 + p2 * logp2 + ... + p16 * logp16),其中 p1, ..., p16 分别是这 16 ⽀球队

夺冠的概率。 当每⽀球队夺冠概率相等都是 1/16 的时侯,Ent(D) = -(16 * 1/16 * log1/16) = 4

每个事件概率相同时,熵最⼤,这件事越不确定。

2. 信息增益

信息增益:以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性,熵越⼤,样本

的不确定性就越⼤。 因此可以使⽤划分前后集合熵的差值来衡量使⽤当前特征对于样本集合D划分

效果的好坏。

信息增益 = entroy(前) - entroy(后)

信息增益表示得知特征X的信息⽽使得类Y的信息熵减少的程度。

假定离散属性a有 V 个可能的取值:机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

若使⽤ a 来对样本集 D 进⾏划分,则会产⽣ V 个分⽀结点,其中第v个分⽀结点包含了 D 中所有

在属性 a上取值为 av 的样本,记为 D。我们可根据前⾯给出的信息熵公式计算出 D 的信息熵,再

考虑到不同的分⽀结点所包含的样本数不同,给分⽀结点赋予权重机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

即样本数越多的分⽀结点的影响越⼤,于是可计算出⽤属性 a 对样本集 D 进⾏划分所获得的"信息

增益" (information gain)。

其中:特征a对训练数据集 D 的信息增益 Gain(D,a),定义为集合 D 的信息熵 Ent(D) 与给定特征 a

条件下 D 的信息条件熵 Ent(D∣a) 之差,即公式为:

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

公式的详细解释: 信息熵的计算:

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

条件熵的计算: 

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

其中:Dv 表示 a 属性中第 v 个分⽀节点包含的样本数

Ckv 表示 a 属性中第 v 个分⽀节点包含的样本数中,第 k 个类别下包含的样本数

⼀般⽽⾔,信息增益越⼤,则意味着使⽤属性 a 来进⾏划分所获得的"纯度提升"越⼤。因此,我们

可⽤信息增益来进⾏决策树的划分属性选择,著名的 ID3 决策树学习算法 [Quinlan, 1986] 就是

以信息增益为准则来选择划分属性。 其中,ID3 名字中的 ID 是 Iterative Dichotomiser (迭代⼆分

器)的简称。

比如:第⼀列为论坛号码,第⼆列为性别,第三列为活跃度,最后⼀列⽤户是否流失。 我们要解

决⼀个问题:性别和活跃度两个特征,哪个对⽤户流失影响更⼤?

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

通过计算信息增益可以解决这个问题,统计上右表信息。其中Positive为正样本(已流失),

Negative为负样本(未流失),下⾯的数值为不同划分下对应的⼈数。 可得到三个熵: 

①计算类别信息熵(整体熵)

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

②性别属性的信息熵

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

③性别的信息增益

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

④活跃度的信息熵 

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

⑤活跃度的信息增益

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

活跃度的信息增益⽐性别的信息增益⼤,也就是说,活跃度对⽤户流失的影响⽐性别⼤。在做特

征选择或者数据分析的时候,应该重点考察活跃度这个指标。 

3. 信息增益率

在上⾯的介绍中,我们有意忽略了"编号"这⼀列。若把"编号"也作为⼀个候选划分属性,则根据信

息增益公式可计算出它的信息增益为 0.9182,远⼤于其他候选划分属性。 计算每个属性的信息熵

过程中,发现该属性的值为0,也就是其信息增益为0.9182。但是很明显这么分类,最后出现的结

果不具有泛化效果,⽆法对新样本进⾏有效预测。

实际上,信息增益准则对可取值数⽬较多的属性有所偏好,为减少这种偏好可能带来的不利影响,

著名的 C4.5 决策树算法不直接使⽤信息增益,⽽是使⽤"增益率" (gain ratio) 来选择最优划分属

性。 增益率:增益率是⽤前⾯的信息增益 Gain(D, a) 和属性 a 对应的"固有值"(intrinsic value) 的

⽐值来共同定义的。

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

属性 a 的可能取值数⽬越多(即 V 越⼤),则 IV(a) 的值通常会越⼤。

⽤分裂信息度量来考虑某种属性进⾏分裂时分⽀的数量信息和尺⼨信息,把这些信息称为属性的内

在信息 (instrisic information)。信息增益率⽤信息增益/内在信息,会导致属性的重要性随着内在

信息的增⼤⽽减⼩(也就是说,如果这个属性本身不确定性就很⼤,那我就越不倾向于选取它),

这样算是对单纯⽤信息增益有所补偿。

上面的例子中,计算属性分裂信息度量:

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

计算信息增益率:

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

活跃度的信息增益率更⾼⼀些,所以在构建决策树的时候,优先选择通过这种⽅式,在选取节点的

过程中,我们可以降低取值较多的属性的选取偏好。 

例子2:第⼀列为天⽓,第⼆列为温度,第三列为湿度,第四列为⻛速,最后⼀列该活动是否进

⾏。根据下⾯表格数据,判断在对应天⽓下,活动是否会进⾏?

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

该数据集有四个属性,属性集合A={ 天⽓,温度,湿度,⻛速}, 类别标签有两个,类别集合L={进

⾏,取消}。 

①计算类别信息熵。类别信息熵表示的是所有样本中各种类别出现的不确定性之和。根据熵的概

念,熵越⼤,不确定性就越⼤,把事情搞清楚所需要的信息量就越多。

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

②计算每个属性的信息熵。每个属性的信息熵相当于⼀种条件熵。表示的是在某种属性的条件下,

各种类别出现的不确定性之和。属性的信息熵越⼤,表示这个属性中拥有的样本类别越不“纯”。 

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

③计算信息增益。信息增益 = 熵 - 条件熵,在这⾥就是类别信息熵 - 属性信息熵,它表示的是信息

不确定性减少的程度。如果⼀个属性的信息增益越⼤,就表示⽤这个属性进⾏样本划分可以更好的

减少划分后样本的不确定性,当然,选择该属性就可以更快更好地完成分类⽬标。 信息增益就是

ID3算法的特征选择指标。 

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

假设把上⾯表格1的数据前⾯添加⼀列为"编号",取值(1--14)。若把"编号"也作为⼀个候选划分属

性,则根据前⾯步骤:计算每个属性的信息熵过程中,该属性的值为0,也就是其信息增益为

0.940。但是很明显这么分类,最后出现的结果不具有泛化效果。此时根据信息增益就⽆法选择出

有效分类特征。所以,C4.5选择使⽤信息增益率对ID3进⾏改进。 

④计算属性分裂信息度量。⽤分裂信息度量来考虑某种属性进⾏分裂时分⽀的数量信息和尺⼨信

息,把这些信息称为属性的内在信息 (instrisic information)。信息增益率⽤信息增益/内在信息,

会导致属性的重要性随着内在信息的增⼤⽽减⼩(也就是说,如果这个属性本身不确定性就很⼤,

那就越不倾向于选取它),这样算是对单纯⽤信息增益有所补偿。

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

⑤计算信息增益率。

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

天⽓的信息增益率最⾼,选择天⽓为分裂属性。发现分裂了之后,天⽓是“阴”的条件下,类别是”纯

“的,所以把它定义为叶⼦节点,选择不“纯”的结点继续分裂。 

C4.5的算法流程:

while(当前节点"不纯"):
    1.计算当前节点的类别熵(以类别取值计算)
    2.计算当前阶段的属性熵(按照属性取值吓得类别取值计算)
    3.计算信息增益
    4.计算各个属性的分裂信息度量
    5.计算各个属性的信息增益率
end while
当前阶段设置为叶⼦节点

C4.5的优点:

①⽤信息增益率来选择属性,克服了⽤信息增益来选择属性时偏向选择值多的属性的不⾜。

②采⽤了⼀种后剪枝⽅法避免树的⾼度⽆节制的增⻓,避免过度拟合数据

③对于缺失值的处理 在某些情况下,可供使⽤的数据可能缺少某些属性的值。假如〈x,c(x)〉是

样本集S中的⼀个训练实例,但是其属性A 的值A(x)未知。 处理缺少属性值的⼀种策略是赋给它结

点n所对应的训练实例中该属性的最常⻅值; 另外⼀种更复杂的策略是为A的每个可能值赋予⼀个

概率,C4.5就是使⽤这种⽅法处理缺少的属性值。

4. 基尼值和基尼指数

CART 决策树 [Breiman et al., 1984] 使⽤"基尼指数"(Gini index)来选择划分属性。CART 是

Classification and Regression Tree的简称,这是⼀种著名的决策树学习算法,分类和回归任务都

可⽤基尼值Gini(D):从数据集D中随机抽取两个样本,其类别标记不⼀致的概率。Gini(D)值

越⼩,数据集D的纯度越⾼。 数据集 D 的纯度可⽤基尼值来度量:

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类         D为样本的所有数量,Ck 为第 k 类样本的数量。 

基尼指数Gini_index(D):⼀般,选择使划分后基尼系数最⼩的属性作为最优化分属性。

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

1. 对数据集⾮序列标号属性{是否有房,婚姻状况,年收⼊}分别计算它们的Gini指数,取Gini指数

最⼩的属性作为决策树的根节点属性。 

2. 根节点的Gini值为:

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

3. 当根据是否有房来进⾏划分时,Gini指数计算过程为: 

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

4. 若按婚姻状况属性来划分,属性婚姻状况有三个可能的取值{married,single,divorced},分别

计算划分后的Gini系数增益。 {married} | {single,divorced} {single} | {married,divorced} {divorced} |

{single,married} 

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

对⽐计算结果,根据婚姻状况属性来划分根节点时取Gini指数最⼩的分组作为划分结果,即:

{married} | {single,divorced} 。

5. 同理可得年收⼊Gini: 对于年收⼊属性为数值型属性,⾸先需要对数据按升序排序,然后从⼩

到⼤依次⽤相邻值的中间值作为分隔将样本划分为两组。例如当⾯对年收⼊为60和70这两个值

时,我们算得其中间值为65。以中间值65作为分割点求出Gini指数。

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

根据计算知道,三个属性划分根节点的指数最⼩的有两个:年收⼊属性和婚姻状况,他们的指数都

为0.3。此时,选取⾸先出现的属性{married}作为第⼀次划分。 

6. 接下来,采⽤同样的⽅法,分别计算剩下属性,其中根节点的Gini系数为(此时是否拖⽋贷款的

各有3个records)。

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

7. 对于是否有房属性,可得: 

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

8. 对于年收⼊属性则有: 

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

经过如上流程,构建的决策树,如下图:

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数),机器学习,机器学习,决策树,分类

CART的算法流程:

while(当前节点"不纯"):
    1.遍历每个变量的每⼀种分割⽅式,找到最好的分割点
    2.分割成两个节点N1和N2
end while
每个节点⾜够“纯”为⽌


 

 文章来源地址https://www.toymoban.com/news/detail-685132.html

 

 

 

 

到了这里,关于机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • importance中信息增益和基尼系数

    信息增益和基尼系数都是用于评价决策树分裂节点的指标,它们有以下主要的相同点和不同点: 相同点: 都用于测度数据集的无序程度(impurity),可以评价分裂后的无序程度减少量 取值范围都在0到1之间,0表示完全有序 都遵循同一思路,优先选择造成无序程度最大减少的特征进行分

    2024年02月10日
    浏览(36)
  • 【人工智能】监督学习、分类问题、决策树、信息增益

    什么是决策树 —— 基本概念 非叶节点:一个属性上的测试,每个分枝代表该测试的输出 叶节点:存放一个类标记 规则:从根节点到叶节点的一条属性取值路径 模型训练:从已有数据中生成一棵决策树 分裂数据的特征,寻找决策类别的路径 相同的数据,根据不同的特征顺

    2024年02月16日
    浏览(58)
  • 【海量数据挖掘/数据分析】之 决策树模型(决策树模型、决策树构成、决策树常用算法、决策树性能要求、信息增益、信息增益计算公式、决策树信息增益计算实例)

    目录 【海量数据挖掘/数据分析】之 决策树模型(决策树模型、决策树构成、决策树常用算法、决策树性能要求、信息增益、信息增益计算公式、决策树信息增益计算实例) 一、决策树模型 1、常用算法 2、属性划分策略 3、其他算法 三、决策树算法性能要求 四、 决策树模型

    2024年02月13日
    浏览(58)
  • 【机器学习】信息量、香农熵、信息增益(增加例子,方便理解)

    B站视频:“交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵” 举个例子:   如果有人告诉你,今天太阳从东边出来了,那么这条信息的信息量就 很低 ,因为每天的太阳 常常从 东边出来。  但是,突然某一天有人告诉你,今天

    2024年02月04日
    浏览(45)
  • 信息增益-决策树

    表8.1给出的是带有标记类的元组的训练集D; 类标号属性 buys_computer有两个不同值:{yes, no} 设 类 C1 → rightarrow → yes,C2 → rightarrow → no; 已知:C1包含9个元组,C2包含5个元组; age:{‘youth’, ‘middle_aged’, ‘senior’} youth middle_aged senior yes 2 4 3 no 3 0 2 对于 y o u t h youth yo u

    2024年03月19日
    浏览(46)
  • 机器学习 -决策树的案例

    我们对决策树的基本概念和算法其实已经有过了解,那我们如何利用决策树解决问题呢? 数据准备 我们准备了一些数据如下: 这些数据分别是天气,是否闷热,风速和是否出门郊游。 现在要解决的问题是“基于当前的天气和其他条件,我们是否应该进行户外活动? 构建决

    2024年02月01日
    浏览(41)
  • 机器学习——决策树的创建

      目录 一、什么是决策树?           1.决策树概念:                   2.决策树实例: 二、决策树构造的ID3算法         1.决策树的构造过程         2.使用ID3算法划分特征 三、实现决策树  四、总结  1.决策树 2.ID3算法 3.此次实验暂时无法将决策树可视化        

    2024年02月08日
    浏览(51)
  • 决策树之用信息增益选择最优特征

    决策树之用信息增益选择最优特征 熵 ​ 熵的定义: 熵(shāng),热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。 在决策树中,信息增益是由熵构建而成,表示的是[随机变量的不确定性],不确定性越大,代表着熵越大。随机变量的取值

    2024年02月01日
    浏览(40)
  • 信息熵与信息增益在决策树生成中的使用

        决策树是机器学习算法的一种,它主要对给定数据集合根据相关属性生成一个类似树结构的一种决策机制。     生成树结构,其实可以很随便,只要根据特征值的分支做分叉,把所有的特征遍历完成,这棵树就是一颗决策树。但是要生成一个最优决策树,我们需要选择合

    2024年02月16日
    浏览(42)
  • 【Python机器学习】决策树——树的特征重要性

    利用一些有用的属性来总结树的工作原理,其中最常用的事特征重要性,它为每个特征树的决策的重要性进行排序。对于每个特征来说,它都是介于0到1之间的数字,其中0代表“根本没有用到”,1代表“完美预测目标值”。特征重要性的求和为1。 将特征重要性进行可视化:

    2024年02月03日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包