信息熵,信息增益,增益率的理解

这篇具有很好参考价值的文章主要介绍了信息熵,信息增益,增益率的理解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

这个是全部文档目录

以西瓜数据集为例,前7列(包含编号列)均为属性列,不是划分类别的指标,此例上一个瓜是否为好瓜是判断类别的唯一标准,则按照好瓜(是),好瓜(否)分为2类,即二分类问题
故D的信息熵仅由最后一列(好瓜)进行计算
简单看来:

如出现多个类别,则每个类别占比相同时最混乱,只有一个类别数据时纯度最高
举例说明
- (例1) 情况1.2的纯度大于情况1.1
  $(情况1.1):P_{ 好瓜} = \frac12,P_{坏瓜} = \frac12$
  $(情况1.2):P_{ 好瓜} = \frac1{10},P_{坏瓜} = \frac9{10}$
- (例2) 情况2.2的纯度大于情况2.1
  $(情况2.1):P_{ 好瓜} = \frac2{10},P_{坏瓜} = \frac8{10}$
  $(情况2.2):P_{ 好瓜} = \frac1{10},P_{坏瓜} = \frac9{10}$
- 这样看来,在二分类问题中,取每个情况取最大的pk,比较大小,越大的纯度越高即可
- 但是三分类问题就会有点问题
- (例3) 情况3.2的纯度大于情况3.1
  $(情况3.1):P_1 = \frac6{10},P_2 = \frac2{10},P_3 = \frac2{10}$
  $(情况3.2):P_1 = \frac6{10},P_2 = \frac3{10},P_3 = \frac1{10}$
在例3的情况下,仅仅比较最大值6/10都是一样的,那么就需要比较第二大的值,3/10>2/10,故3.2的纯度大于情况3.1
由此可见,比较两个样本D信息熵的方法有了
但是不太方便,如果要用一个值来量化纯度(混乱程度),思路很清晰,同一个情况(一个集合D)中的分类占比越大,则对纯度程度的贡献就越大.即在(情况3.2)中 6/10的纯度意义 > 3/10 > 1/10
使用log函数可以实现8提到的要求.pk值越小,则log(pk)会更小.选用以2为底的对数函数,故当前样本集合D中第k类样本所占比例为pk(k=1,2,3,…,|y|),则D的信息熵为:
$-\sum\limits _{k=1}^{|y|}p_klog_2p_k$

D包含若干属性,若使用某个属性a(即样本中的某列,例如色泽)对D进行划分,将D划分为多个子集
以西瓜数据为例,如使用属性色泽进行划分,则一共有3个属性值,则将全部数据划分为3个子集,即:
$D_{按照色泽划分} = D_{青绿} \cup D_{乌黑} \cup D_{浅白}$
故a在D上的信息增益为:
$(\frac{|D_{青绿}|}{|D|}Ent(D_{青绿}) +\frac{|D_{乌黑}|}{|D|}Ent(D_{乌黑})+ \frac{|D_{浅白}|}{|D|}Ent(D_{浅白}) )$
可以看出,属性(色泽)对样本集D进行划分所能获得的纯度提升程度即为:Gain(D,色泽). 如每次都选择提升程度最大的一个,则决策树的分支越少.