决策树之用信息增益选择最优特征

这篇具有很好参考价值的文章主要介绍了决策树之用信息增益选择最优特征。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

决策树之用信息增益选择最优特征


熵的定义: 熵(shāng),热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。

在决策树中,信息增益是由熵构建而成,表示的是[随机变量的不确定性],不确定性越大,代表着熵越大。随机变量的取值等概率分布时,相应的熵最大,换句话说,特征的所有取值概率相同时,包含的信息是最多的,就是不确定性最大的情况。

熵和随机变量的分布相关,所以写成:
H ( p ) = − ∑ i = 1 n p i log ⁡ p i H(p)=-\sum_{i=1}^{n} p_{i} \log p_{i}\\ H(p)=i=1npilogpi
随机变量取值等概率分布时,相应的熵最大,熵的取值范围为:
0 ≤ H ( p ) ≤ log ⁡ n 0 \leq H(p) \leq \log n 0H(p)logn
例如:
X = { 0 , 概率 = p 1 ,  概率=  1 − p X= \begin{cases}0, & \text {概率}=p \\ 1, & \text { 概率= }1-p\end{cases} X={0,1,概率=p 概率1p
熵就是:
H ( p ) = − ∑ i = 1 n p i log ⁡ p i = − p log ⁡ 2 p − ( 1 − p ) log ⁡ 2 ( 1 − p ) H(p)=-\sum_{i=1}^{n} p_{i} \log p_{i}\\=-p \log _{2} p-(1-p) \log _{2}(1-p) H(p)=i=1npilogpi=plog2p(1p)log2(1p)
对p求导:
∂ H ( p ) ∂ p = − log ⁡ 2 p − 1 ln ⁡ 2 + log ⁡ 2 ( 1 − p ) + 1 ln ⁡ 2 = log ⁡ 2 1 − p p \begin{aligned} \frac{\partial H(p)}{\partial p} &=-\log _{2} p-\frac{1}{\ln 2}+\log _{2}(1-p)+\frac{1}{\ln 2} \\ &=\log _{2} \frac{1-p}{p} \end{aligned} pH(p)=log2pln21+log2(1p)+ln21=log2p1p
找到熵的极值点:
log ⁡ 2 1 − p p = 0 1 − p p = 1 p = 1 2 \log _{2} \frac{1-p}{p}=0\\ \frac{1-p}{p}=1\\ p=\frac{1}{2} log2p1p=0p1p=1p=21
即当 p = 1 2 p=\frac{1}{2} p=21时,熵取最大值

信息增益

信息增益:得知特征X而使类Y的信息的不确定性减少的程度。
​ 公式为: g(D,A)=H(D)-H(D A)

当熵和条件熵中的概率有数据估计得到时,则为经验熵和经验条件嫡。

计算信息增益步骤:

输入:训练数据集D和特征A
​ 输出:特征A对D的信息增益g(D,A)

  1. 计算经验熵公式:
    H ( D ) = − ∑ k = 1 K ∣ C k ∣ ∣ D ∣ log ⁡ 2 ∣ C k ∣ ∣ D ∣ H(D)=-\sum_{k=1}^{K} \frac{\left|C_{k}\right|}{|D|} \log _{2} \frac{\left|C_{k}\right|}{|D|} H(D)=k=1KDCklog2DCk

  2. 计算经验条件熵公式
    H ( D ∣ A ) = ∑ i = 1 n ∣ D i ∣ ∣ D ∣ H ( D i ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ ∑ k = 1 K ∣ D i k ∣ ∣ D i ∣ log ⁡ 2 ∣ D i k ∣ ∣ D i ∣ H(D \mid A)=\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} H\left(D_{i}\right)=-\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} \sum_{k=1}^{K} \frac{\left|D_{i k}\right|}{\left|D_{i}\right|} \log _{2} \frac{\left|D_{i k}\right|}{\left|D_{i}\right|} H(DA)=i=1nDDiH(Di)=i=1nDDik=1KDiDiklog2DiDik

    H ( D ∣ A 1 ) = w 1 H ( D 1 ) + w 2 H ( D 2 ) + w 3 H ( D 3 ) H\left(D \mid A_{1}\right)=w_{1} H\left(D_{1}\right)+w_{2} H\left(D_{2}\right)+w_{3} H\left(D_{3}\right) H(DA1)=w1H(D1)+w2H(D2)+w3H(D3)

    这里的嫡和条件熵中的概率由数据估计得到的,为经验熵和经验条件熵。在特征A 下每个子集所占的权重为 w i = ∣ D i ∣ ∣ D ∣ w_{i}=\frac{\left|D_{i}\right|}{|D|} wi=DDi

  3. 计算信息增益公式:
    g ( D , A ) = H ( D ) − H ( D A ) g(D,A)=H(D)-H(D A) g(D,A)=H(D)H(DA)

    信息增益例题:

决策树之用信息增益选择最优特征

  1. 计算经验熵公式

    1. 样本15个,按是否贷款分为两类,同意贷款个数=9,不同意贷款个数=6

      代入计算:
      H ( D ) = − ∑ k = 1 K ∣ C k ∣ ∣ D ∣ log ⁡ 2 ∣ C k ∣ ∣ D ∣ = − 6 15 log ⁡ 2 6 15 − 9 15 log ⁡ 2 9 15 = 0.971 \begin{aligned} H(D) &=-\sum_{k=1}^{K} \frac{\left|C_{k}\right|}{|D|} \log _{2} \frac{\left|C_{k}\right|}{|D|} \\ &=-\frac{6}{15} \log _{2} \frac{6}{15}-\frac{9}{15} \log _{2} \frac{9}{15} \\ &=0.971 \end{aligned} H(D)=k=1KDCklog2DCk=156log2156159log2159=0.971

  2. 计算经验条件熵公式

    1. A 1 、 A 2 、 A 3 、 A 4 A_1、A_2、A_3、A_4 A1A2A3A4表示年龄、工作、房子、信贷情况4个特征

    决策树之用信息增益选择最优特征
    特征:年龄 A 1 A_1 A1:取 i i i=1青年、 i i i=2中年、 i i i=3老年

    青年:
    w 1 = ∣ D 1 ∣ ∣ D ∣ = 5 15 H ( D 1 ) = − ∑ k = 1 2 ∣ D 1 k ∣ ∣ D 1 ∣ log ⁡ 2 ∣ D 1 k ∣ ∣ D 1 ∣ = − 3 5 log ⁡ 2 3 5 − 2 5 log ⁡ 2 2 5 = 0.972 \begin{aligned} &w_{1}=\frac{\left|D_{1}\right|}{|D|}=\frac{5}{15} \\ &H\left(D_{1}\right)=-\sum_{k=1}^{2} \frac{\left|D_{1 k}\right|}{\left|D_{1}\right|} \log _{2} \frac{\left|D_{1 k}\right|}{\left|D_{1}\right|}=-\frac{3}{5} \log _{2} \frac{3}{5}-\frac{2}{5} \log _{2} \frac{2}{5}=0.972 \end{aligned} w1=DD1=155H(D1)=k=12D1D1klog2D1D1k=53log25352log252=0.972
    中年:
    w 2 = ∣ D 2 ∣ ∣ D ∣ = 5 15 H ( D 2 ) = − ∑ k = 1 2 ∣ D 2 k ∣ ∣ D 2 ∣ log ⁡ 2 ∣ D 2 k ∣ ∣ D 2 ∣ = − 2 5 log ⁡ 2 2 5 − 3 5 log ⁡ 2 3 5 = 0.972 \begin{aligned} &w_{2}=\frac{\left|D_{2}\right|}{|D|}=\frac{5}{15} \\ &H\left(D_{2}\right)=-\sum_{k=1}^{2} \frac{\left|D_{2 k}\right|}{\left|D_{2}\right|} \log _{2} \frac{\left|D_{2 k}\right|}{\left|D_{2}\right|}=-\frac{2}{5} \log _{2} \frac{2}{5}-\frac{3}{5} \log _{2} \frac{3}{5}=0.972 \end{aligned} w2=DD2=155H(D2)=k=12D2D2klog2D2D2k=52log25253log253=0.972
    老年:
    w 3 = ∣ D 3 ∣ ∣ D ∣ = 5 15 H ( D 3 ) = − ∑ k = 1 2 ∣ D 3 k ∣ ∣ D 3 ∣ log ⁡ 2 ∣ D 3 k ∣ ∣ D 3 ∣ = − 1 5 log ⁡ 2 1 5 − 4 5 log ⁡ 2 4 5 = 0.720 \begin{aligned} &w_{3}=\frac{\left|D_{3}\right|}{|D|}=\frac{5}{15} \\ &H\left(D_{3}\right)=-\sum_{k=1}^{2} \frac{\left|D_{3 k}\right|}{\left|D_{3}\right|} \log _{2} \frac{\left|D_{3 k}\right|}{\left|D_{3}\right|}=-\frac{1}{5} \log _{2} \frac{1}{5}-\frac{4}{5} \log _{2} \frac{4}{5}=0.720 \end{aligned} w3=DD3=155H(D3)=k=12D3D3klog2D3D3k=51log25154log254=0.720
    综合计算经验条件熵 H ( D ∣ A 1 ) H\left(D \mid A_{1}\right) H(DA1):
    H ( D ∣ A 1 ) = w 1 H ( D 1 ) + w 2 H ( D 2 ) + w 3 H ( D 3 ) = 0.324 + 0.324 + 0.24 = 0.888 \begin{aligned} H\left(D \mid A_{1}\right) &=w_{1} H\left(D_{1}\right)+w_{2} H\left(D_{2}\right)+w_{3} H\left(D_{3}\right) \\ &=0.324+0.324+0.24 \\ &=0.888 \end{aligned} H(DA1)=w1H(D1)+w2H(D2)+w3H(D3)=0.324+0.324+0.24=0.888

  3. 计算信息增益公式
    g ( D , A 1 ) = H ( D ) − H ( D ∣ A 1 ) = 0.971 − 0.888 = 0.083 \begin{aligned} g\left(D, A_{1}\right) &=H(D)-H\left(D \mid A_{1}\right) \\ &=0.971-0.888=0.083 \end{aligned} g(D,A1)=H(D)H(DA1)=0.9710.888=0.083
    同理

特征:房子

决策树之用信息增益选择最优特征
有工作:
w 1 = ∣ D 1 ∣ ∣ D ∣ = 5 15 H ( D 1 ) = − ∑ k = 1 2 ∣ D 1 k ∣ ∣ D 1 ∣ log ⁡ 2 ∣ D 1 k ∣ ∣ D 1 ∣ = − 0 5 log ⁡ 2 0 5 − 5 5 log ⁡ 2 5 5 = 0 \begin{aligned} &w_{1}=\frac{\left|D_{1}\right|}{|D|}=\frac{5}{15} \\ &H\left(D_{1}\right)=-\sum_{k=1}^{2} \frac{\left|D_{1 k}\right|}{\left|D_{1}\right|} \log _{2} \frac{\left|D_{1 k}\right|}{\left|D_{1}\right|}=-\frac{0}{5} \log _{2} \frac{0}{5}-\frac{5}{5} \log _{2} \frac{5}{5}=0 \end{aligned} w1=DD1=155H(D1)=k=12D1D1klog2D1D1k=50log25055log255=0
没有工作:
w 2 = ∣ D 2 ∣ ∣ D ∣ = 10 15 H ( D 2 ) = − ∑ k = 1 2 ∣ D 2 k ∣ ∣ D 2 ∣ log ⁡ 2 ∣ D 2 k ∣ ∣ D 2 ∣ = − 6 10 log ⁡ 2 6 10 − 4 10 log ⁡ 2 4 10 \begin{aligned} &w_{2}=\frac{\left|D_{2}\right|}{|D|}=\frac{10}{15} \\ &H\left(D_{2}\right)=-\sum_{k=1}^{2} \frac{\left|D_{2 k}\right|}{\left|D_{2}\right|} \log _{2} \frac{\left|D_{2 k}\right|}{\left|D_{2}\right|}=-\frac{6}{10} \log _{2} \frac{6}{10}-\frac{4}{10} \log _{2} \frac{4}{10} \end{aligned} w2=DD2=1510H(D2)=k=12D2D2klog2D2D2k=106log2106104log2104
综合计算经验条件熵 H ( D ∣ A 2 ) H\left(D \mid A_{2}\right) H(DA2):
H ( D ∣ A 2 ) = w 1 H ( D 1 ) + w 2 H ( D 2 ) ) = 0.647 \begin{aligned} H\left(D \mid A_{2}\right) &=w_{1} H\left(D_{1}\right)+w_{2} H\left(D_{2}\right)) =0.647 \end{aligned} H(DA2)=w1H(D1)+w2H(D2))=0.647
计算信息增益公式
g ( D , A 2 ) = H ( D ) − H ( D ∣ A 1 ) = 0.971 − 0.647 = 0.324 \begin{aligned} g\left(D, A_{2}\right) &=H(D)-H\left(D \mid A_{1}\right) \\ &=0.971-0.647=0.324 \end{aligned} g(D,A2)=H(D)H(DA1)=0.9710.647=0.324
特征:房子

决策树之用信息增益选择最优特征
有房子:
w 1 = ∣ D 1 ∣ ∣ D ∣ = 6 15 H ( D 1 ) = − ∑ k = 1 2 ∣ D 1 k ∣ ∣ D 1 ∣ log ⁡ 2 ∣ D 1 k ∣ ∣ D 1 ∣ = − 0 6 log ⁡ 2 0 6 − 6 6 log ⁡ 2 6 6 = 0 \begin{aligned} &w_{1}=\frac{\left|D_{1}\right|}{|D|}=\frac{6}{15} \\ &H\left(D_{1}\right)=-\sum_{k=1}^{2} \frac{\left|D_{1 k}\right|}{\left|D_{1}\right|} \log _{2} \frac{\left|D_{1 k}\right|}{\left|D_{1}\right|}=-\frac{0}{6} \log _{2} \frac{0}{6}-\frac{6}{6} \log _{2} \frac{6}{6}=0 \end{aligned} w1=DD1=156H(D1)=k=12D1D1klog2D1D1k=60log26066log266=0
没有房子:
w 2 = ∣ D 2 ∣ ∣ D ∣ = 9 15 H ( D 2 ) = − ∑ k = 1 2 ∣ D 2 k ∣ ∣ D 2 ∣ log ⁡ 2 ∣ D 2 k ∣ ∣ D 2 ∣ = − 3 9 log ⁡ 2 3 9 − 6 9 log ⁡ 2 6 9 \begin{aligned} &w_{2}=\frac{\left|D_{2}\right|}{|D|}=\frac{9}{15} \\ &H\left(D_{2}\right)=-\sum_{k=1}^{2} \frac{\left|D_{2 k}\right|}{\left|D_{2}\right|} \log _{2} \frac{\left|D_{2 k}\right|}{\left|D_{2}\right|}=-\frac{3}{9} \log _{2} \frac{3}{9}-\frac{6}{9} \log _{2} \frac{6}{9} \end{aligned} w2=DD2=159H(D2)=k=12D2D2klog2D2D2k=93log29396log296
综合计算经验条件熵 H ( D ∣ A 3 ) H\left(D \mid A_{3}\right) H(DA3):
H ( D ∣ A 3 ) = w 1 H ( D 1 ) + w 2 H ( D 2 ) ) = 0.551 \begin{aligned} H\left(D \mid A_{3}\right) &=w_{1} H\left(D_{1}\right)+w_{2} H\left(D_{2}\right)) =0.551 \end{aligned} H(DA3)=w1H(D1)+w2H(D2))=0.551
计算信息增益公式
g ( D , A 3 ) = H ( D ) − H ( D ∣ A 1 ) = 0.971 − 0.551 = 0.420 \begin{aligned} g\left(D, A_{3}\right) &=H(D)-H\left(D \mid A_{1}\right) \\ &=0.971-0.551=0.420 \end{aligned} g(D,A3)=H(D)H(DA1)=0.9710.551=0.420
特征:信贷情况

决策树之用信息增益选择最优特征

  1. 非常好:
    w 1 = ∣ D 1 ∣ ∣ D ∣ = 4 15 H ( D 1 ) = − ∑ k = 1 2 ∣ D 1 k ∣ ∣ D 1 ∣ log ⁡ 2 ∣ D 1 k ∣ ∣ D 1 ∣ = − 0 4 log ⁡ 2 0 4 − 4 4 log ⁡ 2 4 4 = 0 \begin{aligned} &w_{1}=\frac{\left|D_{1}\right|}{|D|}=\frac{4}{15} \\ &H\left(D_{1}\right)=-\sum_{k=1}^{2} \frac{\left|D_{1 k}\right|}{\left|D_{1}\right|} \log _{2} \frac{\left|D_{1 k}\right|}{\left|D_{1}\right|}=-\frac{0}{4} \log _{2} \frac{0}{4}-\frac{4}{4} \log _{2} \frac{4}{4}=0 \end{aligned} w1=DD1=154H(D1)=k=12D1D1klog2D1D1k=40log24044log244=0
    好:
    w 2 = ∣ D 2 ∣ ∣ D ∣ = 6 15 H ( D 2 ) = − ∑ k = 1 2 ∣ D 2 k ∣ ∣ D 2 ∣ log ⁡ 2 ∣ D 2 k ∣ ∣ D 2 ∣ = − 2 6 log ⁡ 2 2 6 − 4 6 log ⁡ 2 4 6 \begin{aligned} &w_{2}=\frac{\left|D_{2}\right|}{|D|}=\frac{6}{15} \\ &H\left(D_{2}\right)=-\sum_{k=1}^{2} \frac{\left|D_{2 k}\right|}{\left|D_{2}\right|} \log _{2} \frac{\left|D_{2 k}\right|}{\left|D_{2}\right|}=-\frac{2}{6} \log _{2} \frac{2}{6}-\frac{4}{6} \log _{2} \frac{4}{6} \end{aligned} w2=DD2=156H(D2)=k=12D2D2klog2D2D2k=62log26264log264
    一般:
    w 3 = ∣ D 3 ∣ ∣ D ∣ = 5 15 H ( D 3 ) = − ∑ k = 1 2 ∣ D 3 k ∣ ∣ D 3 ∣ log ⁡ 2 ∣ D 3 k ∣ ∣ D 3 ∣ = − 4 5 log ⁡ 2 4 5 − 1 5 log ⁡ 2 1 5 \begin{aligned} &w_{3}=\frac{\left|D_{3}\right|}{|D|}=\frac{5}{15} \\ &H\left(D_{3}\right)=-\sum_{k=1}^{2} \frac{\left|D_{3 k}\right|}{\left|D_{3}\right|} \log _{2} \frac{\left|D_{3 k}\right|}{\left|D_{3}\right|}=-\frac{4}{5} \log _{2} \frac{4}{5}-\frac{1}{5} \log _{2} \frac{1}{5} \end{aligned} w3=DD3=155H(D3)=k=12D3D3klog2D3D3k=54log25451log251
    综合计算经验条件熵 H ( D ∣ A 4 ) H\left(D \mid A_{4}\right) H(DA4):
    H ( D ∣ A 1 ) = w 1 H ( D 1 ) + w 2 H ( D 2 ) + w 3 H ( D 3 ) = 0.608 \begin{aligned} H\left(D \mid A_{1}\right) &=w_{1} H\left(D_{1}\right)+w_{2} H\left(D_{2}\right)+w_{3} H\left(D_{3}\right)=0.608 \end{aligned} H(DA1)=w1H(D1)+w2H(D2)+w3H(D3)=0.608
    计算信息增益公式
    g ( D , A 4 ) = H ( D ) − H ( D ∣ A 4 ) = 0.971 − 0.608 = 0.363 \begin{aligned} g\left(D, A_{4}\right) &=H(D)-H\left(D \mid A_{4}\right) \\ &=0.971-0.608=0.363 \end{aligned} g(D,A4)=H(D)H(DA4)=0.9710.608=0.363
    汇总如下:
    决策树之用信息增益选择最优特征
    特征:房子对应的经验熵最小0.551,信息增益 0.420最大,选择这个特征的话,对应的不确定性最小,分类选择最为明确,可以设为最优特征。

注意:不同特征内的分类个数不同,有的是3个,比如年龄(青年、中年、老年),有的是2个,比如工作(有工作、无工作),取值个数较多时,可能计算出的信息增益会更大,从图中可以看出信息增益会更倾向于取值较多的特征。

信息增益更倾向于具有更多选择的那个特征 会造成信息增益比更少选择的特征大

例如: 信贷情况信息增益0.363大于有工作的信息增益0.324,有可能是因为信贷取值较多而带来的影响。怎么将这个影响降下去,引入信息增益比(在信息增益的情况下,增加一个惩罚项,训练数据集D关于特征A的熵的倒数)。特征A单位取值个数下的信息收益
特 征 A 单 位 取 值 个 数 下 的 信 息 收 益 g ( D , A ) / H A ( D ) 特征A单位取值个数下的信息收益g(D,A)/H_A(D) Ag(D,A)/HA(D)

选择信息增益比最大值为最优特征

怎么计算 H A ( D ) H_A(D) HA(D): 只要找到每个特征对应的子集的样本个数个数;
决策树之用信息增益选择最优特征

年 龄 所 对 应 的 熵 : H A 1 ( D ) = − 5 15 l o g 2 5 15 − 5 15 l o g 2 5 15 − 5 15 l o g 2 5 15 = 1.585 年龄所对应的熵:H_{A1}(D)=-\frac{5}{15}log_2\frac{5}{15}-\frac{5}{15}log_2\frac{5}{15}-\frac{5}{15}log_2\frac{5}{15}=1.585 HA1(D)=155log2155155log2155155log2155=1.585

工 作 所 对 应 的 熵 : H A 2 ( D ) = − 5 15 l o g 2 5 15 − 10 15 l o g 2 10 15 = 0.918 工作所对应的熵:H_{A2}(D)=-\frac{5}{15}log_2\frac{5}{15}-\frac{10}{15}log_2\frac{10}{15}=0.918 HA2(D)=155log21551510log21510=0.918

房 子 的 熵 : H A 3 ( D ) = − 6 15 l o g 2 6 15 − 9 15 l o g 2 9 15 = 0.971 房子的熵:H_{A3}(D)=-\frac{6}{15}log_2\frac{6}{15}-\frac{9}{15}log_2\frac{9}{15}=0.971 HA3(D)=156log2156159log2159=0.971

信 贷 的 熵 : H A 4 ( D ) = − 4 15 l o g 2 4 15 − 6 15 l o g 2 6 15 − 5 15 l o g 2 5 15 = 1.566 信贷的熵:H_{A4}(D)=-\frac{4}{15}log_2\frac{4}{15}-\frac{6}{15}log_2\frac{6}{15}-\frac{5}{15}log_2\frac{5}{15}=1.566 HA4(D)=154log2154156log2156155log2155=1.566

决策树之用信息增益选择最优特征
选了有自己的房子特征之后,怎么选下一个特征?

如果按信息增益选择特征: 有工作0.324小于信贷情况0.363 ,应该选择信贷情况,因为信息增益的值大代表着更多的确定性。

如果消除特征个数所带来的影响的话,通过信息增益比来选择特征,则得到相反的结果,此时的0.353大于0.232.

信息增益倾向于取值较多的特征,信息增益比倾向于选择取值较少的特征。选择哪一个,根据具体情况选择。文章来源地址https://www.toymoban.com/news/detail-427768.html


到了这里,关于决策树之用信息增益选择最优特征的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 决策树的划分依据之:信息增益率

    在上面的介绍中,我们有意忽略了\\\"编号\\\"这一列.若把\\\"编号\\\"也作为一个候选划分属性,则根据信息增益公式可计算出它的信息增益为 0.9182,远大于其他候选划分属性。 计算每个属性的信息熵过程中,我们发现,该属性的值为0, 也就是其信息增益为0.9182. 但是很明显这么分类,最后

    2024年02月14日
    浏览(45)
  • 信息熵与信息增益在决策树生成中的使用

        决策树是机器学习算法的一种,它主要对给定数据集合根据相关属性生成一个类似树结构的一种决策机制。     生成树结构,其实可以很随便,只要根据特征值的分支做分叉,把所有的特征遍历完成,这棵树就是一颗决策树。但是要生成一个最优决策树,我们需要选择合

    2024年02月16日
    浏览(41)
  • 【人工智能】监督学习、分类问题、决策树、信息增益

    什么是决策树 —— 基本概念 非叶节点:一个属性上的测试,每个分枝代表该测试的输出 叶节点:存放一个类标记 规则:从根节点到叶节点的一条属性取值路径 模型训练:从已有数据中生成一棵决策树 分裂数据的特征,寻找决策类别的路径 相同的数据,根据不同的特征顺

    2024年02月16日
    浏览(50)
  • 机器学习2:决策树--基于信息增益的ID3算法

      建立决策树的过程可以分为以下几个步骤: 计算每个特征的信息增益或信息增益比,选择最优的特征作为当前节点的划分标准。 根据选择的特征将数据集划分为不同的子集。 对每个子集递归执行步骤 1 和步骤 2,直到满足终止条件。 构建决策树,并输出。 计算每个特征的

    2024年02月06日
    浏览(51)
  • python机器学习(六)决策树(上) 构造树、信息熵的分类和度量、信息增益、CART算法、剪枝

    模拟相亲的过程,通过相亲决策图,男的去相亲,会先选择性别为女的,然后依次根据年龄、长相、收入、职业等信息对相亲的另一方有所了解。 通过决策图可以发现,生活中面临各种各样的选择,基于我们的经验和自身需求进行一些筛选,把判断背后的逻辑整理成结构图,

    2024年02月14日
    浏览(48)
  • 机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?

    在实际应用中,特征选择作为机器学习和数据挖掘领域的重要环节,对于提高模型性能和减少计算开销具有关键影响。特征选择是从原始特征集中选择最相关和最具区分力的特征子集,以提高模型的泛化能力和可解释性。 特征选择在实践中具有以下重要性: 提高模型性能:

    2024年02月12日
    浏览(37)
  • 信息熵,信息增益,增益率的理解

    编号 色泽 根蒂 敲声 纹理 脐部 触感 好瓜 1 青绿 蜷缩 浊响 清晰 凹陷 硬滑 是 2 乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 是 3 乌黑 蜷缩 浊响 清晰 凹陷 硬滑 是 4 青绿 蜷缩 沉闷 清晰 凹陷 硬滑 是 5 浅白 蜷缩 浊响 清晰 凹陷 硬滑 是 6 青绿 稍蜷 浊响 清晰 稍凹 软粘 是 7 乌黑 稍蜷 浊

    2024年02月12日
    浏览(36)
  • 【小呆的概率论学习笔记】抽样调查之用抽样样本估计母体数字特征

    1. 随机变量的数字特征 随机变量本质上是一个随机数,他以概率的形式取任何可能的取值,但是随机变量取值却有一定的规律,我们可以称之为随机变量的数字特征。最简明、最常用的随机变量的数字特征就是均值(或者说期望)和方差。 1.1 随机变量的均值(期望) 随机变

    2024年02月01日
    浏览(91)
  • 【机器学习】信息量、香农熵、信息增益(增加例子,方便理解)

    B站视频:“交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵” 举个例子:   如果有人告诉你,今天太阳从东边出来了,那么这条信息的信息量就 很低 ,因为每天的太阳 常常从 东边出来。  但是,突然某一天有人告诉你,今天

    2024年02月04日
    浏览(44)
  • importance中信息增益和基尼系数

    信息增益和基尼系数都是用于评价决策树分裂节点的指标,它们有以下主要的相同点和不同点: 相同点: 都用于测度数据集的无序程度(impurity),可以评价分裂后的无序程度减少量 取值范围都在0到1之间,0表示完全有序 都遵循同一思路,优先选择造成无序程度最大减少的特征进行分

    2024年02月10日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包