机器学习理论知识部分——朴素贝叶斯

这篇具有很好参考价值的文章主要介绍了机器学习理论知识部分——朴素贝叶斯。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

系列文章专栏以及精选文章

机器学习以及matlab和数据分析

机器学习聚类算法——BIRCH算法、DBSCAN算法、OPTICS算法_

机器学习——随机森林算法、极端随机树和单颗决策树分类器对手写数字数据进行对比分析_极端随机森林算法

文章目录

问题一、朴素贝叶斯是基于特征独立性假设的概率模型吗？

问题二、在机器学习当中，求特征的信息增益值的具体步骤

问题三、信息增益比作为决策树判别标准时，对可取值数目较多的特征有所偏好？

问题四、gart决策树可以有多个分支结构

问题五、高斯朴素贝叶斯假设离散特征的取值符合高斯分布？

前言

本文主要是对机器学习理论部分的讲解

问题一、朴素贝叶斯是基于特征独立性假设的概率模型吗？

朴素贝叶斯分类器是基于特征独立性假设的概率模型。具体来说，朴素贝叶斯分类器假设每个特征与其他特征都是独立的，也就是说，每个特征对于分类结果的影响是相互独立的。这个假设在实际应用中并不总是成立，但是在很多情况下，朴素贝叶斯分类器仍然能够取得很好的分类效果。

在朴素贝叶斯分类器中，对于一个给定的样本，我们需要计算它属于每个类别的概率，并选择概率最大的类别作为分类结果。具体来说，我们需要计算先验概率P(Y)，即每个类别的概率，以及条件概率P(X|Y)，即在给定类别的情况下，每个特征取不同值的概率。由于特征独立性假设，可以将条件概率表示为每个特征取值的概率的乘积，即：

P(X|Y) = P(X1|Y) * P(X2|Y) * ... * P(Xn|Y)

其中，X1、X2、...、Xn表示样本的n个特征。

然后，我们可以使用贝叶斯公式计算后验概率P(Y|X)，即在给定样本的情况下，每个类别的概率，公式如下：

P(Y|X) = P(X|Y) * P(Y) / P(X)

其中，P(X)是归一化因子，可以表示为：

P(X) = Σ P(X|Y) * P(Y)

最终，我们选择后验概率最大的类别作为分类结果。

问题二、在机器学习当中，求特征的信息增益值的具体步骤

在机器学习中，求特征的信息增益值通常用于决策树算法中的特征选择。其具体步骤如下：

1. 计算数据集的熵。使用公式 $H(D)=-\sum_{i=1}^{n}p_i\log_2p_i$，其中 $n$ 表示数据集中类别的数量，$p_i$ 表示每个类别在数据集中的占比。

2. 对于每个特征 $A_i$，计算其对数据集的条件熵。使用公式 $H(D|A_i)=\sum_{j=1}^{m}\frac{|D_j|}{|D|}H(D_j)$，其中 $m$ 表示特征 $A_i$ 取值的数量，$|D_j|$ 表示特征 $A_i$ 取值为第 $j$ 个取值的样本数，$H(D_j)$ 表示特征 $A_i$ 取值为第 $j$ 个取值时所对应的数据集的熵。

3. 计算特征 $A_i$ 对数据集的信息增益值。使用公式 $Gain(A_i)=H(D)-H(D|A_i)$。

4. 选择信息增益值最大的特征作为当前节点的划分特征。

5. 重复上述步骤，直到所有样本都被正确分类或无法继续划分为止。

以上就是求特征的信息增益值的具体步骤。

问题三、信息增益比作为决策树判别标准时，对可取值数目较多的特征有所偏好？

是的，信息增益比作为决策树判别标准时，对可取值数目较多的特征有所偏好。信息增益比的计算公式为 $Gain\_ratio(A_i)=\frac{Gain(A_i)}{IV(A_i)}$，其中 $IV(A_i)$ 表示特征 $A_i$ 的固有值，$IV(A_i)=-\sum_{j=1}^{m}\frac{|D_j|}{|D|}\log_2\frac{|D_j|}{|D|}$。

固有值 $IV(A_i)$ 反映了特征 $A_i$ 可能的取值数目，可取值数目越多，$IV(A_i)$ 的值就越大。因此，在计算信息增益比时，分母中的 $IV(A_i)$ 会对信息增益比的大小产生影响，即对可取值数目较多的特征有所偏好，因为固有值越大，信息增益比越小，从而降低了该特征作为判断条件的优先级。

因此，在特征数目较多且可取值数目较多的情况下，使用信息增益比作为决策树判别标准可以更好地进行特征选择。