机器学习笔记07---朴素贝叶斯分类器

这篇具有很好参考价值的文章主要介绍了机器学习笔记07---朴素贝叶斯分类器。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

    贝叶斯公式:

机器学习笔记07---朴素贝叶斯分类器

 其中,P(c)是类"先验"概率;P(x|c)是样本x相对于类标记c的类条件概率,或称为"似然"(likelihood);P(x)是用于归一化的“证据”因子。对给定样本x,证据因子P(x)与类标记无关,因此估计P(c|x)的问题就转化为如何基于训练数据D来估计先验P(c)和似然P(x|c)。

    类先验概率P(c)表达了样本空间种各类样本所占的比例,根据大数定律,当训练集包含充足的独立同分布样本时,P(c)可通过各类样本出现的频率来进行估计。

    对类条件概率P(x|c)来说,由于它涉及关于x所有属性的联合概率,直接根据样本出现的频率来估计将会遇到严重的困难。因为在现实应用中,很多样本取值在训练集中根本没有出现,直接用频率来估计P(x|c)显然不可行,可以用极大似然估计来解决问题。

二、朴素贝叶斯分类器

    不难发现,基于贝叶斯公式来估计后验概率P(c|x)的主要困难在于:类条件概率P(x|c)是所有属性上的联合概率,难以从有限的训练样本直接估计而得。(基于有限训练样本直接估计联合概率,在计算上将会遭遇组合爆炸问题,在数据上将会遭遇样本稀疏问题;属性数越多,问题越严重)为了避开这个障碍,朴素贝叶斯分类器(naive Bayes classifier)采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。换言之,假设每个属性独立地对分类结果发生影响。

    基于属性条件独立性假设,贝叶斯公式可以重写为:

机器学习笔记07---朴素贝叶斯分类器

其中d为属性数目,xi为x在第i个属性上的取值。

    由于对所有类别来说P(x)相同,因此贝叶斯判定准则有:

机器学习笔记07---朴素贝叶斯分类器

 这就是朴素贝叶斯分类器的表达式。

    显然,朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(c),并为每个属性估计条件概率P(xi|c)。

    令Dc表示训练集D种第c类样本组成的集合,若有充足的独立同分布样本,则可以容易的估计出类先验概率:

机器学习笔记07---朴素贝叶斯分类器

 对离散属性而言,令Dc,xi表示Dc种在第i个属性上取值为xi的样本组成的集合,则条件概率P(xi|c)可估计为:

机器学习笔记07---朴素贝叶斯分类器

 对连续属性可考虑概率密度函数,假定p(xi|c)~N(μc,i,σc,i²),其中μc,i和σc,i²分别是第c类样本在第i个属性上取值的均值和方差。则有:

机器学习笔记07---朴素贝叶斯分类器

     需注意,若某个属性值在训练集中没有与某个类同时出现过,则直接基于条件概率P(xi|c)进行概率估计,再根据贝叶斯判定准则进行判别将出现问题。例如在训练集中出现某个属性值没有与某个类同时出现的时候,由贝叶斯判定准则种连乘式计算出的概率值为零。因此,无论该样本的其他属性是什么,分类的结果都不受影响。这显然不太合理。

    为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时通常要进行“平滑”(smoothing),常用拉普拉斯修正(Laplacian correction)。具体来说,令N表示训练集D中可能的类别数,Ni表示第i个属性可能的取值数,则类先验概率和条件概率可以修正为:

    

机器学习笔记07---朴素贝叶斯分类器

机器学习笔记07---朴素贝叶斯分类器

 注意:拉普拉斯修正实质上假设了属性值与类别均匀分布,这是在朴素贝叶斯学习过程中额外引入的关于数据的先验。

    显然,拉普拉斯修正避免了因训练集样本不充分而导致概率估值为零的问题。并且在训练集变大时,修正过程所引入的先验的影响也会逐渐变得可忽略,使得估值渐趋向于实际概率值。

    在现实任务中朴素贝叶斯分类器有多种使用方式。例如,若任务对预测速度要求较高,则对给定训练集,可将朴素贝叶斯分类器涉及的所有概率估值事先计算好存储起来,这样在进行预测时只需“查表”即可进行判别;若任务数据更替频繁,则可采用“懒惰学习”(lazy learning)方式,先不进行任何训练,待收到预测请求时再根据当前数据集进行概率估值;若数据不断增加,则可在现有估值基础上,仅对新增样本的属性值所涉及的概率估值进行计数修正即可实现增量学习。

三、拓展-半朴素贝叶斯分类器

    为了降低贝叶斯公式种估计后验概率P(c|x)的困难,朴素贝叶斯分类器采用了属性条件独立性假设,但在现实任务中这个假设往往很难成立。于是人们尝试对属性条件独立性假设进行一定程度的放宽,由此产生了一类称为“半朴素贝叶斯分类器”的学习方法。

    半朴素贝叶斯分类器的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。“独依赖估计”(One-Dependent Estimator,简称ODE)是半朴素贝叶斯分类器最常用的一种策略。顾名思义,所谓“独依赖”就是假设每个属性在类别之外最多仅依赖于一个其他属性。

机器学习笔记07---朴素贝叶斯分类器

 其中pai是属性xi所依赖的属性,称为xi的父属性。此时,对每个属性xi,若其父属性pai已知,则可采用拉普拉斯修正后的类条件概率的方法来估计概率值P(xi|c,pai)。

    于是,不同的方法产生不同的独依赖分类器。下面简单举例两个独依赖分类器:

    ①SPODE(Super-Parent ODE)

    假设所有属性都依赖于同一个属性,称为“超父”,然后通过交叉验证等模型选择方法来确定超父属性。

    ②AODE(Average One-Dependent Estimator)

    AODE是一种基于集成学习机制、更为强大的独依赖分类器。与SPODE通过模型选择确定超父属性不同。AODE尝试将每个属性座位超父来构建SPODE,然后将那些具有足够训练数据支撑的SPODE集成起来作为最终结果。

总结:

    既然将属性条件独立性假设放松为独依赖假设可能获得泛化性能的提升,那么,能否通过考虑属性间的高阶依赖来进一步提升泛化性能呢?也就是说,将属性pai替换为包含k个属性的集合pai,从而将ODE扩展为kDE。需注意的是,随着k的增加,准确估计概率P(xi|y,pai)所需的训练样本数量将以指数级增加。因此若训练数据非常充分,泛化性能有可能提升;但在有限样本条件下,则又陷入高阶联合概率的泥潭。

参考周志华《机器学习》文章来源地址https://www.toymoban.com/news/detail-471539.html

到了这里,关于机器学习笔记07---朴素贝叶斯分类器的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习——朴素贝叶斯算法(垃圾邮件分类)

    先验概率 :指的是 事件发生前 的预判概率,可以根据历史数据/经验估算得到。例如,当我们需要判断西瓜是不是好瓜的时候,对纹理、根蒂等特征都不了解,只是平常我们买西瓜的时候买到好瓜的概率是70%,那么这个西瓜是好瓜的概率我们也可以认为是70%。这个概率70%就是

    2024年02月03日
    浏览(45)
  • 机器学习——基于朴素贝叶斯分类算法实现垃圾邮件分类

    贝叶斯定理: 贝叶斯理论指的是,根据一个已发生事件的概率,计算另一个事件的发生概率。贝叶斯理论从数学上的表示可以写成这样:  ,在这里A和B都是事件, P(B)P(B)不为0。 在贝叶斯定理中: 1. P(A) 称为”先验概率”,即在B事件发生之前,我们对A事件概率的一个判断。如

    2024年02月04日
    浏览(43)
  • 【机器学习 | 朴素贝叶斯】朴素贝叶斯算法:概率统计方法之王,简单有效的数据分类利器

    🤵‍♂️ 个人主页: @AI_magician 📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。 👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍 🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能硬件(虽然硬件还没开始玩,但一直

    2024年02月15日
    浏览(38)
  • 《机器学习核心算法》分类算法 - 朴素贝叶斯 MultinomialNB

    「作者主页」: 士别三日wyx 「作者简介」: CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「推荐专栏」: 小白零基础《Python入门到精通》 朴素贝叶斯法(Naive Bayes model 简称 NBM )是基于 「贝叶斯定理」 与 「特征条件独立假设」 的分类方法。 「贝

    2024年02月08日
    浏览(43)
  • 机器学习-基于朴素贝叶斯的垃圾邮件分类

    概率论是许多机器学习算法的基础,此篇博客会给出一些使用概率论进行分类的方法。 首先从一个最简单的概率分类器开始,然后给出一些假设来学习朴素贝叶斯分类器。我们称之为“朴素”,是因为整个形式化过程只做最原始、最简单的假设。 我们还将构建另一个分类器

    2024年02月02日
    浏览(36)
  • 机器学习:基于朴素贝叶斯(Naive Bayes)的分类预测

    目录 一、简介和环境准备 简介: 环境: 二、实战演练 2.1使用葡萄(Wine)数据集,进行贝叶斯分类 1.数据导入 2.模型训练 3.模型预测 2.2模拟离散数据集–贝叶斯分类 1.数据导入、分析 2.模型训练、预测  三、原理解析 朴素贝叶斯算法 优缺点: 朴素贝叶斯(Naive Bayes, NB) 是

    2023年04月19日
    浏览(80)
  • 【机器学习实战】-基于概率论的分类方法:朴素贝叶斯

    【机器学习实战】读书笔记 **朴素贝叶斯:**称为“ 朴素 ”的原因,整个形式化过程只做最原始、最简单的假设,特征之间没有关联,是统计意义上的独立。 **优点:**在数据较少的情况下仍然有效,可以处理多类别问题。 **缺点:**对于输入数据的准备方式较为敏感。 **适

    2024年03月25日
    浏览(40)
  • Spark-机器学习(5)分类学习之朴素贝叶斯算法

    在之前的文章中,我们学习了回归中的逻辑回归,并带来简单案例,学习用法。想了解的朋友可以查看这篇文章。同时,希望我的文章能帮助到你,如果觉得我的文章写的不错,请留下你宝贵的点赞,谢谢。 Spark-机器学习(4)回归学习之逻辑回归-CSDN博客 文章浏览阅读2.6k次

    2024年04月28日
    浏览(38)
  • 机器学习朴素贝叶斯笔记

    朴素贝叶斯(Naive Bayes)是一种基于贝叶斯定理和特征独立性假设的简单但有效的分类算法。它常用于文本分类、垃圾邮件过滤和情感分析等任务。下面我将详细解释朴素贝叶斯的原理和步骤。 首先,我们需要了解几个重要的概念: 贝叶斯定理(Bayes\\\' theorem):贝叶斯定理是

    2024年02月15日
    浏览(28)
  • 机器学习实验1——朴素贝叶斯和逻辑回归分类Adult数据集

    基于Adult数据集,完成关于收入是否大于50K的逻辑回归分类、朴素贝叶斯模型训练、测试与评估。 认识数据 14个特征变量如下 1个目标变量:Income:50K 或 50K 填充缺失值(“ ?”) 统计各类型数据缺失个数如下,这三种缺失数据类型均为离散型(discrete),因此采用众数填充较

    2024年01月23日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包