机器学习之朴素贝叶斯一

这篇具有很好参考价值的文章主要介绍了机器学习之朴素贝叶斯一。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、概述

朴素贝叶斯算法是典型的有监督学习算法,解决的是分类问题
贝叶斯算法是一种基于贝叶斯定理的分类算法,它的优点和缺点如下:

优点:

  1. 算法原理简单易懂,实现较为容易;
  2. 可以利用先验知识对模型进行训练,并不需要大量的数据就可以得到合理的预测结果;
  3. 对噪声数据具有鲁棒性,因为模型可以自动学习并忽略噪声数据;
    能够处理多分类问题。

缺点:

  1. 需要先验知识作为输入,若先验信息不准确,则会影响模型的预测结果;
  2. 在输入变量的数量很大时,计算复杂度会非常高,需要耗费大量的时间和计算资源;
  3. 对连续型变量的建模较难,需要对其进行离散化处理,这样就可能会丢失一些信息;
  4. 当特征之间存在相互关联时,贝叶斯算法的表现可能会受到限制。

二、什么是贝叶斯?

  1. 贝叶斯是指贝叶斯学派(Bayesian),它是概率论的一个分支,其研究的是不确定性的量化和推理。具体来说,贝叶斯学派的核心思想是基于贝叶斯公式进行不确定性推断。

  2. 贝叶斯公式是概率论中的一项基本定理,它描述了在给定某些先验条件下,根据新的观测数据如何更新已有的信念。简单地说,贝叶斯公式可以用来计算在得到新信息后,对事件可能发生的概率进行修正。

  3. 贝叶斯学派认为,我们对未知事物的判断应该基于主观经验和现有证据,而非仅仅依赖于观测数据。因此,在贝叶斯学派的框架下,我们可以将个人经验和领域知识作为先验知识输入到模型中,然后根据新的数据来不断调整我们的信念,最终得出更加准确的结论。

  4. 贝叶斯方法在机器学习、统计学和人工智能等领域中得到广泛的应用,例如朴素贝叶斯分类、贝叶斯网络、马尔可夫链蒙特卡洛(MCMC)等算法。

三、朴素贝叶斯与贝叶斯决策论的关系

  1. 朴素贝叶斯算法是基于贝叶斯决策论的一种分类算法
  2. 贝叶斯决策论是指给定一个待分类的样本,通过其先验概率各个特征的条件概率计算样本属于某个类别的后验概率,从而得到最终的分类结果。
  3. 而朴素贝叶斯算法假设各个特征之间相互独立,通过计算每个特征对于不同类别的条件概率来得到最终的分类结果。因此,朴素贝叶斯算法是一种基于贝叶斯决策论并且做出了条件独立性假设的分类算法

例如:假设
现在有两组样本数据,我们使用p1(x,y)表示样本数据一中数据点(x,y),用p2(x,y)表示样本数据二中的数据点(x,y)。

  1. 如果p1(x,y) > p2(x,y),那么类别为1
  2. 如果p1(x,y) < p2(x,y),那么类别为2
    也就是说,我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想,即选择具有最高概率的决策。
    已经了解了贝叶斯决策理论的核心思想,那么接下来,就是学习如何计算p1和p2概率。

四、贝叶斯理论推导.

经过上面的例子我们清楚,贝叶斯决策论是指给定一个待分类的样本,通过其先验概率各个特征的条件概率计算样本属于某个类别的后验概率,从而得到最终的分类结果,因此计算p1和p2是我们的最终目的。
计算这两概率就绕不开条件概率,因为贝叶斯算法利用了条件概率来做出决策.

1.条件概率

指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。
例如:
圆A与圆B相交,进行推导条件概率:

机器学习之朴素贝叶斯一

2. 全概率公式:

条件该率只是帮助我们进行部分内容计算,而想要最终的概率结果,仍然需要进行全概率公式计算:

进行简单推导
机器学习之朴素贝叶斯一

3.进行最后计算:

经过上面的条件概率和全概率推导最后得到:

  p(A|B) = p(A)p(B|A)/p(B) 

我们把P(A)称为"先验概率"(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。
P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。
P(B|A)/P(B)称为"可能性函数"(Likelyhood),这是一个调整因子,使得预估概率更接近真实概率。

总结为:
后验概率 = 先验概率 x 调整因子

这就是贝叶斯推断的含义。我们先预估一个"先验概率",然后加入实验结果,看这个实验到底是增强还是削弱了"先验概率",由此得到更接近事实的"后验概率"。
在这里,如果"可能性函数"P(B|A)/P(B)>1,意味着"先验概率"被增强,事件A的发生的可能性变大;如果"可能性函数"=1,意味着B事件无助于判断事件A的可能性;如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小。

用一个实际例子来说明:
机器学习之朴素贝叶斯一

4. 推广到朴素贝叶斯的

上面有说到,朴素贝叶斯与贝斯是不同的。
朴素贝叶斯分类器是一种基于贝叶斯定理和条件独立假设的分类器。它假设每个特征之间相互独立,即每个特征对于分类结果的影响是相互独立的。这样可以大大简化模型的训练和预测,并提高计算效率。
贝叶斯的去噪则是一种基于最大后验概率估计(MAP)的方法,用于去除数据中的噪声。在贝叶斯的去噪中,我们将原始信号看作是随机变量,将噪声看作是先验概率分布,利用贝叶斯定理推导出后验概率分布。然后,根据后验概率分布进行信号恢复。与朴素贝叶斯不同,贝叶斯的去噪并没有使用条件独立假设。

相比较而言,贝叶斯算法不涉及特征和类别之间的关系,只是通过统计方法来预测某个事件的概率;而朴素贝叶斯算法则是基于特征条件独立性假设利用贝叶斯定理来进行分类决策

用公式说明就是:

机器学习之朴素贝叶斯一

这里说明一下为什么缺少了p(B)

我们看到朴素贝叶斯在使用的时候相对于贝叶斯缺少了p(B)

  1. 贝叶斯公式中的 p(A|B) 表示在已知事件 B 发生的情况下,事件 A 发生的概率。而朴素贝叶斯是一种基于贝叶斯公式的分类算法,在分类问题中,将特征向量看作一个事件 B,将类别看作一个事件 A

  2. 因此,在计算样本 x 属于某个类别 C后验概率时,朴素贝叶斯假设各个特征之间相互独立,即 p(x|C) = p(x1|C)p(x2|C)...p(xn|C),其中 x1, x2, ..., xn 分别是特征向量的不同维度。这个假设简化了计算过程,但是忽略了特征之间的相关性。
    说明一下这里的不同维度是什么意思?
    不同维度指的是一个特征向量中不同的特征值,例如对于一个文本分类问题,可以将每个单词作为一个特征,那么一个特征向量就可以表示为一个包含多个单词出现次数的向量。这个向量的每个维度就代表一个单词在该文本中的出现次数,也就是一个特征值。因此,在朴素贝叶斯中,p(x|C) 表示给定类别 C 下,各个特征值(维度)之间相互独立的条件概率。

  3. 根据贝叶斯公式,朴素贝叶斯可表示为: p(C|x) = p(x|C)p(C)/p(x) 其中,p(x|C) 表示在类别 C特征向量 x 出现的概率p(C) 表示类别 C 的先验概率p(x) 表示特征向量出现的概率。由于对于所有类别都是相同的,所以可以省略分母 p(x)

  4. 因此,朴素贝叶斯的公式可以简化为: p(C|x) ∝ p(x|C)p(C) 其中,∝ 表示“正比于”。这个式子中缺少了 p(x),但是在分类问题中,对于一个给定的样本 xp(x) 对于不同的类别来说是相同的,因此省略掉后不影响最终的分类结果。

6. 示例说明

某个医院早上来了六个门诊的病人,他们的情况如下表所示:
机器学习之朴素贝叶斯一 现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大?

根据贝叶斯定理:

机器学习之朴素贝叶斯一
根据朴素贝叶斯条件独立性的假设可知,"打喷嚏"和"建筑工人"这两个特征是独立的,因此,上面的等式就变成了

机器学习之朴素贝叶斯一
这里可以计算:
机器学习之朴素贝叶斯一
因此,这个打喷嚏的建筑工人,有66%的概率是得了感冒。同理,可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率,就可以知道他最可能得什么病。

这就是贝叶斯分类器的基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类。

同样,在编程的时候,如果不需要求出所属类别的具体概率,P(打喷嚏) = 0.5和P(建筑工人) = 0.33的概率是可以不用求的。

参考文章文章来源地址https://www.toymoban.com/news/detail-463806.html

到了这里,关于机器学习之朴素贝叶斯一的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【机器学习】十大算法之一 “朴素贝叶斯”

      作者主页: 爱笑的男孩。的博客_CSDN博客-深度学习,活动,python领域博主 爱笑的男孩。擅长深度学习,活动,python,等方面的知识,爱笑的男孩。关注算法,python,计算机视觉,图像处理,深度学习,pytorch,神经网络,opencv领域. https://blog.csdn.net/Code_and516?type=blog 个人简介:打工人。 持续分

    2024年02月09日
    浏览(38)
  • 机器学习算法系列(六)-- 朴素贝叶斯

    朴素贝叶斯法是基于概率统计,特征条件独立假设的分类方法,是一种非常常用的机器学习算法;通常用于处理文本分类和情感分析等自然语言处理任务中。相对于其他复杂的模型,朴素贝叶斯算法具有简单、易于实现、高效和良好的准确性等特点。 概率论基础 条件概率 事

    2024年02月07日
    浏览(44)
  • 机器学习算法——贝叶斯分类器3(朴素贝叶斯分类器)

    基于贝叶斯公式来估计后验概率P(c|x)的主要困难在于:类条件概率P(x|c)是所有属性上的联合概率,难以从有限的训练样本直接估计而得。 为避开这个障碍,朴素贝叶斯分类器(Naive Bayes classfier)采用了“ 属性条件独立性假设 ”:对已知类别,假设所有属性相互独立。换句话

    2023年04月22日
    浏览(56)
  • 【机器学习 | 朴素贝叶斯】朴素贝叶斯算法:概率统计方法之王,简单有效的数据分类利器

    🤵‍♂️ 个人主页: @AI_magician 📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。 👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍 🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能硬件(虽然硬件还没开始玩,但一直

    2024年02月15日
    浏览(52)
  • 机器学习——朴素贝叶斯算法(垃圾邮件分类)

    先验概率 :指的是 事件发生前 的预判概率,可以根据历史数据/经验估算得到。例如,当我们需要判断西瓜是不是好瓜的时候,对纹理、根蒂等特征都不了解,只是平常我们买西瓜的时候买到好瓜的概率是70%,那么这个西瓜是好瓜的概率我们也可以认为是70%。这个概率70%就是

    2024年02月03日
    浏览(58)
  • 【机器学习】分类算法 - 朴素贝叶斯 MultinomialNB

    「作者主页」: 士别三日wyx 「作者简介」: CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「推荐专栏」: 对网络安全感兴趣的小伙伴可以关注专栏《网络安全入门到精通》 md5() 可以计算字符串的 「MD5散列值」 。 语法 参数 $str :需要计算的字符串

    2024年02月14日
    浏览(44)
  • 《机器学习核心算法》分类算法 - 朴素贝叶斯 MultinomialNB

    「作者主页」: 士别三日wyx 「作者简介」: CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「推荐专栏」: 小白零基础《Python入门到精通》 朴素贝叶斯法(Naive Bayes model 简称 NBM )是基于 「贝叶斯定理」 与 「特征条件独立假设」 的分类方法。 「贝

    2024年02月08日
    浏览(51)
  • 机器学习算法--朴素贝叶斯(Naive Bayes)

    1. 朴素贝叶斯(Naive Bayes) 朴素贝叶斯的介绍 朴素贝叶斯算法(Naive Bayes, NB) 是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数学基础,以及稳定的分类效率。NB模型所需估计的参

    2024年02月08日
    浏览(46)
  • 机器学习——基于朴素贝叶斯分类算法实现垃圾邮件分类

    贝叶斯定理: 贝叶斯理论指的是,根据一个已发生事件的概率,计算另一个事件的发生概率。贝叶斯理论从数学上的表示可以写成这样:  ,在这里A和B都是事件, P(B)P(B)不为0。 在贝叶斯定理中: 1. P(A) 称为”先验概率”,即在B事件发生之前,我们对A事件概率的一个判断。如

    2024年02月04日
    浏览(51)
  • 基于机器学习算法:朴素贝叶斯和SVM 分类-垃圾邮件识别分类系统(含Python工程全源码)

    本项目采用朴素贝叶斯和支持向量机(SVM)分类模型作为基础,通过对垃圾邮件和正常邮件的数据进行训练,旨在实现垃圾邮件的自动识别功能。 通过训练这两个分类模型,我们的目标是建立一个高效准确的垃圾邮件识别系统。当接收到新的邮件时,系统将对邮件文本进行预

    2024年02月09日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包