朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

这篇具有很好参考价值的文章主要介绍了朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

相关文章

  1. K近邻算法和KD树详细介绍及其原理详解
  2. 朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解
  3. 决策树算法和CART决策树算法详细介绍及其原理详解
  4. 线性回归算法和逻辑斯谛回归算法详细介绍及其原理详解
  5. 硬间隔支持向量机算法、软间隔支持向量机算法、非线性支持向量机算法详细介绍及其原理详解
  6. 高斯分布、高斯混合模型、EM算法详细介绍及其原理详解


前言

  今天给大家带来的主要内容包括:朴素贝叶斯算法、拉普拉斯平滑。这些内容也是机器学习的基础内容,本文不全是严格的数学定义,也包括生动的例子,所以学起来不会枯燥。下面就是本文的全部内容了!


一、朴素贝叶斯算法

  现在有这样一个例子,大学生小明是班级里最受欢迎的同学,有一天老师布置的题目非常难,于是小明给班级里面的30个同学群发求助消息:

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

图1:小明群发求助

  由于小明的人缘很好,收到消息的同学均纷纷回复小明,但是小明发现这30个回复里面既有作业答案,同时也意外收获了深情的告白。小明可以分辨出有16份作业答案,还有13份情书,唯独班长的回复小明没有看懂:

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

图2:小明收到回复

  于是小明想,可不可以按照消息中出现的关键词来给班长的回复分一下类,看看班长的回复是作业答案还是情书:

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

图3:小明利用关键词判断班长的回复

  小明首先根据收到的消息计算任何一则消息是作业答案还是情书的概率:

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

图4:分别计算得到作业答案和情书的出现概率

  然后从所有的消息中选定了四个关键词作为分类依据,并记录下每一个词在作业答案和情书中出现的次数:

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

图5:记录每一个词在作业答案和情书中出现的次数

  随后小明在两种情况下分别计算关键词出现的概率,例如在作业答案消息中,“喜欢”这个词一共出现了3次,而所有关键词出现了15次,所以在作业答案消息中出现“喜欢”这个词的概率是 3 15 \frac{3}{15} 153,以此类推,可以得到所有关键词在两种不同消息中出现的概率:

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

图6:计算所有关键词在两种不同消息中出现的概率

  当我们计算得到所有关键词在两种不同消息中出现的概率后,再来分析班长的回复,假设班长给小明发的消息中包含“红豆”和“喜欢”两个关键词,首先我们先假设这是一份作业,然后再乘以作业中出现“红豆”和“喜欢”两个关键词的概率:

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

图7:利用条件概率公式计算此信息可能是作业答案的概率

  这个公式的计算结果可以理解为猜测这是一份作业的正确程度,代入数据可以计算得到:

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

图8:代入数据得到此信息可能是作业答案的概率值

  同样可以计算假设这是一份情书的正确程度:

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

图9:代入数据得到此信息可能是情书的概率值

  很明显,小明收到的班长的信息可能为情书的概率要比可能为作业答案的概率要高,所以小明得出结论,原来班长发的是一封情书:

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

图10:小明最终判断出了班长的信息是情书

  以上整个过程就是我们常说的朴素贝叶斯算法,在朴素贝叶斯算法中,假设两个特征维度之间是相互独立的,在刚才的例子中,认为两个关键词是相互独立的,也就是说他们出现的顺序和上下文关系并不影响计算结果,哪怕它们表达的意思天差地别也不会有任何影响:

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

图11:朴素贝叶斯算法名称的由来

  但是在现实情况中很少有相互独立的情况发生,大多都是有关联的,所以维度之间相互独立的假设就显得太过于简单粗暴,那么这种算法就被称为朴素贝叶斯算法,刚刚通过文字和例子给大家直观介绍了什么是朴素贝叶斯算法,下面让我们从数学角度总结一下朴素贝叶斯算法。

  现在假设给定一个数据集 T T T,其中包含:
T = ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x n , y n ) T={(x_{1},y_{1}),(x_{2},y_{2}),\dots,(x_{n},y_{n})} T=(x1,y1),(x2,y2),,(xn,yn)
  对于其中的参数需要注意其含义:

  • x i = ( x 1 , … , x n ) x_{i}=(x^{1},\dots,x^{n}) xi=(x1,,xn) x i ( 1 ≤ x ≤ n ) x_{i}(1≤x≤n) xi(1xn)是样本特征,由一系列独立的特征维度构成
  • y i = c k y_{i}=c_{k} yi=ck y i ( 1 ≤ y ≤ n ) y_{i}(1≤y≤n) yi(1yn)是样本类别, y i y_{i} yi可能属于 c i ( 1 ≤ i ≤ k ) c_{i}(1≤i≤k) ci(1ik)中的任何一个

  刚才我们已经介绍过了,朴素贝叶斯算法就是基于样本特征 x x x来预测样本属于的类别 y y y。根据贝叶斯定理,我们可以得到这样一个看似复杂的等式:
P ( y = c k ∣ x ) = P ( y = c k ) P ( x ∣ y = c k ) ∑ k P ( y = c k ) P ( x ∣ y = c k ) P\left(y=c_{k} \mid x\right)=\frac{P\left(y=c_{k}\right) P\left(x \mid y=c_{k}\right)}{\sum_{k} P\left(y=c_{k}\right) P\left(x \mid y=c_{k}\right)} P(y=ckx)=kP(y=ck)P(xy=ck)P(y=ck)P(xy=ck)
  在上式中,因为分母上的每一个值对每一个类别来说都是一样的,所以我们可以将上式简化一下,得到一个正比关系:
P ( y = c k ∣ x ) ∝ P ( y = c k ) P ( x ∣ y = c k ) P\left(y=c_{k} \mid x\right) \propto P\left(y=c_{k}\right) P\left(x \mid y=c_{k}\right) P(y=ckx)P(y=ck)P(xy=ck)
  在上式中, y y y就是可能被分类的类别,也就是刚才例子中的作业答案或者情书,而 x x x就是关键词的集合。因为我们假设 x x x的特征是相互独立的,所以可以把它们拆分成一系列条件概率的相乘:
P ( y = c k ∣ x ) ∝ P ( y = c k ) ∏ j P ( x j ∣ y = c k ) P\left(y=c_{k} \mid x\right) \propto P\left(y=c_{k}\right) \prod_{j} P\left(x^{j} \mid y=c_{k}\right) P(y=ckx)P(y=ck)jP(xjy=ck)
  通过上式就可以在例子中计算分类正确的概率,最后选择正确分类概率最高的类别作为分类结果即可,这就是朴素贝叶斯法的数学形式。

二、拉普拉斯平滑

  我们再来看另一个例子,假设有一段话是这样写的:

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

图12:待判断的一段话

  我们现在要判断它是作业答案还是情书,那么还是按照上面介绍的朴素贝叶斯算法来计算它们的正确程度:

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

图13:按照朴素贝叶斯算法对其进行分类

  因为“喜欢”这个词出现了三次,所以需要乘三次,也就是为什么需要计算三次方。并且情书中并没有“辛苦”这个关键词出现过,所以“辛苦”在情书中出现的概率为0,所以导致最后判断其为情书的概率为0,算法从而将这段信息判断为作业答案。

  很明显这样是不对的,我们人类可以很轻松的判断出这是一份情书,但是计算机使用算法计算是死的,并没有人类的情感。出现上面那种情况的原因是什么呢?是因为“辛苦”在情书中出现的概率为0,从而导致最后的计算结果为0,为了解决这个问题,我们可以使用拉普拉斯平滑技巧。

  拉普拉斯平滑技巧就是在每个关键词上面人为增加一个出现的次数,这样就可以保证每一项都不为0:

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

图14:使用拉普拉斯平滑技巧避免出现0的概率

  按照拉普拉斯平滑后的次数,我们可以重新计算每个关键词出现的频率:

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

图15:按照拉普拉斯平滑后的次数重新计算每个关键词出现的频率

  当我们使用平滑后的结果,再计算时就可以得到正确的结论了:

朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解

图16:最终得到了正确的结果

总结

  以上就是本文的全部内容了,这个系列还会继续更新,给大家带来更多的关于机器学习方面的算法和知识,下篇博客见!文章来源地址https://www.toymoban.com/news/detail-443824.html

到了这里,关于朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【信号与系统】(二十一)拉普拉斯变换与复频域分析——拉普拉斯变换及其性质

    傅里叶变换: j w jw j w 拉普拉斯变换: s = σ + j w s=sigma+jw s = σ + j w 有些函数不满足绝对可积条件 ,求解傅里叶变换困难。为此,可用一衰减因子 e − σ t e^{-sigma t} e − σ t ( σ sigma σ 为实常数)乘信号 f ( t ) f(t) f ( t ) ,适当选取 σ sigma σ 的值,使乘积信号 f ( t ) e −

    2024年02月09日
    浏览(48)
  • 拉普拉斯算子

    在介绍拉普拉斯算子概念之前我们先介绍,哈密尔顿算子( ∇ nabla ∇ ),梯度,散度等概念 所谓哈密尔顿算子即为某一物理量在笛卡尔坐标系下的偏导数的矢量和,其运算符号为: ∇ nabla ∇ ,定义如下: ∇ = δ δ x i + δ δ y j + δ δ z k nabla={frac{delta}{delta x}}pmb{i}+{f

    2024年02月09日
    浏览(37)
  • 拉普拉斯变换

    1.公式:设f(t)在t≥0时有定义, 其中s=β+jw。 注:L(1)=   L(sgnt)=   L()= 2.性质         性质1:          性质2:          性质3:         性质4:L()= 推导性质2:使用欧拉公式进行推导 同理,cosat= ,使用分部积分法,经过两次分部积分后会出现原来的积分,通过合并

    2024年02月05日
    浏览(32)
  • 【电路分析】拉普拉斯变换及其应用

    零状态响应 是指电路的外加激励源为零的情况下,由动态元件的初始储能引起的响应。 零输入响应 是指电路的初始状态为零(即换路前电容电压为零,电感电流为零),由外加激励源产生的响应。 该函数在 t0时幅值为1,在 t0 时幅值为-0,在 t=0时函数没有定义但为有限值

    2024年02月03日
    浏览(29)
  • visual Studio MFC 平台实现拉普拉斯和拉普拉斯与直方图均衡化与中值滤波相结合实现比较

    本文使用visual Studio MFC 平台实现图像增强中的拉普拉斯变换,同时拉普拉斯一般不会单独使用,与其他平滑操作相结合,本文使用了拉普拉斯与直方图均衡化以及与中值滤波相结合,也对三种方式进行了对比 关于基础工程的创建可以参考 01-Visual Studio 使用MFC 单文档工程绘制

    2024年02月04日
    浏览(34)
  • 【线性代数】P3 拉普拉斯定理

    拉普拉斯定理是通过对余子式和代数余子式的变形展开得到,有关余子式和代数余子式的概念见:https://blog.csdn.net/weixin_43098506/article/details/126765390 假设有四阶行列式: k阶子式 行列式D的一个二阶子式为: 余子式 那么二阶子式A的余子式为: 代数余子式 那么二阶子式的代数余

    2024年02月12日
    浏览(34)
  • 图谱论学习—拉普拉斯矩阵背后的含义

    一、为什么学习拉普拉斯矩阵     早期,很多图神经网络的概念是基于图信号分析或图扩散的,而这些都需要与图谱论相关的知识。并且在图网络深度学习中(graph deep learning)中,拉普拉斯矩阵是很常用的概念,深入理解其物理含义非常有助于加深对GNN模型的理解。博主最

    2023年04月09日
    浏览(30)
  • 基于拉普拉斯金字塔的图像融合

    仅为笔记,供自己使用。 读入两幅大小相同的图像 img1 img2; 构建 img1 img2的 高斯金字塔,层数根据需要设定(本实验为7层); 根据高斯金字塔和拉普拉斯金字塔的关系,推出拉普拉斯金字塔的Li(也为7层,第一层大小和原图相同); 在 两组拉普拉斯图层 的每一层进行图像

    2024年02月11日
    浏览(33)
  • 图像处理之LoG算子(高斯拉普拉斯)

    LoG算子是由拉普拉斯算子改进而来。拉普拉斯算子是二阶导数算子,是一个标量,具有线性、位移不变性,其传函在频域空间的原点为0。所有经过拉普拉斯算子滤波的图像具有零平均灰度。但是该算子的缺点是对噪声具有敏感性,因此在实际应用中,一般先要对图像进行平滑

    2024年02月16日
    浏览(35)
  • Opencv 图像金字塔----高斯和拉普拉斯

    原文:图像金字塔----高斯和拉普拉斯 图像金字塔 是图像中多尺度表达的一种,最初用于机器视觉和图像压缩,最主要用于图像的分割、融合。 高斯金字塔是由底部的最大分辨率图像逐次向下采样得到的一系列图像。最下面的图像分辨率最高,越往上图像分辨率越低。 高斯

    2024年02月09日
    浏览(26)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包