【深度学习】S2 数学基础 P6 概率论

这篇具有很好参考价值的文章主要介绍了【深度学习】S2 数学基础 P6 概率论。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

基本概率论

机器学习本质上,就是做出预测。而概率论提供了一种量化和表达不确定性水平的方法,可以帮助我们量化对某个结果的确定性程度。

在一个简单的图像分类任务中;

  • 如果我们非常确定图像中的对象是一只猫,那么我们可以说标签为 “猫” 的概率是 1,即 P ( y = “猫” ) = 1 P(y =“猫”) = 1 P(y=)=1;
  • 如果我们无法区分图像是猫还是狗,那么我们可以说两者出现的概率相等,即 P ( y = “猫” ) = P ( y = “狗” ) = 0.5 P(y =“猫”) = P(y =“狗”) = 0.5 P(y=)=P(y=)=0.5;
  • 如果我们对图像是否为猫不太确定,我们可以将概率设置在一个介于 0.5 和 1 之间的值,表示我们对其为猫的确定性程度不是完全的,但比完全不确定要高。

这种概率的量化和比较使得我们可以更加客观和量化地评估和处理不确定性。

概率论公理

概率论名词:

  • 样本空间:所有可能结果的集合;
  • 事件:给定样本空间的一个子集;
  • 概率:将集合映射到真实值的函数,反映了事件发生的可能性;

概率论公理:

  • 对于任意事件,其概率从不会是负数;
  • 整个样本空间的概率为 1;
  • 对于互斥事件(A、B、C互斥),有 P ( A ∪ B ∪ C ) = P ( A ) + P ( B ) + P ( C ) P(A∪B∪C)=P(A) + P(B) + P(C) P(ABC)=P(A)+P(B)+P(C)

随机变量

随机变量是将样本空间中的每个结果映射到一个实数集上的函数;

e . g . e.g. e.g. 以掷一个六面的骰子为例,其样本空间 S S S 包含所有可能的结果,即 S = { 1 , 2 , 3 , 4 , 5 , 6 } S = \{1, 2, 3, 4, 5, 6\} S={1,2,3,4,5,6}。我们定义一个随机变量 X X X,它将每个结果映射到一个实数。这里假设我们设定 X = x 2 + 1 X = x^2+1 X=x2+1,其中 x x x 为骰子的结果。

那么我们可以计算出每个结果对应的 X X X 值:

  • x = 1 x=1 x=1 时, X = x 2 + 1 = 2 X = x^2+1=2 X=x2+1=2
  • x = 2 x=2 x=2 时, X = x 2 + 1 = 5 X = x^2+1=5 X=x2+1=5
  • x = 3 x=3 x=3 时, X = x 2 + 1 = 10 X = x^2+1=10 X=x2+1=10
  • x = 4 x=4 x=4 时, X = x 2 + 1 = 17 X = x^2+1=17 X=x2+1=17
  • x = 5 x=5 x=5 时, X = x 2 + 1 = 26 X = x^2+1=26 X=x2+1=26
  • x = 6 x=6 x=6 时, X = x 2 + 1 = 37 X = x^2+1=37 X=x2+1=37

因此,离散随机变量 X X X 的可能取值为 {2, 5, 10, 17, 26, 37};在公平骰子的情况下,每个结果出现的概率是相等的,出现的概率都为 1 6 \frac 1 6 61


多个随机变量

联合概率

联合概率 P ( A = a , B = b ) P(A=a, B=b) P(A=a,B=b) 描述的是事件 A A A 发生且事件 B B B 也发生的概率。具体来说,它表示在所有可能的情况中,事件 A A A 结果为 a a a 且事件 B B B 结果为 b b b 的这种情况出现的概率是多少。

隐含在这个概念中的概率定律是,事件 A A A 和事件 B B B 同时发生的概率不会超过事件 A A A 或者事件 B B B 单独发生的概率。即 P ( A = a , B = b ) ≤ P ( A = a ) P(A=a, B=b) ≤ P(A=a) P(A=a,B=b)P(A=a)

条件概率

而联合概率不等式的变形:
0 ≤ P ( A = a , B = b ) P ( A = a ) ≤ 1 0 ≤ \frac {P(A=a, B=b)} {P(A=a)} ≤ 1 0P(A=a)P(A=a,B=b)1

这个比率称为条件概率,并用 P ( B = b ∣ A = a ) P(B=b|A=a) P(B=bA=a) 来表示。他是 B = b B=b B=b 的概率,前提是 A = a A=a A=a 已发生。

完整公式为: P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac {P(AB)} {P(A)} P(BA)=P(A)P(AB)

贝叶斯定理

根据条件概率的定义,我们可以得出统计学最有用的方程之一:Bayes 贝叶斯定理。
P ( A ∣ B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ) P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)

贝叶斯定理的直观含义是,当我们观察到事件 B B B 发生时,事件 A A A 发生的概率会根据事件 B B B 发生的概率和对事件 A A A B B B 相关性的了解而改变。贝叶斯定理是一种强大的工具,可以帮助我们在有新的证据出现时更新我们对某个假设的信念。

求和法则

根据求和法则, P ( B ) = ∑ A P ( A , B ) P(B)=\sum_{A}P(A,B) P(B)=AP(A,B)

B B B 的概率相当于计算 A A A 的所有可能选择,并将所有选择联合概率聚合在一起。

独立性

如果两个随机变量 A A A B B B 是独立的,意味着事件 A A A 的发生跟事件 B B B 的发生无关。根据贝叶斯定理,马上就能得到 P ( A ∣ B ) = P ( A ) P(A|B)=P(A) P(AB)=P(A)

独立性的一个常见例子是抛硬币。抛掷一枚公平的硬币,事件 A A A 是出现正面,事件 B B B 是出现反面。因为硬币的每一面出现都是相互独立的,所以事件 A A A 发生不影响事件 B B B 发生的概率,反之亦然。因此,事件 A 和事件 B 是独立的。

独立性在统计学和概率论中非常有用,它简化了我们对事件之间关系的理解。如果我们知道两个事件是独立的,那么我们就可以将它们的概率分开来考虑,而不需要考虑它们之间的任何关系。


期望与方差

期望描述了一个随机变量在多次重复实验中平均可能取得的值。
E x   P [ f ( x ) ] = ∑ x f ( x ) P ( x ) E_{x~P}[f(x)]=\sum _x f(x)P(x) Ex P[f(x)]=xf(x)P(x)

方差衡量的是随机变量分布中采样不同的 x x x 值时,函数值偏离该函数的期望的程度。
V a r [ f ( x ) ] = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] Var[f(x)]=E[(f(x)-E[f(x)])^2] Var[f(x)]=E[(f(x)E[f(x)])2]


小结

  • 我们可以从概率分布中采样;
  • 我们可以使用联合分布、条件分布、Bayes 定理、边缘化和独立性假设等来分析多个随机变量;
  • 期望和方差为概率分布的关键特征的概括提供了实用的度量形式。

以上
本节概率论内容全部为理论知识。实践部分将在后续博文中逐步展现。

2024.2.15文章来源地址https://www.toymoban.com/news/detail-829088.html

到了这里,关于【深度学习】S2 数学基础 P6 概率论的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深度学习-必备的数学知识-概率论4

    概率论 我们将接着上一篇文章继续讲解。 在接下来的文章中,将会把随机变量本身写作大写字母,随机变量的值写作小写字母。 期望、方差和协方差 期望(expectation)是指随机变量X所有可能取值的平均或期望值。期望可以看作随机变量的中心或平均位置。换句话说期望是随

    2024年02月04日
    浏览(49)
  • 【机器学习/深度学习】数学基础——矩阵求导

    A矩阵对B矩阵求导,实质是矩阵A中的每个元素对矩阵B中的每个元素进行求导。 广义上,矩阵可以认为是一个单独的标量(矩阵中只有一个元素)、一个向量(m 1矩阵或者1 n矩阵)。那么矩阵对矩阵求导实际上可以分为以下几种: 标量对向量求导 向量对标量求导 向量对向量

    2024年02月04日
    浏览(50)
  • 强化学习的数学基础:从动态规划到深度学习

    强化学习(Reinforcement Learning, RL)是一种人工智能技术,它旨在让智能体(agent)在环境(environment)中学习如何做出最佳决策,以最大化累积奖励(cumulative reward)。强化学习的核心思想是通过在环境中与智能体与环境的交互来学习,而不是通过传统的监督学习(supervised le

    2024年02月01日
    浏览(48)
  • 深度学习的数学基础:从线性代数到随机过程

    深度学习是人工智能领域的一个重要分支,它主要通过模拟人类大脑中的神经网络来进行数据处理和学习。深度学习的核心技术是神经网络,神经网络由多个节点组成,这些节点之间有权重和偏置的连接。通过对这些节点进行训练,我们可以使神经网络具有学习和推理的能力

    2024年03月18日
    浏览(92)
  • 【知识存储】用于深度学习研究的 ☆ 概率论和数理统计☆ 基础理论知识,用时查阅,灵活运用,很基础很重要

    随机事件和概率 1.事件的关系与运算 (1) 子事件: A ⊂ B A subset B A ⊂ B ,若 A A A 发生,则 B B B 发生。 (2) 相等事件: A = B A = B A = B ,即 A ⊂ B A subset B A ⊂ B ,且 B ⊂ A B subset A B ⊂ A 。 (3) 和事件: A ⋃ B Abigcup B A ⋃ B (或 A + B A + B A + B ), A A A 与 B B B 中至少有一个发生

    2024年02月16日
    浏览(63)
  • 【人工智能的数学基础】深度学习中的不确定性(Uncertainty)

    使用贝叶斯深度学习建模深度学习中的不确定性. paper:What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision? 现有的深度学习方法大多只能给出特定的预测结果,而不能给出结果的不确定性程度。 深度学习中输出结果的不确定性主要有两种: 偶然不确定性 是由数据中的

    2024年02月07日
    浏览(58)
  • 【人工智能的数学基础】积分概率度量(Integral Probability Metric)

    Integral Probability Metric. 积分概率度量( integral probability metrics, IPM )用于衡量两个概率分布

    2024年02月07日
    浏览(46)
  • 人工智能数学基础--概率与统计13:连续随机变量的标准正态分布

    一、引言 在《人工智能数学基础–概率与统计12:连续随机变量的概率密度函数以及正态分布》介绍了连续随机变量概率分布及概率密度函数的概念,并介绍了连续随机变量一个重要的概率密度函数:正态分布的概率密度函数的定义以及推导、使用场景,本文将介绍连续随机

    2023年04月25日
    浏览(49)
  • 概率论与深度学习:从简单到复杂

    深度学习是一种人工智能技术,它旨在让计算机模仿人类的智能。概率论是数学的一个分支,它用于描述不确定性和随机性。深度学习和概率论之间的关系非常紧密,因为深度学习模型需要处理大量的随机数据,并且需要使用概率论来描述和优化这些模型。 在这篇文章中,我

    2024年04月24日
    浏览(36)
  • 概率论与机器学习:从朴素贝叶斯到深度学习

    概率论和机器学习是计算机科学和人工智能领域的基本概念。概率论是用于描述不确定性和随机性的数学框架,而机器学习则是利用数据来训练计算机程序以进行自动化决策的方法。这两个领域密切相连,因为机器学习算法通常需要使用概率论来描述和处理数据的不确定性。

    2024年02月01日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包