熵、信息量、条件熵、联合熵、互信息简单介绍

这篇具有很好参考价值的文章主要介绍了熵、信息量、条件熵、联合熵、互信息简单介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

熵、信息量、条件熵、联合熵、互信息简单介绍

近期在看对比学习论文,发现有不少方法使用了互信息这种方式进行约束,故在此整理一下网上查阅到的关于互信息的相关内容。

一、熵、信息量

关于熵的讨论,这个知乎专栏写的挺不错的。

熵在信息论中代表随机变量不确定度的度量,变量不确定性越大,信息熵也就越大。一个离散型随机变量 X X X的熵 H ( X ) H(X) H(X)定义为:

H ( X ) = − ∑ x ∈ χ p ( x ) l o g p ( x ) H(X)=-\sum_{x\in \chi}p(x)logp(x) H(X)=xχp(x)logp(x)

其中 p ( x ) p(x) p(x)表示 x x x发生的概率。从公式不难发现,信息熵 H ( x ) H(x) H(x)满足当 x x x的确定时即 p ( x ) = 1 p(x)=1 p(x)=1时最小,当 x x x为均匀分布时即 p ( x ) = 1 n p(x)=\frac{1}{n} p(x)=n1时最大。这也就意味着,事件越不确定,熵越大。此外,该公式还满足以下三个性质:

  • 单调性,即发生概率越高的事件,其所携带的信息熵越低。极端案例就是“太阳从东方升起”,因为为确定事件,所以不携带任何信息量。从信息论的角度,认为这句话没有消除任何不确定性。
  • 非负性,即信息熵不能为负。这个很好理解,因为负的信息,即你得知了某个信息后,却增加了不确定性是不合逻辑的。
  • 累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和。写成公式就是: H ( A , B ) = H ( A ) + H ( B ) − I ( A , B ) H(A,B)=H(A)+H(B)-I(A,B) H(A,B)=H(A)+H(B)I(A,B),其中 I ( A , B ) I(A,B) I(A,B)就是互信息。

不难发现,上述几个性质恰好就是我们想要获得的计算熵公式。通过数学证明发现满足上述性质的公式只有: H ( X ) = − C ∑ x ∈ χ p ( x ) l o g p ( x ) H(X)=-C\sum_{x\in \chi}p(x)logp(x) H(X)=Cxχp(x)logp(x)

信息熵不等同于信息量,但它们在量上是相等的。 即,“熵”度量了不确定性,而接受信息后所消除的不确定性即为该信息的“量”。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SBnmQw2m-1684065604452)(D:\研究生文件\顶会顶刊论文代码\笔记\图片\image-20230514173305337.png)]

二、条件熵、联合熵

条件熵的概念是 X X X给定的情况下, Y Y Y的条件概率分布的熵对 X X X的期望。公式如下:

H ( Y ∣ X ) = ∑ x ∈ χ p ( x ) H ( Y ∣ X = x ) = − ∑ x ∈ χ p ( x ) ∑ y ∈ Y p ( y ∣ x ) l o g p ( y ∣ x ) = − ∑ x ∈ χ ∑ y ∈ Y p ( x , y ) l o g p ( y ∣ x ) H(Y|X)=\sum_{x\in \chi}p(x)H(Y|X=x)=-\sum_{x\in \chi}p(x)\sum_{y\in Y}p(y|x)logp(y|x)=-\sum_{x\in\chi}\sum_{y\in Y}p(x,y)logp(y|x) H(YX)=xχp(x)H(YX=x)=xχp(x)yYp(yx)logp(yx)=xχyYp(x,y)logp(yx)

注意这里是期望,加了求和号的。也就是对于 X X X的所有取值都要考虑。条件熵的物理意义是在得知某一确定信息的基础上获取另外一个信息时所获得的信息量。

联合熵不多解释直接上公式,如下:

H ( X , Y ) = − ∑ x ∈ χ ∑ y ∈ Y p ( x , y ) l o g p ( x , y ) H(X,Y)=-\sum_{x\in \chi}\sum_{y\in Y}p(x,y)logp(x,y) H(X,Y)=xχyYp(x,y)logp(x,y)

联合熵的物理意义就是,观察一个多个随机变量的随机系统获得的信息量。

好了,公式给出来了,不难发现联合熵和条件熵的关系如下:

H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y)=H(X)+H(Y|X) H(X,Y)=H(X)+H(YX)

这个所表达的物理含义是,对一个两个随机变量的随机系统,我们可以先观察一个随机变量获取信息量,观察完后,我们可以在拥有这个信息量的基础上观察第二个随机变量的信息量。先观察谁,对信息量都不会有影响。

三、互信息

关于互信息这篇博客写的挺不错的,下面是博客截图:

联合互信息,概率论,机器学习,人工智能

联合互信息,概率论,机器学习,人工智能

可得出互信息与其它量的关系如下:

联合互信息,概率论,机器学习,人工智能

好了,回到对比学习中。我们知道对比学习的常见做法是取一个Batchsize中的 N N N张图片,对其进行数据增强如平移、旋转等获得 2 N 2N 2N张图片。任取其中一张图片 X X X,则令其对应经过数据增强获得的图片 Y Y Y为正样本、其余 2 N − 2 2N-2 2N2张图片为负样本。之后利用损失函数进行约束即可训练网络。

联合互信息,概率论,机器学习,人工智能

那么,这东西和互信息有啥关系呢。试想一下,如果 I ( X , Y ) = m a x I ( X , Y ) I(X,Y)=maxI(X,Y) I(X,Y)=maxI(X,Y)是不是就是意味着 X X X能够直接确定 Y Y Y。这不就是对比学习想要干的事情。文章来源地址https://www.toymoban.com/news/detail-753914.html

到了这里,关于熵、信息量、条件熵、联合熵、互信息简单介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【概率论与数理统计】二维随机变量:分布函数(联合分布函数、边缘分布函数)、联合概率密度、边缘概率密度、联合分布律、边缘分布律

    直观理解: 联合概率密度 草帽/山峰 边缘概率密度 切一刀的山峰切面 联合分布函数 切两刀山峰体 边缘分布函数 切一刀山峰体 联合分布律 和 边缘分布律 针对离散型随机变量 二维随机变量  联合分布函数(切两刀山峰体) 边缘分布函数 (切一刀山峰体)    【连续型随

    2024年02月05日
    浏览(36)
  • 【概率论】边缘分布和联合分布

    有X1,X2,X3,…,Xm共m个随机变量,各有其分布F1,F2,F3,…,Fm。 令X=(X1,X2,X3,…,Xm),则其为m维随机向量。则X的分布F为 联合分布 ,F1,F2,…,Fm为 边缘分布 。 边缘分布的命令来源: 有二维随机向量(X1,X2),其分布为 可以看到,“行合计”和“列合计”分别

    2024年02月16日
    浏览(59)
  • 【概率论】条件概率与独立性题目

    已知随机事件A与B满足条件:0P(A)1,0P(B)1。则事件A,B相互独立的充要条件是( C )。 A. P ( B ∣ A ) + P ( B ∣ A ˉ ) = 1 P(B|A)+P(B|bar{A})=1 P ( B ∣ A ) + P ( B ∣ A ˉ ) = 1 B. P ( B ∣ A ) + P ( B ˉ ∣ A ) = 1 P(B|A)+P(bar{B}|A)=1 P ( B ∣ A ) + P ( B ˉ ∣ A ) = 1 C. P ( B ∣ A ) + P ( A ˉ ∣ B ˉ ) = 1 P(B|A)

    2024年02月11日
    浏览(38)
  • 【概率论】几何概率、条件概率及全概率公式作业

    有两箱零件,第一箱装50件,其中20件是一等品;第二箱装30件,其中18件是一等品,现从两箱中随意挑出一箱,然后从该箱中先后任取两个零件,试求第一次取出的零件是一等品的概率_____(结果小数点后保留1位) 【正确答案:0.5 或1/2】 解析: 设A₁,A₂分别表示“挑出第一箱

    2024年02月11日
    浏览(47)
  • 概率论-条件数学期望(复习笔记自用)

    实际上,求条件期望就是在新的概率空间上进行计算,即 ,因此也继承了期望的所有性质 如果 ,则E(X)=Eg(Y) 使用全概率公式,可以容易得到证明 理解,找到共性 正态分布的优良性质:正态分布的条件分布仍为正态分布 公式的证明充分体现出微分法的优势 理解:对于固定的

    2024年02月08日
    浏览(41)
  • 概率论和随机过程的学习和整理20:条件概率我知道,但什么是条件期望?可用来解决递归问题

    目录 1 目标问题: 什么是条件期望? 条件期望有什么用? 2 条件期望,全期望公式 3 条件期望,全期望公式 和 条件概率,全概率公式的区别和联系 3.1 公式如下 3.2 区别和联系 3.3 概率和随机过程 4 有什么用:---可以解决很多递归的问题 4.1 使用前有个前提:界定清楚你要求

    2024年02月15日
    浏览(45)
  • 【数据处理】Python:实现求联合分布的函数 | 求边缘分布函数 | 概率论 | Joint distribution | Marginal distribution

          猛戳订阅!  👉 《一起玩蛇》🐍 💭 写在前面: 本章我们将通过 Python 手动实现联合分布函数和边缘分布函数,部署的测试代码放到文后了,运行所需环境 python version = 3.6,numpy = 1.15,nltk = 3.4,tqdm = 4.24.0,scikit-learn = 0.22。 0x00 实现求联合分布的函数(Joint distri

    2024年02月04日
    浏览(47)
  • 【概率论与数理统计】猴博士 笔记 p24-25 条件概率密度函数、求两个随机变量形成的函数的分布

    题型如下: 已知概率密度,求条件概率密度 已知x怎么样的情况下y服从的概率(或y怎么样的情况下x服从的概率),求f(x,y) 步骤:对于后两个,是在哪个字母的条件下,哪个字母就在后面。 即,如果是在x=???的条件下,那么就选图中第三条方法。 其中: 1、2条符合条件

    2024年02月03日
    浏览(51)
  • 信息论之从熵、惊奇到交叉熵、KL散度和互信息

    考虑将A地观测的一个随机变量x,编码后传输到B地。 这个随机变量有8种可能的状态,每个状态都是等可能的。为了把x的值传给接收者,需要传输一个3-bits的消息。注意,这个变量的熵由下式给出: ⾮均匀分布⽐均匀分布的熵要⼩。 如果概率分布非均匀,同样使用等长编码,

    2023年04月15日
    浏览(79)
  • 【C++】多态的概念和简单介绍、虚函数、虚函数重写、多态构成的条件、重载、重写、重定义

        C++中的多态是一种面向对象编程的特性, 它允许不同的对象对同一个消息做出不同的响应。 多态性能够提高代码的可复用性和灵活性,使得代码更加模块化和可扩展。    多态性是通过使用继承和虚函数实现的。 当一个类被声明为虚函数时,它可以被子类重写,并

    2024年02月13日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包