概率论 | 联合熵、条件熵、互信息之间的表示、关系及大小

这篇具有很好参考价值的文章主要介绍了概率论 | 联合熵、条件熵、互信息之间的表示、关系及大小。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 推导联合熵、条件熵、互信息之间的关系及大小

相关定义

联合熵
随机变量 X X X Y Y Y的联合熵 H ( X , Y ) H(X,Y) H(X,Y)表示二者一起发生时的不确定度:
H ( X , Y ) = ∑ x i ∈ X ∑ y i ∈ Y p ( x i , y i ) I ( x i , y i ) = ∑ x i ∈ X ∑ y i ∈ Y p ( x i , y i ) log ⁡ 1 p ( x i , y i ) H(X,Y)=\sum\limits_{x_{i}\in X}\sum\limits_{y_{i}\in Y}p(x_{i},y_{i})I(x_{i},y_{i})\\ =\sum\limits_{x_{i}\in X}\sum\limits_{y_{i}\in Y}p(x_{i},y_{i})\log\frac{1}{p(x_{i},y_{i})} H(X,Y)=xiXyiYp(xi,yi)I(xi,yi)=xiXyiYp(xi,yi)logp(xi,yi)1
简记为:
H ( X , Y ) = − ∑ x , y p ( x , y ) log ⁡ ( x , y ) H(X,Y)=-\sum\limits_{x,y}p(x,y)\log(x,y) H(X,Y)=x,yp(x,y)log(x,y)

条件熵
随机变量 X X X Y Y Y的条件熵 H ( X ∣ Y ) H(X|Y) H(XY)表示 Y Y Y发生后, X X X的不确定度:
H ( X ∣ Y ) = ∑ y j ∈ Y p ( y j ) H ( X ∣ Y = y j ) = − ∑ y j ∈ Y p ( y j ) ∑ x i ∈ X p ( x i ∣ y j ) log ⁡ p ( x i ∣ y j ) = − ∑ y j ∈ Y ∑ x i ∈ X p ( y j ) p ( x i ∣ y j ) log ⁡ p ( x i ∣ y j ) = − ∑ x i , y j p ( x i , y j ) l o g p ( x i ∣ y j ) H(X|Y)=\sum\limits_{y_{j}\in Y}p(y_{j})H(X|Y=y_{j})\\ =-\sum\limits_{y_{j}\in Y}p(y_{j})\sum\limits_{x_{i}\in X}p(x_{i}|y_{j})\log p(x_{i}|y_{j})\\ =-\sum\limits_{y_{j}\in Y}\sum\limits_{x_{i}\in X}p(y_{j})p(x_{i}|y_{j})\log p(x_{i}|y_{j})\\ =-\sum\limits_{x_{i},y_{j}}p(x_{i},y_{j})logp(x_{i}|y_{j}) H(XY)=yjYp(yj)H(XY=yj)=yjYp(yj)xiXp(xiyj)logp(xiyj)=yjYxiXp(yj)p(xiyj)logp(xiyj)=xi,yjp(xi,yj)logp(xiyj)
简记为:
H ( X ∣ Y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x ∣ y ) H(X|Y)=-\sum\limits_{x,y}p(x,y)\log p(x|y) H(XY)=x,yp(x,y)logp(xy)

互信息
随机变量 X X X Y Y Y的互信息 I ( X ; Y ) I(X;Y) I(X;Y)表示 Y Y Y发生后, X X X的不确定度的减少程度,定义为后验概率与先验概率比值的对数:
I ( x i ; y j ) = log ⁡ p ( x i ∣ y j ) p ( x i ) I(x_{i};y_{j})=\log \frac{p(x_{i}|y_{j})}{p(x_{i})} I(xi;yj)=logp(xi)p(xiyj)
简记为:
H ( X ; Y ) = ∑ x , y p ( x , y ) log ⁡ p ( x ∣ y ) p ( x ) H(X;Y)=\sum\limits_{x,y}p(x,y)\log\frac{p(x|y)}{p(x)} H(X;Y)=x,yp(x,y)logp(x)p(xy)

关系推导

联合熵与条件熵关系
H ( X ∣ Y ) = H ( X , Y ) − H ( Y ) H(X|Y)=H(X,Y)-H(Y) H(XY)=H(X,Y)H(Y),其推导过程如下
H ( X ∣ Y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x ∣ y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) + ∑ y ( ∑ x p ( x , y ) ) log ⁡ p ( y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) + ∑ y p ( y ) log ⁡ p ( y ) = H ( X , Y ) − H ( Y ) H(X|Y)=-\sum\limits_{x,y}p(x,y)\log p(x|y)\\ =-\sum\limits_{x,y}p(x,y)\log \frac{p(x,y)}{p(y)}\\ =-\sum\limits_{x,y}p(x,y)\log p(x,y)+\sum\limits_{y}(\sum\limits_{x}p(x,y))\log p(y)\\ =-\sum\limits_{x,y}p(x,y)\log p(x,y)+\sum\limits_{y}p(y)\log p(y)\\ =H(X,Y)-H(Y) H(XY)=x,yp(x,y)logp(xy)=x,yp(x,y)logp(y)p(x,y)=x,yp(x,y)logp(x,y)+y(xp(x,y))logp(y)=x,yp(x,y)logp(x,y)+yp(y)logp(y)=H(X,Y)H(Y)
同理可得: H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X)=H(X,Y)-H(X) H(YX)=H(X,Y)H(X)

互信息与条件熵关系
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y)=H(X)-H(X|Y) I(X;Y)=H(X)H(XY),其推导过程如下
I ( X ; Y ) = ∑ x , y p ( x , y ) log ⁡ p ( x ∣ y ) p ( x ) = − ∑ x p ( x ) log ⁡ p ( x ) + ∑ x , y p ( x , y ) log ⁡ p ( x ∣ y ) = H ( X ) − H ( X ∣ Y ) I(X;Y)=\sum\limits_{x,y}p(x,y)\log\frac{p(x|y)}{p(x)}\\ =-\sum\limits_{x}p(x)\log p(x) +\sum\limits_{x,y}p(x,y)\log p(x|y)\\ =H(X)-H(X|Y) I(X;Y)=x,yp(x,y)logp(x)p(xy)=xp(x)logp(x)+x,yp(x,y)logp(xy)=H(X)H(XY)
同理可得: I ( Y ; X ) = H ( Y ) − H ( Y ∣ X ) I(Y;X)=H(Y)-H(Y|X) I(Y;X)=H(Y)H(YX)
联合熵与互信息关系
由公式(7)(8)可得
H ( X ∣ Y ) = H ( X , Y ) − H ( Y ) = H ( X ) − I ( X ; Y ) H(X|Y)=H(X,Y)-H(Y)\\=H(X)-I(X;Y) H(XY)=H(X,Y)H(Y)=H(X)I(X;Y)

H ( X , Y ) = H ( X ) + H ( Y ) − I ( X ; Y ) H(X,Y)=H(X)+H(Y)-I(X;Y) H(X,Y)=H(X)+H(Y)I(X;Y)

大小比较

对于互信息与条件熵,本文使用韦恩图说明其大小关系。
考虑两个连续型随机变量x 和y,试推导互信息i[x,y]与联合熵h[x,y]、条 件熵h[x|y],Coder Math,概率论,算法

联合熵和互信息大小
如韦恩图所示,左图阴影部分代表 H ( X ) H(X) H(X),右图阴影部分代表 H ( Y ) H(Y) H(Y),而 H ( X ) ∪ H ( Y ) = H ( X , Y ) H(X)\cup H(Y)=H(X,Y) H(X)H(Y)=H(X,Y) H ( X ) ∩ H ( Y ) = I ( X ; Y ) H(X)\cap H(Y)=I(X;Y) H(X)H(Y)=I(X;Y),易得 H ( X , Y ) > I ( X ; Y ) H(X,Y)>I(X;Y) H(X,Y)>I(X;Y)
联合熵和条件熵大小
已知 H ( X ∣ Y ) = H ( X , Y ) − H ( Y ) H(X|Y)=H(X,Y)-H(Y) H(XY)=H(X,Y)H(Y),即韦恩图中右图空白区域,易得 H ( X , Y ) > H ( X ∣ Y ) H(X,Y)>H(X|Y) H(X,Y)>H(XY). 同理可得 H ( Y , X ) > H ( Y ∣ X ) H(Y,X)>H(Y|X) H(Y,X)>H(YX).
互信息和条件熵大小
条件不足,无法判断。

2. 证明连续型随机变量 X X X一阶中心距 α \alpha α 和二阶中心距 β \beta β 在何种分布下微分熵最大,并求概率密度函数

X ∼ p ( X ) X\sim p(X) Xp(X)是一个连续型随机变量,则本题目的在于
max ⁡ p H ( p ) = − ∫ − ∞ + ∞ p ( x ) log ⁡ p ( x ) d x \max\limits_{p} H(p)=-\int_{-\infty}^{+\infty} p(x)\log p(x)dx pmaxH(p)=+p(x)logp(x)dx

s.t.
F ( x ) = ∫ − ∞ + ∞ p ( x ) d x = 1 F(x)=\int_{-\infty}^{+\infty} p(x)dx=1 F(x)=+p(x)dx=1

E ( X ) = ∫ − ∞ + ∞ x p ( x ) d x = α E(X)=\int_{-\infty}^{+\infty}xp(x)dx=\alpha E(X)=+xp(x)dx=α

v a r ( X ) = ∫ − ∞ + ∞ x 2 p ( x ) d x = β var(X)=\int_{-\infty}^{+\infty}x^{2}p(x)dx=\beta var(X)=+x2p(x)dx=β

其中,公式(11)是本题的正则化约束;公式(12)是均值约束;公式(13)为方差约束。所以我们很自然地想到使用拉格朗日乘子法进行求解:

\paragraph{证明}引入拉格朗日乘子 m , n , γ m,n,\gamma m,n,γ,由已知条件可得
L ( p , m , n , γ ) = − ∫ − ∞ + ∞ p ( x ) log ⁡ p ( x ) d x + m ( ∫ − ∞ + ∞ p ( x ) d x − 1 ) + n ( ∫ − ∞ + ∞ x p ( x ) d x − α ) + γ ( ∫ − ∞ + ∞ x 2 p ( x ) d x − β ) L(p,m,n,\gamma)=-\int_{-\infty}^{+\infty}p(x)\log p(x)dx\\ +m(\int_{-\infty}^{+\infty}p(x)dx-1)\\ +n(\int_{-\infty}^{+\infty}xp(x)dx-\alpha)\\ +\gamma(\int_{-\infty}^{+\infty}x^{2}p(x)dx-\beta) L(p,m,n,γ)=+p(x)logp(x)dx+m(+p(x)dx1)+n(+xp(x)dxα)+γ(+x2p(x)dxβ)

p p p求偏导并令其为0得
∂ L ∂ p = − ∂ ∂ p ( ∫ − ∞ + ∞ p ( x ) log ⁡ p ( x ) − m p ( x ) − n x p ( x ) − γ ( x − α ) 2 p ( x ) ) d x = 0 \frac{\partial L}{\partial p}=-\frac{\partial}{\partial p}(\int_{-\infty}^{+\infty}p(x)\log p(x)-m p(x)-n xp(x)-\gamma(x-\alpha)^{2}p(x))dx=0 pL=p(+p(x)logp(x)mp(x)nxp(x)γ(xα)2p(x))dx=0

W = p ( x ) log ⁡ p ( x ) − m p ( x ) − n x p ( x ) − γ ( x − α ) 2 p ( x ) W=p(x)\log p(x)-m p(x)-n xp(x)-\gamma(x-\alpha)^{2}p(x) W=p(x)logp(x)mp(x)nxp(x)γ(xα)2p(x),由于W是p(x)及x的泛函,所以有 ∂ W ∂ p = 0 \frac{\partial W}{\partial p}=0 pW=0,故:
p ( x ) = e − 1 + m + n x + γ x 2 p(x)=e^{-1+m+nx+\gamma x^{2}} p(x)=e1+m+nx+γx2

根据约束条件(11)和(13)易得:
p ( x ) = 1 2 π β e − ( x − α ) 2 2 β p(x)=\frac{1}{\sqrt{2 \pi \beta}}e^{-\frac{(x-\alpha)^2}{2\beta}} p(x)=2πβ 1e2β(xα)2

所以,在连续型随机变量 X X X一阶中心距 α \alpha α 和二阶中心距 β \beta β已知的情况下,微分熵做大的分布是正态分布,其概率密度函数如公式(17)所示。文章来源地址https://www.toymoban.com/news/detail-738773.html

到了这里,关于概率论 | 联合熵、条件熵、互信息之间的表示、关系及大小的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【概率论】几何概率、条件概率及全概率公式作业

    有两箱零件,第一箱装50件,其中20件是一等品;第二箱装30件,其中18件是一等品,现从两箱中随意挑出一箱,然后从该箱中先后任取两个零件,试求第一次取出的零件是一等品的概率_____(结果小数点后保留1位) 【正确答案:0.5 或1/2】 解析: 设A₁,A₂分别表示“挑出第一箱

    2024年02月11日
    浏览(44)
  • 【概率论】条件概率与独立性题目

    已知随机事件A与B满足条件:0P(A)1,0P(B)1。则事件A,B相互独立的充要条件是( C )。 A. P ( B ∣ A ) + P ( B ∣ A ˉ ) = 1 P(B|A)+P(B|bar{A})=1 P ( B ∣ A ) + P ( B ∣ A ˉ ) = 1 B. P ( B ∣ A ) + P ( B ˉ ∣ A ) = 1 P(B|A)+P(bar{B}|A)=1 P ( B ∣ A ) + P ( B ˉ ∣ A ) = 1 C. P ( B ∣ A ) + P ( A ˉ ∣ B ˉ ) = 1 P(B|A)

    2024年02月11日
    浏览(36)
  • 【概率论与数理统计】二维随机变量:分布函数(联合分布函数、边缘分布函数)、联合概率密度、边缘概率密度、联合分布律、边缘分布律

    直观理解: 联合概率密度 草帽/山峰 边缘概率密度 切一刀的山峰切面 联合分布函数 切两刀山峰体 边缘分布函数 切一刀山峰体 联合分布律 和 边缘分布律 针对离散型随机变量 二维随机变量  联合分布函数(切两刀山峰体) 边缘分布函数 (切一刀山峰体)    【连续型随

    2024年02月05日
    浏览(34)
  • 概率论-条件数学期望(复习笔记自用)

    实际上,求条件期望就是在新的概率空间上进行计算,即 ,因此也继承了期望的所有性质 如果 ,则E(X)=Eg(Y) 使用全概率公式,可以容易得到证明 理解,找到共性 正态分布的优良性质:正态分布的条件分布仍为正态分布 公式的证明充分体现出微分法的优势 理解:对于固定的

    2024年02月08日
    浏览(39)
  • 概率论中矩的实际含义及高阶矩表示数据的状态

    概率论中的矩是一种用于描述随机变量分布特征的统计量。矩提供了关于随机变量的各种特征,例如均值、方差、偏度和峰度等。它们对于理解数据的分布以及进行概率分析和推断非常重要。 矩的实际含义可以从数学角度进行解释。对于一个随机变量X,其概率密度函数为f

    2024年01月22日
    浏览(35)
  • 概率论和随机过程的学习和整理20:条件概率我知道,但什么是条件期望?可用来解决递归问题

    目录 1 目标问题: 什么是条件期望? 条件期望有什么用? 2 条件期望,全期望公式 3 条件期望,全期望公式 和 条件概率,全概率公式的区别和联系 3.1 公式如下 3.2 区别和联系 3.3 概率和随机过程 4 有什么用:---可以解决很多递归的问题 4.1 使用前有个前提:界定清楚你要求

    2024年02月15日
    浏览(44)
  • 均值与概率论:数学关系与实际应用

    均值与概率论是数学和统计学中的基本概念,它们在各个领域的应用非常广泛。均值是用来描述一个数据集的中心趋势的一个量度,常用于对数据进行整理和分析。概率论则是一门数学学科,研究事件发生的可能性和相关概率。这两个概念在实际应用中是密切相关的,因为在

    2024年04月16日
    浏览(37)
  • 概率论与数理统计——事件间的关系

    事件A发生必然导致事件B发生。 代数中经常用这种方法证明两个事件相等。 A与B至少有一个发生 A与B同时发生 无限可列个:能按某种规律能把他排成一个序列(实变函数的概念) (1)自然数,(2)整数,(3)有理数 n个事件中任意两个都互不相容则称为两两互不相容 若A

    2024年02月09日
    浏览(46)
  • 概率论中,相关性和独立性的关系

    相关性和独立性是概率统计中两个关键的概念。 相关性(Correlation): 定义: 相关性衡量两个变量之间的线性关系程度。如果两个变量的值在某种趋势下同时变化,我们说它们是相关的。相关性的取值范围在 -1 到 1 之间,其中 -1 表示完全负相关,1 表示完全正相关,0 表示

    2024年02月04日
    浏览(36)
  • 【概率论与数理统计】猴博士 笔记 p24-25 条件概率密度函数、求两个随机变量形成的函数的分布

    题型如下: 已知概率密度,求条件概率密度 已知x怎么样的情况下y服从的概率(或y怎么样的情况下x服从的概率),求f(x,y) 步骤:对于后两个,是在哪个字母的条件下,哪个字母就在后面。 即,如果是在x=???的条件下,那么就选图中第三条方法。 其中: 1、2条符合条件

    2024年02月03日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包