1. 推导联合熵、条件熵、互信息之间的关系及大小
相关定义
联合熵
随机变量
X
X
X和
Y
Y
Y的联合熵
H
(
X
,
Y
)
H(X,Y)
H(X,Y)表示二者一起发生时的不确定度:
H
(
X
,
Y
)
=
∑
x
i
∈
X
∑
y
i
∈
Y
p
(
x
i
,
y
i
)
I
(
x
i
,
y
i
)
=
∑
x
i
∈
X
∑
y
i
∈
Y
p
(
x
i
,
y
i
)
log
1
p
(
x
i
,
y
i
)
H(X,Y)=\sum\limits_{x_{i}\in X}\sum\limits_{y_{i}\in Y}p(x_{i},y_{i})I(x_{i},y_{i})\\ =\sum\limits_{x_{i}\in X}\sum\limits_{y_{i}\in Y}p(x_{i},y_{i})\log\frac{1}{p(x_{i},y_{i})}
H(X,Y)=xi∈X∑yi∈Y∑p(xi,yi)I(xi,yi)=xi∈X∑yi∈Y∑p(xi,yi)logp(xi,yi)1
简记为:
H
(
X
,
Y
)
=
−
∑
x
,
y
p
(
x
,
y
)
log
(
x
,
y
)
H(X,Y)=-\sum\limits_{x,y}p(x,y)\log(x,y)
H(X,Y)=−x,y∑p(x,y)log(x,y)
条件熵
随机变量
X
X
X和
Y
Y
Y的条件熵
H
(
X
∣
Y
)
H(X|Y)
H(X∣Y)表示
Y
Y
Y发生后,
X
X
X的不确定度:
H
(
X
∣
Y
)
=
∑
y
j
∈
Y
p
(
y
j
)
H
(
X
∣
Y
=
y
j
)
=
−
∑
y
j
∈
Y
p
(
y
j
)
∑
x
i
∈
X
p
(
x
i
∣
y
j
)
log
p
(
x
i
∣
y
j
)
=
−
∑
y
j
∈
Y
∑
x
i
∈
X
p
(
y
j
)
p
(
x
i
∣
y
j
)
log
p
(
x
i
∣
y
j
)
=
−
∑
x
i
,
y
j
p
(
x
i
,
y
j
)
l
o
g
p
(
x
i
∣
y
j
)
H(X|Y)=\sum\limits_{y_{j}\in Y}p(y_{j})H(X|Y=y_{j})\\ =-\sum\limits_{y_{j}\in Y}p(y_{j})\sum\limits_{x_{i}\in X}p(x_{i}|y_{j})\log p(x_{i}|y_{j})\\ =-\sum\limits_{y_{j}\in Y}\sum\limits_{x_{i}\in X}p(y_{j})p(x_{i}|y_{j})\log p(x_{i}|y_{j})\\ =-\sum\limits_{x_{i},y_{j}}p(x_{i},y_{j})logp(x_{i}|y_{j})
H(X∣Y)=yj∈Y∑p(yj)H(X∣Y=yj)=−yj∈Y∑p(yj)xi∈X∑p(xi∣yj)logp(xi∣yj)=−yj∈Y∑xi∈X∑p(yj)p(xi∣yj)logp(xi∣yj)=−xi,yj∑p(xi,yj)logp(xi∣yj)
简记为:
H
(
X
∣
Y
)
=
−
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
∣
y
)
H(X|Y)=-\sum\limits_{x,y}p(x,y)\log p(x|y)
H(X∣Y)=−x,y∑p(x,y)logp(x∣y)
互信息
随机变量
X
X
X和
Y
Y
Y的互信息
I
(
X
;
Y
)
I(X;Y)
I(X;Y)表示
Y
Y
Y发生后,
X
X
X的不确定度的减少程度,定义为后验概率与先验概率比值的对数:
I
(
x
i
;
y
j
)
=
log
p
(
x
i
∣
y
j
)
p
(
x
i
)
I(x_{i};y_{j})=\log \frac{p(x_{i}|y_{j})}{p(x_{i})}
I(xi;yj)=logp(xi)p(xi∣yj)
简记为:
H
(
X
;
Y
)
=
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
∣
y
)
p
(
x
)
H(X;Y)=\sum\limits_{x,y}p(x,y)\log\frac{p(x|y)}{p(x)}
H(X;Y)=x,y∑p(x,y)logp(x)p(x∣y)
关系推导
联合熵与条件熵关系
H
(
X
∣
Y
)
=
H
(
X
,
Y
)
−
H
(
Y
)
H(X|Y)=H(X,Y)-H(Y)
H(X∣Y)=H(X,Y)−H(Y),其推导过程如下
H
(
X
∣
Y
)
=
−
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
∣
y
)
=
−
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
y
)
=
−
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
,
y
)
+
∑
y
(
∑
x
p
(
x
,
y
)
)
log
p
(
y
)
=
−
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
,
y
)
+
∑
y
p
(
y
)
log
p
(
y
)
=
H
(
X
,
Y
)
−
H
(
Y
)
H(X|Y)=-\sum\limits_{x,y}p(x,y)\log p(x|y)\\ =-\sum\limits_{x,y}p(x,y)\log \frac{p(x,y)}{p(y)}\\ =-\sum\limits_{x,y}p(x,y)\log p(x,y)+\sum\limits_{y}(\sum\limits_{x}p(x,y))\log p(y)\\ =-\sum\limits_{x,y}p(x,y)\log p(x,y)+\sum\limits_{y}p(y)\log p(y)\\ =H(X,Y)-H(Y)
H(X∣Y)=−x,y∑p(x,y)logp(x∣y)=−x,y∑p(x,y)logp(y)p(x,y)=−x,y∑p(x,y)logp(x,y)+y∑(x∑p(x,y))logp(y)=−x,y∑p(x,y)logp(x,y)+y∑p(y)logp(y)=H(X,Y)−H(Y)
同理可得:
H
(
Y
∣
X
)
=
H
(
X
,
Y
)
−
H
(
X
)
H(Y|X)=H(X,Y)-H(X)
H(Y∣X)=H(X,Y)−H(X)
互信息与条件熵关系
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X;Y)=H(X)-H(X|Y)
I(X;Y)=H(X)−H(X∣Y),其推导过程如下
I
(
X
;
Y
)
=
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
∣
y
)
p
(
x
)
=
−
∑
x
p
(
x
)
log
p
(
x
)
+
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
∣
y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X;Y)=\sum\limits_{x,y}p(x,y)\log\frac{p(x|y)}{p(x)}\\ =-\sum\limits_{x}p(x)\log p(x) +\sum\limits_{x,y}p(x,y)\log p(x|y)\\ =H(X)-H(X|Y)
I(X;Y)=x,y∑p(x,y)logp(x)p(x∣y)=−x∑p(x)logp(x)+x,y∑p(x,y)logp(x∣y)=H(X)−H(X∣Y)
同理可得:
I
(
Y
;
X
)
=
H
(
Y
)
−
H
(
Y
∣
X
)
I(Y;X)=H(Y)-H(Y|X)
I(Y;X)=H(Y)−H(Y∣X)
联合熵与互信息关系
由公式(7)(8)可得
H
(
X
∣
Y
)
=
H
(
X
,
Y
)
−
H
(
Y
)
=
H
(
X
)
−
I
(
X
;
Y
)
H(X|Y)=H(X,Y)-H(Y)\\=H(X)-I(X;Y)
H(X∣Y)=H(X,Y)−H(Y)=H(X)−I(X;Y)
故 H ( X , Y ) = H ( X ) + H ( Y ) − I ( X ; Y ) H(X,Y)=H(X)+H(Y)-I(X;Y) H(X,Y)=H(X)+H(Y)−I(X;Y)
大小比较
对于互信息与条件熵,本文使用韦恩图说明其大小关系。
联合熵和互信息大小
如韦恩图所示,左图阴影部分代表
H
(
X
)
H(X)
H(X),右图阴影部分代表
H
(
Y
)
H(Y)
H(Y),而
H
(
X
)
∪
H
(
Y
)
=
H
(
X
,
Y
)
H(X)\cup H(Y)=H(X,Y)
H(X)∪H(Y)=H(X,Y) ,
H
(
X
)
∩
H
(
Y
)
=
I
(
X
;
Y
)
H(X)\cap H(Y)=I(X;Y)
H(X)∩H(Y)=I(X;Y),易得
H
(
X
,
Y
)
>
I
(
X
;
Y
)
H(X,Y)>I(X;Y)
H(X,Y)>I(X;Y)
联合熵和条件熵大小
已知
H
(
X
∣
Y
)
=
H
(
X
,
Y
)
−
H
(
Y
)
H(X|Y)=H(X,Y)-H(Y)
H(X∣Y)=H(X,Y)−H(Y),即韦恩图中右图空白区域,易得
H
(
X
,
Y
)
>
H
(
X
∣
Y
)
H(X,Y)>H(X|Y)
H(X,Y)>H(X∣Y). 同理可得
H
(
Y
,
X
)
>
H
(
Y
∣
X
)
H(Y,X)>H(Y|X)
H(Y,X)>H(Y∣X).
互信息和条件熵大小
条件不足,无法判断。
2. 证明连续型随机变量 X X X一阶中心距 α \alpha α 和二阶中心距 β \beta β 在何种分布下微分熵最大,并求概率密度函数
设
X
∼
p
(
X
)
X\sim p(X)
X∼p(X)是一个连续型随机变量,则本题目的在于
max
p
H
(
p
)
=
−
∫
−
∞
+
∞
p
(
x
)
log
p
(
x
)
d
x
\max\limits_{p} H(p)=-\int_{-\infty}^{+\infty} p(x)\log p(x)dx
pmaxH(p)=−∫−∞+∞p(x)logp(x)dx
s.t.
F
(
x
)
=
∫
−
∞
+
∞
p
(
x
)
d
x
=
1
F(x)=\int_{-\infty}^{+\infty} p(x)dx=1
F(x)=∫−∞+∞p(x)dx=1
E ( X ) = ∫ − ∞ + ∞ x p ( x ) d x = α E(X)=\int_{-\infty}^{+\infty}xp(x)dx=\alpha E(X)=∫−∞+∞xp(x)dx=α
v a r ( X ) = ∫ − ∞ + ∞ x 2 p ( x ) d x = β var(X)=\int_{-\infty}^{+\infty}x^{2}p(x)dx=\beta var(X)=∫−∞+∞x2p(x)dx=β
其中,公式(11)是本题的正则化约束;公式(12)是均值约束;公式(13)为方差约束。所以我们很自然地想到使用拉格朗日乘子法进行求解:
\paragraph{证明}引入拉格朗日乘子
m
,
n
,
γ
m,n,\gamma
m,n,γ,由已知条件可得
L
(
p
,
m
,
n
,
γ
)
=
−
∫
−
∞
+
∞
p
(
x
)
log
p
(
x
)
d
x
+
m
(
∫
−
∞
+
∞
p
(
x
)
d
x
−
1
)
+
n
(
∫
−
∞
+
∞
x
p
(
x
)
d
x
−
α
)
+
γ
(
∫
−
∞
+
∞
x
2
p
(
x
)
d
x
−
β
)
L(p,m,n,\gamma)=-\int_{-\infty}^{+\infty}p(x)\log p(x)dx\\ +m(\int_{-\infty}^{+\infty}p(x)dx-1)\\ +n(\int_{-\infty}^{+\infty}xp(x)dx-\alpha)\\ +\gamma(\int_{-\infty}^{+\infty}x^{2}p(x)dx-\beta)
L(p,m,n,γ)=−∫−∞+∞p(x)logp(x)dx+m(∫−∞+∞p(x)dx−1)+n(∫−∞+∞xp(x)dx−α)+γ(∫−∞+∞x2p(x)dx−β)
对
p
p
p求偏导并令其为0得
∂
L
∂
p
=
−
∂
∂
p
(
∫
−
∞
+
∞
p
(
x
)
log
p
(
x
)
−
m
p
(
x
)
−
n
x
p
(
x
)
−
γ
(
x
−
α
)
2
p
(
x
)
)
d
x
=
0
\frac{\partial L}{\partial p}=-\frac{\partial}{\partial p}(\int_{-\infty}^{+\infty}p(x)\log p(x)-m p(x)-n xp(x)-\gamma(x-\alpha)^{2}p(x))dx=0
∂p∂L=−∂p∂(∫−∞+∞p(x)logp(x)−mp(x)−nxp(x)−γ(x−α)2p(x))dx=0
令
W
=
p
(
x
)
log
p
(
x
)
−
m
p
(
x
)
−
n
x
p
(
x
)
−
γ
(
x
−
α
)
2
p
(
x
)
W=p(x)\log p(x)-m p(x)-n xp(x)-\gamma(x-\alpha)^{2}p(x)
W=p(x)logp(x)−mp(x)−nxp(x)−γ(x−α)2p(x),由于W是p(x)及x的泛函,所以有
∂
W
∂
p
=
0
\frac{\partial W}{\partial p}=0
∂p∂W=0,故:
p
(
x
)
=
e
−
1
+
m
+
n
x
+
γ
x
2
p(x)=e^{-1+m+nx+\gamma x^{2}}
p(x)=e−1+m+nx+γx2
根据约束条件(11)和(13)易得:
p
(
x
)
=
1
2
π
β
e
−
(
x
−
α
)
2
2
β
p(x)=\frac{1}{\sqrt{2 \pi \beta}}e^{-\frac{(x-\alpha)^2}{2\beta}}
p(x)=2πβ1e−2β(x−α)2文章来源:https://www.toymoban.com/news/detail-738773.html
所以,在连续型随机变量 X X X一阶中心距 α \alpha α 和二阶中心距 β \beta β已知的情况下,微分熵做大的分布是正态分布,其概率密度函数如公式(17)所示。文章来源地址https://www.toymoban.com/news/detail-738773.html
到了这里,关于概率论 | 联合熵、条件熵、互信息之间的表示、关系及大小的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!