概率论 | 联合熵、条件熵、互信息之间的表示、关系及大小-Toy模板网

这篇具有很好参考价值的文章主要介绍了概率论 | 联合熵、条件熵、互信息之间的表示、关系及大小。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1. 推导联合熵、条件熵、互信息之间的关系及大小

关系推导

联合熵与条件熵关系
$H (X ∣ Y) = H (X, Y) - H (Y)$ ，其推导过程如下
$H(X|Y)=-\sum\limits_{x,y}p(x,y)\log p(x|y)\\ =-\sum\limits_{x,y}p(x,y)\log \frac{p(x,y)}{p(y)}\\ =-\sum\limits_{x,y}p(x,y)\log p(x,y)+\sum\limits_{y}(\sum\limits_{x}p(x,y))\log p(y)\\ =-\sum\limits_{x,y}p(x,y)\log p(x,y)+\sum\limits_{y}p(y)\log p(y)\\ =H(X,Y)-H(Y)$
同理可得： $H (Y ∣ X) = H (X, Y) - H (X)$

互信息与条件熵关系
$I (X; Y) = H (X) - H (X ∣ Y)$ ，其推导过程如下
$I(X;Y)=\sum\limits_{x,y}p(x,y)\log\frac{p(x|y)}{p(x)}\\ =-\sum\limits_{x}p(x)\log p(x) +\sum\limits_{x,y}p(x,y)\log p(x|y)\\ =H(X)-H(X|Y)$
同理可得： $I (Y; X) = H (Y) - H (Y ∣ X)$
联合熵与互信息关系
由公式(7)(8)可得
$H(X|Y)=H(X,Y)-H(Y)\\=H(X)-I(X;Y)$

故 $H (X, Y) = H (X) + H (Y) - I (X; Y)$

大小比较

对于互信息与条件熵，本文使用韦恩图说明其大小关系。
考虑两个连续型随机变量x 和y,试推导互信息i[x,y]与联合熵h[x,y]、条件熵h[x|y],Coder Math,概率论,算法

联合熵和互信息大小
如韦恩图所示，左图阴影部分代表 $H (X)$ ，右图阴影部分代表 $H (Y)$ ，而 $H(X)\cup H(Y)=H(X,Y)$ ， $H(X)\cap H(Y)=I(X;Y)$ ，易得 $H (X, Y) > I (X; Y)$
联合熵和条件熵大小
已知 $H (X ∣ Y) = H (X, Y) - H (Y)$ ，即韦恩图中右图空白区域，易得 $H (X, Y) > H (X ∣ Y)$ . 同理可得 $H (Y, X) > H (Y ∣ X)$ .
互信息和条件熵大小
条件不足，无法判断。

2. 证明连续型随机变量 X X X一阶中心距 α \alpha α 和二阶中心距 β \beta β 在何种分布下微分熵最大，并求概率密度函数

设 $X\sim p(X)$ 是一个连续型随机变量，则本题目的在于
$\max\limits_{p} H(p)=-\int_{-\infty}^{+\infty} p(x)\log p(x)dx$

s.t.
$F(x)=\int_{-\infty}^{+\infty} p(x)dx=1$

$E(X)=\int_{-\infty}^{+\infty}xp(x)dx=\alpha$

$var(X)=\int_{-\infty}^{+\infty}x^{2}p(x)dx=\beta$

其中，公式(11)是本题的正则化约束；公式(12)是均值约束；公式(13)为方差约束。所以我们很自然地想到使用拉格朗日乘子法进行求解：

\paragraph{证明}引入拉格朗日乘子 $m,n,\gamma$ ，由已知条件可得
$L(p,m,n,\gamma)=-\int_{-\infty}^{+\infty}p(x)\log p(x)dx\\ +m(\int_{-\infty}^{+\infty}p(x)dx-1)\\ +n(\int_{-\infty}^{+\infty}xp(x)dx-\alpha)\\ +\gamma(\int_{-\infty}^{+\infty}x^{2}p(x)dx-\beta)$

对 $p$ 求偏导并令其为0得
$\frac{\partial L}{\partial p}=-\frac{\partial}{\partial p}(\int_{-\infty}^{+\infty}p(x)\log p(x)-m p(x)-n xp(x)-\gamma(x-\alpha)^{2}p(x))dx=0$