一、信息论(熵、联合熵、条件熵)
熵定义:
H
(
X
)
=
E
[
−
l
o
g
2
p
(
x
)
]
=
−
∑
x
∈
X
p
(
x
)
l
o
g
2
p
(
x
)
H(X)=E[-log_2p(x)]=-\sum_{x\in X}p(x)log_2p(x)
H(X)=E[−log2p(x)]=−x∈X∑p(x)log2p(x)note
- H(X)是X的平均香农信息内容
- H(X)是每个符号的平均信息量
- 二元问题(抛硬币),H(X)取值为[H(X),H(X)+1]
为什么用 l o g 2 ( . ) log_2(.) log2(.)衡量信息
非负性: f ( p ) ≥ 0 f(p)\ge0 f(p)≥0, 0 ≤ p ≤ 1 0\le p\le1 0≤p≤1
特殊点:当p=0, f ( p ) = ∞ f(p)=\infty f(p)=∞
可加性
单调递增连续性 ??
二、Bernoulli熵
符号集
χ
=
[
0
,
1
]
\chi=[0,1]
χ=[0,1],对应的概率
p
⃗
=
[
p
,
1
−
p
]
\vec{p}=[p,1-p]
p=[p,1−p]
Bernoulli熵:
H
(
X
)
=
H
(
p
)
=
−
p
l
o
g
2
p
−
(
1
−
p
)
l
o
g
2
(
1
−
p
)
H(X)=H(p)=-plog_2p-(1-p)log_2(1-p)
H(X)=H(p)=−plog2p−(1−p)log2(1−p)note:
- 通常用 H ( p ) H(p) H(p)表示 H ( X ) H(X) H(X)
- p=0 or 1时, H ( p ) = 0 H(p)=0 H(p)=0
- H ( p ) H(p) H(p)是p的凸函数
- p=0.5, H ( p ) H(p) H(p)最大
- H ( p ) H(p) H(p)的取值范围 0 ≤ H ( p ) ≤ l o g 2 ∣ χ ∣ 0\le H(p)\le log_2|\chi| 0≤H(p)≤log2∣χ∣
三、联合熵和条件熵
联合熵:
H
(
X
,
Y
)
=
−
E
l
o
g
p
(
x
,
y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
H(X,Y)=-Elogp(x,y)=-\sum_{x\in X} \sum_{y\in Y} p(x,y)logp(x,y)
H(X,Y)=−Elogp(x,y)=−x∈X∑y∈Y∑p(x,y)logp(x,y)
条件熵
H
(
Y
∣
X
)
=
−
E
l
o
g
(
y
∣
x
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
p
(
y
∣
x
)
H(Y|X)=-Elog(y|x)=-\sum_{x\in X} \sum_{y\in Y}p(x,y)logp(y|x)
H(Y∣X)=−Elog(y∣x)=−x∈X∑y∈Y∑p(x,y)logp(y∣x)
H
(
Y
∣
X
)
=
∑
x
∈
X
p
(
x
)
H
(
Y
∣
X
=
x
)
H(Y|X)=\sum_{x\in X}p(x)H(Y|X=x)
H(Y∣X)=x∈X∑p(x)H(Y∣X=x)
熵的链式法则
- H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y)=H(X)+H(Y|X) H(X,Y)=H(X)+H(Y∣X)
- H ( X , Y ∣ Z ) = H ( X ∣ Z ) + H ( Y ∣ X , Z ) H(X,Y|Z)=H(X|Z)+H(Y|X,Z) H(X,Y∣Z)=H(X∣Z)+H(Y∣X,Z)
- H ( X 1 , X 2 , . . . . X n ) = ∑ i = 1 n H ( X i ∣ X i − 1 , . . . . X 1 ) H(X_1,X_2,....X_n)=\sum_{i=1}^{n}H(X_i|X_{i-1},....X_1) H(X1,X2,....Xn)=∑i=1nH(Xi∣Xi−1,....X1)
四、互信息
定义:
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
=
H
(
X
)
+
H
(
Y
)
−
H
(
X
,
Y
)
I(X;Y)=H(X)-H(X|Y)=H(X)+H(Y)-H(X,Y)
I(X;Y)=H(X)−H(X∣Y)=H(X)+H(Y)−H(X,Y)
互信息具有对称性
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X) I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)
I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X;Y)=H(X)+H(Y)-H(X,Y) I(X;Y)=H(X)+H(Y)−H(X,Y)
I ( X ; Y ) = I ( Y , X ) I(X;Y)=I(Y,X) I(X;Y)=I(Y,X)
I ( X ; X ) = H ( X ) I(X;X)=H(X) I(X;X)=H(X)
I ( X ; Y ) ≥ 0 I(X;Y)\ge0 I(X;Y)≥0,当且仅当X Y互相独立时,等号成立
互信息的链式法则
I
(
X
1
,
X
2
,
.
.
.
.
X
n
;
Y
)
=
∑
i
=
1
n
I
(
X
i
;
Y
∣
X
i
−
1
,
.
.
.
.
,
X
1
)
I(X_1,X_2,....X_n;Y)=\sum_{i=1}^nI(X_i;Y|X_{i-1},....,X_1)
I(X1,X2,....Xn;Y)=i=1∑nI(Xi;Y∣Xi−1,....,X1)
五、相对熵(KL距离)
D
(
p
⃗
∣
∣
q
⃗
)
=
∑
x
∈
X
p
(
x
)
l
o
g
q
(
x
)
p
(
x
)
=
E
p
⃗
[
−
l
o
g
q
(
x
)
]
−
H
(
p
⃗
)
D(\vec{p}||\vec{q})=\sum_{x\in X}p(x)log\frac{q(x)}{p(x)}=E_{\vec{p}}[-logq(x)]-H(\vec{p})
D(p∣∣q)=x∈X∑p(x)logp(x)q(x)=Ep[−logq(x)]−H(p)
D
(
p
⃗
∣
∣
q
⃗
)
D(\vec{p}||\vec{q})
D(p∣∣q)测量的是两个概率分布
p
⃗
\vec{p}
p和
q
⃗
\vec{q}
q间的距离,并非真实距离
D
(
p
⃗
∣
∣
q
⃗
)
≥
0
D(\vec{p}||\vec{q})\ge 0
D(p∣∣q)≥0,当且仅当
p
⃗
\vec{p}
p=
q
⃗
\vec{q}
q,等号成立
六、微分熵
对于连续型随机变量,一个以f(x)为密度函数的连续型随机变量,X的微分熵h(x)为:
h
(
x
)
=
∫
−
∞
∞
f
X
(
x
)
l
o
g
f
X
(
x
)
d
x
=
E
−
l
o
g
f
X
(
x
)
h(x)=\int_{-\infty}^{\infty}f_X{(x)}logf_X(x)dx=E-logf_X(x)
h(x)=∫−∞∞fX(x)logfX(x)dx=E−logfX(x)note
- 微分熵仅依赖于随机变量的概率密度函数,有时候将微分熵写为h(f)
- 微分熵可以为负值
微分熵分类
均匀分布的微分熵 | 高斯分布的微分熵 | 多元高斯分布的微分熵 | |
---|---|---|---|
前提条件:随机变量服从 | 均匀分布 X ∼ U ( a , b ) X\sim U(a,b) X∼U(a,b) | 高斯分布 X ∼ U ( μ , σ 2 ) X\sim U(\mu,\sigma^2) X∼U(μ,σ2) | X 1 : n ∼ N ( m ⃗ , k ⃗ ) X_{1:n}\sim N(\vec{m},\vec{k}) X1:n∼N(m,k) |
f ( x ) = { 1 b − a , x ∈ ( a , b ) ) 0 e l s e f(x)=\left\{\begin{matrix}\frac{1}{b-a} ,&x\in(a,b)) \\ 0 &else \end{matrix}\right. f(x)={b−a1,0x∈(a,b))else | f ( x ) = 1 ( 2 π σ 2 ) 1 2 e x p { − 1 2 σ 2 ( x − μ ) 2 } f(x)=\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}}exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\} f(x)=(2πσ2)211exp{−2σ21(x−μ)2} | f ( x ) = ∣ 2 π k ⃗ ∣ 1 2 e x p { − 1 2 ( x − m ⃗ ) T k ⃗ − 1 ( x − m ⃗ ) } f(x)=|2\pi\vec{k}|^\frac{1}{2}exp\{-\frac{1}{2}(x-\vec{m})^T\vec k^{-1}(x-\vec m)\} f(x)=∣2πk∣21exp{−21(x−m)Tk−1(x−m)}m:均值矢量 k ⃗ \vec k k协方差矢量 | |
微分熵 | h ( x ) = ∫ a b f ( x ) l o g f ( x ) d x = l o g ( b − a ) h(x)=\int_a^bf(x)logf(x)dx=log(b-a) h(x)=∫abf(x)logf(x)dx=log(b−a)当b-a<1时,h(x)<0 | h ( x ) = − l o g e ∫ − ∞ ∞ f ( x ) l n f ( x ) d x = 1 2 l o g ( 2 π e σ 2 ) h(x)=-loge\int_{-\infty}^{\infty}f(x)lnf(x)dx=\frac{1}{2}log(2\pi e\sigma^2) h(x)=−loge∫−∞∞f(x)lnf(x)dx=21log(2πeσ2) | h ( x ) = 1 2 l o g ∣ 2 π e k ⃗ ∣ h(x)=\frac{1}{2}log|2\pi e\vec k| h(x)=21log∣2πek∣ |
七、最大熵分布
-
条件一:(幅值约束)对于r有限长范围(a,b)使其最大熵的分布是均匀分布
u ( x ) = 1 b − a → u(x)=\frac{1}{b-a} \rightarrow u(x)=b−a1→、 0 ≤ D ( f ∣ ∣ x ) → h f ( x ) = l o g ( b − a ) 0 \le D(f||x) \rightarrow h_f(x)=log(b-a) 0≤D(f∣∣x)→hf(x)=log(b−a) -
条件二:(功率约束)给定协方差矩阵 k ⃗ \vec k k,零均值的多元高斯分布能使熵在 ( − ∞ , ∞ ) n (-\infty,\infty)^n (−∞,∞)n上最大
ϕ ( x ) = ∥ 2 π k ⃗ ∥ 1 2 e x p { − 1 2 x T k ⃗ − 1 x ⃗ } \phi (x)=\|2\pi\vec{k}\|^\frac{1}{2}exp\{-\frac{1}{2}x^T\vec k^{-1}\vec x\} ϕ(x)=∥2πk∥21exp{−21xTk−1x};
0 ≤ D ( f ∣ ∣ x ) = h f ( x ) − E f l o g ϕ ( x ) → h f ( x ) ≤ − ( l o g e ) E f ( − 1 2 l n ∣ 2 π k ⃗ ∣ − 1 2 x T k ⃗ − 1 x ) = h ϕ ( x ) 0 \le D(f||x)=h_f(x)-E_flog\phi(x) \rightarrow h_f(x)\le-(loge)E_f(-\frac{1}{2}ln|2\pi \vec k|-\frac{1}{2}x^T \vec k^{-1}x)=h_{\phi (x)} 0≤D(f∣∣x)=hf(x)−Eflogϕ(x)→hf(x)≤−(loge)Ef(−21ln∣2πk∣−21xTk−1x)=hϕ(x)
常需要的不等式公式
H
(
Y
∣
X
)
≤
H
(
X
)
H(Y|X)\le H(X)
H(Y∣X)≤H(X),X和Y互相独立时,等号成立
H
(
X
1
,
X
2
,
.
.
.
.
X
n
)
≤
∑
i
=
1
n
H
(
X
i
)
H(X_1,X_2,....X_n)\le \sum_{i=1}^nH(X_i)
H(X1,X2,....Xn)≤∑i=1nH(Xi),当且仅当
X
i
X_i
Xi互相独立时等号成立文章来源:https://www.toymoban.com/news/detail-704135.html
参考文章:通信算法基础知识汇总(5)、通信算法基础知识汇总(8)
文章来源地址https://www.toymoban.com/news/detail-704135.html
到了这里,关于熵 | 无线通信知识的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!