引言
上一节从概率图结构的角度介绍了狄利克雷过程,本节将介绍狄利克雷过程的预测任务。
回顾:从概率图角度观察狄利克雷过程
从概率图的角度/样本
X
\mathcal X
X的生成过程观察,从狄利克雷过程
DP
[
α
,
H
(
θ
)
]
\text{DP}[\alpha,\mathcal H(\theta)]
DP[α,H(θ)]中采样得到一个离散的随机测度
G
\mathcal G
G:
G
∼
DP
[
α
,
H
(
θ
)
]
\mathcal G \sim \text{DP}[\alpha,\mathcal H(\theta)]
G∼DP[α,H(θ)]
其中
α
\alpha
α表示一个标量参数,通过该参数控制随机测度
G
\mathcal G
G的离散程度;
H
(
θ
)
\mathcal H(\theta)
H(θ)表示基本测度。在得到离散分布
G
\mathcal G
G之后,可通过对
G
\mathcal G
G进行采样,得到一系列的隐变量样本
θ
(
i
)
(
i
=
1
,
2
,
⋯
,
N
)
\theta^{(i)}(i=1,2,\cdots,N)
θ(i)(i=1,2,⋯,N):隐变量样本
θ
(
i
)
\theta^{(i)}
θ(i)之间独立同分布。
θ
(
1
)
,
θ
(
2
)
,
⋯
,
θ
(
N
)
∼
i.i.d
G
\theta^{(1)},\theta^{(2)},\cdots,\theta^{(N)} \overset{\text{i.i.d}}{\sim} \mathcal G
θ(1),θ(2),⋯,θ(N)∼i.i.dG
最终,通过隐变量样本
θ
(
i
)
\theta^{(i)}
θ(i)与真实样本
x
(
i
)
(
i
=
1
,
2
,
⋯
,
N
)
x^{(i)}(i=1,2,\cdots,N)
x(i)(i=1,2,⋯,N)之间的关联关系,生成真实的样本集合
X
\mathcal X
X:这里
F
\mathcal F
F表示
X
=
{
x
(
i
)
}
i
=
1
N
\mathcal X=\{x^{(i)}\}_{i=1}^N
X={x(i)}i=1N与
θ
=
{
θ
(
i
)
}
i
=
1
N
\theta = \{\theta^{(i)}\}_{i=1}^N
θ={θ(i)}i=1N之间关联关系的分布。
{
x
(
i
)
∼
F
(
θ
(
i
)
)
i
=
1
,
2
,
⋯
,
N
X
=
{
x
(
1
)
,
x
(
2
)
,
⋯
,
x
(
N
)
}
\begin{cases} x^{(i)} \sim \mathcal F(\theta^{(i)}) \quad i=1,2,\cdots,N \\ \mathcal X = \{x^{(1)},x^{(2)},\cdots,x^{(N)}\} \end{cases}
{x(i)∼F(θ(i))i=1,2,⋯,NX={x(1),x(2),⋯,x(N)}
至此,关于狄利克雷过程生成样本集合
X
\mathcal X
X的概率图结构可表示为如下形式:
关于随机测度 G \mathcal G G的后验概率分布
根据狄利克雷过程的核心性质,将分布
G
\mathcal G
G在特征空间中划分成不同区间的测度结果
G
(
a
d
)
(
d
=
1
,
2
,
⋯
,
D
)
\mathcal G(a_d)(d=1,2,\cdots,\mathcal D)
G(ad)(d=1,2,⋯,D)组成的分布服从狄利克雷分布:
{
Original Dist :
G
=
{
g
1
,
g
2
,
⋯
,
g
K
}
∑
k
=
1
K
g
k
=
1
Divide Operation :
{
G
(
a
d
)
=
∑
g
k
∈
a
d
g
k
d
∈
{
1
,
2
,
⋯
,
D
}
∑
d
=
1
D
G
(
a
d
)
=
1
G
∼
DP
[
α
,
H
(
θ
)
]
⇔
{
G
(
a
1
)
,
⋯
,
G
(
a
D
)
}
∼
Dir
[
α
H
(
a
1
)
,
⋯
,
α
H
(
a
D
)
]
\begin{cases} \text{Original Dist : } \mathcal G = \{g_1,g_2,\cdots,g_{\mathcal K}\} \quad \sum_{k=1}^{\mathcal K} g_k = 1 \\ \text{Divide Operation : } \begin{cases} \mathcal G(a_d) = \sum_{g_k \in a_d} g_k \quad d \in \{1,2,\cdots,\mathcal D\} \\ \sum_{d=1}^{\mathcal D} \mathcal G(a_d) = 1 \end{cases} \end{cases} \\ \mathcal G \sim \text{DP}[\alpha,\mathcal H(\theta)] \Leftrightarrow \{\mathcal G(a_1),\cdots,\mathcal G(a_{\mathcal D})\} \sim \text{Dir}[\alpha\mathcal H(a_1),\cdots,\alpha \mathcal H(a_{\mathcal D})]
⎩
⎨
⎧Original Dist : G={g1,g2,⋯,gK}∑k=1Kgk=1Divide Operation : {G(ad)=∑gk∈adgkd∈{1,2,⋯,D}∑d=1DG(ad)=1G∼DP[α,H(θ)]⇔{G(a1),⋯,G(aD)}∼Dir[αH(a1),⋯,αH(aD)]
进而将
G
∼
DP
[
α
,
H
(
θ
)
]
\mathcal G \sim \text{DP}[\alpha,\mathcal H(\theta)]
G∼DP[α,H(θ)]转化为直接从狄利克雷分布 中进行采样。那么关于分布
G
\mathcal G
G的先验概率分布
P
(
G
)
\mathcal P(\mathcal G)
P(G)表示如下:狄利克雷分布的概率密度函数。
P
(
G
)
=
P
[
G
(
a
1
)
,
G
(
a
2
)
,
⋯
,
G
(
a
D
)
]
=
Γ
[
∑
d
=
1
D
α
H
(
a
d
)
]
∏
d
=
1
D
Γ
[
α
H
(
a
d
)
]
∏
d
=
1
D
G
(
a
d
)
α
H
(
a
d
)
−
1
\begin{aligned} \mathcal P(\mathcal G) & = \mathcal P[\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D})] \\ & = \frac{\Gamma \left[\sum_{d=1}^{\mathcal D} \alpha \mathcal H(a_d)\right]}{\prod_{d=1}^{\mathcal D} \Gamma [\alpha \mathcal H(a_d)]} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\alpha \mathcal H(a_d) - 1} \end{aligned}
P(G)=P[G(a1),G(a2),⋯,G(aD)]=∏d=1DΓ[αH(ad)]Γ[∑d=1DαH(ad)]d=1∏DG(ad)αH(ad)−1
并从每一个划分区间中得到一个隐变量
θ
d
(
d
=
1
,
2
,
⋯
,
D
)
\theta_d(d=1,2,\cdots,\mathcal D)
θd(d=1,2,⋯,D)。假设离散分布
G
\mathcal G
G是一个多项式分布,关于似然
P
(
θ
∣
G
)
\mathcal P(\theta \mid \mathcal G)
P(θ∣G)的概率密度函数表示如下:
P
(
θ
1
,
⋯
,
θ
D
∣
G
)
=
(
∑
d
=
1
D
θ
d
)
!
θ
1
!
⋯
θ
D
!
∏
d
=
1
D
G
(
a
d
)
θ
d
\mathcal P(\theta_1,\cdots,\theta_{\mathcal D} \mid \mathcal G) = \frac{\left(\sum_{d=1}^{\mathcal D} \theta_d \right)!}{\theta_1 ! \cdots\theta_{\mathcal D} !} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\theta_d}
P(θ1,⋯,θD∣G)=θ1!⋯θD!(∑d=1Dθd)!d=1∏DG(ad)θd
关于后验概率分布
P
(
G
∣
θ
1
,
⋯
,
θ
D
)
\mathcal P(\mathcal G \mid \theta_1,\cdots,\theta_{\mathcal D})
P(G∣θ1,⋯,θD)通过贝叶斯定理表示为如下形式:
P
(
G
∣
θ
1
,
⋯
,
θ
D
)
=
P
(
G
)
⋅
P
(
θ
1
,
⋯
,
θ
D
∣
G
)
P
(
θ
1
,
⋯
,
θ
D
)
∝
P
(
G
)
⋅
P
(
θ
1
,
⋯
,
θ
D
∣
G
)
\begin{aligned} \mathcal P(\mathcal G \mid \theta_1,\cdots,\theta_{\mathcal D}) & = \frac{\mathcal P(\mathcal G) \cdot \mathcal P(\theta_1,\cdots,\theta_{\mathcal D} \mid \mathcal G)}{\mathcal P(\theta_1,\cdots,\theta_{\mathcal D})} \\ & \propto \mathcal P(\mathcal G) \cdot \mathcal P(\theta_1,\cdots,\theta_{\mathcal D} \mid \mathcal G) \end{aligned}
P(G∣θ1,⋯,θD)=P(θ1,⋯,θD)P(G)⋅P(θ1,⋯,θD∣G)∝P(G)⋅P(θ1,⋯,θD∣G)
将上述的先验分布
P
(
G
)
\mathcal P(\mathcal G)
P(G)、似然分布
P
(
θ
∣
G
)
\mathcal P(\theta \mid \mathcal G)
P(θ∣G)代入,可得到如下结果:
P
(
G
(
a
1
)
,
G
(
a
2
)
,
⋯
,
G
(
a
D
)
∣
θ
1
,
⋯
,
θ
D
)
∝
(
Γ
[
∑
d
=
1
D
α
H
(
a
d
)
]
∏
d
=
1
D
Γ
[
α
H
(
a
d
)
]
∏
d
=
1
D
G
(
a
d
)
α
H
(
a
d
)
−
1
)
⋅
(
(
∑
d
=
1
D
θ
d
)
!
θ
1
!
⋯
θ
D
!
∏
d
=
1
D
G
(
a
d
)
θ
d
)
=
(
Γ
[
∑
d
=
1
D
α
H
(
a
d
)
]
∏
d
=
1
D
Γ
[
α
H
(
a
d
)
]
⋅
(
∑
d
=
1
D
θ
d
)
!
θ
1
!
⋯
θ
D
!
)
⏟
不含
G
(
a
d
)
,
视作常数
∏
d
=
1
D
G
(
a
d
)
α
H
(
a
d
)
+
θ
d
−
1
∝
∏
d
=
1
D
G
(
a
d
)
α
H
(
a
d
)
+
θ
d
−
1
\begin{aligned} & \quad \mathcal P(\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D}) \mid \theta_1,\cdots,\theta_{\mathcal D}) \\ & \propto \left(\frac{\Gamma \left[\sum_{d=1}^{\mathcal D} \alpha \mathcal H(a_d)\right]}{\prod_{d=1}^{\mathcal D}\Gamma \left[\alpha \mathcal H(a_d)\right]} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\alpha \mathcal H(a_d) - 1}\right) \cdot \left(\frac{\left(\sum_{d=1}^{\mathcal D} \theta_d\right)!}{\theta_1 ! \cdots \theta_{\mathcal D}!} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\theta_d}\right) \\ & = \underbrace{\left(\frac{\Gamma \left[\sum_{d=1}^{\mathcal D} \alpha \mathcal H(a_d)\right]}{\prod_{d=1}^{\mathcal D}\Gamma \left[\alpha \mathcal H(a_d)\right]} \cdot \frac{\left(\sum_{d=1}^{\mathcal D} \theta_d\right)!}{\theta_1 ! \cdots \theta_{\mathcal D}!}\right)}_{不含\mathcal G(a_d),视作常数} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\alpha \mathcal H(a_d) + \theta_d - 1}\\ & \propto \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\alpha \mathcal H(a_d) + \theta_d - 1} \end{aligned}
P(G(a1),G(a2),⋯,G(aD)∣θ1,⋯,θD)∝
∏d=1DΓ[αH(ad)]Γ[∑d=1DαH(ad)]d=1∏DG(ad)αH(ad)−1
⋅
θ1!⋯θD!(∑d=1Dθd)!d=1∏DG(ad)θd
=不含G(ad),视作常数
∏d=1DΓ[αH(ad)]Γ[∑d=1DαH(ad)]⋅θ1!⋯θD!(∑d=1Dθd)!
d=1∏DG(ad)αH(ad)+θd−1∝d=1∏DG(ad)αH(ad)+θd−1
至此,可知后验概率结果依然服从狄利克雷分布:
P
[
G
(
a
1
)
,
G
(
a
2
)
,
⋯
,
G
(
a
D
)
∣
θ
1
,
⋯
,
θ
D
]
=
Dir
[
α
H
(
a
1
)
+
θ
1
,
⋯
,
α
H
(
a
D
)
+
θ
D
]
\quad \mathcal P[\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D}) \mid \theta_1,\cdots,\theta_{\mathcal D}] = \text{Dir} \left[\alpha \mathcal H(a_1) + \theta_1,\cdots,\alpha \mathcal H(a_{\mathcal D}) + \theta_{\mathcal D}\right]
P[G(a1),G(a2),⋯,G(aD)∣θ1,⋯,θD]=Dir[αH(a1)+θ1,⋯,αH(aD)+θD]
从指数族分布角度观察后验分布的性质
在指数族分布介绍中提到过指数族分布的共轭性质:如果似然函数 P ( x ∣ θ ) \mathcal P(x \mid \theta) P(x∣θ)存在一个共轭的先验分布 P ( θ ) \mathcal P(\theta) P(θ),那么后验分布 P ( θ ∣ x ) \mathcal P(\theta \mid x) P(θ∣x)与先验分布会形成相同的分布形式。
在上述描述中,狄利克雷分布明显是共轭分布;而狄利克雷分布是多项式分布的共轭先验。
关于 θ d ( d = 1 , 2 , ⋯ , D ) \theta_d(d=1,2,\cdots,\mathcal D) θd(d=1,2,⋯,D)的补充
在上面对 θ d ( d = 1 , 2 , ⋯ , D ) \theta_d(d=1,2,\cdots,\mathcal D) θd(d=1,2,⋯,D)的介绍,仅仅介绍它是隐变量,是隐变量样本集合 θ = { θ ( i ) } i = 1 N \theta = \{\theta^{(i)}\}_{i=1}^N θ={θ(i)}i=1N的随机变量。它的实际意义是:落在划分区间 a d a_d ad中的隐变量样本的数量。基于这个描述,可以归纳出两条信息:
- 隐变量的数量与划分区间的数量相同:
θ d ( d = 1 , 2 , ⋯ , D ) ⇔ a d ( d = 1 , 2 , ⋯ , D ) \theta_d(d=1,2,\cdots,\mathcal D) \Leftrightarrow a_d(d=1,2,\cdots,\mathcal D) θd(d=1,2,⋯,D)⇔ad(d=1,2,⋯,D) - 所有
θ
d
\theta_d
θd的和是
θ
\theta
θ的样本数量:
∑ d = 1 D θ d = N \sum_{d=1}^{\mathcal D} \theta_d = N d=1∑Dθd=N
将后验分布回溯至狄利克雷过程
已知后验分布的狄利克雷分布,根据狄利克雷过程的核心性质,可以将狄利克雷分布回溯至狄利克雷过程:
-
其中
H ( a d ) ( d = 1 , 2 , ⋯ , D ) \mathcal H(a_d)(d=1,2,\cdots,\mathcal D) H(ad)(d=1,2,⋯,D)表示被划分的范围
a d a_d ad内的所有
θ ( i ) ∈ a d \theta^{(i)} \in a_d θ(i)∈ad的基本测度,无论是基本测度还是随机测度
G ( a d ) \mathcal G(a_d) G(ad),它们都满足
∑ d = 1 D H ( a d ) = ∑ d = 1 D G ( a d ) = 1 \sum_{d=1}^{\mathcal D} \mathcal H(a_d) = \sum_{d=1}^{\mathcal D} \mathcal G(a_d) = 1 ∑d=1DH(ad)=∑d=1DG(ad)=1. -
δ
\delta
δ
表示狄拉克δ函数,表示
θ ( i ) ( i = 1 , 2 , ⋯ , N ) \theta^{(i)}(i=1,2,\cdots,N) θ(i)(i=1,2,⋯,N)在对应的划分区间
a d ( d = 1 , 2 , ⋯ , D ) a_d(d=1,2,\cdots,\mathcal D) ad(d=1,2,⋯,D)中结果是1,其余结果均是0
-
关于
Dir [ α H ( a 1 ) , ⋯ , α H ( a d ) ] \text{Dir}[\alpha \mathcal H(a_1),\cdots,\alpha \mathcal H(a_d)] Dir[αH(a1),⋯,αH(ad)]对于狄利克雷过程
DP ( α , H ) \text{DP}(\alpha,\mathcal H) DP(α,H)也是如此
: DP [ α ∑ d = 1 D H ( a d ) , α H + 0 α + 0 ] = DP ( α , H ) \text{DP}\left[\alpha \sum_{d=1}^{\mathcal D} \mathcal H(a_d),\frac{\alpha \mathcal H + 0}{\alpha + 0}\right] = \text{DP}(\alpha,\mathcal H) DP[α∑d=1DH(ad),α+0αH+0]=DP(α,H)
P [ G ( a 1 ) , G ( a 2 ) , ⋯ , G ( a D ) ∣ θ 1 , ⋯ , θ D ] = Dir [ α H ( a 1 ) + θ 1 , ⋯ , α H ( a D ) + θ D ] = DP [ α + N , α H + ∑ i = 1 N δ θ ( i ) α + N ⏟ Normalization ] \begin{aligned} & \quad \mathcal P[\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D}) \mid \theta_1,\cdots,\theta_{\mathcal D}] \\ & = \text{Dir} \left[\alpha \mathcal H(a_1) + \theta_1,\cdots,\alpha \mathcal H(a_{\mathcal D}) + \theta_{\mathcal D}\right] \\ & = \text{DP} \left[\alpha + N,\frac{\alpha \mathcal H + \sum_{i=1}^N \delta \theta^{(i)}}{\underbrace{\alpha + N}_{\text{Normalization}}}\right] \end{aligned} P[G(a1),G(a2),⋯,G(aD)∣θ1,⋯,θD]=Dir[αH(a1)+θ1,⋯,αH(aD)+θD]=DP α+N,Normalization α+NαH+∑i=1Nδθ(i)
观察这个后验的狄利克雷过程中的基本测度:
H
p
o
s
t
=
α
H
+
∑
i
=
1
N
δ
θ
(
i
)
α
+
N
=
α
α
+
N
⋅
H
+
1
α
+
N
∑
i
=
1
N
δ
θ
(
i
)
\begin{aligned} \mathcal H_{post} & = \frac{\alpha \mathcal H + \sum_{i=1}^N \delta \theta^{(i)}}{\alpha + N} \\ & = \frac{\alpha}{\alpha + N} \cdot \mathcal H + \frac{1}{\alpha + N} \sum_{i=1}^N \delta \theta^{(i)} \end{aligned}
Hpost=α+NαH+∑i=1Nδθ(i)=α+Nα⋅H+α+N1i=1∑Nδθ(i)
- 观察第一项:其中 α α + N \frac{\alpha}{\alpha + N} α+Nα明显是一个常数,如果基本测度 H \mathcal H H是一个连续分布,那么 α α + N H \frac{\alpha}{\alpha + N} \mathcal H α+NαH明显也是一个连续分布;
- 观察第二项:
1
α
+
N
\frac{1}{\alpha + N}
α+N1是一个常数,而
∑
i
=
1
N
δ
θ
(
i
)
\sum_{i=1}^N \delta\theta^{(i)}
∑i=1Nδθ(i)描述在不同划分区间下,隐变量样本
θ
(
i
)
\theta^{(i)}
θ(i)结果的和。即:
∑ i = 1 N δ θ ( i ) = [ ∑ θ ( i ) ∈ a 1 θ ( i ) , ∑ θ ( i ) ∈ a 2 θ ( i ) , ⋯ , ∑ θ ( i ) ∈ a D θ ( i ) ] D × 1 T ⇒ ∑ d = 1 D ∑ θ ( i ) ∈ a d θ ( i ) = N \sum_{i=1}^N \delta \theta^{(i)} = \left[\sum_{\theta^{(i)} \in a_1} \theta^{(i)},\sum_{\theta^{(i)} \in a_2} \theta^{(i)},\cdots,\sum_{\theta^{(i)} \in a_{\mathcal D}} \theta^{(i)}\right]_{\mathcal D \times 1}^T \Rightarrow \sum_{d=1}^{\mathcal D} \sum_{\theta^{(i)} \in a_d} \theta^{(i)} = N i=1∑Nδθ(i)= θ(i)∈a1∑θ(i),θ(i)∈a2∑θ(i),⋯,θ(i)∈aD∑θ(i) D×1T⇒d=1∑Dθ(i)∈ad∑θ(i)=N
这明显是一个离散分布。
而 H p o s t \mathcal H_{post} Hpost是由一个连续分布和离散分布的加权结果,在统计学中被称作 Stick and Slab \text{Stick and Slab} Stick and Slab现象。也就是说,该分布的一部分比例是连续分布结果提供,剩下另一部分由离散分布提供。
而在采样过程中,它将转化为概率的意义。其采样结果有一部分概率从连续分布中采样;剩下另一部分的概率从离散分布中采样。
回顾:贝叶斯派关于预测任务的推导思路
在贝叶斯线性回归中介绍过,从贝叶斯派角度处理预测任务,本质上是求解给定数据集 X \mathcal X X条件下,关于陌生样本 x ^ \hat x x^的后验分布 Predictive Dist → P ( x ^ ∣ X ) \text{Predictive Dist} \to \mathcal P(\hat x \mid \mathcal X) Predictive Dist→P(x^∣X):
-
这里假定样本
x ^ \hat x x^与数据集合
X \mathcal X X都是从同一个概率分布中产生的。
-
其中
W \mathcal W W表示概率分布参数,根据贝叶斯定理表示成如下形式。
-
当参数
W \mathcal W W通过训练集
X \mathcal X X学习完成后
→ P ( W ∣ X ) \to \mathcal P(\mathcal W \mid \mathcal X) →P(W∣X),仅需要通过参数
W \mathcal W W对
x ^ \hat x x^进行预测即可。
P ( x ^ ∣ X ) = ∫ W P ( x ^ , W ∣ X ) d W = ∫ W P ( x ^ ∣ W , X ) ⋅ P ( W ∣ X ) d W = ∫ W P ( x ^ ∣ W ) ⋅ P ( W ∣ X ) d W \begin{aligned} \mathcal P(\hat x \mid \mathcal X) & = \int_{\mathcal W} \mathcal P(\hat x,\mathcal W \mid \mathcal X) d\mathcal W \\ & = \int_{\mathcal W} \mathcal P(\hat x \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W \mid \mathcal X) d\mathcal W \\ & = \int_{\mathcal W} \mathcal P(\hat x \mid \mathcal W) \cdot \mathcal P(\mathcal W \mid \mathcal X) d\mathcal W \end{aligned} P(x^∣X)=∫WP(x^,W∣X)dW=∫WP(x^∣W,X)⋅P(W∣X)dW=∫WP(x^∣W)⋅P(W∣X)dW
基于狄利克雷过程的预测过程
在狄利克雷过程中,我们求解的并不是真实样本 x ^ \hat x x^,而是隐变量样本 θ ^ \hat {\theta} θ^:
-
此时的模型参数就是随机测度——离散分布
G \mathcal G G,因为
θ ( i ) ( i = 1 , 2 , ⋯ , N ) \theta^{(i)}(i=1,2,\cdots,N) θ(i)(i=1,2,⋯,N)是从分布
G \mathcal G G中生成得到。
-
由于
G \mathcal G G是离散分布,这里的积分表示为
∑ G \sum_{\mathcal G} ∑G而不是
∫ G \int_{\mathcal G} ∫G.
P ( θ ^ ∣ θ ) = ∑ G P ( θ ^ ∣ G ) ⋅ P ( G ∣ θ ) \begin{aligned} \mathcal P(\hat \theta \mid \theta) & = \sum_{\mathcal G} \mathcal P(\hat \theta \mid \mathcal G) \cdot \mathcal P(\mathcal G \mid \theta) \end{aligned} P(θ^∣θ)=G∑P(θ^∣G)⋅P(G∣θ)
其中
P
(
G
∣
θ
)
\mathcal P(\mathcal G \mid \theta)
P(G∣θ)自然是指
G
\mathcal G
G的后验分布:
P
(
G
∣
θ
)
=
DP
[
α
+
N
,
α
H
+
∑
i
=
1
N
δ
θ
(
i
)
α
+
N
]
\mathcal P(\mathcal G \mid \theta) = \text{DP} \left[\alpha + N,\frac{\alpha \mathcal H + \sum_{i=1}^N \delta \theta^{(i)}}{\alpha + N}\right]
P(G∣θ)=DP[α+N,α+NαH+∑i=1Nδθ(i)]
而
P
(
θ
^
∣
G
)
\mathcal P(\hat \theta \mid \mathcal G)
P(θ^∣G)表示给定分布的条件下,陌生隐变量的预测分布。而
θ
\theta
θ的预测分布自然是离散的。假设存在4个样本
x
(
1
)
,
x
(
2
)
,
x
(
3
)
,
x
(
4
)
x^{(1)},x^{(2)},x^{(3)},x^{(4)}
x(1),x(2),x(3),x(4),它们对应的
θ
(
1
)
,
θ
(
2
)
,
θ
(
3
)
,
θ
(
4
)
\theta^{(1)},\theta^{(2)},\theta^{(3)},\theta^{(4)}
θ(1),θ(2),θ(3),θ(4)表示如下:
x ( 1 ) x^{(1)} x(1) | x ( 2 ) x^{(2)} x(2) | x ( 3 ) x^{(3)} x(3) | x ( 4 ) x^{(4)} x(4) |
---|---|---|---|
θ ( 1 ) = 6 \theta^{(1)} = 6 θ(1)=6 | θ ( 2 ) = 4.8 \theta^{(2)} = 4.8 θ(2)=4.8 | θ ( 3 ) = 6 \theta^{(3)} = 6 θ(3)=6 | θ ( 4 ) = 4.8 \theta^{(4)} = 4.8 θ(4)=4.8 |
z ( 1 ) = 1 z^{(1)} = 1 z(1)=1 | z ( 2 ) = 2 z^{(2)} = 2 z(2)=2 | z ( 3 ) = 1 z^{(3)} = 1 z(3)=1 | z ( 4 ) = 2 z^{(4)} = 2 z(4)=2 |
很明显, θ ( 1 ) = θ ( 3 ) ; θ ( 2 ) = θ ( 4 ) \theta^{(1)} = \theta^{(3)};\theta^{(2)} = \theta^{(4)} θ(1)=θ(3);θ(2)=θ(4),这说明 x ( 1 ) , x ( 3 ) x^{(1)},x^{(3)} x(1),x(3)是同一分类; x ( 2 ) , x ( 4 ) x^{(2)},x^{(4)} x(2),x(4)是同一分类。根据上面的判断,我们根本没有必要 θ \theta θ具体等于多少,只需要直到哪些样本对应的 θ \theta θ相等即可。
上述的
z
(
i
)
(
i
=
1
,
2
,
3
,
4
)
z^{(i)}(i=1,2,3,4)
z(i)(i=1,2,3,4)表示对应样本点的分类信息。因而在做预测任务时,直接转化为:其中
Z
\mathcal Z
Z表示给定数据集合
X
\mathcal X
X对应的聚类标签信息;
z
^
\hat z
z^表示陌生样本
x
^
\hat x
x^对应的聚类标签信息。
P
(
z
^
∣
Z
)
z
^
→
x
^
;
Z
→
X
\mathcal P(\hat z \mid \mathcal Z) \quad \hat z \to \hat x;\mathcal Z \to \mathcal X
P(z^∣Z)z^→x^;Z→X
在折棍子过程一节中介绍过, H ( θ ) \mathcal H(\theta) H(θ)它决定了每一个样本点 x ( i ) ∈ X x^{(i)} \in \mathcal X x(i)∈X对应的隐变量样本 θ ( i ) ∈ θ \theta^{(i)} \in \theta θ(i)∈θ的真实结果,此时的 θ \theta θ还没有被离散化,并且 H ( θ ) \mathcal H(\theta) H(θ)与 P ( z ^ ∣ Z ) \mathcal P(\hat z \mid \mathcal Z) P(z^∣Z)的结果没有任何关系;
而随机测度
G
\mathcal G
G中产生的
θ
\theta
θ就不一样了,它此时的值相比于
H
(
θ
)
\mathcal H(\theta)
H(θ)中的
θ
\theta
θ已经离散化。也就是说,存在若干个真实样本对应的隐变量样本是同一个值。而这个同一数值隐变量样本的数量 是由
α
\alpha
α决定的,对应后验概率
P
(
z
^
∣
Z
)
\mathcal P(\hat z \mid \mathcal Z)
P(z^∣Z)与
α
\alpha
α存在密切的联系:需要注意的是,
α
\alpha
α与
θ
(
i
)
\theta^{(i)}
θ(i)的具体值之间没有任何关系。
文章来源:https://www.toymoban.com/news/detail-700314.html
- 当
α
→
0
\alpha \to 0
α→0时,此时分布中的所有权重均集中在某一具体
θ
(
i
)
\theta^{(i)}
θ(i)上,那么
P
(
z
^
∣
Z
)
\mathcal P(\hat z \mid \mathcal Z)
P(z^∣Z)就变成了一个
one-hot
\text{one-hot}
one-hot向量。这意味着从
G
\mathcal G
G中生成的隐变量样本
θ
(
i
)
\theta^{(i)}
θ(i)对应的数值均相同。
P ( z ^ ∣ Z ) = ( 0 , 0 , ⋯ , 0 , 1 , 0 , 0 , ⋯ , 0 ) ⏟ ∞ \mathcal P(\hat z \mid \mathcal Z) = \underbrace{(0,0,\cdots,0,1,0,0,\cdots,0)}_{\infty} P(z^∣Z)=∞ (0,0,⋯,0,1,0,0,⋯,0) - 当
α
→
∞
\alpha \to \infty
α→∞时,导致任意两个样本的聚类标签信息均不相同,此时的
P
(
z
^
∣
Z
)
\mathcal P(\hat z \mid \mathcal Z)
P(z^∣Z)针对无穷个聚类标签,每个标签中具有概率信息:
P ( z ^ ∣ Z ) = ( z ^ 1 , z ^ 2 , ⋯ , z ^ ∞ ) ⏟ ∞ z ^ i > 0 ( i = 1 , 2 , ⋯ , ∞ ) ; ∑ i = 1 ∞ z ^ i = 1 \mathcal P(\hat z \mid \mathcal Z) = \underbrace{(\hat z_1,\hat z_2,\cdots,\hat z_{\infty})}_{\infty} \quad \hat z_i > 0(i=1,2,\cdots,\infty);\sum_{i=1}^{\infty} \hat z_i = 1 P(z^∣Z)=∞ (z^1,z^2,⋯,z^∞)z^i>0(i=1,2,⋯,∞);i=1∑∞z^i=1
相关参考:
徐亦达机器学习:Dirichlet-Process-part 5
徐亦达机器学习:Dirichlet-Process-part 6文章来源地址https://www.toymoban.com/news/detail-700314.html
到了这里,关于机器学习笔记之狄利克雷过程(五)——基于狄利克雷过程的预测任务的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!