机器学习笔记之狄利克雷过程(五)——基于狄利克雷过程的预测任务

这篇具有很好参考价值的文章主要介绍了机器学习笔记之狄利克雷过程(五)——基于狄利克雷过程的预测任务。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

引言

上一节从概率图结构的角度介绍了狄利克雷过程,本节将介绍狄利克雷过程的预测任务。

回顾:从概率图角度观察狄利克雷过程

从概率图的角度/样本 X \mathcal X X生成过程观察,从狄利克雷过程 DP [ α , H ( θ ) ] \text{DP}[\alpha,\mathcal H(\theta)] DP[α,H(θ)]中采样得到一个离散的随机测度 G \mathcal G G
G ∼ DP [ α , H ( θ ) ] \mathcal G \sim \text{DP}[\alpha,\mathcal H(\theta)] GDP[α,H(θ)]
其中 α \alpha α表示一个标量参数,通过该参数控制随机测度 G \mathcal G G离散程度 H ( θ ) \mathcal H(\theta) H(θ)表示基本测度。在得到离散分布 G \mathcal G G之后,可通过对 G \mathcal G G进行采样,得到一系列的隐变量样本 θ ( i ) ( i = 1 , 2 , ⋯   , N ) \theta^{(i)}(i=1,2,\cdots,N) θ(i)(i=1,2,,N)
隐变量样本 θ ( i ) \theta^{(i)} θ(i)之间独立同分布。
θ ( 1 ) , θ ( 2 ) , ⋯   , θ ( N ) ∼ i.i.d G \theta^{(1)},\theta^{(2)},\cdots,\theta^{(N)} \overset{\text{i.i.d}}{\sim} \mathcal G θ(1),θ(2),,θ(N)i.i.dG
最终,通过隐变量样本 θ ( i ) \theta^{(i)} θ(i)真实样本 x ( i ) ( i = 1 , 2 , ⋯   , N ) x^{(i)}(i=1,2,\cdots,N) x(i)(i=1,2,,N)之间的关联关系,生成真实的样本集合 X \mathcal X X
这里 F \mathcal F F表示 X = { x ( i ) } i = 1 N \mathcal X=\{x^{(i)}\}_{i=1}^N X={x(i)}i=1N θ = { θ ( i ) } i = 1 N \theta = \{\theta^{(i)}\}_{i=1}^N θ={θ(i)}i=1N之间关联关系的分布。
{ x ( i ) ∼ F ( θ ( i ) ) i = 1 , 2 , ⋯   , N X = { x ( 1 ) , x ( 2 ) , ⋯   , x ( N ) } \begin{cases} x^{(i)} \sim \mathcal F(\theta^{(i)}) \quad i=1,2,\cdots,N \\ \mathcal X = \{x^{(1)},x^{(2)},\cdots,x^{(N)}\} \end{cases} {x(i)F(θ(i))i=1,2,,NX={x(1),x(2),,x(N)}
至此,关于狄利克雷过程生成样本集合 X \mathcal X X的概率图结构可表示为如下形式:
机器学习笔记之狄利克雷过程(五)——基于狄利克雷过程的预测任务,机器学习,机器学习,人工智能,概率论,狄利克雷过程——预测任务,指数族分布——共轭性质

关于随机测度 G \mathcal G G的后验概率分布

根据狄利克雷过程的核心性质,将分布 G \mathcal G G在特征空间中划分成不同区间的测度结果 G ( a d ) ( d = 1 , 2 , ⋯   , D ) \mathcal G(a_d)(d=1,2,\cdots,\mathcal D) G(ad)(d=1,2,,D)组成的分布服从狄利克雷分布
{ Original Dist :  G = { g 1 , g 2 , ⋯   , g K } ∑ k = 1 K g k = 1 Divide Operation :  { G ( a d ) = ∑ g k ∈ a d g k d ∈ { 1 , 2 , ⋯   , D } ∑ d = 1 D G ( a d ) = 1 G ∼ DP [ α , H ( θ ) ] ⇔ { G ( a 1 ) , ⋯   , G ( a D ) } ∼ Dir [ α H ( a 1 ) , ⋯   , α H ( a D ) ] \begin{cases} \text{Original Dist : } \mathcal G = \{g_1,g_2,\cdots,g_{\mathcal K}\} \quad \sum_{k=1}^{\mathcal K} g_k = 1 \\ \text{Divide Operation : } \begin{cases} \mathcal G(a_d) = \sum_{g_k \in a_d} g_k \quad d \in \{1,2,\cdots,\mathcal D\} \\ \sum_{d=1}^{\mathcal D} \mathcal G(a_d) = 1 \end{cases} \end{cases} \\ \mathcal G \sim \text{DP}[\alpha,\mathcal H(\theta)] \Leftrightarrow \{\mathcal G(a_1),\cdots,\mathcal G(a_{\mathcal D})\} \sim \text{Dir}[\alpha\mathcal H(a_1),\cdots,\alpha \mathcal H(a_{\mathcal D})] Original Dist : G={g1,g2,,gK}k=1Kgk=1Divide Operation : {G(ad)=gkadgkd{1,2,,D}d=1DG(ad)=1GDP[α,H(θ)]{G(a1),,G(aD)}Dir[αH(a1),,αH(aD)]
进而将 G ∼ DP [ α , H ( θ ) ] \mathcal G \sim \text{DP}[\alpha,\mathcal H(\theta)] GDP[α,H(θ)]转化为直接从狄利克雷分布 中进行采样。那么关于分布 G \mathcal G G先验概率分布 P ( G ) \mathcal P(\mathcal G) P(G)表示如下:
狄利克雷分布的概率密度函数。
P ( G ) = P [ G ( a 1 ) , G ( a 2 ) , ⋯   , G ( a D ) ] = Γ [ ∑ d = 1 D α H ( a d ) ] ∏ d = 1 D Γ [ α H ( a d ) ] ∏ d = 1 D G ( a d ) α H ( a d ) − 1 \begin{aligned} \mathcal P(\mathcal G) & = \mathcal P[\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D})] \\ & = \frac{\Gamma \left[\sum_{d=1}^{\mathcal D} \alpha \mathcal H(a_d)\right]}{\prod_{d=1}^{\mathcal D} \Gamma [\alpha \mathcal H(a_d)]} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\alpha \mathcal H(a_d) - 1} \end{aligned} P(G)=P[G(a1),G(a2),,G(aD)]=d=1DΓ[αH(ad)]Γ[d=1DαH(ad)]d=1DG(ad)αH(ad)1
并从每一个划分区间中得到一个隐变量 θ d ( d = 1 , 2 , ⋯   , D ) \theta_d(d=1,2,\cdots,\mathcal D) θd(d=1,2,,D)。假设离散分布 G \mathcal G G是一个多项式分布,关于似然 P ( θ ∣ G ) \mathcal P(\theta \mid \mathcal G) P(θG)的概率密度函数表示如下:
P ( θ 1 , ⋯   , θ D ∣ G ) = ( ∑ d = 1 D θ d ) ! θ 1 ! ⋯ θ D ! ∏ d = 1 D G ( a d ) θ d \mathcal P(\theta_1,\cdots,\theta_{\mathcal D} \mid \mathcal G) = \frac{\left(\sum_{d=1}^{\mathcal D} \theta_d \right)!}{\theta_1 ! \cdots\theta_{\mathcal D} !} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\theta_d} P(θ1,,θDG)=θ1!θD!(d=1Dθd)!d=1DG(ad)θd
关于后验概率分布 P ( G ∣ θ 1 , ⋯   , θ D ) \mathcal P(\mathcal G \mid \theta_1,\cdots,\theta_{\mathcal D}) P(Gθ1,,θD)通过贝叶斯定理表示为如下形式:
P ( G ∣ θ 1 , ⋯   , θ D ) = P ( G ) ⋅ P ( θ 1 , ⋯   , θ D ∣ G ) P ( θ 1 , ⋯   , θ D ) ∝ P ( G ) ⋅ P ( θ 1 , ⋯   , θ D ∣ G ) \begin{aligned} \mathcal P(\mathcal G \mid \theta_1,\cdots,\theta_{\mathcal D}) & = \frac{\mathcal P(\mathcal G) \cdot \mathcal P(\theta_1,\cdots,\theta_{\mathcal D} \mid \mathcal G)}{\mathcal P(\theta_1,\cdots,\theta_{\mathcal D})} \\ & \propto \mathcal P(\mathcal G) \cdot \mathcal P(\theta_1,\cdots,\theta_{\mathcal D} \mid \mathcal G) \end{aligned} P(Gθ1,,θD)=P(θ1,,θD)P(G)P(θ1,,θDG)P(G)P(θ1,,θDG)
将上述的先验分布 P ( G ) \mathcal P(\mathcal G) P(G)似然分布 P ( θ ∣ G ) \mathcal P(\theta \mid \mathcal G) P(θG)代入,可得到如下结果:
P ( G ( a 1 ) , G ( a 2 ) , ⋯   , G ( a D ) ∣ θ 1 , ⋯   , θ D ) ∝ ( Γ [ ∑ d = 1 D α H ( a d ) ] ∏ d = 1 D Γ [ α H ( a d ) ] ∏ d = 1 D G ( a d ) α H ( a d ) − 1 ) ⋅ ( ( ∑ d = 1 D θ d ) ! θ 1 ! ⋯ θ D ! ∏ d = 1 D G ( a d ) θ d ) = ( Γ [ ∑ d = 1 D α H ( a d ) ] ∏ d = 1 D Γ [ α H ( a d ) ] ⋅ ( ∑ d = 1 D θ d ) ! θ 1 ! ⋯ θ D ! ) ⏟ 不含 G ( a d ) , 视作常数 ∏ d = 1 D G ( a d ) α H ( a d ) + θ d − 1 ∝ ∏ d = 1 D G ( a d ) α H ( a d ) + θ d − 1 \begin{aligned} & \quad \mathcal P(\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D}) \mid \theta_1,\cdots,\theta_{\mathcal D}) \\ & \propto \left(\frac{\Gamma \left[\sum_{d=1}^{\mathcal D} \alpha \mathcal H(a_d)\right]}{\prod_{d=1}^{\mathcal D}\Gamma \left[\alpha \mathcal H(a_d)\right]} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\alpha \mathcal H(a_d) - 1}\right) \cdot \left(\frac{\left(\sum_{d=1}^{\mathcal D} \theta_d\right)!}{\theta_1 ! \cdots \theta_{\mathcal D}!} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\theta_d}\right) \\ & = \underbrace{\left(\frac{\Gamma \left[\sum_{d=1}^{\mathcal D} \alpha \mathcal H(a_d)\right]}{\prod_{d=1}^{\mathcal D}\Gamma \left[\alpha \mathcal H(a_d)\right]} \cdot \frac{\left(\sum_{d=1}^{\mathcal D} \theta_d\right)!}{\theta_1 ! \cdots \theta_{\mathcal D}!}\right)}_{不含\mathcal G(a_d),视作常数} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\alpha \mathcal H(a_d) + \theta_d - 1}\\ & \propto \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\alpha \mathcal H(a_d) + \theta_d - 1} \end{aligned} P(G(a1),G(a2),,G(aD)θ1,,θD) d=1DΓ[αH(ad)]Γ[d=1DαH(ad)]d=1DG(ad)αH(ad)1 θ1!θD!(d=1Dθd)!d=1DG(ad)θd =不含G(ad),视作常数 d=1DΓ[αH(ad)]Γ[d=1DαH(ad)]θ1!θD!(d=1Dθd)! d=1DG(ad)αH(ad)+θd1d=1DG(ad)αH(ad)+θd1
至此,可知后验概率结果依然服从狄利克雷分布
P [ G ( a 1 ) , G ( a 2 ) , ⋯   , G ( a D ) ∣ θ 1 , ⋯   , θ D ] = Dir [ α H ( a 1 ) + θ 1 , ⋯   , α H ( a D ) + θ D ] \quad \mathcal P[\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D}) \mid \theta_1,\cdots,\theta_{\mathcal D}] = \text{Dir} \left[\alpha \mathcal H(a_1) + \theta_1,\cdots,\alpha \mathcal H(a_{\mathcal D}) + \theta_{\mathcal D}\right] P[G(a1),G(a2),,G(aD)θ1,,θD]=Dir[αH(a1)+θ1,,αH(aD)+θD]

从指数族分布角度观察后验分布的性质

在指数族分布介绍中提到过指数族分布的共轭性质如果似然函数 P ( x ∣ θ ) \mathcal P(x \mid \theta) P(xθ)存在一个共轭的先验分布 P ( θ ) \mathcal P(\theta) P(θ),那么后验分布 P ( θ ∣ x ) \mathcal P(\theta \mid x) P(θx)与先验分布会形成相同的分布形式

在上述描述中,狄利克雷分布明显是共轭分布;而狄利克雷分布多项式分布的共轭先验。

关于 θ d ( d = 1 , 2 , ⋯   , D ) \theta_d(d=1,2,\cdots,\mathcal D) θd(d=1,2,,D)的补充

在上面对 θ d ( d = 1 , 2 , ⋯   , D ) \theta_d(d=1,2,\cdots,\mathcal D) θd(d=1,2,,D)的介绍,仅仅介绍它是隐变量,是隐变量样本集合 θ = { θ ( i ) } i = 1 N \theta = \{\theta^{(i)}\}_{i=1}^N θ={θ(i)}i=1N随机变量。它的实际意义是:落在划分区间 a d a_d ad中的隐变量样本的数量。基于这个描述,可以归纳出两条信息:

  • 隐变量的数量与划分区间的数量相同
    θ d ( d = 1 , 2 , ⋯   , D ) ⇔ a d ( d = 1 , 2 , ⋯   , D ) \theta_d(d=1,2,\cdots,\mathcal D) \Leftrightarrow a_d(d=1,2,\cdots,\mathcal D) θd(d=1,2,,D)ad(d=1,2,,D)
  • 所有 θ d \theta_d θd的和是 θ \theta θ的样本数量:
    ∑ d = 1 D θ d = N \sum_{d=1}^{\mathcal D} \theta_d = N d=1Dθd=N

将后验分布回溯至狄利克雷过程

已知后验分布的狄利克雷分布,根据狄利克雷过程的核心性质,可以将狄利克雷分布回溯至狄利克雷过程

  • 其中 H ( a d ) ( d = 1 , 2 , ⋯   , D ) \mathcal H(a_d)(d=1,2,\cdots,\mathcal D) H(ad)(d=1,2,,D)表示被划分的范围 a d a_d ad内的所有 θ ( i ) ∈ a d \theta^{(i)} \in a_d θ(i)ad的基本测度,无论是基本测度还是随机测度 G ( a d ) \mathcal G(a_d) G(ad),它们都满足 ∑ d = 1 D H ( a d ) = ∑ d = 1 D G ( a d ) = 1 \sum_{d=1}^{\mathcal D} \mathcal H(a_d) = \sum_{d=1}^{\mathcal D} \mathcal G(a_d) = 1 d=1DH(ad)=d=1DG(ad)=1.
  • δ \delta δ表示狄拉克δ函数,表示 θ ( i ) ( i = 1 , 2 , ⋯   , N ) \theta^{(i)}(i=1,2,\cdots,N) θ(i)(i=1,2,,N)在对应的划分区间 a d ( d = 1 , 2 , ⋯   , D ) a_d(d=1,2,\cdots,\mathcal D) ad(d=1,2,,D)中结果是1,其余结果均是0
  • 关于 Dir [ α H ( a 1 ) , ⋯   , α H ( a d ) ] \text{Dir}[\alpha \mathcal H(a_1),\cdots,\alpha \mathcal H(a_d)] Dir[αH(a1),,αH(ad)]对于狄利克雷过程 DP ( α , H ) \text{DP}(\alpha,\mathcal H) DP(α,H)也是如此 DP [ α ∑ d = 1 D H ( a d ) , α H + 0 α + 0 ] = DP ( α , H ) \text{DP}\left[\alpha \sum_{d=1}^{\mathcal D} \mathcal H(a_d),\frac{\alpha \mathcal H + 0}{\alpha + 0}\right] = \text{DP}(\alpha,\mathcal H) DP[αd=1DH(ad),α+0αH+0]=DP(α,H)
    P [ G ( a 1 ) , G ( a 2 ) , ⋯   , G ( a D ) ∣ θ 1 , ⋯   , θ D ] = Dir [ α H ( a 1 ) + θ 1 , ⋯   , α H ( a D ) + θ D ] = DP [ α + N , α H + ∑ i = 1 N δ θ ( i ) α + N ⏟ Normalization ] \begin{aligned} & \quad \mathcal P[\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D}) \mid \theta_1,\cdots,\theta_{\mathcal D}] \\ & = \text{Dir} \left[\alpha \mathcal H(a_1) + \theta_1,\cdots,\alpha \mathcal H(a_{\mathcal D}) + \theta_{\mathcal D}\right] \\ & = \text{DP} \left[\alpha + N,\frac{\alpha \mathcal H + \sum_{i=1}^N \delta \theta^{(i)}}{\underbrace{\alpha + N}_{\text{Normalization}}}\right] \end{aligned} P[G(a1),G(a2),,G(aD)θ1,,θD]=Dir[αH(a1)+θ1,,αH(aD)+θD]=DP α+N,Normalization α+NαH+i=1Nδθ(i)

观察这个后验的狄利克雷过程中的基本测度
H p o s t = α H + ∑ i = 1 N δ θ ( i ) α + N = α α + N ⋅ H + 1 α + N ∑ i = 1 N δ θ ( i ) \begin{aligned} \mathcal H_{post} & = \frac{\alpha \mathcal H + \sum_{i=1}^N \delta \theta^{(i)}}{\alpha + N} \\ & = \frac{\alpha}{\alpha + N} \cdot \mathcal H + \frac{1}{\alpha + N} \sum_{i=1}^N \delta \theta^{(i)} \end{aligned} Hpost=α+NαH+i=1Nδθ(i)=α+NαH+α+N1i=1Nδθ(i)

  • 观察第一项:其中 α α + N \frac{\alpha}{\alpha + N} α+Nα明显是一个常数,如果基本测度 H \mathcal H H是一个连续分布,那么 α α + N H \frac{\alpha}{\alpha + N} \mathcal H α+NαH明显也是一个连续分布
  • 观察第二项: 1 α + N \frac{1}{\alpha + N} α+N1是一个常数,而 ∑ i = 1 N δ θ ( i ) \sum_{i=1}^N \delta\theta^{(i)} i=1Nδθ(i)描述在不同划分区间下,隐变量样本 θ ( i ) \theta^{(i)} θ(i)结果的和。即:
    ∑ i = 1 N δ θ ( i ) = [ ∑ θ ( i ) ∈ a 1 θ ( i ) , ∑ θ ( i ) ∈ a 2 θ ( i ) , ⋯   , ∑ θ ( i ) ∈ a D θ ( i ) ] D × 1 T ⇒ ∑ d = 1 D ∑ θ ( i ) ∈ a d θ ( i ) = N \sum_{i=1}^N \delta \theta^{(i)} = \left[\sum_{\theta^{(i)} \in a_1} \theta^{(i)},\sum_{\theta^{(i)} \in a_2} \theta^{(i)},\cdots,\sum_{\theta^{(i)} \in a_{\mathcal D}} \theta^{(i)}\right]_{\mathcal D \times 1}^T \Rightarrow \sum_{d=1}^{\mathcal D} \sum_{\theta^{(i)} \in a_d} \theta^{(i)} = N i=1Nδθ(i)= θ(i)a1θ(i),θ(i)a2θ(i),,θ(i)aDθ(i) D×1Td=1Dθ(i)adθ(i)=N
    这明显是一个离散分布

H p o s t \mathcal H_{post} Hpost是由一个连续分布离散分布的加权结果,在统计学中被称作 Stick and Slab \text{Stick and Slab} Stick and Slab现象。也就是说,该分布的一部分比例是连续分布结果提供,剩下另一部分由离散分布提供。

而在采样过程中,它将转化为概率的意义。其采样结果有一部分概率从连续分布中采样;剩下另一部分的概率从离散分布中采样。

回顾:贝叶斯派关于预测任务的推导思路

在贝叶斯线性回归中介绍过,从贝叶斯派角度处理预测任务,本质上是求解给定数据集 X \mathcal X X条件下,关于陌生样本 x ^ \hat x x^的后验分布 Predictive Dist → P ( x ^ ∣ X ) \text{Predictive Dist} \to \mathcal P(\hat x \mid \mathcal X) Predictive DistP(x^X)

  • 这里假定样本 x ^ \hat x x^与数据集合 X \mathcal X X都是从同一个概率分布中产生的。
  • 其中 W \mathcal W W表示概率分布参数,根据贝叶斯定理表示成如下形式。
  • 当参数 W \mathcal W W通过训练集 X \mathcal X X学习完成后 → P ( W ∣ X ) \to \mathcal P(\mathcal W \mid \mathcal X) P(WX),仅需要通过参数 W \mathcal W W x ^ \hat x x^进行预测即可。
    P ( x ^ ∣ X ) = ∫ W P ( x ^ , W ∣ X ) d W = ∫ W P ( x ^ ∣ W , X ) ⋅ P ( W ∣ X ) d W = ∫ W P ( x ^ ∣ W ) ⋅ P ( W ∣ X ) d W \begin{aligned} \mathcal P(\hat x \mid \mathcal X) & = \int_{\mathcal W} \mathcal P(\hat x,\mathcal W \mid \mathcal X) d\mathcal W \\ & = \int_{\mathcal W} \mathcal P(\hat x \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W \mid \mathcal X) d\mathcal W \\ & = \int_{\mathcal W} \mathcal P(\hat x \mid \mathcal W) \cdot \mathcal P(\mathcal W \mid \mathcal X) d\mathcal W \end{aligned} P(x^X)=WP(x^,WX)dW=WP(x^W,X)P(WX)dW=WP(x^W)P(WX)dW

基于狄利克雷过程的预测过程

狄利克雷过程中,我们求解的并不是真实样本 x ^ \hat x x^,而是隐变量样本 θ ^ \hat {\theta} θ^

  • 此时的模型参数就是随机测度——离散分布 G \mathcal G G,因为 θ ( i ) ( i = 1 , 2 , ⋯   , N ) \theta^{(i)}(i=1,2,\cdots,N) θ(i)(i=1,2,,N)是从分布 G \mathcal G G中生成得到。
  • 由于 G \mathcal G G是离散分布,这里的积分表示为 ∑ G \sum_{\mathcal G} G而不是 ∫ G \int_{\mathcal G} G.
    P ( θ ^ ∣ θ ) = ∑ G P ( θ ^ ∣ G ) ⋅ P ( G ∣ θ ) \begin{aligned} \mathcal P(\hat \theta \mid \theta) & = \sum_{\mathcal G} \mathcal P(\hat \theta \mid \mathcal G) \cdot \mathcal P(\mathcal G \mid \theta) \end{aligned} P(θ^θ)=GP(θ^G)P(Gθ)

其中 P ( G ∣ θ ) \mathcal P(\mathcal G \mid \theta) P(Gθ)自然是指 G \mathcal G G后验分布
P ( G ∣ θ ) = DP [ α + N , α H + ∑ i = 1 N δ θ ( i ) α + N ] \mathcal P(\mathcal G \mid \theta) = \text{DP} \left[\alpha + N,\frac{\alpha \mathcal H + \sum_{i=1}^N \delta \theta^{(i)}}{\alpha + N}\right] P(Gθ)=DP[α+N,α+NαH+i=1Nδθ(i)]
P ( θ ^ ∣ G ) \mathcal P(\hat \theta \mid \mathcal G) P(θ^G)表示给定分布的条件下,陌生隐变量的预测分布。而 θ \theta θ的预测分布自然是离散的。假设存在4个样本 x ( 1 ) , x ( 2 ) , x ( 3 ) , x ( 4 ) x^{(1)},x^{(2)},x^{(3)},x^{(4)} x(1),x(2),x(3),x(4),它们对应的 θ ( 1 ) , θ ( 2 ) , θ ( 3 ) , θ ( 4 ) \theta^{(1)},\theta^{(2)},\theta^{(3)},\theta^{(4)} θ(1),θ(2),θ(3),θ(4)表示如下:

x ( 1 ) x^{(1)} x(1) x ( 2 ) x^{(2)} x(2) x ( 3 ) x^{(3)} x(3) x ( 4 ) x^{(4)} x(4)
θ ( 1 ) = 6 \theta^{(1)} = 6 θ(1)=6 θ ( 2 ) = 4.8 \theta^{(2)} = 4.8 θ(2)=4.8 θ ( 3 ) = 6 \theta^{(3)} = 6 θ(3)=6 θ ( 4 ) = 4.8 \theta^{(4)} = 4.8 θ(4)=4.8
z ( 1 ) = 1 z^{(1)} = 1 z(1)=1 z ( 2 ) = 2 z^{(2)} = 2 z(2)=2 z ( 3 ) = 1 z^{(3)} = 1 z(3)=1 z ( 4 ) = 2 z^{(4)} = 2 z(4)=2

很明显, θ ( 1 ) = θ ( 3 ) ; θ ( 2 ) = θ ( 4 ) \theta^{(1)} = \theta^{(3)};\theta^{(2)} = \theta^{(4)} θ(1)=θ(3);θ(2)=θ(4),这说明 x ( 1 ) , x ( 3 ) x^{(1)},x^{(3)} x(1),x(3)是同一分类; x ( 2 ) , x ( 4 ) x^{(2)},x^{(4)} x(2),x(4)是同一分类。根据上面的判断,我们根本没有必要 θ \theta θ具体等于多少,只需要直到哪些样本对应的 θ \theta θ相等即可。

上述的 z ( i ) ( i = 1 , 2 , 3 , 4 ) z^{(i)}(i=1,2,3,4) z(i)(i=1,2,3,4)表示对应样本点的分类信息。因而在做预测任务时,直接转化为:
其中 Z \mathcal Z Z表示给定数据集合 X \mathcal X X对应的聚类标签信息; z ^ \hat z z^表示陌生样本 x ^ \hat x x^对应的聚类标签信息。
P ( z ^ ∣ Z ) z ^ → x ^ ; Z → X \mathcal P(\hat z \mid \mathcal Z) \quad \hat z \to \hat x;\mathcal Z \to \mathcal X P(z^Z)z^x^;ZX

在折棍子过程一节中介绍过, H ( θ ) \mathcal H(\theta) H(θ)它决定了每一个样本点 x ( i ) ∈ X x^{(i)} \in \mathcal X x(i)X对应的隐变量样本 θ ( i ) ∈ θ \theta^{(i)} \in \theta θ(i)θ真实结果,此时的 θ \theta θ还没有被离散化,并且 H ( θ ) \mathcal H(\theta) H(θ) P ( z ^ ∣ Z ) \mathcal P(\hat z \mid \mathcal Z) P(z^Z)的结果没有任何关系

随机测度 G \mathcal G G中产生的 θ \theta θ就不一样了,它此时的值相比于 H ( θ ) \mathcal H(\theta) H(θ)中的 θ \theta θ已经离散化。也就是说,存在若干个真实样本对应的隐变量样本是同一个值。而这个同一数值隐变量样本的数量 是由 α \alpha α决定的,对应后验概率 P ( z ^ ∣ Z ) \mathcal P(\hat z \mid \mathcal Z) P(z^Z) α \alpha α存在密切的联系:
需要注意的是, α \alpha α θ ( i ) \theta^{(i)} θ(i)的具体值之间没有任何关系。

  • α → 0 \alpha \to 0 α0时,此时分布中的所有权重均集中在某一具体 θ ( i ) \theta^{(i)} θ(i)上,那么 P ( z ^ ∣ Z ) \mathcal P(\hat z \mid \mathcal Z) P(z^Z)就变成了一个 one-hot \text{one-hot} one-hot向量。这意味着 G \mathcal G G中生成的隐变量样本 θ ( i ) \theta^{(i)} θ(i)对应的数值均相同
    P ( z ^ ∣ Z ) = ( 0 , 0 , ⋯   , 0 , 1 , 0 , 0 , ⋯   , 0 ) ⏟ ∞ \mathcal P(\hat z \mid \mathcal Z) = \underbrace{(0,0,\cdots,0,1,0,0,\cdots,0)}_{\infty} P(z^Z)= (0,0,,0,1,0,0,,0)
  • α → ∞ \alpha \to \infty α时,导致任意两个样本的聚类标签信息均不相同,此时的 P ( z ^ ∣ Z ) \mathcal P(\hat z \mid \mathcal Z) P(z^Z)针对无穷个聚类标签,每个标签中具有概率信息:
    P ( z ^ ∣ Z ) = ( z ^ 1 , z ^ 2 , ⋯   , z ^ ∞ ) ⏟ ∞ z ^ i > 0 ( i = 1 , 2 , ⋯   , ∞ ) ; ∑ i = 1 ∞ z ^ i = 1 \mathcal P(\hat z \mid \mathcal Z) = \underbrace{(\hat z_1,\hat z_2,\cdots,\hat z_{\infty})}_{\infty} \quad \hat z_i > 0(i=1,2,\cdots,\infty);\sum_{i=1}^{\infty} \hat z_i = 1 P(z^Z)= (z^1,z^2,,z^)z^i>0(i=1,2,,);i=1z^i=1

相关参考:
徐亦达机器学习:Dirichlet-Process-part 5
徐亦达机器学习:Dirichlet-Process-part 6文章来源地址https://www.toymoban.com/news/detail-700314.html

到了这里,关于机器学习笔记之狄利克雷过程(五)——基于狄利克雷过程的预测任务的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 学习笔记之 机器学习之预测雾霾

    基础的Encoder-Decoder是存在很多弊端的,最大的问题就是信息丢失。Encoder将输入编码为固定大小的向量的过程实际上是一个“信息有损的压缩过程”,如果信息量越大,那么这个转化向量的过程对信息的损失就越大,同时,随着序列长度(sequence length)的增加,意味着时间维度

    2024年01月23日
    浏览(39)
  • 机器学习:基于Python 机器学习进行医疗保险价格预测

    作者:i阿极 作者简介:数据分析领域优质创作者、多项比赛获奖者:博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦!👍👍👍 📜📜📜如果有小伙伴需要数据集和学习交流,文章下方有交流学习区!一起学习进步!💪 大家

    2024年02月11日
    浏览(41)
  • 基于机器学习的库存需求预测 -- 机器学习项目基础篇(12)

    在本文中,我们将尝试实现一个机器学习模型,该模型可以预测在不同商店销售的不同产品的库存量。 导入库和数据集 Python库使我们可以轻松地处理数据,并通过一行代码执行典型和复杂的任务。 Pandas -此库有助于以2D阵列格式加载数据帧,并具有多种功能,可一次性执行分

    2024年02月13日
    浏览(41)
  • 毕业设计-基于机器学习的股票预测

    目录 前言 课题背景和意义 实现技术思路 一、传统股票预测模型  二、新型股票预测方法 实现效果图样例  最后     📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项

    2023年04月08日
    浏览(58)
  • 心律守护 基于机器学习的心脏病预测

    在当今数字化时代,机器学习的应用已经渗透到了医疗保健领域的各个层面。其中,利用机器学习技术来预测心脏病的发生风险成为了一项备受关注的研究方向。本文将介绍一个基于机器学习的心脏病预测项目,通过分析患者的临床数据,帮助医生及时诊断和治疗潜在的心脏

    2024年02月21日
    浏览(46)
  • 机器学习算法(一): 基于逻辑回归的分类预测

    逻辑回归的介绍 逻辑回归(Logistic regression,简称LR)虽然其中带有\\\"回归\\\"两个字,但逻辑回归其实是一个 分类 模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热,但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。 而对于

    2024年01月15日
    浏览(49)
  • 基于sumo实现交通的拥堵预测和路径动态规划 基于机器学习或者深度学习方法动态预测各路段的拥堵指数

    基于sumo实现交通的拥堵预测和路径动态规划 实现思路: 1、基于机器学习或者深度学习方法动态预测各路段的拥堵指数。 2、采用A* Dijkstra实现车辆的路径实时动态规划 基于sumo实现交通的拥堵预测和路径动态规划 随着城市化进程的加速以及交通运输工具的不断普及,城市交

    2024年04月17日
    浏览(42)
  • 机器学习(三):基于线性回归对波士顿房价预测

    ✍ 作者简介: i阿极 ,CSDN Python领域新星创作者, 专注于分享python领域知识。 ✍ 本文录入于《机器学习案例》 ,本专栏精选了经典的机器学习算法进行讲解,针对大学生、初级数据分析工程师精心打造ÿ

    2023年04月25日
    浏览(52)
  • 机器学习:基于支持向量机(SVM)进行人脸识别预测

    作者:i阿极 作者简介:Python领域新星作者、多项比赛获奖者:博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦!👍👍👍 📜📜📜如果有小伙伴需要数据集和学习交流,文章下方有交流学习区!一起学习进步!💪 专栏案例:

    2024年01月23日
    浏览(49)
  • AI:93-基于机器学习的船舶识别与轨迹预测

    🚀 本文选自专栏:人工智能领域200例教程专栏 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带有在本地跑过的核心代码,详细讲解供大家学习,希望可以帮到大家。欢迎订阅支持,

    2024年02月04日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包