机器学习笔记之狄利克雷过程(五)——基于狄利克雷过程的预测任务-Toy模板网

这篇具有很好参考价值的文章主要介绍了机器学习笔记之狄利克雷过程(五)——基于狄利克雷过程的预测任务。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

引言

上一节从概率图结构的角度介绍了狄利克雷过程，本节将介绍狄利克雷过程的预测任务。

回顾：从概率图角度观察狄利克雷过程

从概率图的角度/样本 $\mathcal X$ 的生成过程观察，从狄利克雷过程 $\text{DP}[\alpha,\mathcal H(\theta)]$ 中采样得到一个离散的随机测度 $\mathcal G$ ：
$\mathcal G \sim \text{DP}[\alpha,\mathcal H(\theta)]$
其中 $\alpha$ 表示一个标量参数，通过该参数控制随机测度 $\mathcal G$ 的离散程度； $\mathcal H(\theta)$ 表示基本测度。在得到离散分布 $\mathcal G$ 之后，可通过对 $\mathcal G$ 进行采样，得到一系列的隐变量样本 $\theta^{(i)}(i=1,2,\cdots,N)$ ：
隐变量样本 $\theta^{(i)}$ 之间独立同分布。
$\theta^{(1)},\theta^{(2)},\cdots,\theta^{(N)} \overset{\text{i.i.d}}{\sim} \mathcal G$
最终，通过隐变量样本 $\theta^{(i)}$ 与真实样本 $x^{(i)}(i=1,2,\cdots,N)$ 之间的关联关系，生成真实的样本集合 $\mathcal X$ ：
这里 $\mathcal F$ 表示 $\mathcal X=\{x^{(i)}\}_{i=1}^N$ 与 $\theta = \{\theta^{(i)}\}_{i=1}^N$ 之间关联关系的分布。
$\begin{cases} x^{(i)} \sim \mathcal F(\theta^{(i)}) \quad i=1,2,\cdots,N \\ \mathcal X = \{x^{(1)},x^{(2)},\cdots,x^{(N)}\} \end{cases}$
至此，关于狄利克雷过程生成样本集合 $\mathcal X$ 的概率图结构可表示为如下形式：
机器学习笔记之狄利克雷过程(五)——基于狄利克雷过程的预测任务,机器学习,机器学习,人工智能,概率论,狄利克雷过程——预测任务,指数族分布——共轭性质

关于随机测度 $\mathcal G$ 的后验概率分布

根据狄利克雷过程的核心性质，将分布 $\mathcal G$ 在特征空间中划分成不同区间的测度结果 $\mathcal G(a_d)(d=1,2,\cdots,\mathcal D)$ 组成的分布服从狄利克雷分布：
$\begin{cases} \text{Original Dist : } \mathcal G = \{g_1,g_2,\cdots,g_{\mathcal K}\} \quad \sum_{k=1}^{\mathcal K} g_k = 1 \\ \text{Divide Operation : } \begin{cases} \mathcal G(a_d) = \sum_{g_k \in a_d} g_k \quad d \in \{1,2,\cdots,\mathcal D\} \\ \sum_{d=1}^{\mathcal D} \mathcal G(a_d) = 1 \end{cases} \end{cases} \\ \mathcal G \sim \text{DP}[\alpha,\mathcal H(\theta)] \Leftrightarrow \{\mathcal G(a_1),\cdots,\mathcal G(a_{\mathcal D})\} \sim \text{Dir}[\alpha\mathcal H(a_1),\cdots,\alpha \mathcal H(a_{\mathcal D})]$
进而将 $\mathcal G \sim \text{DP}[\alpha,\mathcal H(\theta)]$ 转化为直接从狄利克雷分布 中进行采样。那么关于分布 $\mathcal G$ 的先验概率分布 $\mathcal P(\mathcal G)$ 表示如下：
狄利克雷分布的概率密度函数。
$\begin{aligned} \mathcal P(\mathcal G) & = \mathcal P[\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D})] \\ & = \frac{\Gamma \left[\sum_{d=1}^{\mathcal D} \alpha \mathcal H(a_d)\right]}{\prod_{d=1}^{\mathcal D} \Gamma [\alpha \mathcal H(a_d)]} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\alpha \mathcal H(a_d) - 1} \end{aligned}$
并从每一个划分区间中得到一个隐变量 $\theta_d(d=1,2,\cdots,\mathcal D)$ 。假设离散分布 $\mathcal G$ 是一个多项式分布，关于似然 $\mathcal P(\theta \mid \mathcal G)$ 的概率密度函数表示如下：
$\mathcal P(\theta_1,\cdots,\theta_{\mathcal D} \mid \mathcal G) = \frac{\left(\sum_{d=1}^{\mathcal D} \theta_d \right)!}{\theta_1 ! \cdots\theta_{\mathcal D} !} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\theta_d}$
关于后验概率分布 $\mathcal P(\mathcal G \mid \theta_1,\cdots,\theta_{\mathcal D})$ 通过贝叶斯定理表示为如下形式：
$\begin{aligned} \mathcal P(\mathcal G \mid \theta_1,\cdots,\theta_{\mathcal D}) & = \frac{\mathcal P(\mathcal G) \cdot \mathcal P(\theta_1,\cdots,\theta_{\mathcal D} \mid \mathcal G)}{\mathcal P(\theta_1,\cdots,\theta_{\mathcal D})} \\ & \propto \mathcal P(\mathcal G) \cdot \mathcal P(\theta_1,\cdots,\theta_{\mathcal D} \mid \mathcal G) \end{aligned}$
将上述的先验分布 $\mathcal P(\mathcal G)$ 、似然分布 $\mathcal P(\theta \mid \mathcal G)$ 代入，可得到如下结果：
$\begin{aligned} & \quad \mathcal P(\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D}) \mid \theta_1,\cdots,\theta_{\mathcal D}) \\ & \propto \left(\frac{\Gamma \left[\sum_{d=1}^{\mathcal D} \alpha \mathcal H(a_d)\right]}{\prod_{d=1}^{\mathcal D}\Gamma \left[\alpha \mathcal H(a_d)\right]} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\alpha \mathcal H(a_d) - 1}\right) \cdot \left(\frac{\left(\sum_{d=1}^{\mathcal D} \theta_d\right)!}{\theta_1 ! \cdots \theta_{\mathcal D}!} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\theta_d}\right) \\ & = \underbrace{\left(\frac{\Gamma \left[\sum_{d=1}^{\mathcal D} \alpha \mathcal H(a_d)\right]}{\prod_{d=1}^{\mathcal D}\Gamma \left[\alpha \mathcal H(a_d)\right]} \cdot \frac{\left(\sum_{d=1}^{\mathcal D} \theta_d\right)!}{\theta_1 ! \cdots \theta_{\mathcal D}!}\right)}_{不含\mathcal G(a_d),视作常数} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\alpha \mathcal H(a_d) + \theta_d - 1}\\ & \propto \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\alpha \mathcal H(a_d) + \theta_d - 1} \end{aligned}$
至此，可知后验概率结果依然服从狄利克雷分布：
$\quad \mathcal P[\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D}) \mid \theta_1,\cdots,\theta_{\mathcal D}] = \text{Dir} \left[\alpha \mathcal H(a_1) + \theta_1,\cdots,\alpha \mathcal H(a_{\mathcal D}) + \theta_{\mathcal D}\right]$

从指数族分布角度观察后验分布的性质

在指数族分布介绍中提到过指数族分布的共轭性质：如果似然函数 $\mathcal P(x \mid \theta)$ 存在一个共轭的先验分布 $\mathcal P(\theta)$ ，那么后验分布 $\mathcal P(\theta \mid x)$ 与先验分布会形成相同的分布形式。

在上述描述中，狄利克雷分布明显是共轭分布；而狄利克雷分布是多项式分布的共轭先验。

关于 $\theta_d(d=1,2,\cdots,\mathcal D)$ 的补充

在上面对 $\theta_d(d=1,2,\cdots,\mathcal D)$ 的介绍，仅仅介绍它是隐变量，是隐变量样本集合 $\theta = \{\theta^{(i)}\}_{i=1}^N$ 的随机变量。它的实际意义是：落在划分区间 $a_d$ 中的隐变量样本的数量。基于这个描述，可以归纳出两条信息：

隐变量的数量与划分区间的数量相同：
$\theta_d(d=1,2,\cdots,\mathcal D) \Leftrightarrow a_d(d=1,2,\cdots,\mathcal D)$
所有 $\theta_d$ 的和是 $\theta$ 的样本数量：
$\sum_{d=1}^{\mathcal D} \theta_d = N$

将后验分布回溯至狄利克雷过程

已知后验分布的狄利克雷分布，根据狄利克雷过程的核心性质，可以将狄利克雷分布回溯至狄利克雷过程：

其中 $\mathcal H(a_d)(d=1,2,\cdots,\mathcal D)$ 表示被划分的范围 $a_d$ 内的所有 $\theta^{(i)} \in a_d$ 的基本测度，无论是基本测度还是随机测度 $\mathcal G(a_d)$ ,它们都满足 $\sum_{d=1}^{\mathcal D} \mathcal H(a_d) = \sum_{d=1}^{\mathcal D} \mathcal G(a_d) = 1$ .
$\delta$ 表示狄拉克δ函数，表示 $\theta^{(i)}(i=1,2,\cdots,N)$ 在对应的划分区间 $a_d(d=1,2,\cdots,\mathcal D)$ 中结果是1，其余结果均是0
关于 $\text{Dir}[\alpha \mathcal H(a_1),\cdots,\alpha \mathcal H(a_d)]$ 对于狄利克雷过程 $\text{DP}(\alpha,\mathcal H)$ 也是如此： $\text{DP}\left[\alpha \sum_{d=1}^{\mathcal D} \mathcal H(a_d),\frac{\alpha \mathcal H + 0}{\alpha + 0}\right] = \text{DP}(\alpha,\mathcal H)$
$\begin{aligned} & \quad \mathcal P[\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D}) \mid \theta_1,\cdots,\theta_{\mathcal D}] \\ & = \text{Dir} \left[\alpha \mathcal H(a_1) + \theta_1,\cdots,\alpha \mathcal H(a_{\mathcal D}) + \theta_{\mathcal D}\right] \\ & = \text{DP} \left[\alpha + N,\frac{\alpha \mathcal H + \sum_{i=1}^N \delta \theta^{(i)}}{\underbrace{\alpha + N}_{\text{Normalization}}}\right] \end{aligned}$

观察这个后验的狄利克雷过程中的基本测度：
$\begin{aligned} \mathcal H_{post} & = \frac{\alpha \mathcal H + \sum_{i=1}^N \delta \theta^{(i)}}{\alpha + N} \\ & = \frac{\alpha}{\alpha + N} \cdot \mathcal H + \frac{1}{\alpha + N} \sum_{i=1}^N \delta \theta^{(i)} \end{aligned}$

观察第一项：其中 $\frac{\alpha}{\alpha + N}$ 明显是一个常数，如果基本测度 $\mathcal H$ 是一个连续分布，那么 $\frac{\alpha}{\alpha + N} \mathcal H$ 明显也是一个连续分布；
观察第二项： $\frac{1}{\alpha + N}$ 是一个常数，而 $\sum_{i=1}^N \delta\theta^{(i)}$ 描述在不同划分区间下，隐变量样本 $\theta^{(i)}$ 结果的和。即：
$\sum_{i=1}^N \delta \theta^{(i)} = \left[\sum_{\theta^{(i)} \in a_1} \theta^{(i)},\sum_{\theta^{(i)} \in a_2} \theta^{(i)},\cdots,\sum_{\theta^{(i)} \in a_{\mathcal D}} \theta^{(i)}\right]_{\mathcal D \times 1}^T \Rightarrow \sum_{d=1}^{\mathcal D} \sum_{\theta^{(i)} \in a_d} \theta^{(i)} = N$
这明显是一个离散分布。

而 $\mathcal H_{post}$ 是由一个连续分布和离散分布的加权结果，在统计学中被称作 $\text{Stick and Slab}$ 现象。也就是说，该分布的一部分比例是连续分布结果提供，剩下另一部分由离散分布提供。

而在采样过程中，它将转化为概率的意义。其采样结果有一部分概率从连续分布中采样；剩下另一部分的概率从离散分布中采样。

回顾：贝叶斯派关于预测任务的推导思路

在贝叶斯线性回归中介绍过，从贝叶斯派角度处理预测任务，本质上是求解给定数据集 $\mathcal X$ 条件下，关于陌生样本 $\hat x$ 的后验分布 $\text{Predictive Dist} \to \mathcal P(\hat x \mid \mathcal X)$ ：

这里假定样本 $\hat x$ 与数据集合 $\mathcal X$ 都是从同一个概率分布中产生的。
其中 $\mathcal W$ 表示概率分布参数，根据贝叶斯定理表示成如下形式。
当参数 $\mathcal W$ 通过训练集 $\mathcal X$ 学习完成后 $\to \mathcal P(\mathcal W \mid \mathcal X)$ ,仅需要通过参数 $\mathcal W$ 对 $\hat x$ 进行预测即可。
$\begin{aligned} \mathcal P(\hat x \mid \mathcal X) & = \int_{\mathcal W} \mathcal P(\hat x,\mathcal W \mid \mathcal X) d\mathcal W \\ & = \int_{\mathcal W} \mathcal P(\hat x \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W \mid \mathcal X) d\mathcal W \\ & = \int_{\mathcal W} \mathcal P(\hat x \mid \mathcal W) \cdot \mathcal P(\mathcal W \mid \mathcal X) d\mathcal W \end{aligned}$

基于狄利克雷过程的预测过程

在狄利克雷过程中，我们求解的并不是真实样本 $\hat x$ ，而是隐变量样本 $\hat {\theta}$ ：

此时的模型参数就是随机测度——离散分布 $\mathcal G$ ,因为 $\theta^{(i)}(i=1,2,\cdots,N)$ 是从分布 $\mathcal G$ 中生成得到。
由于 $\mathcal G$ 是离散分布，这里的积分表示为 $\sum_{\mathcal G}$ 而不是 $\int_{\mathcal G}$ .
$\begin{aligned} \mathcal P(\hat \theta \mid \theta) & = \sum_{\mathcal G} \mathcal P(\hat \theta \mid \mathcal G) \cdot \mathcal P(\mathcal G \mid \theta) \end{aligned}$

其中 $\mathcal P(\mathcal G \mid \theta)$ 自然是指 $\mathcal G$ 的后验分布：
$\mathcal P(\mathcal G \mid \theta) = \text{DP} \left[\alpha + N,\frac{\alpha \mathcal H + \sum_{i=1}^N \delta \theta^{(i)}}{\alpha + N}\right]$
而 $\mathcal P(\hat \theta \mid \mathcal G)$ 表示给定分布的条件下，陌生隐变量的预测分布。而 $\theta$ 的预测分布自然是离散的。假设存在4个样本 $x^{(1)},x^{(2)},x^{(3)},x^{(4)}$ ，它们对应的 $\theta^{(1)},\theta^{(2)},\theta^{(3)},\theta^{(4)}$ 表示如下：

$x^{(1)}$	$x^{(2)}$	$x^{(3)}$	$x^{(4)}$
$\theta^{(1)} = 6$	$\theta^{(2)} = 4.8$	$\theta^{(3)} = 6$	$\theta^{(4)} = 4.8$
$z^{(1)} = 1$	$z^{(2)} = 2$	$z^{(3)} = 1$	$z^{(4)} = 2$

很明显， $\theta^{(1)} = \theta^{(3)};\theta^{(2)} = \theta^{(4)}$ ，这说明 $x^{(1)},x^{(3)}$ 是同一分类； $x^{(2)},x^{(4)}$ 是同一分类。根据上面的判断，我们根本没有必要 $\theta$ 具体等于多少，只需要直到哪些样本对应的 $\theta$ 相等即可。

上述的 $z^{(i)}(i=1,2,3,4)$ 表示对应样本点的分类信息。因而在做预测任务时，直接转化为：
其中 $\mathcal Z$ 表示给定数据集合 $\mathcal X$ 对应的聚类标签信息; $\hat z$ 表示陌生样本 $\hat x$ 对应的聚类标签信息。
$\mathcal P(\hat z \mid \mathcal Z) \quad \hat z \to \hat x;\mathcal Z \to \mathcal X$

在折棍子过程一节中介绍过， $\mathcal H(\theta)$ 它决定了每一个样本点 $x^{(i)} \in \mathcal X$ 对应的隐变量样本 $\theta^{(i)} \in \theta$ 的真实结果，此时的 $\theta$ 还没有被离散化，并且 $\mathcal H(\theta)$ 与 $\mathcal P(\hat z \mid \mathcal Z)$ 的结果没有任何关系；

而随机测度 $\mathcal G$ 中产生的 $\theta$ 就不一样了，它此时的值相比于 $\mathcal H(\theta)$ 中的 $\theta$ 已经离散化。也就是说，存在若干个真实样本对应的隐变量样本是同一个值。而这个同一数值隐变量样本的数量 是由 $\alpha$ 决定的，对应后验概率 $\mathcal P(\hat z \mid \mathcal Z)$ 与 $\alpha$ 存在密切的联系：
需要注意的是， $\alpha$ 与 $\theta^{(i)}$ 的具体值之间没有任何关系。

当 $\alpha \to 0$ 时，此时分布中的所有权重均集中在某一具体 $\theta^{(i)}$ 上，那么 $\mathcal P(\hat z \mid \mathcal Z)$ 就变成了一个 $\text{one-hot}$ 向量。这意味着从 $\mathcal G$ 中生成的隐变量样本 $\theta^{(i)}$ 对应的数值均相同。
$\mathcal P(\hat z \mid \mathcal Z) = \underbrace{(0,0,\cdots,0,1,0,0,\cdots,0)}_{\infty}$
当 $\alpha \to \infty$ 时，导致任意两个样本的聚类标签信息均不相同，此时的 $\mathcal P(\hat z \mid \mathcal Z)$ 针对无穷个聚类标签，每个标签中具有概率信息：
$\mathcal P(\hat z \mid \mathcal Z) = \underbrace{(\hat z_1,\hat z_2,\cdots,\hat z_{\infty})}_{\infty} \quad \hat z_i > 0(i=1,2,\cdots,\infty);\sum_{i=1}^{\infty} \hat z_i = 1$