贝叶斯统计学派（先验，似然，后验），以Beta分布和Dirichlet-multinomial模型为例-Toy模板网

这篇具有很好参考价值的文章主要介绍了贝叶斯统计学派（先验，似然，后验），以Beta分布和Dirichlet-multinomial模型为例。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

贝叶斯统计学派的一些理解

在计算后验分布前，从先验分布 $p(\boldsymbol{\theta})$ 开始。先验分布反映了我们在看到具体数据前对参数的认知。似然函数 $p(\mathcal{D} \mid \boldsymbol{\theta})$ 反映的是在 $\boldsymbol \theta$ 下观测事件发生的概率。运用条件分布的贝叶斯公式，我们可以通过以下方式计算后验分布：
$p(\boldsymbol{\theta} \mid \mathcal{D})=\frac{p(\boldsymbol{\theta}) p(\mathcal{D} \mid \boldsymbol{\theta})}{p(\mathcal{D})}=\frac{p(\boldsymbol{\theta}) p(\mathcal{D} \mid \boldsymbol{\theta})}{\int p\left(\boldsymbol{\theta}^{\prime}\right) p\left(\mathcal{D} \mid \boldsymbol{\theta}^{\prime}\right) d \boldsymbol{\theta}^{\prime}}$
$p(\mathcal{D})$ 被称作边际似然，因为它是通过对未知的 $\boldsymbol \theta$ 去积分而得到的。离散情况下积分可以理解为求和，故此处直接理解为所有可能的 $\boldsymbol \theta^{\prime}$ 下 $\mathcal{D}$ 发生的概率即可。需要注意的是 $p(\mathcal{D})$ 与 $\boldsymbol \theta$ 独立，是个常数，所以当我们想推断 $p(\boldsymbol{\theta} \mid \mathcal{D})$ 时，我们往往会忽视它（再去做归一化处理）。

对于一个有监督模型，他的数据样式是 $\mathcal {D}=\{(\boldsymbol x_n,\boldsymbol y_n):n=1:N\}$ ，所以如果我们得到了参数的后验分布 $p(\boldsymbol{\theta} \mid \mathcal{D})$ ，那么我们就可以通过对 $\boldsymbol \theta$ 积分来计算给定输入的后验预测分布：
$p(\boldsymbol{y} \mid \boldsymbol{x}, \mathcal{D})=\int p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta}$
这被称为Bayes model Averaging (BMA) ，因为我们用无穷的参数来给出预测，并且结果综合了不同参数出现的概率。

共轭先验 (Conjugate Priors)

考虑先验和似然的组合，使得我们可以计算出相似形式的后验分布。

我们把一个先验函数 $p(\boldsymbol \theta)$ 称为共轭先验，如果他的后验函数 $p(\boldsymbol \theta \mid \mathcal{D})$ 和他同属于一个参数族 $\mathcal{F}$ ，我们称其为共轭先验。

The beta-binomial model

假设 $y_n\sim Ber(\theta)$ ， $n = 1 : N$ ， $\theta$ 为事件发生概率。此处我们讨论如何计算 $p(\theta\mid\mathcal D)$ 。

给数据 $i . i . d$ 假设，似然函数可以写作：
$p(\mathcal{D} \mid \theta)=\prod_{n=1}^N \theta^{y_n}(1-\theta)^{1-y_n}=\theta^{N_1}(1-\theta)^{N_0}$
其中 $N_1=\sum_{n=1}^{N_\mathcal D}\mathbb I(y_n=1)$ ， $N_0=\sum_{n=0}^{N_\mathcal D}\mathbb I(y_n=0)$ 。

Binomial likelihood

我们更多时候关心的是事件发生的次数而非具体事件，比如抛硬币时正面朝上的次数。在这种情况下，应当运用二项分布，其似然函数为：
$p(\mathcal{D} \mid \theta)=\operatorname{Bin}(y \mid N, \theta)=\left(\begin{array}{c} N \\ y \end{array}\right) \theta^y(1-\theta)^{N-y}$
其中的归一化因子 $\left(\begin{array}{c} N \\ y \end{array}\right)$ 与 $\theta$ 独立，所以我们在贝叶斯框架下对两个模型的推断是等价的。

Prior

为了简化计算，我们会直接假设 $p(\boldsymbol \theta)\sim \mathcal F$ 是似然函数 $p(\boldsymbol y\mid \boldsymbol \theta)$ 的共轭先验。这就说明后验也属于先验的同分布族，i.e. $p(\boldsymbol\theta \mid \mathcal{D}) \sim \mathcal F$ .

为确保在伯努利（二项）似然函数中运用这个性质，我们将先验设置成如下形式：
$p(\theta) \propto \theta^{\breve{\alpha}-1}(1-\theta)^{\breve{\beta}-1}=\operatorname{Beta}(\theta \mid \breve{\alpha}, \breve{\beta})$
这是Beta分布。

Posterior

将先验与似然相乘，忽略掉正则化常数，可以得到一个Beta分布的后验：
$\begin{aligned} p(\theta \mid \mathcal{D}) & \propto \theta^{N_1}(1-\theta)^{N_0} \theta^{\breve{\alpha}-1}(1-\theta)^{\breve{\beta}-1} \\ & \propto \operatorname{Beta}\left(\theta \mid \breve{\alpha}+N_1, \breve{\beta}+N_0\right) \\ & =\operatorname{Beta}(\theta \mid \widehat{\alpha}, \widehat{\beta}) \end{aligned}$
其中 $\widehat{\alpha}\triangleq \breve{\alpha}+N_1$ ， $\widehat{\beta}\triangleq \breve{\beta}+N_0$ 。因为后验和先验有相同的函数形式，我们称beta分布是伯努利似然函数的一个共轭先验。

充分统计量表示我们在知道 $T (x)$ 这个统计量之后，样本联合密度函数就和其他参数无关了，我们可以在given充分统计量的前提下知道样本分布。在这个例子中，先验的beta分布参数也叫做伪计数 (pseudo counts)。伪计数可以直接告诉我们超参数的分布。计算后验分布也可以理解为我们简单将观测到的计数加上伪计数得知。

先验的长度为 $\breve N=\breve \alpha+\breve \beta$ ，可以类比似然中的样本量。算后验期望时会理解他的意义。

Note：均匀分布也是beta分布族的一种，这就是无信息先验，后验分布只由似然决定。

Posterior mode

后验分布峰值估计如下：
$\begin{aligned} \hat{\theta}_{\text {map }} & =\arg \max _\theta p(\theta \mid \mathcal{D}) \\ & =\arg \max _\theta \log p(\theta \mid \mathcal{D}) \\ & =\arg \max _\theta \log p(\theta)+\log p(\mathcal{D} \mid \theta) \end{aligned}$
求导得最值：
$\hat{\theta}_{\text {map }} = \frac{\breve{\alpha}+N_1-1}{\breve{\alpha}+N_1-1+\breve{\beta}+N_0-1}$
如果先验是无信息的，那Posterior mode就是MLE。

Posterior mean

后验分布均值可以直接通过Beta分布性质得知。
$\overline{\theta}\triangleq\mathbb E[\theta\mid\mathcal D]=\frac{\widehat\alpha}{\widehat\beta+\widehat\alpha}=\frac{\widehat\alpha}{\widehat N}$
可以验证后验均值是先验均值的凸组合 (Convex Combination)。定义 $m=\breve \alpha/\breve N$ ， $\hat \theta_{mle}=\frac{N_1}{N_\mathcal D}$ ，得：
$\mathbb{E}[\theta \mid \mathcal{D}]=\frac{\breve{\alpha}+N_1}{\breve{\alpha}+N_1+\breve{\beta}+N_0}=\frac{\breve{N} m+N_{\mathcal{D} 1}}{N_{\mathcal{D}}+\breve{N}}=\frac{\breve{N}}{N_{\mathcal{D}}+\breve{N}} m+\frac{N_{\mathcal{D}}}{N_{\mathcal{D}}+\breve{N}} \frac{N_{\mathcal{D} 1}}{N_{\mathcal{D}}}=\lambda m+(1-\lambda) \hat{\theta}_{\mathrm{mle}}$
其中 $\lambda=\frac{\breve{N}}{\widehat {N}}$ 是先验的长度比上样本量。故先验越弱， $\lambda$ 越小，后验均值越接近MLE。

Posterior variance

同样应用Beta分布的性质知：
$\mathbb{V}[\theta \mid \mathcal{D}]=\frac{\hat{\alpha} \hat{\beta}}{(\widehat{\alpha}+\widehat{\beta})^2(\widehat{\alpha}+\widehat{\beta}+1)}=\mathbb{E}[\theta \mid \mathcal{D}]^2 \frac{\widehat{\beta}}{\widehat{\alpha}(1+\widehat{\alpha}+\widehat{\beta})}$
如果 $N_\mathcal D\gg \breve \alpha+\breve\beta$ ，方差可简化为
$\mathbb{V}[\theta \mid \mathcal{D}]=\frac{N_{1}N_{0}}{{N_\mathcal D}^3}=\frac{\hat\theta(1-\hat\theta)}{N_\mathcal D}$
其中 $\hat\theta$ 是MLE估计。可以看出 $\theta$ 越接近0.5方差越大。

Posterior predictive

如果直接将拟合出来的Posterior Mode回代到模型中，可能会出现极端情况，比如 $\hat\theta=1$ 。我们也需要用贝叶斯框架去解决抽样问题。

Bernoulli model

对伯努利模型，后验预测分布为
$\begin{aligned} p(y=1 \mid \mathcal{D}) & =\int_0^1 p(y=1 \mid \theta) p(\theta \mid \mathcal{D}) d \theta \\ & =\int_0^1 \theta \operatorname{Beta}(\theta \mid \hat{\alpha}, \widehat{\beta}) d \theta=\mathbb{E}[\theta \mid \mathcal{D}]=\frac{\hat{\alpha}}{\hat{\alpha}+\widehat{\beta}} \end{aligned}$
无信息先验会给出如下概率分布：
$\mid \mathcal{D}) = \frac{N_1+1}{N_1+N_0+2}$
这被称为Laplace’s rule of succession.

Binomial model

对二项分布模型， $\theta$ 的后验分布是一样的，但是后验预测分布不同：
$\begin{aligned} p(y \mid \mathcal{D}, M) & =\int_0^1 \operatorname{Bin}(y \mid M, \theta) \operatorname{Beta}(\theta \mid \widehat{\alpha}, \widehat{\beta}) d \theta \\ & =\left(\begin{array}{c} M \\ y \end{array}\right) \frac{1}{B(\widehat{\alpha}, \hat{\beta})} \int_0^1 \theta^y(1-\theta)^{M-y} \theta^{\widehat{\alpha}-1}(1-\theta)^{\widehat{\beta}-1} d \theta \end{aligned}$
后面的积分部分本身就是一个Beta分布的正则化常数，即：
$\int_0^1 \theta^{y+\widehat{\alpha}-1}(1-\theta)^{M-y+\widehat{\beta}-1} d \theta=B(y+\widehat\alpha,M-y+\widehat\beta)$
所以后验分布如下：
$Bb(x\mid M,\widehat\alpha,\widehat\beta)\triangleq \left(\begin{array}{c} M \\ x \end{array}\right)\frac{B(x+\widehat\alpha,M-x+\widehat\beta)}{B(\widehat\alpha,\widehat\beta)}$
看结论就知道比用 $\theta$ 的posterior mode去估计的分布更加平滑。

Marginal likelihood

边际似然定义为
$p(\mathcal D\mid \mathcal M)=\int p(\boldsymbol \theta\mid \mathcal M)p(\mathcal D\mid \boldsymbol\theta, \mathcal M)d\boldsymbol \theta$
推断一个特定模型的参数时不需要特意去计算，因为它与 $\theta$ 无关，但是它在不同模型的选择中很重要，他也被用于经验贝叶斯中。

以beta-binomial分布为例：
$\begin{aligned} p(\theta \mid \mathcal{D}) & =\frac{p(\mathcal{D} \mid \theta) p(\theta)}{p(\mathcal{D})} \\ & =\frac{1}{p(\mathcal{D})}\left[\frac{1}{B(a, b)} \theta^{a-1}(1-\theta)^{b-1}\right]\left[\left(\begin{array}{c} N_{\mathcal{D}} \\ N_{\mathcal{D} 1} \end{array}\right) \theta^{N_{\mathcal{D}_1}}(1-\theta)^{N_{\mathcal{D} 0}}\right] \\ & =\left(\begin{array}{c} N_{\mathcal{D}} \\ N_{\mathcal{D} 1} \end{array}\right) \frac{1}{p(\mathcal{D})} \frac{1}{B(a, b)}\left[\theta^{a+N_{\mathcal{D} 1}-1}(1-\theta)^{b+N_{\mathcal{D}_0-1}}\right] \end{aligned}$
右边带 $\theta$ 项就是左边分布的一部分，约掉之后只剩常数，得到：
$\begin{aligned} \frac{1}{B\left(a+N_{\mathcal{D}_1}, b+N_{\mathcal{D} 0}\right)} & =\left(\begin{array}{c} N_{\mathcal{D}} \\ N_{\mathcal{D}_1} \end{array}\right) \frac{1}{p(\mathcal{D})} \frac{1}{B(a, b)} \\ p(\mathcal{D}) & =\left(\begin{array}{c} N_{\mathcal{D}} \\ N_{\mathcal{D}_1} \end{array}\right) \frac{B\left(a+N_{\mathcal{D} 1}, b+N_{\mathcal{D} 0}\right)}{B(a, b)} \end{aligned}$

Mixtures of conjugate priors

一些复杂的先验信息难以用单一分布表达。举例来说，如果我们同时认为硬币可能是公平的或偏向正面的，但一个beta分布很难给出合适的先验。

例如我们可以用
$p(\theta)=0.5Beta(\theta\mid 20, 20)+0.5Beta(\theta\mid 30,10)$
我们可以引入一个latent indicator variable $h$ ，而 $h = k$ 说明 $\theta$ 来自分布 $k$ 。先验函数有如下形式：
$p(\theta)=\sum_kp(h=k)p(\theta\mid h=k)$
每个 $p(\theta\mid h=k)$ 都是共轭的。后验分布也能写成共轭分布的混合形式：
$p(\theta \mid \mathcal D)=\sum_kp(h=k \mid \mathcal D)p(\theta\mid\mathcal D, h=k)$
其中
$\mid \mathcal{D})=\frac{p(h=k) p(\mathcal{D} \mid h=k)}{\sum_{k^{\prime}} p\left(h=k^{\prime}\right) p\left(\mathcal{D} \mid h=k^{\prime}\right)}$

The Dirichlet-multinomial model

将二项分布拓展为多项分布。

Likelihood

令 $Y\sim Cat(\boldsymbol\theta)$ 服从多项分布，似然函数如下：
$p(\mathcal{D} \mid \boldsymbol{\theta})=\prod_{n=1}^N \operatorname{Cat}\left(y_n \mid \boldsymbol{\theta}\right)=\prod_{n=1}^N \prod_{c=1}^C \theta_c^{\mathbb{I}\left(y_n=c\right)}=\prod_{c=1}^C \theta_c^{N_c}$
其中 $N_c=\sum_n\mathbb I(y_n=c)$ 。

Prior

多项分布的共轭先验是狄利克雷分布。先给出概率单纯形 (probability simplex)的定义：
$S_K=\{\boldsymbol \theta:0\leq\theta_k\leq 1,\sum^K_{k=1}\theta_k=1\}$
狄利克雷分布如下定义，其实就是beta分布的推广：
$\operatorname{Dir}(\boldsymbol{\theta} \mid \breve{\boldsymbol{\alpha}}) \triangleq \frac{1}{B(\breve{\boldsymbol{\alpha}})} \prod_{k=1}^K \theta_k^{\widetilde{\alpha}_k-1} \mathbb{I}\left(\boldsymbol{\theta} \in S_K\right)$
其中 $B(\breve {\boldsymbol \alpha})$ 是一个多项beta函数。

Posterior

我们可以结合多项分布似然函数和狄利克雷先验来计算后验：
$\begin{aligned} p(\boldsymbol{\theta} \mid \mathcal{D}) & \propto p(\mathcal{D} \mid \boldsymbol{\theta}) \operatorname{Dir}(\boldsymbol{\theta} \mid \breve{\boldsymbol{\alpha}}) \\ & =\left[\prod_k \theta_k^{N_k}\right]\left[\prod_k \theta_k^{\widetilde{\alpha}_k-1}\right] \\ & =\operatorname{Dir}\left(\boldsymbol{\theta} \mid \breve{\alpha}_1+N_1, \ldots, \breve{\alpha}_K+N_K\right) \\ & =\operatorname{Dir}(\boldsymbol{\theta} \mid \widehat{\boldsymbol{\alpha}}) \end{aligned}$
均值和分布峰值的性质可以参考二项分布。均值为
$\overline \theta_k=\frac{\widehat \alpha_k}{\sum_{k^\prime=1}^K\widehat \alpha_{k^\prime}}$

Posterior predictive

后验预测分布为
$\begin{aligned} p(y=k \mid \mathcal{D}) & =\int p(y=k \mid \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta} \\ & =\int \theta_k p\left(\theta_k \mid \mathcal{D}\right) d \theta_k=\mathbb{E}\left[\theta_k \mid \mathcal{D}\right]=\frac{\hat{\alpha}_k}{\sum_{k^{\prime}} \hat{\alpha}_{k^{\prime}}} \end{aligned}$
后验预测分布是通过 $\overline\theta$ 给出的。