贝叶斯统计学派的一些理解
在计算后验分布前,从先验分布
p
(
θ
)
p(\boldsymbol{\theta})
p(θ)开始。先验分布反映了我们在看到具体数据前对参数的认知。似然函数
p
(
D
∣
θ
)
p(\mathcal{D} \mid \boldsymbol{\theta})
p(D∣θ)反映的是在
θ
\boldsymbol \theta
θ下观测事件发生的概率。运用条件分布的贝叶斯公式,我们可以通过以下方式计算后验分布:
p
(
θ
∣
D
)
=
p
(
θ
)
p
(
D
∣
θ
)
p
(
D
)
=
p
(
θ
)
p
(
D
∣
θ
)
∫
p
(
θ
′
)
p
(
D
∣
θ
′
)
d
θ
′
p(\boldsymbol{\theta} \mid \mathcal{D})=\frac{p(\boldsymbol{\theta}) p(\mathcal{D} \mid \boldsymbol{\theta})}{p(\mathcal{D})}=\frac{p(\boldsymbol{\theta}) p(\mathcal{D} \mid \boldsymbol{\theta})}{\int p\left(\boldsymbol{\theta}^{\prime}\right) p\left(\mathcal{D} \mid \boldsymbol{\theta}^{\prime}\right) d \boldsymbol{\theta}^{\prime}}
p(θ∣D)=p(D)p(θ)p(D∣θ)=∫p(θ′)p(D∣θ′)dθ′p(θ)p(D∣θ)
p
(
D
)
p(\mathcal{D})
p(D)被称作边际似然,因为它是通过对未知的
θ
\boldsymbol \theta
θ去积分而得到的。离散情况下积分可以理解为求和,故此处直接理解为所有可能的
θ
′
\boldsymbol \theta^{\prime}
θ′下
D
\mathcal{D}
D发生的概率即可。需要注意的是
p
(
D
)
p(\mathcal{D})
p(D)与
θ
\boldsymbol \theta
θ独立,是个常数,所以当我们想推断
p
(
θ
∣
D
)
p(\boldsymbol{\theta} \mid \mathcal{D})
p(θ∣D)时,我们往往会忽视它(再去做归一化处理)。
对于一个有监督模型,他的数据样式是
D
=
{
(
x
n
,
y
n
)
:
n
=
1
:
N
}
\mathcal {D}=\{(\boldsymbol x_n,\boldsymbol y_n):n=1:N\}
D={(xn,yn):n=1:N},所以如果我们得到了参数的后验分布
p
(
θ
∣
D
)
p(\boldsymbol{\theta} \mid \mathcal{D})
p(θ∣D),那么我们就可以通过对
θ
\boldsymbol \theta
θ积分来计算给定输入的后验预测分布:
p
(
y
∣
x
,
D
)
=
∫
p
(
y
∣
x
,
θ
)
p
(
θ
∣
D
)
d
θ
p(\boldsymbol{y} \mid \boldsymbol{x}, \mathcal{D})=\int p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta}
p(y∣x,D)=∫p(y∣x,θ)p(θ∣D)dθ
这被称为Bayes model Averaging (BMA) ,因为我们用无穷的参数来给出预测,并且结果综合了不同参数出现的概率。
共轭先验 (Conjugate Priors)
考虑先验和似然的组合,使得我们可以计算出相似形式的后验分布。
我们把一个先验函数 p ( θ ) p(\boldsymbol \theta) p(θ)称为共轭先验,如果他的后验函数 p ( θ ∣ D ) p(\boldsymbol \theta \mid \mathcal{D}) p(θ∣D)和他同属于一个参数族 F \mathcal{F} F,我们称其为共轭先验。
The beta-binomial model
假设 y n ∼ B e r ( θ ) y_n\sim Ber(\theta) yn∼Ber(θ), n = 1 : N n=1:N n=1:N, θ \theta θ为事件发生概率。此处我们讨论如何计算 p ( θ ∣ D ) p(\theta\mid\mathcal D) p(θ∣D)。
给数据
i
.
i
.
d
i.i.d
i.i.d假设,似然函数可以写作:
p
(
D
∣
θ
)
=
∏
n
=
1
N
θ
y
n
(
1
−
θ
)
1
−
y
n
=
θ
N
1
(
1
−
θ
)
N
0
p(\mathcal{D} \mid \theta)=\prod_{n=1}^N \theta^{y_n}(1-\theta)^{1-y_n}=\theta^{N_1}(1-\theta)^{N_0}
p(D∣θ)=n=1∏Nθyn(1−θ)1−yn=θN1(1−θ)N0
其中
N
1
=
∑
n
=
1
N
D
I
(
y
n
=
1
)
N_1=\sum_{n=1}^{N_\mathcal D}\mathbb I(y_n=1)
N1=∑n=1NDI(yn=1),
N
0
=
∑
n
=
0
N
D
I
(
y
n
=
0
)
N_0=\sum_{n=0}^{N_\mathcal D}\mathbb I(y_n=0)
N0=∑n=0NDI(yn=0)。
Binomial likelihood
我们更多时候关心的是事件发生的次数而非具体事件,比如抛硬币时正面朝上的次数。在这种情况下,应当运用二项分布,其似然函数为:
p
(
D
∣
θ
)
=
Bin
(
y
∣
N
,
θ
)
=
(
N
y
)
θ
y
(
1
−
θ
)
N
−
y
p(\mathcal{D} \mid \theta)=\operatorname{Bin}(y \mid N, \theta)=\left(\begin{array}{c} N \\ y \end{array}\right) \theta^y(1-\theta)^{N-y}
p(D∣θ)=Bin(y∣N,θ)=(Ny)θy(1−θ)N−y
其中的归一化因子
(
N
y
)
\left(\begin{array}{c} N \\ y \end{array}\right)
(Ny)与
θ
\theta
θ独立,所以我们在贝叶斯框架下对两个模型的推断是等价的。
Prior
为了简化计算,我们会直接假设 p ( θ ) ∼ F p(\boldsymbol \theta)\sim \mathcal F p(θ)∼F是似然函数 p ( y ∣ θ ) p(\boldsymbol y\mid \boldsymbol \theta) p(y∣θ)的共轭先验。这就说明后验也属于先验的同分布族,i.e. p ( θ ∣ D ) ∼ F p(\boldsymbol\theta \mid \mathcal{D}) \sim \mathcal F p(θ∣D)∼F.
为确保在伯努利(二项)似然函数中运用这个性质,我们将先验设置成如下形式:
p
(
θ
)
∝
θ
α
˘
−
1
(
1
−
θ
)
β
˘
−
1
=
Beta
(
θ
∣
α
˘
,
β
˘
)
p(\theta) \propto \theta^{\breve{\alpha}-1}(1-\theta)^{\breve{\beta}-1}=\operatorname{Beta}(\theta \mid \breve{\alpha}, \breve{\beta})
p(θ)∝θα˘−1(1−θ)β˘−1=Beta(θ∣α˘,β˘)
这是Beta分布。
Posterior
将先验与似然相乘,忽略掉正则化常数,可以得到一个Beta分布的后验:
p
(
θ
∣
D
)
∝
θ
N
1
(
1
−
θ
)
N
0
θ
α
˘
−
1
(
1
−
θ
)
β
˘
−
1
∝
Beta
(
θ
∣
α
˘
+
N
1
,
β
˘
+
N
0
)
=
Beta
(
θ
∣
α
^
,
β
^
)
\begin{aligned} p(\theta \mid \mathcal{D}) & \propto \theta^{N_1}(1-\theta)^{N_0} \theta^{\breve{\alpha}-1}(1-\theta)^{\breve{\beta}-1} \\ & \propto \operatorname{Beta}\left(\theta \mid \breve{\alpha}+N_1, \breve{\beta}+N_0\right) \\ & =\operatorname{Beta}(\theta \mid \widehat{\alpha}, \widehat{\beta}) \end{aligned}
p(θ∣D)∝θN1(1−θ)N0θα˘−1(1−θ)β˘−1∝Beta(θ∣α˘+N1,β˘+N0)=Beta(θ∣α
,β
)
其中
α
^
≜
α
˘
+
N
1
\widehat{\alpha}\triangleq \breve{\alpha}+N_1
α
≜α˘+N1,
β
^
≜
β
˘
+
N
0
\widehat{\beta}\triangleq \breve{\beta}+N_0
β
≜β˘+N0。因为后验和先验有相同的函数形式,我们称beta分布是伯努利似然函数的一个共轭先验。
充分统计量表示我们在知道 T ( x ) T(x) T(x)这个统计量之后,样本联合密度函数就和其他参数无关了,我们可以在given充分统计量的前提下知道样本分布。在这个例子中,先验的beta分布参数也叫做伪计数 (pseudo counts)。伪计数可以直接告诉我们超参数的分布。计算后验分布也可以理解为我们简单将观测到的计数加上伪计数得知。
先验的长度为 N ˘ = α ˘ + β ˘ \breve N=\breve \alpha+\breve \beta N˘=α˘+β˘,可以类比似然中的样本量。算后验期望时会理解他的意义。
Note:均匀分布也是beta分布族的一种,这就是无信息先验,后验分布只由似然决定。
Posterior mode
后验分布峰值估计如下:
θ
^
map
=
arg
max
θ
p
(
θ
∣
D
)
=
arg
max
θ
log
p
(
θ
∣
D
)
=
arg
max
θ
log
p
(
θ
)
+
log
p
(
D
∣
θ
)
\begin{aligned} \hat{\theta}_{\text {map }} & =\arg \max _\theta p(\theta \mid \mathcal{D}) \\ & =\arg \max _\theta \log p(\theta \mid \mathcal{D}) \\ & =\arg \max _\theta \log p(\theta)+\log p(\mathcal{D} \mid \theta) \end{aligned}
θ^map =argθmaxp(θ∣D)=argθmaxlogp(θ∣D)=argθmaxlogp(θ)+logp(D∣θ)
求导得最值:
θ
^
map
=
α
˘
+
N
1
−
1
α
˘
+
N
1
−
1
+
β
˘
+
N
0
−
1
\hat{\theta}_{\text {map }} = \frac{\breve{\alpha}+N_1-1}{\breve{\alpha}+N_1-1+\breve{\beta}+N_0-1}
θ^map =α˘+N1−1+β˘+N0−1α˘+N1−1
如果先验是无信息的,那Posterior mode就是MLE。
Posterior mean
后验分布均值可以直接通过Beta分布性质得知。
θ
‾
≜
E
[
θ
∣
D
]
=
α
^
β
^
+
α
^
=
α
^
N
^
\overline{\theta}\triangleq\mathbb E[\theta\mid\mathcal D]=\frac{\widehat\alpha}{\widehat\beta+\widehat\alpha}=\frac{\widehat\alpha}{\widehat N}
θ≜E[θ∣D]=β
+α
α
=N
α
可以验证后验均值是先验均值的凸组合 (Convex Combination)。定义
m
=
α
˘
/
N
˘
m=\breve \alpha/\breve N
m=α˘/N˘,
θ
^
m
l
e
=
N
1
N
D
\hat \theta_{mle}=\frac{N_1}{N_\mathcal D}
θ^mle=NDN1,得:
E
[
θ
∣
D
]
=
α
˘
+
N
1
α
˘
+
N
1
+
β
˘
+
N
0
=
N
˘
m
+
N
D
1
N
D
+
N
˘
=
N
˘
N
D
+
N
˘
m
+
N
D
N
D
+
N
˘
N
D
1
N
D
=
λ
m
+
(
1
−
λ
)
θ
^
m
l
e
\mathbb{E}[\theta \mid \mathcal{D}]=\frac{\breve{\alpha}+N_1}{\breve{\alpha}+N_1+\breve{\beta}+N_0}=\frac{\breve{N} m+N_{\mathcal{D} 1}}{N_{\mathcal{D}}+\breve{N}}=\frac{\breve{N}}{N_{\mathcal{D}}+\breve{N}} m+\frac{N_{\mathcal{D}}}{N_{\mathcal{D}}+\breve{N}} \frac{N_{\mathcal{D} 1}}{N_{\mathcal{D}}}=\lambda m+(1-\lambda) \hat{\theta}_{\mathrm{mle}}
E[θ∣D]=α˘+N1+β˘+N0α˘+N1=ND+N˘N˘m+ND1=ND+N˘N˘m+ND+N˘NDNDND1=λm+(1−λ)θ^mle
其中
λ
=
N
˘
N
^
\lambda=\frac{\breve{N}}{\widehat {N}}
λ=N
N˘是先验的长度比上样本量。故先验越弱,
λ
\lambda
λ越小,后验均值越接近MLE。
Posterior variance
同样应用Beta分布的性质知:
V
[
θ
∣
D
]
=
α
^
β
^
(
α
^
+
β
^
)
2
(
α
^
+
β
^
+
1
)
=
E
[
θ
∣
D
]
2
β
^
α
^
(
1
+
α
^
+
β
^
)
\mathbb{V}[\theta \mid \mathcal{D}]=\frac{\hat{\alpha} \hat{\beta}}{(\widehat{\alpha}+\widehat{\beta})^2(\widehat{\alpha}+\widehat{\beta}+1)}=\mathbb{E}[\theta \mid \mathcal{D}]^2 \frac{\widehat{\beta}}{\widehat{\alpha}(1+\widehat{\alpha}+\widehat{\beta})}
V[θ∣D]=(α
+β
)2(α
+β
+1)α^β^=E[θ∣D]2α
(1+α
+β
)β
如果
N
D
≫
α
˘
+
β
˘
N_\mathcal D\gg \breve \alpha+\breve\beta
ND≫α˘+β˘,方差可简化为
V
[
θ
∣
D
]
=
N
1
N
0
N
D
3
=
θ
^
(
1
−
θ
^
)
N
D
\mathbb{V}[\theta \mid \mathcal{D}]=\frac{N_{1}N_{0}}{{N_\mathcal D}^3}=\frac{\hat\theta(1-\hat\theta)}{N_\mathcal D}
V[θ∣D]=ND3N1N0=NDθ^(1−θ^)
其中
θ
^
\hat\theta
θ^是MLE估计。可以看出
θ
\theta
θ越接近0.5方差越大。
Posterior predictive
如果直接将拟合出来的Posterior Mode回代到模型中,可能会出现极端情况,比如 θ ^ = 1 \hat\theta=1 θ^=1。我们也需要用贝叶斯框架去解决抽样问题。
Bernoulli model
对伯努利模型,后验预测分布为
p
(
y
=
1
∣
D
)
=
∫
0
1
p
(
y
=
1
∣
θ
)
p
(
θ
∣
D
)
d
θ
=
∫
0
1
θ
Beta
(
θ
∣
α
^
,
β
^
)
d
θ
=
E
[
θ
∣
D
]
=
α
^
α
^
+
β
^
\begin{aligned} p(y=1 \mid \mathcal{D}) & =\int_0^1 p(y=1 \mid \theta) p(\theta \mid \mathcal{D}) d \theta \\ & =\int_0^1 \theta \operatorname{Beta}(\theta \mid \hat{\alpha}, \widehat{\beta}) d \theta=\mathbb{E}[\theta \mid \mathcal{D}]=\frac{\hat{\alpha}}{\hat{\alpha}+\widehat{\beta}} \end{aligned}
p(y=1∣D)=∫01p(y=1∣θ)p(θ∣D)dθ=∫01θBeta(θ∣α^,β
)dθ=E[θ∣D]=α^+β
α^
无信息先验会给出如下概率分布:
p
(
y
=
1
∣
D
)
=
N
1
+
1
N
1
+
N
0
+
2
p(y=1 \mid \mathcal{D}) = \frac{N_1+1}{N_1+N_0+2}
p(y=1∣D)=N1+N0+2N1+1
这被称为Laplace’s rule of succession.
Binomial model
对二项分布模型,
θ
\theta
θ的后验分布是一样的,但是后验预测分布不同:
p
(
y
∣
D
,
M
)
=
∫
0
1
Bin
(
y
∣
M
,
θ
)
Beta
(
θ
∣
α
^
,
β
^
)
d
θ
=
(
M
y
)
1
B
(
α
^
,
β
^
)
∫
0
1
θ
y
(
1
−
θ
)
M
−
y
θ
α
^
−
1
(
1
−
θ
)
β
^
−
1
d
θ
\begin{aligned} p(y \mid \mathcal{D}, M) & =\int_0^1 \operatorname{Bin}(y \mid M, \theta) \operatorname{Beta}(\theta \mid \widehat{\alpha}, \widehat{\beta}) d \theta \\ & =\left(\begin{array}{c} M \\ y \end{array}\right) \frac{1}{B(\widehat{\alpha}, \hat{\beta})} \int_0^1 \theta^y(1-\theta)^{M-y} \theta^{\widehat{\alpha}-1}(1-\theta)^{\widehat{\beta}-1} d \theta \end{aligned}
p(y∣D,M)=∫01Bin(y∣M,θ)Beta(θ∣α
,β
)dθ=(My)B(α
,β^)1∫01θy(1−θ)M−yθα
−1(1−θ)β
−1dθ
后面的积分部分本身就是一个Beta分布的正则化常数,即:
∫
0
1
θ
y
+
α
^
−
1
(
1
−
θ
)
M
−
y
+
β
^
−
1
d
θ
=
B
(
y
+
α
^
,
M
−
y
+
β
^
)
\int_0^1 \theta^{y+\widehat{\alpha}-1}(1-\theta)^{M-y+\widehat{\beta}-1} d \theta=B(y+\widehat\alpha,M-y+\widehat\beta)
∫01θy+α
−1(1−θ)M−y+β
−1dθ=B(y+α
,M−y+β
)
所以后验分布如下:
B
b
(
x
∣
M
,
α
^
,
β
^
)
≜
(
M
x
)
B
(
x
+
α
^
,
M
−
x
+
β
^
)
B
(
α
^
,
β
^
)
Bb(x\mid M,\widehat\alpha,\widehat\beta)\triangleq \left(\begin{array}{c} M \\ x \end{array}\right)\frac{B(x+\widehat\alpha,M-x+\widehat\beta)}{B(\widehat\alpha,\widehat\beta)}
Bb(x∣M,α
,β
)≜(Mx)B(α
,β
)B(x+α
,M−x+β
)
看结论就知道比用
θ
\theta
θ的posterior mode去估计的分布更加平滑。
Marginal likelihood
边际似然定义为
p
(
D
∣
M
)
=
∫
p
(
θ
∣
M
)
p
(
D
∣
θ
,
M
)
d
θ
p(\mathcal D\mid \mathcal M)=\int p(\boldsymbol \theta\mid \mathcal M)p(\mathcal D\mid \boldsymbol\theta, \mathcal M)d\boldsymbol \theta
p(D∣M)=∫p(θ∣M)p(D∣θ,M)dθ
推断一个特定模型的参数时不需要特意去计算,因为它与
θ
\theta
θ无关,但是它在不同模型的选择中很重要,他也被用于经验贝叶斯中。
以beta-binomial分布为例:
p
(
θ
∣
D
)
=
p
(
D
∣
θ
)
p
(
θ
)
p
(
D
)
=
1
p
(
D
)
[
1
B
(
a
,
b
)
θ
a
−
1
(
1
−
θ
)
b
−
1
]
[
(
N
D
N
D
1
)
θ
N
D
1
(
1
−
θ
)
N
D
0
]
=
(
N
D
N
D
1
)
1
p
(
D
)
1
B
(
a
,
b
)
[
θ
a
+
N
D
1
−
1
(
1
−
θ
)
b
+
N
D
0
−
1
]
\begin{aligned} p(\theta \mid \mathcal{D}) & =\frac{p(\mathcal{D} \mid \theta) p(\theta)}{p(\mathcal{D})} \\ & =\frac{1}{p(\mathcal{D})}\left[\frac{1}{B(a, b)} \theta^{a-1}(1-\theta)^{b-1}\right]\left[\left(\begin{array}{c} N_{\mathcal{D}} \\ N_{\mathcal{D} 1} \end{array}\right) \theta^{N_{\mathcal{D}_1}}(1-\theta)^{N_{\mathcal{D} 0}}\right] \\ & =\left(\begin{array}{c} N_{\mathcal{D}} \\ N_{\mathcal{D} 1} \end{array}\right) \frac{1}{p(\mathcal{D})} \frac{1}{B(a, b)}\left[\theta^{a+N_{\mathcal{D} 1}-1}(1-\theta)^{b+N_{\mathcal{D}_0-1}}\right] \end{aligned}
p(θ∣D)=p(D)p(D∣θ)p(θ)=p(D)1[B(a,b)1θa−1(1−θ)b−1][(NDND1)θND1(1−θ)ND0]=(NDND1)p(D)1B(a,b)1[θa+ND1−1(1−θ)b+ND0−1]
右边带
θ
\theta
θ项就是左边分布的一部分,约掉之后只剩常数,得到:
1
B
(
a
+
N
D
1
,
b
+
N
D
0
)
=
(
N
D
N
D
1
)
1
p
(
D
)
1
B
(
a
,
b
)
p
(
D
)
=
(
N
D
N
D
1
)
B
(
a
+
N
D
1
,
b
+
N
D
0
)
B
(
a
,
b
)
\begin{aligned} \frac{1}{B\left(a+N_{\mathcal{D}_1}, b+N_{\mathcal{D} 0}\right)} & =\left(\begin{array}{c} N_{\mathcal{D}} \\ N_{\mathcal{D}_1} \end{array}\right) \frac{1}{p(\mathcal{D})} \frac{1}{B(a, b)} \\ p(\mathcal{D}) & =\left(\begin{array}{c} N_{\mathcal{D}} \\ N_{\mathcal{D}_1} \end{array}\right) \frac{B\left(a+N_{\mathcal{D} 1}, b+N_{\mathcal{D} 0}\right)}{B(a, b)} \end{aligned}
B(a+ND1,b+ND0)1p(D)=(NDND1)p(D)1B(a,b)1=(NDND1)B(a,b)B(a+ND1,b+ND0)
Mixtures of conjugate priors
一些复杂的先验信息难以用单一分布表达。举例来说,如果我们同时认为硬币可能是公平的或偏向正面的,但一个beta分布很难给出合适的先验。
例如我们可以用
p
(
θ
)
=
0.5
B
e
t
a
(
θ
∣
20
,
20
)
+
0.5
B
e
t
a
(
θ
∣
30
,
10
)
p(\theta)=0.5Beta(\theta\mid 20, 20)+0.5Beta(\theta\mid 30,10)
p(θ)=0.5Beta(θ∣20,20)+0.5Beta(θ∣30,10)
我们可以引入一个latent indicator variable
h
h
h,而
h
=
k
h=k
h=k说明
θ
\theta
θ来自分布
k
k
k。先验函数有如下形式:
p
(
θ
)
=
∑
k
p
(
h
=
k
)
p
(
θ
∣
h
=
k
)
p(\theta)=\sum_kp(h=k)p(\theta\mid h=k)
p(θ)=k∑p(h=k)p(θ∣h=k)
每个
p
(
θ
∣
h
=
k
)
p(\theta\mid h=k)
p(θ∣h=k)都是共轭的。后验分布也能写成共轭分布的混合形式:
p
(
θ
∣
D
)
=
∑
k
p
(
h
=
k
∣
D
)
p
(
θ
∣
D
,
h
=
k
)
p(\theta \mid \mathcal D)=\sum_kp(h=k \mid \mathcal D)p(\theta\mid\mathcal D, h=k)
p(θ∣D)=k∑p(h=k∣D)p(θ∣D,h=k)
其中
p
(
h
=
k
∣
D
)
=
p
(
h
=
k
)
p
(
D
∣
h
=
k
)
∑
k
′
p
(
h
=
k
′
)
p
(
D
∣
h
=
k
′
)
p(h=k \mid \mathcal{D})=\frac{p(h=k) p(\mathcal{D} \mid h=k)}{\sum_{k^{\prime}} p\left(h=k^{\prime}\right) p\left(\mathcal{D} \mid h=k^{\prime}\right)}
p(h=k∣D)=∑k′p(h=k′)p(D∣h=k′)p(h=k)p(D∣h=k)
The Dirichlet-multinomial model
将二项分布拓展为多项分布。
Likelihood
令
Y
∼
C
a
t
(
θ
)
Y\sim Cat(\boldsymbol\theta)
Y∼Cat(θ)服从多项分布,似然函数如下:
p
(
D
∣
θ
)
=
∏
n
=
1
N
Cat
(
y
n
∣
θ
)
=
∏
n
=
1
N
∏
c
=
1
C
θ
c
I
(
y
n
=
c
)
=
∏
c
=
1
C
θ
c
N
c
p(\mathcal{D} \mid \boldsymbol{\theta})=\prod_{n=1}^N \operatorname{Cat}\left(y_n \mid \boldsymbol{\theta}\right)=\prod_{n=1}^N \prod_{c=1}^C \theta_c^{\mathbb{I}\left(y_n=c\right)}=\prod_{c=1}^C \theta_c^{N_c}
p(D∣θ)=n=1∏NCat(yn∣θ)=n=1∏Nc=1∏CθcI(yn=c)=c=1∏CθcNc
其中
N
c
=
∑
n
I
(
y
n
=
c
)
N_c=\sum_n\mathbb I(y_n=c)
Nc=∑nI(yn=c)。
Prior
多项分布的共轭先验是狄利克雷分布。先给出概率单纯形 (probability simplex)的定义:
S
K
=
{
θ
:
0
≤
θ
k
≤
1
,
∑
k
=
1
K
θ
k
=
1
}
S_K=\{\boldsymbol \theta:0\leq\theta_k\leq 1,\sum^K_{k=1}\theta_k=1\}
SK={θ:0≤θk≤1,k=1∑Kθk=1}
狄利克雷分布如下定义,其实就是beta分布的推广:
Dir
(
θ
∣
α
˘
)
≜
1
B
(
α
˘
)
∏
k
=
1
K
θ
k
α
~
k
−
1
I
(
θ
∈
S
K
)
\operatorname{Dir}(\boldsymbol{\theta} \mid \breve{\boldsymbol{\alpha}}) \triangleq \frac{1}{B(\breve{\boldsymbol{\alpha}})} \prod_{k=1}^K \theta_k^{\widetilde{\alpha}_k-1} \mathbb{I}\left(\boldsymbol{\theta} \in S_K\right)
Dir(θ∣α˘)≜B(α˘)1k=1∏Kθkα
k−1I(θ∈SK)
其中
B
(
α
˘
)
B(\breve {\boldsymbol \alpha})
B(α˘)是一个多项beta函数。
Posterior
我们可以结合多项分布似然函数和狄利克雷先验来计算后验:
p
(
θ
∣
D
)
∝
p
(
D
∣
θ
)
Dir
(
θ
∣
α
˘
)
=
[
∏
k
θ
k
N
k
]
[
∏
k
θ
k
α
~
k
−
1
]
=
Dir
(
θ
∣
α
˘
1
+
N
1
,
…
,
α
˘
K
+
N
K
)
=
Dir
(
θ
∣
α
^
)
\begin{aligned} p(\boldsymbol{\theta} \mid \mathcal{D}) & \propto p(\mathcal{D} \mid \boldsymbol{\theta}) \operatorname{Dir}(\boldsymbol{\theta} \mid \breve{\boldsymbol{\alpha}}) \\ & =\left[\prod_k \theta_k^{N_k}\right]\left[\prod_k \theta_k^{\widetilde{\alpha}_k-1}\right] \\ & =\operatorname{Dir}\left(\boldsymbol{\theta} \mid \breve{\alpha}_1+N_1, \ldots, \breve{\alpha}_K+N_K\right) \\ & =\operatorname{Dir}(\boldsymbol{\theta} \mid \widehat{\boldsymbol{\alpha}}) \end{aligned}
p(θ∣D)∝p(D∣θ)Dir(θ∣α˘)=[k∏θkNk][k∏θkα
k−1]=Dir(θ∣α˘1+N1,…,α˘K+NK)=Dir(θ∣α
)
均值和分布峰值的性质可以参考二项分布。均值为
θ
‾
k
=
α
^
k
∑
k
′
=
1
K
α
^
k
′
\overline \theta_k=\frac{\widehat \alpha_k}{\sum_{k^\prime=1}^K\widehat \alpha_{k^\prime}}
θk=∑k′=1Kα
k′α
k
Posterior predictive
后验预测分布为
p
(
y
=
k
∣
D
)
=
∫
p
(
y
=
k
∣
θ
)
p
(
θ
∣
D
)
d
θ
=
∫
θ
k
p
(
θ
k
∣
D
)
d
θ
k
=
E
[
θ
k
∣
D
]
=
α
^
k
∑
k
′
α
^
k
′
\begin{aligned} p(y=k \mid \mathcal{D}) & =\int p(y=k \mid \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta} \\ & =\int \theta_k p\left(\theta_k \mid \mathcal{D}\right) d \theta_k=\mathbb{E}\left[\theta_k \mid \mathcal{D}\right]=\frac{\hat{\alpha}_k}{\sum_{k^{\prime}} \hat{\alpha}_{k^{\prime}}} \end{aligned}
p(y=k∣D)=∫p(y=k∣θ)p(θ∣D)dθ=∫θkp(θk∣D)dθk=E[θk∣D]=∑k′α^k′α^k
后验预测分布是通过
θ
‾
\overline\theta
θ给出的。文章来源:https://www.toymoban.com/news/detail-758823.html
Marginal Likelihood和Beta分布的计算方法一样。文章来源地址https://www.toymoban.com/news/detail-758823.html
到了这里,关于贝叶斯统计学派(先验,似然,后验),以Beta分布和Dirichlet-multinomial模型为例的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!