贝叶斯统计学派(先验,似然,后验),以Beta分布和Dirichlet-multinomial模型为例

这篇具有很好参考价值的文章主要介绍了贝叶斯统计学派(先验,似然,后验),以Beta分布和Dirichlet-multinomial模型为例。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

贝叶斯统计学派的一些理解

在计算后验分布前,从先验分布 p ( θ ) p(\boldsymbol{\theta}) p(θ)开始。先验分布反映了我们在看到具体数据前对参数的认知。似然函数 p ( D ∣ θ ) p(\mathcal{D} \mid \boldsymbol{\theta}) p(Dθ)反映的是在 θ \boldsymbol \theta θ下观测事件发生的概率。运用条件分布的贝叶斯公式,我们可以通过以下方式计算后验分布:
p ( θ ∣ D ) = p ( θ ) p ( D ∣ θ ) p ( D ) = p ( θ ) p ( D ∣ θ ) ∫ p ( θ ′ ) p ( D ∣ θ ′ ) d θ ′ p(\boldsymbol{\theta} \mid \mathcal{D})=\frac{p(\boldsymbol{\theta}) p(\mathcal{D} \mid \boldsymbol{\theta})}{p(\mathcal{D})}=\frac{p(\boldsymbol{\theta}) p(\mathcal{D} \mid \boldsymbol{\theta})}{\int p\left(\boldsymbol{\theta}^{\prime}\right) p\left(\mathcal{D} \mid \boldsymbol{\theta}^{\prime}\right) d \boldsymbol{\theta}^{\prime}} p(θD)=p(D)p(θ)p(Dθ)=p(θ)p(Dθ)dθp(θ)p(Dθ)
p ( D ) p(\mathcal{D}) p(D)被称作边际似然,因为它是通过对未知的 θ \boldsymbol \theta θ去积分而得到的。离散情况下积分可以理解为求和,故此处直接理解为所有可能的 θ ′ \boldsymbol \theta^{\prime} θ D \mathcal{D} D发生的概率即可。需要注意的是 p ( D ) p(\mathcal{D}) p(D) θ \boldsymbol \theta θ独立,是个常数,所以当我们想推断 p ( θ ∣ D ) p(\boldsymbol{\theta} \mid \mathcal{D}) p(θD)时,我们往往会忽视它(再去做归一化处理)。

对于一个有监督模型,他的数据样式是 D = { ( x n , y n ) : n = 1 : N } \mathcal {D}=\{(\boldsymbol x_n,\boldsymbol y_n):n=1:N\} D={(xn,yn):n=1:N},所以如果我们得到了参数的后验分布 p ( θ ∣ D ) p(\boldsymbol{\theta} \mid \mathcal{D}) p(θD),那么我们就可以通过对 θ \boldsymbol \theta θ积分来计算给定输入的后验预测分布:
p ( y ∣ x , D ) = ∫ p ( y ∣ x , θ ) p ( θ ∣ D ) d θ p(\boldsymbol{y} \mid \boldsymbol{x}, \mathcal{D})=\int p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta} p(yx,D)=p(yx,θ)p(θD)dθ
这被称为Bayes model Averaging (BMA) ,因为我们用无穷的参数来给出预测,并且结果综合了不同参数出现的概率。

共轭先验 (Conjugate Priors)

考虑先验和似然的组合,使得我们可以计算出相似形式的后验分布。

我们把一个先验函数 p ( θ ) p(\boldsymbol \theta) p(θ)称为共轭先验,如果他的后验函数 p ( θ ∣ D ) p(\boldsymbol \theta \mid \mathcal{D}) p(θD)和他同属于一个参数族 F \mathcal{F} F,我们称其为共轭先验。

The beta-binomial model

假设 y n ∼ B e r ( θ ) y_n\sim Ber(\theta) ynBer(θ) n = 1 : N n=1:N n=1:N θ \theta θ为事件发生概率。此处我们讨论如何计算 p ( θ ∣ D ) p(\theta\mid\mathcal D) p(θD)

给数据 i . i . d i.i.d i.i.d假设,似然函数可以写作:
p ( D ∣ θ ) = ∏ n = 1 N θ y n ( 1 − θ ) 1 − y n = θ N 1 ( 1 − θ ) N 0 p(\mathcal{D} \mid \theta)=\prod_{n=1}^N \theta^{y_n}(1-\theta)^{1-y_n}=\theta^{N_1}(1-\theta)^{N_0} p(Dθ)=n=1Nθyn(1θ)1yn=θN1(1θ)N0
其中 N 1 = ∑ n = 1 N D I ( y n = 1 ) N_1=\sum_{n=1}^{N_\mathcal D}\mathbb I(y_n=1) N1=n=1NDI(yn=1) N 0 = ∑ n = 0 N D I ( y n = 0 ) N_0=\sum_{n=0}^{N_\mathcal D}\mathbb I(y_n=0) N0=n=0NDI(yn=0)

Binomial likelihood

我们更多时候关心的是事件发生的次数而非具体事件,比如抛硬币时正面朝上的次数。在这种情况下,应当运用二项分布,其似然函数为:
p ( D ∣ θ ) = Bin ⁡ ( y ∣ N , θ ) = ( N y ) θ y ( 1 − θ ) N − y p(\mathcal{D} \mid \theta)=\operatorname{Bin}(y \mid N, \theta)=\left(\begin{array}{c} N \\ y \end{array}\right) \theta^y(1-\theta)^{N-y} p(Dθ)=Bin(yN,θ)=(Ny)θy(1θ)Ny
其中的归一化因子 ( N y ) \left(\begin{array}{c} N \\ y \end{array}\right) (Ny) θ \theta θ独立,所以我们在贝叶斯框架下对两个模型的推断是等价的。

Prior

为了简化计算,我们会直接假设 p ( θ ) ∼ F p(\boldsymbol \theta)\sim \mathcal F p(θ)F是似然函数 p ( y ∣ θ ) p(\boldsymbol y\mid \boldsymbol \theta) p(yθ)的共轭先验。这就说明后验也属于先验的同分布族,i.e. p ( θ ∣ D ) ∼ F p(\boldsymbol\theta \mid \mathcal{D}) \sim \mathcal F p(θD)F.

为确保在伯努利(二项)似然函数中运用这个性质,我们将先验设置成如下形式:
p ( θ ) ∝ θ α ˘ − 1 ( 1 − θ ) β ˘ − 1 = Beta ⁡ ( θ ∣ α ˘ , β ˘ ) p(\theta) \propto \theta^{\breve{\alpha}-1}(1-\theta)^{\breve{\beta}-1}=\operatorname{Beta}(\theta \mid \breve{\alpha}, \breve{\beta}) p(θ)θα˘1(1θ)β˘1=Beta(θα˘,β˘)
这是Beta分布。

Posterior

将先验与似然相乘,忽略掉正则化常数,可以得到一个Beta分布的后验:
p ( θ ∣ D ) ∝ θ N 1 ( 1 − θ ) N 0 θ α ˘ − 1 ( 1 − θ ) β ˘ − 1 ∝ Beta ⁡ ( θ ∣ α ˘ + N 1 , β ˘ + N 0 ) = Beta ⁡ ( θ ∣ α ^ , β ^ ) \begin{aligned} p(\theta \mid \mathcal{D}) & \propto \theta^{N_1}(1-\theta)^{N_0} \theta^{\breve{\alpha}-1}(1-\theta)^{\breve{\beta}-1} \\ & \propto \operatorname{Beta}\left(\theta \mid \breve{\alpha}+N_1, \breve{\beta}+N_0\right) \\ & =\operatorname{Beta}(\theta \mid \widehat{\alpha}, \widehat{\beta}) \end{aligned} p(θD)θN1(1θ)N0θα˘1(1θ)β˘1Beta(θα˘+N1,β˘+N0)=Beta(θα ,β )
其中 α ^ ≜ α ˘ + N 1 \widehat{\alpha}\triangleq \breve{\alpha}+N_1 α α˘+N1 β ^ ≜ β ˘ + N 0 \widehat{\beta}\triangleq \breve{\beta}+N_0 β β˘+N0。因为后验和先验有相同的函数形式,我们称beta分布是伯努利似然函数的一个共轭先验。

充分统计量表示我们在知道 T ( x ) T(x) T(x)这个统计量之后,样本联合密度函数就和其他参数无关了,我们可以在given充分统计量的前提下知道样本分布。在这个例子中,先验的beta分布参数也叫做伪计数 (pseudo counts)。伪计数可以直接告诉我们超参数的分布。计算后验分布也可以理解为我们简单将观测到的计数加上伪计数得知。

先验的长度为 N ˘ = α ˘ + β ˘ \breve N=\breve \alpha+\breve \beta N˘=α˘+β˘,可以类比似然中的样本量。算后验期望时会理解他的意义。

Note:均匀分布也是beta分布族的一种,这就是无信息先验,后验分布只由似然决定。

Posterior mode

后验分布峰值估计如下:
θ ^ map  = arg ⁡ max ⁡ θ p ( θ ∣ D ) = arg ⁡ max ⁡ θ log ⁡ p ( θ ∣ D ) = arg ⁡ max ⁡ θ log ⁡ p ( θ ) + log ⁡ p ( D ∣ θ ) \begin{aligned} \hat{\theta}_{\text {map }} & =\arg \max _\theta p(\theta \mid \mathcal{D}) \\ & =\arg \max _\theta \log p(\theta \mid \mathcal{D}) \\ & =\arg \max _\theta \log p(\theta)+\log p(\mathcal{D} \mid \theta) \end{aligned} θ^map =argθmaxp(θD)=argθmaxlogp(θD)=argθmaxlogp(θ)+logp(Dθ)
求导得最值:
θ ^ map  = α ˘ + N 1 − 1 α ˘ + N 1 − 1 + β ˘ + N 0 − 1 \hat{\theta}_{\text {map }} = \frac{\breve{\alpha}+N_1-1}{\breve{\alpha}+N_1-1+\breve{\beta}+N_0-1} θ^map =α˘+N11+β˘+N01α˘+N11
如果先验是无信息的,那Posterior mode就是MLE。

Posterior mean

后验分布均值可以直接通过Beta分布性质得知。
θ ‾ ≜ E [ θ ∣ D ] = α ^ β ^ + α ^ = α ^ N ^ \overline{\theta}\triangleq\mathbb E[\theta\mid\mathcal D]=\frac{\widehat\alpha}{\widehat\beta+\widehat\alpha}=\frac{\widehat\alpha}{\widehat N} θE[θD]=β +α α =N α
可以验证后验均值是先验均值的凸组合 (Convex Combination)。定义 m = α ˘ / N ˘ m=\breve \alpha/\breve N m=α˘/N˘ θ ^ m l e = N 1 N D \hat \theta_{mle}=\frac{N_1}{N_\mathcal D} θ^mle=NDN1,得:
E [ θ ∣ D ] = α ˘ + N 1 α ˘ + N 1 + β ˘ + N 0 = N ˘ m + N D 1 N D + N ˘ = N ˘ N D + N ˘ m + N D N D + N ˘ N D 1 N D = λ m + ( 1 − λ ) θ ^ m l e \mathbb{E}[\theta \mid \mathcal{D}]=\frac{\breve{\alpha}+N_1}{\breve{\alpha}+N_1+\breve{\beta}+N_0}=\frac{\breve{N} m+N_{\mathcal{D} 1}}{N_{\mathcal{D}}+\breve{N}}=\frac{\breve{N}}{N_{\mathcal{D}}+\breve{N}} m+\frac{N_{\mathcal{D}}}{N_{\mathcal{D}}+\breve{N}} \frac{N_{\mathcal{D} 1}}{N_{\mathcal{D}}}=\lambda m+(1-\lambda) \hat{\theta}_{\mathrm{mle}} E[θD]=α˘+N1+β˘+N0α˘+N1=ND+N˘N˘m+ND1=ND+N˘N˘m+ND+N˘NDNDND1=λm+(1λ)θ^mle
其中 λ = N ˘ N ^ \lambda=\frac{\breve{N}}{\widehat {N}} λ=N N˘是先验的长度比上样本量。故先验越弱, λ \lambda λ越小,后验均值越接近MLE。

Posterior variance

同样应用Beta分布的性质知:
V [ θ ∣ D ] = α ^ β ^ ( α ^ + β ^ ) 2 ( α ^ + β ^ + 1 ) = E [ θ ∣ D ] 2 β ^ α ^ ( 1 + α ^ + β ^ ) \mathbb{V}[\theta \mid \mathcal{D}]=\frac{\hat{\alpha} \hat{\beta}}{(\widehat{\alpha}+\widehat{\beta})^2(\widehat{\alpha}+\widehat{\beta}+1)}=\mathbb{E}[\theta \mid \mathcal{D}]^2 \frac{\widehat{\beta}}{\widehat{\alpha}(1+\widehat{\alpha}+\widehat{\beta})} V[θD]=(α +β )2(α +β +1)α^β^=E[θD]2α (1+α +β )β
如果 N D ≫ α ˘ + β ˘ N_\mathcal D\gg \breve \alpha+\breve\beta NDα˘+β˘,方差可简化为
V [ θ ∣ D ] = N 1 N 0 N D 3 = θ ^ ( 1 − θ ^ ) N D \mathbb{V}[\theta \mid \mathcal{D}]=\frac{N_{1}N_{0}}{{N_\mathcal D}^3}=\frac{\hat\theta(1-\hat\theta)}{N_\mathcal D} V[θD]=ND3N1N0=NDθ^(1θ^)
其中 θ ^ \hat\theta θ^是MLE估计。可以看出 θ \theta θ越接近0.5方差越大。

Posterior predictive

如果直接将拟合出来的Posterior Mode回代到模型中,可能会出现极端情况,比如 θ ^ = 1 \hat\theta=1 θ^=1。我们也需要用贝叶斯框架去解决抽样问题。

Bernoulli model

对伯努利模型,后验预测分布为
p ( y = 1 ∣ D ) = ∫ 0 1 p ( y = 1 ∣ θ ) p ( θ ∣ D ) d θ = ∫ 0 1 θ Beta ⁡ ( θ ∣ α ^ , β ^ ) d θ = E [ θ ∣ D ] = α ^ α ^ + β ^ \begin{aligned} p(y=1 \mid \mathcal{D}) & =\int_0^1 p(y=1 \mid \theta) p(\theta \mid \mathcal{D}) d \theta \\ & =\int_0^1 \theta \operatorname{Beta}(\theta \mid \hat{\alpha}, \widehat{\beta}) d \theta=\mathbb{E}[\theta \mid \mathcal{D}]=\frac{\hat{\alpha}}{\hat{\alpha}+\widehat{\beta}} \end{aligned} p(y=1D)=01p(y=1θ)p(θD)dθ=01θBeta(θα^,β )dθ=E[θD]=α^+β α^
无信息先验会给出如下概率分布:
p ( y = 1 ∣ D ) = N 1 + 1 N 1 + N 0 + 2 p(y=1 \mid \mathcal{D}) = \frac{N_1+1}{N_1+N_0+2} p(y=1D)=N1+N0+2N1+1
这被称为Laplace’s rule of succession.

Binomial model

对二项分布模型, θ \theta θ的后验分布是一样的,但是后验预测分布不同:
p ( y ∣ D , M ) = ∫ 0 1 Bin ⁡ ( y ∣ M , θ ) Beta ⁡ ( θ ∣ α ^ , β ^ ) d θ = ( M y ) 1 B ( α ^ , β ^ ) ∫ 0 1 θ y ( 1 − θ ) M − y θ α ^ − 1 ( 1 − θ ) β ^ − 1 d θ \begin{aligned} p(y \mid \mathcal{D}, M) & =\int_0^1 \operatorname{Bin}(y \mid M, \theta) \operatorname{Beta}(\theta \mid \widehat{\alpha}, \widehat{\beta}) d \theta \\ & =\left(\begin{array}{c} M \\ y \end{array}\right) \frac{1}{B(\widehat{\alpha}, \hat{\beta})} \int_0^1 \theta^y(1-\theta)^{M-y} \theta^{\widehat{\alpha}-1}(1-\theta)^{\widehat{\beta}-1} d \theta \end{aligned} p(yD,M)=01Bin(yM,θ)Beta(θα ,β )dθ=(My)B(α ,β^)101θy(1θ)Myθα 1(1θ)β 1dθ
后面的积分部分本身就是一个Beta分布的正则化常数,即:
∫ 0 1 θ y + α ^ − 1 ( 1 − θ ) M − y + β ^ − 1 d θ = B ( y + α ^ , M − y + β ^ ) \int_0^1 \theta^{y+\widehat{\alpha}-1}(1-\theta)^{M-y+\widehat{\beta}-1} d \theta=B(y+\widehat\alpha,M-y+\widehat\beta) 01θy+α 1(1θ)My+β 1dθ=B(y+α ,My+β )
所以后验分布如下:
B b ( x ∣ M , α ^ , β ^ ) ≜ ( M x ) B ( x + α ^ , M − x + β ^ ) B ( α ^ , β ^ ) Bb(x\mid M,\widehat\alpha,\widehat\beta)\triangleq \left(\begin{array}{c} M \\ x \end{array}\right)\frac{B(x+\widehat\alpha,M-x+\widehat\beta)}{B(\widehat\alpha,\widehat\beta)} Bb(xM,α ,β )(Mx)B(α ,β )B(x+α ,Mx+β )
看结论就知道比用 θ \theta θ的posterior mode去估计的分布更加平滑。

Marginal likelihood

边际似然定义为
p ( D ∣ M ) = ∫ p ( θ ∣ M ) p ( D ∣ θ , M ) d θ p(\mathcal D\mid \mathcal M)=\int p(\boldsymbol \theta\mid \mathcal M)p(\mathcal D\mid \boldsymbol\theta, \mathcal M)d\boldsymbol \theta p(DM)=p(θM)p(Dθ,M)dθ
推断一个特定模型的参数时不需要特意去计算,因为它与 θ \theta θ无关,但是它在不同模型的选择中很重要,他也被用于经验贝叶斯中。

以beta-binomial分布为例:
p ( θ ∣ D ) = p ( D ∣ θ ) p ( θ ) p ( D ) = 1 p ( D ) [ 1 B ( a , b ) θ a − 1 ( 1 − θ ) b − 1 ] [ ( N D N D 1 ) θ N D 1 ( 1 − θ ) N D 0 ] = ( N D N D 1 ) 1 p ( D ) 1 B ( a , b ) [ θ a + N D 1 − 1 ( 1 − θ ) b + N D 0 − 1 ] \begin{aligned} p(\theta \mid \mathcal{D}) & =\frac{p(\mathcal{D} \mid \theta) p(\theta)}{p(\mathcal{D})} \\ & =\frac{1}{p(\mathcal{D})}\left[\frac{1}{B(a, b)} \theta^{a-1}(1-\theta)^{b-1}\right]\left[\left(\begin{array}{c} N_{\mathcal{D}} \\ N_{\mathcal{D} 1} \end{array}\right) \theta^{N_{\mathcal{D}_1}}(1-\theta)^{N_{\mathcal{D} 0}}\right] \\ & =\left(\begin{array}{c} N_{\mathcal{D}} \\ N_{\mathcal{D} 1} \end{array}\right) \frac{1}{p(\mathcal{D})} \frac{1}{B(a, b)}\left[\theta^{a+N_{\mathcal{D} 1}-1}(1-\theta)^{b+N_{\mathcal{D}_0-1}}\right] \end{aligned} p(θD)=p(D)p(Dθ)p(θ)=p(D)1[B(a,b)1θa1(1θ)b1][(NDND1)θND1(1θ)ND0]=(NDND1)p(D)1B(a,b)1[θa+ND11(1θ)b+ND01]
右边带 θ \theta θ项就是左边分布的一部分,约掉之后只剩常数,得到:
1 B ( a + N D 1 , b + N D 0 ) = ( N D N D 1 ) 1 p ( D ) 1 B ( a , b ) p ( D ) = ( N D N D 1 ) B ( a + N D 1 , b + N D 0 ) B ( a , b ) \begin{aligned} \frac{1}{B\left(a+N_{\mathcal{D}_1}, b+N_{\mathcal{D} 0}\right)} & =\left(\begin{array}{c} N_{\mathcal{D}} \\ N_{\mathcal{D}_1} \end{array}\right) \frac{1}{p(\mathcal{D})} \frac{1}{B(a, b)} \\ p(\mathcal{D}) & =\left(\begin{array}{c} N_{\mathcal{D}} \\ N_{\mathcal{D}_1} \end{array}\right) \frac{B\left(a+N_{\mathcal{D} 1}, b+N_{\mathcal{D} 0}\right)}{B(a, b)} \end{aligned} B(a+ND1,b+ND0)1p(D)=(NDND1)p(D)1B(a,b)1=(NDND1)B(a,b)B(a+ND1,b+ND0)

Mixtures of conjugate priors

一些复杂的先验信息难以用单一分布表达。举例来说,如果我们同时认为硬币可能是公平的或偏向正面的,但一个beta分布很难给出合适的先验。

例如我们可以用
p ( θ ) = 0.5 B e t a ( θ ∣ 20 , 20 ) + 0.5 B e t a ( θ ∣ 30 , 10 ) p(\theta)=0.5Beta(\theta\mid 20, 20)+0.5Beta(\theta\mid 30,10) p(θ)=0.5Beta(θ20,20)+0.5Beta(θ30,10)
我们可以引入一个latent indicator variable h h h,而 h = k h=k h=k说明 θ \theta θ来自分布 k k k。先验函数有如下形式:
p ( θ ) = ∑ k p ( h = k ) p ( θ ∣ h = k ) p(\theta)=\sum_kp(h=k)p(\theta\mid h=k) p(θ)=kp(h=k)p(θh=k)
每个 p ( θ ∣ h = k ) p(\theta\mid h=k) p(θh=k)都是共轭的。后验分布也能写成共轭分布的混合形式:
p ( θ ∣ D ) = ∑ k p ( h = k ∣ D ) p ( θ ∣ D , h = k ) p(\theta \mid \mathcal D)=\sum_kp(h=k \mid \mathcal D)p(\theta\mid\mathcal D, h=k) p(θD)=kp(h=kD)p(θD,h=k)
其中
p ( h = k ∣ D ) = p ( h = k ) p ( D ∣ h = k ) ∑ k ′ p ( h = k ′ ) p ( D ∣ h = k ′ ) p(h=k \mid \mathcal{D})=\frac{p(h=k) p(\mathcal{D} \mid h=k)}{\sum_{k^{\prime}} p\left(h=k^{\prime}\right) p\left(\mathcal{D} \mid h=k^{\prime}\right)} p(h=kD)=kp(h=k)p(Dh=k)p(h=k)p(Dh=k)

The Dirichlet-multinomial model

将二项分布拓展为多项分布。

Likelihood

Y ∼ C a t ( θ ) Y\sim Cat(\boldsymbol\theta) YCat(θ)服从多项分布,似然函数如下:
p ( D ∣ θ ) = ∏ n = 1 N Cat ⁡ ( y n ∣ θ ) = ∏ n = 1 N ∏ c = 1 C θ c I ( y n = c ) = ∏ c = 1 C θ c N c p(\mathcal{D} \mid \boldsymbol{\theta})=\prod_{n=1}^N \operatorname{Cat}\left(y_n \mid \boldsymbol{\theta}\right)=\prod_{n=1}^N \prod_{c=1}^C \theta_c^{\mathbb{I}\left(y_n=c\right)}=\prod_{c=1}^C \theta_c^{N_c} p(Dθ)=n=1NCat(ynθ)=n=1Nc=1CθcI(yn=c)=c=1CθcNc
其中 N c = ∑ n I ( y n = c ) N_c=\sum_n\mathbb I(y_n=c) Nc=nI(yn=c)

Prior

多项分布的共轭先验是狄利克雷分布。先给出概率单纯形 (probability simplex)的定义:
S K = { θ : 0 ≤ θ k ≤ 1 , ∑ k = 1 K θ k = 1 } S_K=\{\boldsymbol \theta:0\leq\theta_k\leq 1,\sum^K_{k=1}\theta_k=1\} SK={θ:0θk1,k=1Kθk=1}
狄利克雷分布如下定义,其实就是beta分布的推广:
Dir ⁡ ( θ ∣ α ˘ ) ≜ 1 B ( α ˘ ) ∏ k = 1 K θ k α ~ k − 1 I ( θ ∈ S K ) \operatorname{Dir}(\boldsymbol{\theta} \mid \breve{\boldsymbol{\alpha}}) \triangleq \frac{1}{B(\breve{\boldsymbol{\alpha}})} \prod_{k=1}^K \theta_k^{\widetilde{\alpha}_k-1} \mathbb{I}\left(\boldsymbol{\theta} \in S_K\right) Dir(θα˘)B(α˘)1k=1Kθkα k1I(θSK)
其中 B ( α ˘ ) B(\breve {\boldsymbol \alpha}) B(α˘)是一个多项beta函数。

Posterior

我们可以结合多项分布似然函数和狄利克雷先验来计算后验:
p ( θ ∣ D ) ∝ p ( D ∣ θ ) Dir ⁡ ( θ ∣ α ˘ ) = [ ∏ k θ k N k ] [ ∏ k θ k α ~ k − 1 ] = Dir ⁡ ( θ ∣ α ˘ 1 + N 1 , … , α ˘ K + N K ) = Dir ⁡ ( θ ∣ α ^ ) \begin{aligned} p(\boldsymbol{\theta} \mid \mathcal{D}) & \propto p(\mathcal{D} \mid \boldsymbol{\theta}) \operatorname{Dir}(\boldsymbol{\theta} \mid \breve{\boldsymbol{\alpha}}) \\ & =\left[\prod_k \theta_k^{N_k}\right]\left[\prod_k \theta_k^{\widetilde{\alpha}_k-1}\right] \\ & =\operatorname{Dir}\left(\boldsymbol{\theta} \mid \breve{\alpha}_1+N_1, \ldots, \breve{\alpha}_K+N_K\right) \\ & =\operatorname{Dir}(\boldsymbol{\theta} \mid \widehat{\boldsymbol{\alpha}}) \end{aligned} p(θD)p(Dθ)Dir(θα˘)=[kθkNk][kθkα k1]=Dir(θα˘1+N1,,α˘K+NK)=Dir(θα )
均值和分布峰值的性质可以参考二项分布。均值为
θ ‾ k = α ^ k ∑ k ′ = 1 K α ^ k ′ \overline \theta_k=\frac{\widehat \alpha_k}{\sum_{k^\prime=1}^K\widehat \alpha_{k^\prime}} θk=k=1Kα kα k

Posterior predictive

后验预测分布为
p ( y = k ∣ D ) = ∫ p ( y = k ∣ θ ) p ( θ ∣ D ) d θ = ∫ θ k p ( θ k ∣ D ) d θ k = E [ θ k ∣ D ] = α ^ k ∑ k ′ α ^ k ′ \begin{aligned} p(y=k \mid \mathcal{D}) & =\int p(y=k \mid \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta} \\ & =\int \theta_k p\left(\theta_k \mid \mathcal{D}\right) d \theta_k=\mathbb{E}\left[\theta_k \mid \mathcal{D}\right]=\frac{\hat{\alpha}_k}{\sum_{k^{\prime}} \hat{\alpha}_{k^{\prime}}} \end{aligned} p(y=kD)=p(y=kθ)p(θD)dθ=θkp(θkD)dθk=E[θkD]=kα^kα^k
后验预测分布是通过 θ ‾ \overline\theta θ给出的。

Marginal Likelihood和Beta分布的计算方法一样。文章来源地址https://www.toymoban.com/news/detail-758823.html

到了这里,关于贝叶斯统计学派(先验,似然,后验),以Beta分布和Dirichlet-multinomial模型为例的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 伯努利分布,二项分布和泊松分布以及最大似然之间的关系(未完成)

    伯努利试验说的是下面一种事件情况:在生活中,有一些事件的发生只有两种可能,发生或者不发生(或者叫成功或者失败),这些事件都可以被称为伯努利试验。 伯努利试验的概率分布 称为伯努利分布(两点分布、0-1分布),如果记成功概率为p,则失败概率为q=1-p,则:

    2023年04月23日
    浏览(23)
  • 《SPSS统计学基础与实证研究应用精解》视频讲解:贝叶斯统计

    《SPSS统计学基础与实证研究应用精解》2.7 视频讲解 视频为 《SPSS统计学基础与实证研究应用精解》张甜 杨维忠著 清华大学出版社 一书的随书赠送视频讲解2.7节内容 。本书已正式出版上市,当当、京东、淘宝等平台热销中,搜索书名即可。本书旨在手把手教会使用SPSS撰写实

    2024年01月21日
    浏览(30)
  • 【机器学习 | 朴素贝叶斯】朴素贝叶斯算法:概率统计方法之王,简单有效的数据分类利器

    🤵‍♂️ 个人主页: @AI_magician 📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。 👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍 🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能硬件(虽然硬件还没开始玩,但一直

    2024年02月15日
    浏览(38)
  • R语言B(beta)分布

    贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中, 贝塔分布 ,也称 Β分布, 是指一组定义在(0,1) 区间的连续概率分布。  

    2024年02月08日
    浏览(21)
  • Fisher信息与最大似然估计的渐进正态性(附有在Bernoulli分布上的计算)

    写在前面 最大似然估计具有很多好的性质,包括相合性,同变性,渐进正态性等。本文主要关注的是渐进正态性。渐近正态性表明,估计量的极限分布是正态分布。而该正态分布的方差,与Fisher信息有着密不可分的关系。 Fisher信息 (定义)记分函数(Score Function): s ( X ; θ

    2024年02月09日
    浏览(47)
  • 贝叶斯地理统计模型R-INLA-3

    上一期我们介绍了如何来评估INLA模型,因为空间位置点的预测需要验证。那整个流程走完以后,最后一步就是对其他地区进行预测。 我们可以通过计算新位置的投影矩阵,然后将投影矩阵乘以空间场值,将这些值投影到不同的位置。例如,我们可以如下计算矩阵 newloc 中位置

    2024年02月02日
    浏览(18)
  • $\Beta$分布推导与可视化

    $Gamma$函数(Gamma函数)是阶乘函数在实数和复数域的扩展。对于正整数$n$,阶乘函数表示为$n! = 1 times 2 times ... times n$。然而,这个定义仅适用于正整数。Gamma函数的目的是将阶乘扩展到实数和复数域,从而计算实数和复数的“阶乘”。$Gamma$函数定义如下: $displaystyle G

    2023年04月14日
    浏览(24)
  • 【应用多元统计分析】CH5 判别分析3——贝叶斯判别

    目录 前言——距离判别不适合的一个例子 一、最大后验概率法  1.含义 ​编辑 2.【例5.3.1】 3.先验概率的赋值方法 4.皆为正态组的情形 (1)先验概率相等,协方差矩阵相等时 (2)仅先验概率相等时 (3)仅协方差矩阵相等时  5.【例5.3.2】 二、最小期望误判代价法 1.例子

    2024年02月12日
    浏览(38)
  • 概率论与数理统计学习笔记(7)——全概率公式与贝叶斯公式

    下图是本文的背景内容,小B休闲时间有80%的概率玩手机游戏,有20%的概率玩电脑游戏。这两个游戏都有抽卡环节,其中手游抽到金卡的概率为5%,端游抽到金卡的概率为15%。已知小B这天抽到了金卡,那么请问他是在手机上抽到的还是在电脑上抽到的? 上述问题中,我们先考

    2024年02月09日
    浏览(32)
  • 人工智能研究的各个学派

    于对智能产生根源的理解不同形成了三大学派。 符号主义(Symbolism)是人工智能研究中的一个重要学派,也被称为逻辑主义(Logicism)、心理学派(Psychlogism)或计算机学派(Computerism)。其核心观点在于,人类认知和思维的基本单元是符号,认知过程可以被视为在符号表示上

    2024年03月12日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包