概率图模型中的贝叶斯网络

这篇具有很好参考价值的文章主要介绍了概率图模型中的贝叶斯网络。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、概率图

概率图的框架
概率图模型中的贝叶斯网络
由上图可知，PGM(概率图)主要分为3个部分：

表示(Representation)：是将实际的问题，简化成概率图的形式表达出来。
推断(Inference)：通过上面生成的概率图模型，推断出我们在已知条件下，想要询问的变量概率。
学习(Learning)：用真实世界数据进一步拟合我们的模型，可以通过改变模型参数或者模型结构去拟合数据。

--------------------------------------------------------------------------分割线-------------------------------------------------------------------

由于概率图模型的知识面十分的广泛，本人只研究了贝叶斯网络的图模型部分，因此，暂时只讲述贝叶斯网络部分。

二、贝叶斯网络

什么是贝叶斯网络？

贝叶斯网络是概率图模型之一，是一个有向无环图模型。一个贝叶斯网络是由变量节点和连接节点的有向边构成。
概率图模型中的贝叶斯网络
每个节点通过计算都有其条件概率表（CPT）（可能是先验概率也可能是后验概率），并且条件概率表只与先验概率和指向它的父节点有关。

贝叶斯网络结构怎么构建？

这块其实对应的是概率图模型中学习的部分，它分为结构学习和参数学习两部分。

结构学习
当我们有专家经验（说白了就是自己对数据的理解）时，我们可以自己搭建出一个贝叶斯网络。
若我们没有专家经验或者想自动搭建网络，那么我们可以通过计算机对数据的理解（代码实现）来搭建一个贝叶斯网络，因此，这里就引出了一些搭建网络的算法，常用的是评分算法（后续会更新）。
参数学习
当网络结构已知时，也就是各个变量节点之间的依赖关系已知，这时贝叶斯网络的学习过程只需要对训练样本计数，估计每个节点的条件概率表即可参数学习就是要得到条件概率表，当数据量特别大的时候，我们就需要通过算法来实现自动学习。

小结：
到这你应该知道构建一个贝叶斯网络的思路了。
在实际搭建网络的过程中，你会遇到很多问题，因此，会有一些解决的方法。
接下里，我会讲述一些概率的基础知识，然后将一个具体的计算实例。

概率图研究的是高维随机变量，因此学习概率图之前我们需要一些概率知识的储备。

三、概率知识

首先，我们要知道四大准则，这是我们最常用的工具。
加法法准则
我们以二维随机变量为例：
$P(x_1)=\int P(x_1,x_2){\rm d}x_2$
乘法准则
我们以二维随机变量为例：
$P(x_1,x_2)=P(x_1)P(x_2|x_1)=P(x_2)P(x_1|x_2)$
链式准则
$P(x_1,x_2,\cdots,x_p)=\prod_{i=1}^p P(x_i|x_1,x_2,\cdots,x_{i-1})$
贝叶斯准侧
$P(x_2|x_1)=\frac{P(x_1,x_2)}{P(x_1)}=\frac{P(x_1,x_2)}{\int P(x_1,x_2){\rm d}x_2}=\frac{p(x_2)P(x_1|x_2)}{\int p(x_2)P(x_1|x_2){\rm d}x_2}$
其次，知道这四大准则，那么我们就需要了解他们在图模型中的应用。

概率分布

概率分布就是每个变量（节点）发生的概率。
比如：掷硬币，那么结果就是正/反两种情况，或者天气可能有晴天(sun)、下雨(rain)、大雾(fog)这三种情况，每一个变量的累加和一定是1。

概率图模型中的贝叶斯网络
联合概率分布

我们通过两个变量（温度和天气）之间的关系，最终可以得到一个联合概率，我们可以通过这样一个联合概率表，求得他们之间不同概率分布下的概率大小。我们这么说点抽象，通过下面P(T,W)概率来表示联合概率。
概率图模型中的贝叶斯网络
通过这个联合概率我们可以推断出这张表上我们想要的任何变量概率。假如我们想求P(T)和P(W)的概率，只需要将联合概率求边缘化就可以得到。

到这以后你可能会对这张表怎么来的有疑问？后面我们会讲到，如果没有就算了。

条件概率

条件概率在前面的四大公式中有用到，这里简单说一下，就是在B发生的条件下，A发生的概率，即P(A|B)。
$P (A ∣ B) = P (A, B) / P (B)$
从公式中也能看出，我们在计算条件概率的时候，还需要联合概率分布。

归一化技巧

我们在计算概率的时候，往往算的的结果的总概率和不为1，这个时候就要归一化。
其实这个很简单，看一个例子就知道了。
概率图模型中的贝叶斯网络
再举一个综合一点的例子(自己理解去吧)：

小结：
到这，我们将之前所学的概率知识（可能你没学过，没关系）结合到条件概率表中，令你对其有了一定的了解。

四、贝叶斯网络知识

网络

概率图模型中的贝叶斯网络
这就是一个有向无环的贝叶斯网络，节点表示随机变量 ${d,i,g,s,l\}$
它们可以是观察到的变量、隐变量、未知参数等。认为有因果关系的变量就可以用有向弧连接。
以这个网络为例，我们可以写出它的联合概率密度：
$P (d, i, g, s, l) = P (d) P (d ∣ i) P (g ∣ d, i) P (s ∣ d, i, g) P (l ∣ d, i, g, l)$

条件独立性

$x_A\bot x_B|x_C$
也就是说，在给定父节点的条件下，每个节点与其非后代节点条件独立，但后代节点在被观测到的前提下，仍可作为证据影响该节点。

因此联合概率的表达式为：
$P(x_1,x_2,\cdots,x_p)=\prod_{i=1}^p P(x_i|Pa_{x_i})$
所以，我们可以将上述网络的联合概率写成：
$P (d, i, g, s, l) = P (d) P (i) P (g ∣ d, i) P (s ∣ i) P (l ∣ g)$

结构

在一定的观测条件下，变量间的取值概率是否会相互影响。所谓的观测条件是这个系统是否有观测变量，或者观测变量的取值是否确定。当变量取值未知，通常根据观测变量取值，对隐变量的取值概率进行推理，这就是概率影响的流动性，它体现在结构上。

head to tail
概率图模型中的贝叶斯网络
结论：
若b被观测，则路径被阻塞（独立）,即 $c\bot a|b$
证明：
当b被观测到时：
$\left\{ \begin{array}{c} P(a,b,c)=P(a)P(b|a)P(c|a,b)\\ P(a,b,c)=P(a)P(b|a)P(c|b)\\ \end{array} \right.$
联立上述两式
$P(c|a)=P(c|a,b)\\ \Rightarrow c\bot a|b$

tail to tail
概率图模型中的贝叶斯网络
同理，可以根据“head to tail”结构的推导，得出 $c\bot b|a$
head to head

这种结构比较特殊，默认情况下，a和b是独立。
证明：
当c没有被观测到时：
$\left\{ \begin{array}{c} P(a,b,c)=P(a)P(b|a)P(c|a,b)\\ P(a,b,c)=P(a)P(b)P(c|a,b)\\ \end{array} \right.$
联立上述两式
$P(b|a)=P(b)\\ \Rightarrow a\bot b$

六、概率推断

贝叶斯网络训练好之后就能用来回答一些问题，即通过一些属性变量的观测值来推测其他属性变量的取值。

这样通过已知变量观测值来推断查询变量的过程称为推断，已知变量观测值为证据。

最理想的是直接根据贝叶斯网定义的联合概率分布来精确计算后验概率，但是这样的精确推断是NP难的，当网络节点较多、连接稠密时难以精确推断，需要借助近似推断。
概率图模型中的贝叶斯网络
P(A)称为“先验概率”，即在B事件发生之前，我们对A事件概率的一个判断。
P(A|B)称为“后验概率”，即在B事件发生之后，我们对A事件概率的重新评估。
P(A|B)/P(B)称为“可能性函数”，这是一个调整因子，使得预估概率更接近真实概率。

推断又分为因果推断和证据推断。

因果推断

顺着箭头方向推断。得到贝叶斯网络之后我们就可以进行推理计算。这种因果推理是顺着箭头方向进行的推理结果的过程。

证据推断

逆着箭头推断的，即从结果逆流而上回溯原因的过程。

七、案例分析

现在我通过接下来这个案例，将这些数学知识运用到贝叶斯网络中做精确推断，解答一些前面的坑（条件概率表的应用）。

注：此处我从此处学习的，只不过把里面具体计算结果推导了一遍，推导结果有出入，你们自己判断。

这是一个贝叶斯网络，里面的条件概率表是通过数据获得的（我猜的），我们用它解决一些计算问题。
概率图模型中的贝叶斯网络
其中，节点变量的定义：

试题难度（D）： $d^0(低),d^1(高)$
智力（I）： $i^0(低),i^1(高)$
考试成绩（G）： $g^1(A),g^2(B),g^3(C)$
高考成绩（S）： $s^0(低),s^1(高)$
是否得到推荐信（L）： $l^0(否),l^1(是)$

该生能获得好的推荐信的概率？
在对该生其他信息一无所知的前提下，获得好的推荐信的概率为
$P(l^1)=\sum_{g}{P(l^1|g)P(g)}=\sum_{g}{P(l^1|g)\sum_{i,d}{P(g|i,d)P(i)P(d)}}$
具体计算（不一定对，有能力的自己推导一下）：

概率图模型中的贝叶斯网络

如果得知该生智商不高，那么可能成绩g不太好，从而影响其推荐信的质量
$P(l^1|i^0)=\sum_{g}{P(l^1|g)P(g|i^0)}=\sum_{g}{P(l^1|g)\sum_{d}{P(g|i^0,d)P(d)}}$
概率图模型中的贝叶斯网络
如果进一步得知课程比较简单，那么成绩可能得到提升，从而影响其推荐信的质量
$P(l^1|i^0,d^0)=\sum_{g}{P(l^1|g)P(g|i^0,d^0)}$

在对该生其他信息一无所知的前提下，其具有高智商的概率即为先验概率P(i^1)=30%，假设获知该生成绩g不太好，则可以怀疑其不具有高智商
$P(i^1|g^2)= \frac {P(i^1)\sum_d{P(g^2|i^1,d)P(d)}}{\sum_{i,d}{P(g^2|i,d)P(i)P(d)}}$
概率图模型中的贝叶斯网络