机器学习笔记之高斯网络(二)高斯贝叶斯网络

这篇具有很好参考价值的文章主要介绍了机器学习笔记之高斯网络(二)高斯贝叶斯网络。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

引言

上一节介绍了高斯网络及其条件独立性,本节将介绍高斯贝叶斯网络

回顾

高斯网络

高斯网络最核心的特点是:随机变量集合中的随机变量均是连续型随机变量,并且均服从高斯分布
已知某随机变量集合 X \mathcal X X中包含 p p p个特征,整个高斯网络中所有结点的联合概率分布服从多元高斯分布
X = ( x 1 , x 2 , ⋯   , x p ) T P ( X ) = 1 ( 2 π ) p 2 ∣ Σ ∣ 1 2 exp ⁡ [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] \begin{aligned} \mathcal X & = (x_1,x_2,\cdots,x_p)^T \\ \mathcal P(\mathcal X) & = \frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}} \exp \left[-\frac{1}{2}(x - \mu)^T\Sigma^{-1}(x - \mu)\right] \end{aligned} XP(X)=(x1,x2,,xp)T=(2π)2pΣ211exp[21(xμ)TΣ1(xμ)]
其中期望 μ \mu μ协方差矩阵 Σ \Sigma Σ表示如下:
μ = ( μ 1 μ 2 ⋮ μ p ) p × 1 σ = ( σ 11 , σ 12 , ⋯   , σ 1 p σ 21 , σ 22 , ⋯   , σ 2 p ⋮ σ p 1 , σ p 2 , ⋯   , σ p p ) p × p \mu = \begin{pmatrix} \mu_1\\ \mu_2 \\ \vdots \\ \mu_p \end{pmatrix}_{p \times 1} \quad \sigma = \begin{pmatrix} \sigma_{11},\sigma_{12},\cdots,\sigma_{1p} \\ \sigma_{21},\sigma_{22},\cdots,\sigma_{2p} \\ \vdots \\ \sigma_{p1},\sigma_{p2},\cdots,\sigma_{pp} \\ \end{pmatrix}_{p \times p} μ=μ1μ2μpp×1σ=σ11,σ12,,σ1pσ21,σ22,,σ2pσp1,σp2,,σppp×p

  • 随机变量之间的边缘独立性:如果随机变量 x i , x j ( i , j ∈ { 1 , 2 , ⋯   , p } ; i ≠ j ) x_i,x_j (i,j \in \{1,2,\cdots,p\};i\neq j) xi,xj(i,j{1,2,,p};i=j)对应协方差矩阵的结果 C o v ( x i , x j ) = σ i j = 0 Cov(x_i,x_j) = \sigma_{ij} = 0 Cov(xi,xj)=σij=0,那么称 x i , x j x_i,x_j xi,xj不相关的。也称 x i , x j x_i,x_j xi,xj边缘独立或者绝对独立
    σ i j = 0 ⇒ x i ⊥ x j \sigma_{ij} = 0 \Rightarrow x_i \perp x_j σij=0xixj
  • 随机变量之间的条件独立性:如果随机变量 x i , x j ( i , j ∈ { 1 , 2 , ⋯   , p } ; i ≠ j ) x_i,x_j(i,j \in \{1,2,\cdots,p\};i \neq j) xi,xj(i,j{1,2,,p};i=j)对应精度矩阵(Precision Matrix)结果 λ i j = 0 \lambda_{ij} = 0 λij=0,称给定除去 x i , x j x_i,x_j xi,xj之外其他结点的条件下, x i , x j x_i,x_j xi,xj相互独立
    其中 Λ = [ λ i j ] p × p \Lambda = [\lambda_{ij}]_{p \times p} Λ=[λij]p×p表示精度矩阵,它是协方差矩阵的‘逆矩阵’。
    λ i j = 0 ⇒ x i ⊥ x j ∣ x − i − j \lambda_{ij} = 0 \Rightarrow x_i \perp x_j \mid x_{-i-j} λij=0xixjxij

贝叶斯网络:因子分解

基于贝叶斯网络有向图的性质,针对随机变量集合 X \mathcal X X联合概率分布 P ( X ) \mathcal P(\mathcal X) P(X)进行表达。
已知随机变量集合 X \mathcal X X包含 p p p个维度特征,因而 X \mathcal X X联合概率分布 P ( X ) \mathcal P(\mathcal X) P(X)表示如下:
P ( X ) = P ( x 1 , x 2 , ⋯   , x p ) \mathcal P(\mathcal X) = \mathcal P(x_1,x_2,\cdots,x_p) P(X)=P(x1,x2,,xp)
针对联合概率分布求解,最朴素的方式是条件概率的链式法则(Chain Rule):
P ( x 1 , x 2 , ⋯   , x p ) = P ( x 1 ) ⋅ ∏ i = 2 p P ( x i ∣ x 1 , ⋯   , x i − 1 ) \mathcal P(x_1,x_2,\cdots,x_p) = \mathcal P(x_1) \cdot \prod_{i=2}^p \mathcal P(x_i \mid x_1,\cdots,x_{i-1}) P(x1,x2,,xp)=P(x1)i=2pP(xix1,,xi1)
但如果随机变量集合 X \mathcal X X维度过高,这种链式法则计算代价很大。可以将对应的概率图模型视作完全图——任意两个特征之间都需要求解其关联关系
贝叶斯网络的条件独立性 可以极大程度地简化运算过程。给定贝叶斯网络的表达方式,可以直接写出各节点的联合概率分布
P ( x 1 , x 2 , ⋯   , x p ) = ∏ i = 1 p P ( x i ∣ x p a ( i ) ) \mathcal P(x_1,x_2,\cdots,x_p) = \prod_{i=1}^p \mathcal P(x_i \mid x_{pa(i)}) P(x1,x2,,xp)=i=1pP(xixpa(i))
其中 x p a ( i ) x_{pa(i)} xpa(i)表示 x i x_i xi结点的父节点组成的集合

高斯贝叶斯网络:因子分解

已知贝叶斯网络中一共包含 p p p个结点,它的联合概率分布(因子分解)表示如下:
P ( X ) = ∏ i = 1 p P ( x i ∣ x p a ( i ) ) \mathcal P(\mathcal X) = \prod_{i=1}^p \mathcal P(x_i \mid x_{pa(i)}) P(X)=i=1pP(xixpa(i))

全局模型(Global Model) 角度观察,高斯贝叶斯网络是基于线性高斯模型(局部模型(Local Model))的模型架构。

  • 局部模型架构:对于线性高斯模型并不陌生,在卡尔曼滤波中对线性高斯模型又了一定认识。

    从宏观角度认识线性高斯模型,即模型中某节点与父结点之间存在线性关系,并且噪声服从高斯分布
    可以理解为:高斯贝叶斯网络中的‘有向边’表示节点与父节点之间的‘具有高斯分布噪声的线性关系’。
    这里已知 X , Y \mathcal X,\mathcal Y X,Y是两个随机变量集合 X \mathcal X X的边缘概率分布 P ( X ) \mathcal P(\mathcal X) P(X)条件概率分布 P ( Y ∣ X ) \mathcal P(\mathcal Y \mid \mathcal X) P(YX)表示如下:
    { P ( X ) ∼ N ( μ X , Σ X ) P ( Y ∣ X ) ∼ N ( A X + B , Σ Y ) \begin{cases} \mathcal P(\mathcal X) \sim \mathcal N(\mu_{\mathcal X},\Sigma_{\mathcal X}) \\ \mathcal P(\mathcal Y \mid \mathcal X) \sim \mathcal N(\mathcal A \mathcal X + \mathcal B,\Sigma_{\mathcal Y}) \end{cases} {P(X)N(μX,ΣX)P(YX)N(AX+B,ΣY)
    局部模型描述结点之间的关联关系 表示如下:
    高斯贝叶斯网络,机器学习,概率论,高斯贝叶斯网络,因子分解
    同理,关于结点 Y \mathcal Y Y边缘概率分布 P ( Y ) \mathcal P(\mathcal Y) P(Y)以及 P ( X ) , P ( Y ∣ X ) \mathcal P(\mathcal X),\mathcal P(\mathcal Y \mid \mathcal X) P(X),P(YX)推断结果 P ( X ∣ Y ) \mathcal P(\mathcal X \mid \mathcal Y) P(XY)同样服从高斯分布。具体结果表示如下:
    推导过程详见:高斯分布——推断任务之边缘概率分布与条件概率分布
    P ( Y ) ∼ N ( A μ + B , A Σ X A T + Σ Y ) P ( X ∣ Y ) ∼ N ( Σ { A T Σ Y − 1 ( Y − B ) + A μ } , Σ ) Σ = Σ X − 1 + A T Σ Y − 1 A − 1 \begin{aligned} \mathcal P(\mathcal Y) & \sim \mathcal N(\mathcal A \mu + \mathcal B,\mathcal A\Sigma_{\mathcal X}\mathcal A^T + \Sigma_{\mathcal Y}) \\ \mathcal P(\mathcal X \mid \mathcal Y) & \sim \mathcal N(\Sigma\left\{\mathcal A^T\Sigma_{\mathcal Y}^{-1}(\mathcal Y - \mathcal B) + \mathcal A \mu\right\},\Sigma) \quad \Sigma = \Sigma_{\mathcal X}^{-1} + \mathcal A^T \Sigma_{\mathcal Y}^{-1}\mathcal A^{-1} \end{aligned} P(Y)P(XY)N(Aμ+B,AΣXAT+ΣY)N(Σ{ATΣY1(YB)+Aμ},Σ)Σ=ΣX1+ATΣY1A1

实际上,卡尔曼滤波(Kalman Filter)自身就是一个特殊的高斯贝叶斯网络。它的概率图模型表示如下:
高斯贝叶斯网络,机器学习,概率论,高斯贝叶斯网络,因子分解
由于齐次马尔可夫假设、观测独立性假设的约束,概率图中无论是观测变量 O = { o 1 , ⋯   , o T } \mathcal O = \{o_1,\cdots,o_T\} O={o1,,oT}还是隐变量 I = { i 1 , ⋯   , i T } \mathcal I = \{i_1,\cdots,i_T\} I={i1,,iT},它们均仅有一个父节点

  • 基于齐次马尔可夫假设,相邻隐变量 i t , i t − 1 i_t,i_{t-1} it,it1之间的条件概率表示为:
    P ( i t ∣ i t − 1 ) ∼ N ( A ⋅ i t − 1 + B , Q ) \mathcal P(i_t \mid i_{t-1}) \sim \mathcal N(\mathcal A \cdot i_{t-1} + \mathcal B,\mathcal Q) P(itit1)N(Ait1+B,Q)
  • 基于观测独立性假设隐变量 i t i_t it对应时刻观测变量 o t o_t ot之间的条件概率表示为:
    P ( o t ∣ i t ) ∼ N ( C ⋅ i t + D , R ) \mathcal P(o_t \mid i_t) \sim \mathcal N(\mathcal C\cdot {i_t} + \mathcal D,\mathcal R) P(otit)N(Cit+D,R)

基于上述假设,对随机变量之间关联关系的表示(Representation)描述为:
之所以将噪声均值设置为0 -> 均值偏差可以归纳到对应偏置项 B , D \mathcal B,\mathcal D B,D中。
{ i t = A ⋅ i t − 1 + B + ϵ ϵ ∼ N ( 0 , Q ) o t = C ⋅ i t + D + δ δ ∼ N ( 0 , R ) \begin{cases} i_t = \mathcal A \cdot i_{t-1} + \mathcal B + \epsilon \quad \epsilon \sim \mathcal N(0,\mathcal Q) \\ o_t = \mathcal C \cdot i_t + \mathcal D + \delta \quad \delta \sim \mathcal N(0,\mathcal R) \end{cases} {it=Ait1+B+ϵϵN(0,Q)ot=Cit+D+δδN(0,R)

相比之下,高斯贝叶斯网络并没有假设约束,结点中可能存在多个父节点组成的集合。
给定一个高斯贝叶斯网络的局部图如下:
这里仅讨论 x i x_i xi与其父节点们之间的关系,其余部分略掉了。
高斯贝叶斯网络,机器学习,概率论,高斯贝叶斯网络,因子分解
很明显: x 1 , x 2 , ⋯   , x k x_1,x_2,\cdots,x_k x1,x2,,xk均是 x i x_i xi父节点,将局部模型延伸到一个更大的局部模型
这里 x 1 , x 2 , ⋯   , x k x_1,x_2,\cdots,x_k x1,x2,,xk以及 x i x_i xi均是一维随机变量

  • 假设 x i x_i xi父节点集合中仅包含一个随机变量( x 1 x_1 x1为例),那么 P ( x i ∣ x p a ( i ) ) \mathcal P(x_{i} \mid x_{pa(i)}) P(xixpa(i))可表示为:

    • 这里定义的 μ i , σ i 2 \mu_i,\sigma_i^2 μi,σi2是表示 x 1 , x i x_1,x_i x1,xi之间线性关系中噪声的高斯分布,但是高斯贝叶斯网络中定义的噪声 ϵ ∼ N ( 0 , σ i 2 ) \epsilon\sim \mathcal N(0,\sigma_i^2) ϵN(0,σi2),因而相当于 μ i \mu_i μi单独被提出来,因为 μ i \mu_i μi就是表示关于分布的‘位置信息’。因此,下面公式中的 ϵ \epsilon ϵ才是真正噪声的分布形态。
    • 因而参数 μ i \mu_i μi是自然存在的。文章参考:概率密度函数角度认识最小二乘法
      x i = w i 1 ⋅ x 1 + ϵ ϵ ∼ N ( μ i , σ i 2 ) P ( x i ∣ x p a ( i ) ) → P ( x i ∣ x 1 ) ∼ N ( w i 1 ⋅ x 1 + μ i , σ i 2 ) \begin{aligned} x_i & = w_{i1} \cdot x_1 + \epsilon \quad \epsilon \sim \mathcal N(\mu_i,\sigma_i^2)\\ \mathcal P(x_{i} \mid x_{pa(i)}) & \to \mathcal P(x_i \mid x_1) \sim \mathcal N(w_{i1} \cdot x_1 + \mu_i,\sigma_{i}^2) \\ \end{aligned} xiP(xixpa(i))=wi1x1+ϵϵN(μi,σi2)P(xix1)N(wi1x1+μi,σi2)

    对应 x i , x 1 x_i,x_1 xi,x1随机变量之间关联关系的表示 为:
    x i = μ i + w i 1 ⋅ ( x 1 − μ 1 ) + σ i ⋅ ϵ i ϵ ∼ i N ( 0 , 1 ) x_i = \mu_i + w_{i1} \cdot (x_1 - \mu_1) + \sigma_{i}\cdot \epsilon_i \quad \epsilon \sim_i \mathcal N(0,1) xi=μi+wi1(x1μ1)+σiϵiϵiN(0,1)
    关于上述公式的一些个人理解

    • 多出来的 μ 1 \mu_1 μ1是哪来的:
      为了简化运算,通常对‘随机变量的分布’进行平移’,就是去中心化。
    • 执行线性运算之后,方差必然会发生变化。应变化为 w i 1 2 ⋅ σ i 2 w_{i1}^2 \cdot \sigma_i^2 wi12σi2,但是 P ( x i ∣ x 1 ) \mathcal P(x_i \mid x_1) P(xix1)并没有变化,依旧是 σ i 2 \sigma_i^2 σi2:方差变化是 x i x_i xi的边缘概率分布 P ( x i ) \mathcal P(x_i) P(xi),而不是 P ( x i ∣ x 1 ) \mathcal P(x_i \mid x_1) P(xix1),这也是线性高斯模型的假设方式。
    • 偏置项去哪了:最终都需要‘去中心化’,将分布的均值(中心)回归零点,因而被省略掉了,或者也可理解为‘合并到’ μ i \mu_i μi中。

    欢迎小伙伴们交流讨论。

  • 同理,父结点集合中包含多个随机变量,将父结点集合看成向量形式,因而 x p a ( i ) x_{pa(i)} xpa(i)以及对应权重信息 W i \mathcal W_i Wi表示如下:
    x p a ( i ) = ( x 1 , x 2 , ⋯   , x k ) k × 1 T W i = ( w i 1 , w i 2 , ⋯   , w i k ) k × 1 T \begin{aligned} x_{pa(i)} = (x_1,x_2,\cdots,x_k)_{k \times 1}^T \\ \mathcal W_i = (w_{i1},w_{i2},\cdots,w_{ik})_{k \times 1}^T \end{aligned} xpa(i)=(x1,x2,,xk)k×1TWi=(wi1,wi2,,wik)k×1T
    至此, P ( x i ∣ x p a ( i ) ) \mathcal P(x_i \mid x_{pa(i)}) P(xixpa(i))表示如下:
    P ( x i ∣ x p a ( i ) ) = N ( W i T x p a ( i ) + μ i , σ i 2 ) = N ( ( x 1 ⋅ w i 1 + ⋯ + x k ⋅ w i k ) + μ i , σ i 2 ) \begin{aligned} \mathcal P(x_i \mid x_{pa(i)}) & = \mathcal N(\mathcal W_i^T x_{pa(i)} + \mu_i,\sigma_i^2) \\ & = \mathcal N((x_1 \cdot w_{i1} + \cdots + x_k \cdot w_{ik}) + \mu_i,\sigma_i^2) \end{aligned} P(xixpa(i))=N(WiTxpa(i)+μi,σi2)=N((x1wi1++xkwik)+μi,σi2)
    因而 x i , x p a ( i ) x_i,x_{pa(i)} xi,xpa(i)随机变量之间的关联关系表示为
    x i − μ i = W i T ( x p a ( i ) − μ p a ( i ) ) + σ i ⋅ ϵ i = ( w i 1 , w i 2 , ⋯   , w i k ) 1 × k [ ( x 1 x 2 ⋮ x k ) − ( μ 1 μ 2 ⋮ μ k ) ] k × 1 + σ i ⋅ ϵ i = ∑ j ∈ x p a ( i ) w i j ( x j − μ j ) + σ i ⋅ ϵ i \begin{aligned} x_i - \mu_i & = \mathcal W_i^T (x_{pa(i)} - \mu_{pa(i)}) + \sigma_i \cdot \epsilon_i \\ & = \begin{pmatrix}w_{i1},w_{i2},\cdots,w_{ik}\end{pmatrix}_{1 \times k} \left[\begin{pmatrix}x_1 \\ x_2 \\ \vdots \\ x_k \end{pmatrix} - \begin{pmatrix}\mu_1 \\ \mu_2 \\ \vdots \\ \mu_k \end{pmatrix}\right]_{k \times 1} + \sigma_i \cdot \epsilon_i\\ & = \sum_{j \in x_{pa(i)}} w_{ij}(x_j - \mu_j) + \sigma_i \cdot \epsilon_i \end{aligned} xiμi=WiT(xpa(i)μpa(i))+σiϵi=(wi1,wi2,,wik)1×kx1x2xkμ1μ2μkk×1+σiϵi=jxpa(i)wij(xjμj)+σiϵi

下一节将介绍:高斯马尔可夫随机场

相关参考:
机器学习-高斯网络(2)-高斯贝叶斯网络文章来源地址https://www.toymoban.com/news/detail-589938.html

到了这里,关于机器学习笔记之高斯网络(二)高斯贝叶斯网络的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 概率论--随机事件与概率--贝叶斯公式--随机变量

    目录 随机事件与概率 概念 为什么要学习概率论 随机事件与随机事件概率 随机事件 随机事件概率 贝叶斯公式  概念 条件概率 概率乘法公式 贝叶斯公式  举个栗子 随机变量   随机变量的定义 随机变量的分类 离散型随机变量 连续型随机变量 概念 随机事件是指在一次试验

    2024年02月11日
    浏览(48)
  • 【概率论】贝叶斯公式的作业

    两台车床加工同样的零件,第一台出现不合格品的概率是 0.03,第二台出现不合格品的概率是 0.06,加工出来的零件放在一起,并且已知第一台加工的零件比第二台加工的零件多一倍.如果取出的零件是不合格品,求它是由第二台车床加工的概率_____; (结果小数点后保留1位) 【正

    2024年02月11日
    浏览(40)
  • 概率论之——高斯分布的乘积

    本来我并不想开机器学习这个专栏,因为机器学习与高数线代矩阵论概率论密切相关,我的数学能力没达到这种高度。然而控制理论也会涉及各种数理统计知识,那就不得不开一个数理栏了。 这个栏没有具体的知识路线,写到哪算哪,数学和机器学习相关且不好分类的东西都

    2024年02月11日
    浏览(48)
  • 分享本周所学——概率论:贝叶斯更新详解

            大家好,欢迎来到《分享本周所学》第六期。本人是一名人工智能初学者,因为马上要上大学了嘛,就想着提前稍微预习一下大一课程。我预习的这门课叫Mathematical Techniques for Computer Science,是一门针对计算机的数学课,所以这里面有很多内容会面向数学在计算机

    2024年01月17日
    浏览(49)
  • 机器学习笔记之高斯网络(二)高斯贝叶斯网络

    上一节介绍了 高斯网络 及其条件独立性,本节将介绍 高斯贝叶斯网络 。 高斯网络 高斯网络最核心的特点是: 随机变量集合中的随机变量均是连续型随机变量,并且均服从高斯分布 : 已知某随机变量集合 X mathcal X X 中包含 p p p 个特征,整个 高斯网络 中所有结点的 联合

    2024年02月16日
    浏览(39)
  • 概率论学习笔记全网最全!!!!

    第01回:一些基本概念 1. 随机试验 满足下列条件的试验称为随机试验. 可以在相同的条件下重复地进行; 每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果; 进行一次试验之前不能确定哪一个结果会出现. 2. 样本空间 ​ 我们研究随机现象的方法其实就是利用

    2024年02月03日
    浏览(60)
  • 第四章 基于概率论的分类方法:朴素贝叶斯

    朴素贝叶斯 优点:在数据较少的情况下仍然有效,可以处理多类别问题。 缺点:对于输⼊数据的准备⽅式较为敏感。 适⽤数据类型:标称型数据。 假设类别为 c 1 , c 2 c_1,c_2 c 1 ​ , c 2 ​ : 如果 p 1 ( x , y ) p 2 ( x , y ) p1(x,y) p2(x,y) p 1 ( x , y ) p 2 ( x , y ) ,那么类别为 c 1 c_1 c

    2024年02月13日
    浏览(44)
  • 应用概率论与模糊系统:机器学习模型的精确预测

    作者:禅与计算机程序设计艺术 随着科技的进步,计算机技术已经从单纯的计算工具逐渐转向能够操控自身及周围环境的工具。然而,作为一个具有复杂性和多维性的数据集合,如何从数据中提取有效信息、做出决策以及处理异常值,仍然是一个棘手的问题。现实世界中各种

    2024年02月07日
    浏览(32)
  • 《概率论与数理统计》学习笔记

    重温《概率论与数理统计》进行查漏补缺,并对其中的概念公式等内容进行总结,以便日后回顾。 目录 第一章 概率论的基本概念 第二章 随机变量及其分布 第三章  多维随机变量及其分布 第四章  随机变量的数字特征 第五章  大数定律及中心极限定理 第六章  样本及抽样

    2024年02月03日
    浏览(41)
  • 【概率论理论】协方差,协方差矩阵理论(机器学习)

      在许多算法中需要求出两个分量间相互关系的信息。协方差就是描述这种相互关联程度的一个特征数。   设 ( X , Y ) (X,Y) ( X , Y ) 是一个二维随机变量,若 E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] E[(X-E(X))(Y-E(Y))] E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] 存在,则称此数学期望为 X X X 与

    2024年02月14日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包