深入理解机器学习——概率图模型(Probabilistic Graphical Model):马尔可夫随机场(Markov Random Field,MRF)

这篇具有很好参考价值的文章主要介绍了深入理解机器学习——概率图模型(Probabilistic Graphical Model):马尔可夫随机场(Markov Random Field,MRF)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

分类目录:《深入理解机器学习》总目录


马尔可夫随机场(Markov Random Field,MRF)是典型的马尔可夫网,这是一种著名的无向图模型,图中每个结点表示一个或一组变量,结点之间的边表示两个变量之间的依赖关系。马尔可夫随机场有一组势函数(Potential Functions),亦称“因子”(Factor),这是定义在变量子集上的非负实函数,主要用于定义概率分布函数。

深入理解机器学习——概率图模型(Probabilistic Graphical Model):马尔可夫随机场(Markov Random Field,MRF),深入理解机器学习,人工智能,隐马尔可夫模型,马尔可夫随机场,概率图模型
上图显示出一个简单的马尔可夫随机场,对于图中结点的一个子集,若其中任意两结点间都有边连接,则称该结点子集为一个“团”(Clique),若在一个团中加入另外任何一个结点都不再形成团,则称该团为“极大团(Maximal Clique);换言之,极大团就是不能被其他团所包含的团,例如,在上图中 { x 1 , x 2 } \{x_1, x_2\} {x1,x2} { x 1 , x 3 } \{x_1, x_3\} {x1,x3} { x 2 , x 4 } \{x_2, x_4\} {x2,x4} { x 2 , x 5 } \{x_2, x_5\} {x2,x5} { x 2 , x 6 } \{x_2, x_6\} {x2,x6} { x 3 , x 5 } \{x_3, x_5\} {x3,x5} { x 5 , x 6 } \{x_5, x_6\} {x5,x6} { x 2 , x 5 , x 6 } \{x_2, x_5, x_6\} {x2,x5,x6}都是团,并且除了 { x 2 , x 5 } \{x_2, x_5\} {x2,x5} { x 2 , x 6 } \{x_2, x_6\} {x2,x6} { x 5 , x 6 } \{x_5, x_6\} {x5,x6}之外都是极大团;但是,因为 x 2 x_2 x2 x 3 x_3 x3之间缺乏连接, { x 1 , x 2 , x 3 } \{x_1, x_2, x_3\} {x1,x2,x3}并不构成团,显然,每个结点至少出现在一个极大团中。

在马尔可夫随机场中,多个变量之间的联合概率分布能基于团分解为多个因子的乘积,每个因子仅与一个团相关,具体来说,对于 n n n个变量 x = { x 1 , x 2 , ⋯   , x n } x=\{x_1, x_2, \cdots, x_n\} x={x1,x2,,xn},所有团构成的集合为 C \mathcal{C} C,与团 Q ∈ C Q\in\mathcal{C} QC对应的变量集合记为 x Q x_Q xQ,则联合概率 P ( x ) P(x) P(x)定义为:
P ( x ) = 1 Z ∏ Q ∈ C ψ Q ( x Q ) P(x)=\frac{1}{Z}\prod_{Q\in\mathcal{C}}\psi_Q(x_Q) P(x)=Z1QCψQ(xQ)

其中 ψ Q \psi_Q ψQ为与团 Q Q Q对应的势函数,用于对团 Q Q Q中的变量关系进行建模, Z = ∑ x ∏ Q ∈ C ψ Q ( x Q ) Z=\sum_x\prod_{Q\in\mathcal{C}}\psi_Q(x_Q) Z=xQCψQ(xQ)为规范化因子,以确保 P ( x ) P(x) P(x)是被正确定义的概率,在实际应用中,精确计算 Z Z Z通常很困难,但许多任务往往并不需获得 Z Z Z的精确值显然,若变量个数较多,则团的数目将会很多(例如,所有相互连接的两个变量都会构成团),这就意味着上式会有很多乘积项,显然会给计算带来负担。注意到若团 Q Q Q不是极大团,则它必被一个极大团 Q ∗ Q^* Q所包含,即 x Q ⊆ x Q ∗ x_Q\subseteq x_Q^* xQxQ。这意味着变量 x Q x_Q xQ之间的关系不仅体现在势函数 ψ Q \psi_Q ψQ中,还体现在 ψ Q ∗ \psi_{Q^*} ψQ中。于是,联合概率 P ( x ) P(x) P(x)可基于极大团来定义。假定所有极大团构成的集合为 C ∗ \mathcal{C^*} C,则有: P ( x ) = 1 Z ∗ ∏ Q ∈ C ∗ ψ Q ( x Q ) P(x)=\frac{1}{Z^*}\prod_{Q\in\mathcal{C^*}}\psi_Q(x_Q) P(x)=Z1QCψQ(xQ)

如上图中 x = { x 1 , x 2 , x 3 , ⋯   , x 6 } x=\{x_1, x_2, x_3, \cdots, x_6\} x={x1,x2,x3,,x6},联合概率分布 P ( x ) P(x) P(x)定义为:
P ( x ) = 1 Z ψ 12 ( x 1 , x 2 ) ψ 13 ( x 1 , x 3 ) ψ 24 ( x 2 , x 4 ) ψ 35 ( x 3 , x 5 ) ψ 256 ( x 2 , x 5 , x 6 ) P(x)=\frac{1}{Z}\psi_{12}(x_1, x_2)\psi_{13}(x_1, x_3)\psi_{24}(x_2, x_4)\psi_{35}(x_3, x_5)\psi_{256}(x_2, x_5, x_6) P(x)=Z1ψ12(x1,x2)ψ13(x1,x3)ψ24(x2,x4)ψ35(x3,x5)ψ256(x2,x5,x6)

其中,势函数 ψ 256 ( x 2 , x 5 , x 6 ) \psi_{256}(x_2, x_5, x_6) ψ256(x2,x5,x6)定义在极大团 { x 2 . x 5 , x 6 } \{x_2. x_5, x_6\} {x2.x5,x6}上,由于它的存在,使我们不再需为团 { x 2 , x 5 } \{x_2, x_5\} {x2,x5} { x 2 , x 6 } \{x_2, x_6\} {x2,x6} { x 5 , x 6 } \{x_5, x_6\} {x5,x6}构建势函数。

在马尔可夫随机场中如何得到“条件独立性”呢?同样借助“分离”的概念,如下图所示,若从结点集 A A A中的结点到 B B B中的结点都必须经过结点集 C C C 中的结点,则称结点集 A A A B B B被结点集 C C C分离, C C C称为“分离集(Separating Set)。对马尔可夫随机场,有全局马尔可夫性(Global Markov Property),即给定两个变量子集的分离集,则这两个变量子集条件独立。如下图,若令 A A A B B B C C C对应的变量集分别为 x A x_A xA x B x_B xB x C x_C xC,则 x A x_A xA x B x_B xB在给定 x C x_C xC的条件下独立,记为: x A ⊥ x B ∣ x C x_A\bot x_B | x_C xAxBxC
深入理解机器学习——概率图模型(Probabilistic Graphical Model):马尔可夫随机场(Markov Random Field,MRF),深入理解机器学习,人工智能,隐马尔可夫模型,马尔可夫随机场,概率图模型
由全局马尔可夫性可得到两个很有用的推论:

  • 局部马尔可夫性(Local Markov Property):给定某变量的邻接变量,则该变量条件独立于其他变量。形式化地说,令 V V V为图的结点集, n ( v ) n(v) n(v)为结点 v v v在图上的邻接结点, n ∗ ( v ) = n ( v ) ∪ { v } n^*(v)=n(v)\cup \{v\} n(v)=n(v){v},则有 x v ⊥ x V \ n ∗ ( v ) ∣ n ( v ) x_v\bot x_{V\backslash n^*(v)} | n(v) xvxV\n(v)n(v)
  • 成对马尔可夫性(Pairwise Markov Property):给定所有其他变量,两个非邻接变量条件独立。形式化地说,令图的结点集和边集分别为 V V V E E E,对图中的两个结点 u u u v v v,若 < u , v > ∉ E <u, v>\notin E <u,v>/E,则 x u ⊥ x v ∣ x V \ < u , v > xu_\bot x_v | x_{V\backslash <u, v>} xuxvxV\<u,v>

深入理解机器学习——概率图模型(Probabilistic Graphical Model):马尔可夫随机场(Markov Random Field,MRF),深入理解机器学习,人工智能,隐马尔可夫模型,马尔可夫随机场,概率图模型

现在我们来考察马尔可夫随机场中的势函数,显然,势函数 ψ Q ( x Q ) \psi_Q(x_Q) ψQ(xQ)的作用是定量刻画变量集 x Q x_Q xQ中变量之间的相关关系,它应该是非负函数,且在所偏好的变量取值上有较大函数值,例如,假定上图的变量均为二值变量,若势函数为:
ψ A C ( x A , x C ) = { 1.5 , if x A = x C 0.1 , otherwise ψ B C ( x B , x C ) = { 0.2 , if x B = x C 1.3 , otherwise \psi_{AC}(x_A, x_C)=\left\{ \begin{aligned} 1.5, & \quad\text{if}\quad x_A = x_C \\ 0.1, & \quad\text{otherwise} \\ \end{aligned} \right.\\ \quad\\ \psi_{BC}(x_B, x_C)=\left\{ \begin{aligned} 0.2, & \quad\text{if}\quad x_B = x_C \\ 1.3, & \quad\text{otherwise} \\ \end{aligned} \right. ψAC(xA,xC)={1.5,0.1,ifxA=xCotherwiseψBC(xB,xC)={0.2,1.3,ifxB=xCotherwise
则说明该模型偏好变量 x A x_A xA x C x_C xC拥有相同的取值, x B x_B xB x C x_C xC拥有不同的取值;换言之,在该模型中 x A x_A xA x C x_C xC正相关, x B x_B xB x C x_C xC负相关。所以,令 x A x_A xA x C x_C xC相同且 x B x_B xB x C x_C xC不同的变量值指派将取得较高的联合概率,为了满足非负性,指数函数常被用于定义势函数,即:
ψ Q ( x Q ) = e − H Q ( x Q ) \psi_Q(x_Q)=e^{-H_Q(x_Q)} ψQ(xQ)=eHQ(xQ)

其中, H Q ( x Q ) H_Q(x_Q) HQ(xQ)是一个定义在变量 x Q x_Q xQ上的实值函数,常见形式为:
H Q ( x Q ) = ∑ u , v ∈ Q , u ≠ v α u v x u x v + ∑ v ∈ Q β v x v H_Q(x_Q)=\sum_{u,v\in Q,u\neq v}\alpha_{uv}x_ux_v+\sum_{v\in Q}\beta_vx_v HQ(xQ)=u,vQ,u=vαuvxuxv+vQβvxv

其中 α u v \alpha_{uv} αuv β v \beta_v βv是参数。上式中的第二项仅考虑单结点,第一项则考虑每一对结点的关系。

参考文献:
[1] 周志华. 机器学习[M]. 清华大学出版社, 2016.文章来源地址https://www.toymoban.com/news/detail-520304.html

到了这里,关于深入理解机器学习——概率图模型(Probabilistic Graphical Model):马尔可夫随机场(Markov Random Field,MRF)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习:BN层介绍及深入理解

    前言: BN在深度网络训练过程中是非常好用的trick,在笔试中也很常考,而之前只是大概知道它的作用,很多细节并不清楚,因此希望用这篇文章彻底解决揭开BN的面纱。 讲解BN之前,我们需要了解BN是怎么被提出的。在机器学习领域,数据分布是很重要的概念。如果训练集和

    2024年02月19日
    浏览(31)
  • 机器学习算法:UMAP 深入理解(通俗易懂!)

    UMAP 是 McInnes 等人开发的新算法。与 t-SNE 相比,它具有许多优势,最显着的是提高了计算速度并更好地保留了数据的全局结构。降维是机器学习从业者可视化和理解大型高维数据集的常用方法。最广泛使用的可视化技术之一是 t-SNE,但它的性能受到数据集规模的影响,并且正

    2024年02月16日
    浏览(39)
  • 七篇深入理解机器学习和深度学习的读物推荐

    在这篇文章中将介绍7篇机器学习和深度学习的论文或者图书出版物,这些内容都论文极大地影响了我对该领域的理解,如果你想深入了解机器学习的内容,哪么推荐阅读。 在自然语言处理和序列建模领域,Vaswani等人的一篇论文《Attention Is All You Need》彻底改变了这一领域。这

    2024年02月07日
    浏览(28)
  • 深入理解机器学习——关联规则挖掘:基础知识

    分类目录:《深入理解机器学习》总目录 许多商业企业在日复一日的运营中积聚了大量的数据。例如,食品商店的收银台每天都收集大量的顾客购物数据。下图给出一个这种数据的例子,通常称作购物篮事务(Market Basket Transaction)。表中每一行对应一个事务,包含一个唯一

    2024年02月10日
    浏览(31)
  • 深入理解机器学习——偏差(Bias)与方差(Variance)

    分类目录:《深入理解机器学习》总目录 偏差(Bias)与方差(Variance)是解释学习算法泛化性能的一种重要工具。偏差方差分解试图对学习算法的期望泛化错误率进行拆解,我们知道,算法在不同训练集上学得的结果很可能不同,即便这些训练集是来自同一个分布,对测试样

    2024年02月05日
    浏览(27)
  • 深入理解机器学习与极大似然之间的联系

    似然函数:事件A的发生含着有许多其它事件的发生。所以我就把这些其它事件发生的联合概率来作为事件A的概率,也就是似然函数。数据类型的不同(离散型和连续性)就有不同的似然函数 极大似然极大似然估计方法(Maximum Likelihood Estimate,MLE):那就是让这个似然函数的

    2024年02月13日
    浏览(39)
  • 深入理解机器学习——过拟合(Overfitting)与欠拟合(Underfitting)

    分类目录:《深入理解深度学习》总目录 机器学习的主要挑战是我们的算法必须能够在先前未观测的新输入上表现良好,而不只是在训练集上表现良好。在先前未观测到的输入上表现良好的能力被称为泛化(Generalization)。通常情况下,当我们训练机器学习模型时,我们可以

    2023年04月24日
    浏览(29)
  • 深入理解机器学习——数据预处理:归一化 (Normalization)与标准化 (Standardization)

    分类目录:《深入理解机器学习》总目录 归一化 (Normalization)和标准化 (Standardization)都是特征缩放的方法。特征缩放是机器学习预处理数据中最重要的步骤之一,可以加快梯度下降,也可以消除不同量纲之间的差异并提升模型精度。 归一化(Normalization)是将一组数据变

    2024年02月08日
    浏览(36)
  • 《深入理解计算机系统(CSAPP)》第3章 程序的机器级表示 - 学习笔记

    写在前面的话:此系列文章为笔者学习CSAPP时的个人笔记,分享出来与大家学习交流,目录大体与《深入理解计算机系统》书本一致。因是初次预习时写的笔记,在复习回看时发现部分内容存在一些小问题,因时间紧张来不及再次整理总结,希望读者理解。 《深入理解计算机

    2024年02月07日
    浏览(42)
  • 深入理解深度学习——BERT派生模型:ALBERT(A Lite BERT)

    分类目录:《深入理解深度学习》总目录 预训练语言模型的一个趋势是使用更大的模型配合更多的数据,以达到“大力出奇迹”的效果。随着模型规模的持续增大,单块GPU已经无法容纳整个预训练语言模型。为了解决这个问题,谷歌提出了ALBERT,该模型与BERT几乎没有区别,

    2024年02月10日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包