深入理解机器学习——概率图模型(Probabilistic Graphical Model):条件随机场(Conditional Random Field,CRF)

这篇具有很好参考价值的文章主要介绍了深入理解机器学习——概率图模型(Probabilistic Graphical Model):条件随机场(Conditional Random Field,CRF)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

分类目录:《深入理解机器学习》总目录


条件随机场(Conditional Random Field,CRF)是一种判别式无向图模型,在《概率图模型(Probabilistic Graphical Model):隐马尔可夫模型(Hidden Markov Model,HMM)》中提到过,生成式模型是直接对联合分布进行建模,而判别式模型则是对条件分布进行建模,《概率图模型(Probabilistic Graphical Model):隐马尔可夫模型(Hidden Markov Model,HMM)》和《概率图模型(Probabilistic Graphical Model):马尔可夫随机场(Markov Random Field,MRF)》介绍的隐马尔可夫模型和马尔可夫随机场都是生成式模型,而条件随机场则是判别式模型。

条件随机场试图对多个变量在给定观测值后的条件概率进行建模。具体来说,若令 x = { x 1 , x 2 , ⋯   , x n } x=\{x_1, x_2, \cdots, x_n\} x={x1,x2,,xn}为观测序列, y = { y 1 , y 2 , ⋯   , y n } y=\{y_1, y_2, \cdots, y_n\} y={y1,y2,,yn}为与之相应的标记序列,则条件随机场的目标是构建条件概率模型 P ( y ∣ x ) P(y|x) P(yx)。需注意的是,标记变量 y y y可以是结构型变量,即其分量之间具有某种相关性。例如在自然语言处理的词性标注任务中,观测数据为语句(即单词序列),标记为相应的词性序列,具有线性序列结构,如下左图所示;在语法分析任务中,输出标记则是语法树,具有树形结构,如下右图所示。
概率图模型条件随机场链图,深入理解机器学习,人工智能,条件随机场,CRF,马尔可夫随机场
G = ( V , E ) G=(V, E) G=(V,E)表示结点与标记变量 y y y中元素一一对应的无向图, y v y_v yv表示与结点 v v v对应的标记变量, n ( v ) n(v) n(v)表示结点的邻接结点,若图 G G G的每个变量 y v y_v yv功都满足马尔可夫性,即:
P ( y v ∣ x , y v \ { v } ) = P ( y v ∣ x , y n ( v ) ) P(y_v|x,y_{v\backslash\{v\}})=P(y_v|x, y_{n(v)}) P(yvx,yv\{v})=P(yvx,yn(v))

( y , x ) (y, x) (y,x)构成一个条件随机场。

理论上来说,图 G G G可具有任意结构,只要能表示标记变量之间的条件独立性关系即可。但在现实应用中,尤其是对标记序列建模时,最常用的仍是下图所示的链式结构,即“链式条件随机场”(Chain-structured CRF)。下面我们主要讨论这种条件随机场。
概率图模型条件随机场链图,深入理解机器学习,人工智能,条件随机场,CRF,马尔可夫随机场
与马尔可夫随机场定义联合概率的方式类似,条件随机场使用势函数和图结构上的团来定义条件概率 P ( y ∣ x ) P(y|x) P(yx)。给定观测序列 x x x,上图所示的链式条件随机场主要包含两种关于标记变量的团,即单个标记变量 { y i } \{y_i\} {yi}以及相邻的标记变量 { y i − 1 , y i } \{y_{i-1}, y_i\} {yi1,yi}。选择合适的势函数,即可得到条件概率定义,在条件随机场中,通过选用指数势函数并引入特征函数(Feature Function),条件概率被定义为:
P ( y ∣ x ) = 1 Z exp ⁡ ( ∑ j ∑ i = 1 n − 1 λ j t j ( y i + 1 , y i , x , i ) + ∑ k ∑ i = 1 n μ k s k ( y i , x , i ) ) P(y|x)=\frac{1}{Z}\exp(\sum_j\sum_{i=1}^{n-1}\lambda_jt_j(y_{i+1}, y_i, x, i)+\sum_k\sum_{i=1}^{n}\mu_ks_k(y_i, x, i)) P(yx)=Z1exp(ji=1n1λjtj(yi+1,yi,x,i)+ki=1nμksk(yi,x,i))

其中 t j ( y i + 1 , y i , x , i ) t_j(y_{i+1}, y_i, x, i) tj(yi+1,yi,x,i)是定义在观测序列的两个相邻标记位置上的转移特征函数(Transition Feature Function),用于刻画相邻标记变量之间的相关关系以及观测序列对它们的影响, s k ( y i , x , i ) s_k(y_i, x, i) sk(yi,x,i)是定义在观测序列的标记位置上的状态特征函数(Status Feature Function),用于刻画观测序列对标记变量的影响, λ j \lambda_j λj μ k \mu_k μk为参数, Z Z Z为规范化因子,用于确保上式是正确定义的概率。

显然,要使用条件随机场,还需定义合适的特征函数。特征函数通常是实值函数,以刻画数据的一些很可能成立或期望成立的经验特性,以词性标注任务为例,若采用转移特征函数:
t j ( y i + 1 , y i , x , i ) = { 1 , if  y i + 1 = [ P ] , y i = [ V ] , x i = "learning" 0 , otherwise t_j(y_{i+1}, y_i, x, i)=\left\{ \begin{aligned} 1 &,\text{if} \ y_{i+1}=[P], y_i=[V], x_i=\text{"learning"}\\ 0 &,\text{otherwise} \end{aligned} \right. tj(yi+1,yi,x,i)={10,if yi+1=[P],yi=[V],xi="learning",otherwise

则表示第 i i i个观测值 x x x为单词“learning”时,相应的标记 y i y_i yi y i + 1 y_{i+1} yi+1很可能分别为 V V V P P P。若采用状态特征函数:
s k ( y i , x , i ) = { 1 , if  y i = [ V ] , x i = "learning" 0 , otherwise s_k(y_i, x, i)=\left\{ \begin{aligned} 1 &,\text{if} \ y_i=[V], x_i=\text{"learning"}\\ 0 &,\text{otherwise} \end{aligned} \right. sk(yi,x,i)={10,if yi=[V],xi="learning",otherwise

则表示观测值 x i x_i xi为单词learning时,它所对应的标记很可能为 V V V

对比上面两个特征函数可以看出,条件随机场和马尔可夫随机场均使用团上的势函数定义概率,两者在形式上没有显著区别;但条件随机场处理的是条件概率,而马尔可夫随机场处理的是联合概率。

参考文献:
[1] 周志华. 机器学习[M]. 清华大学出版社, 2016.文章来源地址https://www.toymoban.com/news/detail-554449.html

到了这里,关于深入理解机器学习——概率图模型(Probabilistic Graphical Model):条件随机场(Conditional Random Field,CRF)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习算法:UMAP 深入理解(通俗易懂!)

    UMAP 是 McInnes 等人开发的新算法。与 t-SNE 相比,它具有许多优势,最显着的是提高了计算速度并更好地保留了数据的全局结构。降维是机器学习从业者可视化和理解大型高维数据集的常用方法。最广泛使用的可视化技术之一是 t-SNE,但它的性能受到数据集规模的影响,并且正

    2024年02月16日
    浏览(46)
  • 机器学习:BN层介绍及深入理解

    前言: BN在深度网络训练过程中是非常好用的trick,在笔试中也很常考,而之前只是大概知道它的作用,很多细节并不清楚,因此希望用这篇文章彻底解决揭开BN的面纱。 讲解BN之前,我们需要了解BN是怎么被提出的。在机器学习领域,数据分布是很重要的概念。如果训练集和

    2024年02月19日
    浏览(41)
  • 七篇深入理解机器学习和深度学习的读物推荐

    在这篇文章中将介绍7篇机器学习和深度学习的论文或者图书出版物,这些内容都论文极大地影响了我对该领域的理解,如果你想深入了解机器学习的内容,哪么推荐阅读。 在自然语言处理和序列建模领域,Vaswani等人的一篇论文《Attention Is All You Need》彻底改变了这一领域。这

    2024年02月07日
    浏览(39)
  • 深入理解机器学习——关联规则挖掘:基础知识

    分类目录:《深入理解机器学习》总目录 许多商业企业在日复一日的运营中积聚了大量的数据。例如,食品商店的收银台每天都收集大量的顾客购物数据。下图给出一个这种数据的例子,通常称作购物篮事务(Market Basket Transaction)。表中每一行对应一个事务,包含一个唯一

    2024年02月10日
    浏览(43)
  • 深入理解机器学习——偏差(Bias)与方差(Variance)

    分类目录:《深入理解机器学习》总目录 偏差(Bias)与方差(Variance)是解释学习算法泛化性能的一种重要工具。偏差方差分解试图对学习算法的期望泛化错误率进行拆解,我们知道,算法在不同训练集上学得的结果很可能不同,即便这些训练集是来自同一个分布,对测试样

    2024年02月05日
    浏览(33)
  • 深入理解机器学习与极大似然之间的联系

    似然函数:事件A的发生含着有许多其它事件的发生。所以我就把这些其它事件发生的联合概率来作为事件A的概率,也就是似然函数。数据类型的不同(离散型和连续性)就有不同的似然函数 极大似然极大似然估计方法(Maximum Likelihood Estimate,MLE):那就是让这个似然函数的

    2024年02月13日
    浏览(51)
  • 深入理解机器学习——过拟合(Overfitting)与欠拟合(Underfitting)

    分类目录:《深入理解深度学习》总目录 机器学习的主要挑战是我们的算法必须能够在先前未观测的新输入上表现良好,而不只是在训练集上表现良好。在先前未观测到的输入上表现良好的能力被称为泛化(Generalization)。通常情况下,当我们训练机器学习模型时,我们可以

    2023年04月24日
    浏览(36)
  • 《深入理解计算机系统(CSAPP)》第3章 程序的机器级表示 - 学习笔记

    写在前面的话:此系列文章为笔者学习CSAPP时的个人笔记,分享出来与大家学习交流,目录大体与《深入理解计算机系统》书本一致。因是初次预习时写的笔记,在复习回看时发现部分内容存在一些小问题,因时间紧张来不及再次整理总结,希望读者理解。 《深入理解计算机

    2024年02月07日
    浏览(58)
  • 深入理解机器学习——数据预处理:归一化 (Normalization)与标准化 (Standardization)

    分类目录:《深入理解机器学习》总目录 归一化 (Normalization)和标准化 (Standardization)都是特征缩放的方法。特征缩放是机器学习预处理数据中最重要的步骤之一,可以加快梯度下降,也可以消除不同量纲之间的差异并提升模型精度。 归一化(Normalization)是将一组数据变

    2024年02月08日
    浏览(42)
  • 深入理解深度学习——BERT派生模型:ALBERT(A Lite BERT)

    分类目录:《深入理解深度学习》总目录 预训练语言模型的一个趋势是使用更大的模型配合更多的数据,以达到“大力出奇迹”的效果。随着模型规模的持续增大,单块GPU已经无法容纳整个预训练语言模型。为了解决这个问题,谷歌提出了ALBERT,该模型与BERT几乎没有区别,

    2024年02月10日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包