【深度学习】关系抽取概念及相关论文解读

这篇具有很好参考价值的文章主要介绍了【深度学习】关系抽取概念及相关论文解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.信息抽取概述

        信息抽取是构建知识图谱的必要条件。知识图谱中以(subject,relation,object)三元组的形式表示数据。信息抽取分为两大部分,一部分是命名实体识别,识别出文本中的实体,另外就是关系抽取,对识别出来的实体构建对应的关系,两者便是构建三元组的基本组成。

2.关系抽取概述

        实体关系抽取(关系抽取)是构建知识图谱非常重要的一环,旨在识别实体之间的语义关系。关系抽取就是从非结构化文本(纯文本)中抽取实体关系三元组(SRO)。这里S代表头实体,R代表关系,O代表尾实体。如下图所示:第一句文本中,“刘翔”和“上海”两个实体之间的语义关系是“出生地”。 第二句文本中,“张艺谋”与“菊豆”两个实体之间的语义关系是“导演”

关系抽取,深度学习,知识图谱,人工智能

3.关系抽取方法

        当前关系抽取主要分为两大类,分别是传统的限定域关系抽取(传统关系抽取)和开放领域关系抽取。

3-1 开放域关系抽取(open domain)

        不再局限于一小部分提前已知的关系,关系类型不需要提前固定,而是去抽取文本当中各种各样的关系。 

3-2  限定域关系抽取(fixed domain)

        从非结构化文本中识别出一对实体概念和联系,这对实体以及关系构成的相关三元组。其schema确定后关系类型是固定的,有的关系不在提前定义好的schema中时,将无法抽取,不能抽取出新的关系。 限定域关系抽取方法分为两种,分别是:流水线学习方法(pipeline) 和联合学习方法

3-2-1 流水线学习方法(pipeline)

        通常先抽取句子中的实体,然后在对实体对进行关系分类,从而找出SRO三元组。

3-2-2 联合学习方法(joint)

        联合学习方法(joint)      联合学习方法同时进行实体识别和实体对的关系分类两个任务。联合学习方法由于考虑了两个子任务之间的信息交互,大大提升了实体关系抽取的效果,所以目前针对实体关系抽取任务的研究大多采用联合学习方法。

关系抽取,深度学习,知识图谱,人工智能关系抽取,深度学习,知识图谱,人工智能

        参数共享模型: 1.主体、客体和关系抽取不是同步的。 2.整个过程可以得到三个Loss值。整个模型的Loss是各个过程的Loss值和 。

        联合解码模型: 1.主体、客体和关系抽取同步进行,通过一个模型直接得出SRO三元组。

 4.关系抽取难点

 4-1  语言表述难点

       由于自然语言表达的多样性、灵活性,不同词汇可表达同一关系。 在文本中找不到明确的关系表示。同一词汇会有不同的关系。

关系抽取,深度学习,知识图谱,人工智能

 4-2 关系三元组重叠

关系抽取,深度学习,知识图谱,人工智能

 1.Normal

        没有重叠的部分

2.EPO(EntityPairOverlap)

        关系两端的实体都是一致的 。(《少林足球》,导演,周星驰) (《少林足球》,编剧,周星驰)

3.SEO(SingleEntityOverlap)

        关系两端有单个实体共享。 (刘翔,出生地,上海) (刘翔,出生时间,1983年7月13日) (阿尔弗雷德.阿德勒,出生地,奥地利) (阿尔弗雷德.阿德勒,出生地,维也纳)

5. 相关论文介绍

5-1 基于流水线模式关系抽取

        流水线学习方法是指在实体识别已经完成的基础上直接进行实体之间关系的抽取 。

5-1-1 《A frustratingly easy approach for entity and relation extraction》

  论文来源:  普林斯顿 NAACL 2021

  论文引用 :Zhong Z, Chen D. A frustratingly easy approach for entity and relation extraction[J]. arXiv preprint arXiv:2010.12812, 2020.                                                                

模型结构图

      关系抽取,深度学习,知识图谱,人工智能

方法解读 

两个编码器

        1.实体模型:  Span-level NER,提取所有可能的片段排列,通过SoftMax对每一个Span进行实体类型判断。 

        2.关系模型: 对所有的实体pair进行关系分类。将实体边界和类型作为标识符(typed marker)加入到实体Span前后,然后作为关系模型的input。对每个sub和obj的组合进行分类,预测各实体之间的关系。

巧妙改进:学习实体对之间的依赖关系

        S:Md和/S:Md:代表实体类型为Method的Subject,S是实体span的第一个token,/S是最后一个token; O:Md和/O:Md:代表实体类型为Method的Object,O是实体span的第一个token,/O是最后一个token;

5-2-2 《Packed Levitated Marker for Entity and Relation Extraction》

论文来源: 清华大学&微信团队ACL 2022

论文引用 :Ye D, Lin Y, Li P, et al. Packed Levitated Marker for Entity and Relation Extraction[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2022: 4904-4917.                                                              

额外知识:Span表征方式

关系抽取,深度学习,知识图谱,人工智能

  1.Solid Marker(固定标记)                           

        显式的在句子中的span前后插入两个marker。如果是关系抽取,就在subject span和object span前后分别插入。                                  

2.Levitated Marker(悬浮标记)

        悬浮标记全部置于句子外面。有利于嵌套实体表示;同时有利于计算加速。                                         3.Packed Levitated Marker  

        subject和object分别存在于句子内部和句子外部。subject存在于句子内部,object全部统一存放在句子外部。有利于凸显object的span之间的内在联系。                                               

模型架构图 

Step1: Entity 

关系抽取,深度学习,知识图谱,人工智能

 方法解读:

        通过枚举,列出所有的span 。1.设置span的最大长度 ; 2.设置pack的最大长度。将相邻的span的悬浮标记拼接在同一个样本里面

优点:

         1.面向邻居span的打包策略,以更好地建模实体边界信息,借用span之间的关系

Step2:Relation 

关系抽取,深度学习,知识图谱,人工智能

方法解读:

         对于一个句子,以及其中的subject span和它对应的object spans,构成一条训练样本,其中subject span采用固定标记,也就是在句子中span单词的前后直接插入[S]和[/S]两个标记,然后将它对应的候选Object span用悬浮标记的方式拼接在文本后面。 

优点:

        1.建模具有相同subject的跨度对之间的相互关系

5-2  联合解码模式关系抽取

5-2-1 《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》

论文来源: 中国科学研究院 ACL 2021

论文引用 :Zheng S, Wang F, Bao H, et al. Joint extraction of entities and relations based on a novel tagging scheme[J]. arXiv preprint arXiv:1706.05075, 2017.

模型架构图 

关系抽取,深度学习,知识图谱,人工智能

        CF 表示关系类型Company-Founder “1”和“2”分别表示被标注的单词属于当前关系类型的头实体和尾实体。   

方法解读 

创新点:采用新的标注方案

          1.首次采用序列标注的方法实现联合抽取,将联合提取任务转化为标记问题 。

         2. 在原有BIES(begin、inside、end、single)标注方案上进行了扩展,新的标注中融入了关系类型和实体在关系中的角色信息。 

5-3 基于联合模式关系抽取       

        本质上本质上是多任务学习,实体识别和关系抽取共享encoder,使用不同的decoder, 并构建联合loss训练优化。

5-3-1 《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》

论文来源: ACL 2016

论文引用 :Miwa M ,  Bansal M . End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures:, 10.18653/v1/P16-1105[P]. 2016.

模型架构图

关系抽取,深度学习,知识图谱,人工智能

方法解读 

属于联合关系抽取的开山之作,一共分为三个部分。

1.Embedding layer (word embeddings layer) ;

2.Sequence layer (word sequence based LSTM-RNN layer):用于实体检测;

3.Dependency layer (dependency subtreebased LSTM-RNN layer ):用于关系抽取。

        两个双向LSTM-RNN结构分别用于检测实体分类关系,它们是单独训练的,但是loss是加在一起同时进行反向传播和更新。 

5-3-2 《Span-based joint entity and relation extraction with transformer pre-training》

论文来源: ECAI 2020

论文引用 :Eberts M, Ulges A. Span-based joint entity and relation extraction with transformer pre-training[J]. arXiv preprint arXiv:1909.07755, 2019.

模型架构图

关系抽取,深度学习,知识图谱,人工智能

 方法解读

        模型共分为三个部分 1.span classification 2.Span Filtering 3.relation classification,共享Encoder span classification 和 Span Filtering层对实体进行筛选和识别,relation classification 进行关系抽取。

(1)实体分类,这里对实体进行分类,是一个softmax,但是考虑了实体的头尾,实体分类模型得到的是实体的类别和实体span,也就是文本中的那些字段是实体,模型的输入文本tokenizer, 实体span,实体mask,实体size 。

(2)对实体进行过滤span filter,对实体模型的结果进行过滤,保留有实体,根据保留的实体构建关系负样本。

(3)关系分类,输入是实体,实体间连续文本特征max-pooling,实体宽度矩阵,经过一个线性层,得到关系分类的结果。

5-3-3 《A Novel Cascade Binary Tagging Framework for Relational Triple Extraction》

论文来源: 吉林大学 ACL 2020

论文引用 : Wei Z ,  Su J ,  Wang Y , et al. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020.

模型架构图

关系抽取,深度学习,知识图谱,人工智能

方法解读 

Casrel共分为两个步骤:

        1.识别出句子中的subject

        2.根据subject识别出所有可能的relation和object

模型分为三个部分:

        1.BERT-based encoder module

        这部分的就是对句子编码,获取每个词的隐层表示,可以采用 BERT 的任意一层。另外这部分是可以替换的,例如用 LSTM 替换 BERT。

        2.subject tagging module

        目的是识别出句子中的 subject。这部分的主要作用是对 BERT Encoder 获取到的词的隐层表示解码。构建两个二分类分类器预测 subject 的 start 和 end 索引位置,对每一个词计算其作为 start 和 end 的一个概率,并根据某个阈值,大于则标记为1,否则标记为0

        (1)利用一个线性层➕一个sigmoid激活函数判断每个token是不是头实体的开始token或结束token;

        (2)利用最近匹配原则将识别到的start和end配对获得候选头实体集合。

关系抽取,深度学习,知识图谱,人工智能

        3.relation-specific object tagging module

        根据 subject,寻找可能的 relation 和 object。这部分会同时识别出 subject 的 relation 和相关的 object。 解码的时候比 Subject Tagger 不仅仅考虑了 BERT 编码的隐层向量, 还考虑了识别出来的 subject 特征。vsub 代表 subject 特征向量,若存在多个词,将其取向量平均,hn 代表 BERT 编码向量。 对于识别出来的每一个 subject, 对应的每一种关系会解码出其 object 的 start 和 end 索引位置,与 Subject Tagger 类似。

关系抽取,深度学习,知识图谱,人工智能

         对于第一个subject ,Jackie R. Brown,在关系 Birth_place 中识别出了两个 object,即 Washington 和 United States Of America,而在其他的关系中未曾识别出相应的 object。 对第二个subject, Washington 这个 subject 解码时,仅仅在 Capital_of 的关系中识别出 对应的 object: United States Of America。

公式解读

关系抽取,深度学习,知识图谱,人工智能

关系抽取,深度学习,知识图谱,人工智能

关系抽取,深度学习,知识图谱,人工智能

 6 总结

基本方法

先抽取实体、再抽取关系

联合抽取

优点

1.两个模型,灵活度高

2.实体模型和关系模型可以使用独立的数据集

1.统一使用给一个模型编码

2.两个任务的表征有交互

缺点

1.误差积累:实体抽取的错误会影响下一步关系抽取性能

2.交互缺失:忽略两个任务之间的联系和依赖关系

2.同一个模型需要更为复杂的结构或者是标注语料

2.统一编码器提取特征可能会使得模型学习混乱文章来源地址https://www.toymoban.com/news/detail-761086.html

到了这里,关于【深度学习】关系抽取概念及相关论文解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 知识图谱实战应用8-从文本关系抽取到知识图谱关系构建流程贯通

    大家好,我是微学AI,今天给大家介绍一下知识图谱实战应用8-从文本关系抽取到知识图谱关系构建流程贯通。我们从文本数据中采集到关键信息,并抽取出其中的关系信息,然后在存入图数据库中,整个过程实现自动化,我这里将举一个文本例子进行抽取。 对于知识图谱的

    2024年02月02日
    浏览(41)
  • 畸变矫正-深度学习相关论文学习

    目录 DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction SimFIR: A Simple Framework for Fisheye Image Rectification with Self-supervised Representation Learning Model-Free Distortion Rectification Framework Bridged by Distortion Distribution Map A Deep Ordinal Distortion Estimation Approach for Distortion Rectification Mul

    2024年02月01日
    浏览(40)
  • 基于深度学习的指针式仪表倾斜校正方法——论文解读

    中文论文题目:基于深度学习的指针式仪表倾斜校正方法 英文论文题目:Tilt Correction Method of Pointer Meter Based on Deep Learning 周登科、杨颖、朱杰、王库.基于深度学习的指针式仪表倾斜校正方法[J].计算机辅助设计与图形学学报, 2020, 32(12):9.DOI:10.3724/SP.J.1089.2020.18288.        针对仪

    2024年02月12日
    浏览(40)
  • 手把手教学构建农业知识图谱:农业领域的信息检索+智能问答,命名实体识别,关系抽取,实体关系查询

    项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域) :汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户更好利用 CSDN 平台,自主完成项目设计升级,提升自

    2024年02月12日
    浏览(48)
  • 深度学习相关知识点概念

    卷积神经网络(Convolutional Neural Network,CNN) 是一种专门用于处理和分析具有网格结构数据的人工神经网络。CNN主要应用于计算机视觉领域,用于图像识别、物体检测、图像分割等任务。 CNN的设计受到了生物视觉系统的启发,其主要特点是在网络中引入了卷积层(convolutiona

    2024年04月16日
    浏览(44)
  • 深度学习论文解读分享之diffGrad:一种卷积神经网络优化方法

    diffGrad: An Optimization Method for Convolutional Neural Networks Shiv Ram Dubey , Member, IEEE, Soumendu Chakraborty , Swalpa Kumar Roy , Student Member, IEEE, Snehasis Mukherjee, Member, IEEE, Satish Kumar Singh, Senior Member, IEEE, and Bidyut Baran Chaudhuri, Life Fellow, IEEE Adaptive moment estimation (Adam), difference of gradient, gradient descent,

    2024年01月17日
    浏览(48)
  • 基于机器学习/深度学习的时间序列分析相关论文

    Robust Time Series Analysis and Applications: An Industrial Perspective, in  KDD  2022. Time Series in Healthcare: Challenges and Solutions, in  AAAI  2022. [[Link]](https://www.vanderschaar-lab.com/time-series-in-healthcare/) Time Series Anomaly Detection: Tools, Techniques and Tricks, in  DASFAA  2022. [[Link]](https://www.dasfaa2022.org//tutorials/T

    2024年02月13日
    浏览(49)
  • [实体关系抽取|顶刊论文]OneRel:Relational Triple Extraction: One Step is Enough

    2022.5.11 |IJCAI-2022|华中科技大学|2022年SOTA| 原文链接 过去的步骤: 寻找头尾实体的边界位置(实体识别) 将特定令牌串联成三元组(关系分类) 存在误差累计问题,每个实体边界识别误差会累积到最终的组合三元组中 论文中的方法: 先通过枚举句子中的令牌序列生成

    2024年02月12日
    浏览(49)
  • 【读点论文】PICK Processing Key Information Extraction from Documents...实体关系抽取,从图像数据抽取具有自然语义信息的结构化数据

    关键信息抽取 (Key Information Extraction, KIE)指的是是从文本或者图像中,抽取出关键的信息。 针对文档图像的关键信息抽取任务作为OCR的下游任务 ,存在非常多的实际应用场景,如表单识别、车票信息抽取、身份证信息抽取等。然而,使用人力从这些文档图像中提取或者收集关

    2024年02月04日
    浏览(45)
  • 可信深度学习Trustworthy Deep Learning相关论文

    Survey An Overview of Catastrophic AI Risks. [paper] Connecting the Dots in Trustworthy Artificial Intelligence: From AI Principles, Ethics, and Key Requirements to Responsible AI Systems and Regulation. [paper] A Survey of Trustworthy Federated Learning with Perspectives on Security, Robustness, and Privacy. [paper] Adversarial Machine Learning: A Systemati

    2024年02月13日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包