论文浅尝 | SimKGC:基于预训练语言模型的简单对比知识图谱补全

这篇具有很好参考价值的文章主要介绍了论文浅尝 | SimKGC:基于预训练语言模型的简单对比知识图谱补全。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文浅尝 | SimKGC:基于预训练语言模型的简单对比知识图谱补全,语言模型,知识图谱,人工智能,自然语言处理

笔记整理:李雅新,天津大学硕士,研究方向为知识图谱补全

链接:https://dl.acm.org/doi/10.1145/3539597.3570483

动机

知识图谱补全 (KGC) 旨在对已知事实进行推理并推断缺失的链接。基于文本的方法从自然语言描述中学习实体表示,并且具有归纳KGC的潜力。然而,基于文本的方法的性能在很大程度上落后于基于图嵌入的方法,如TransE和RotatE。本文认为基于文本的方法的关键问题是进行有效的对比学习。为了提高学习效率,本文引入了三种类型的负采样: 批批内负采样、批前负采样和作为困难负样本的简单形式的自我负采样。结合InfoNCE损失,本文提出的模型SimKGC在多个基准数据集上的性能大大优于基于嵌入的方法。实验结果显示,在平均倒数秩(MRR)方面,本文的模型在WN18RR上比之前的SOTA模型提高了19%。

亮点

SimKGC的亮点主要包括:

(1)受对比学习的启发,引入三种类型的负采样来提升基于文本的KGC方法:批内负采样、批前负采样和自我负采样;

(2) 如果两个实体在知识图谱中通过一条短路径连接,两个实体更有可能相互关联。但是基于文本的KGC方法严重依赖语义匹配,而在一定程度上忽略了这种拓扑偏差,因此本文提出一种简单的重排策略,来缓解此类现象。

概念及模型

  • 问题定义

知识图谱G是有向图,其中E表示实体,每个边可以表示为三元组 (h,r,t),其中h,r和t分别对应头实体,关系和尾实体。KGC的链接预测任务是在给定不完整G的情况下推断丢失的三元组。在广泛采用的实体排名评估协议下,尾实体预测 (h,r,?) 要求对给定h和r的所有实体进行排名,头实体预测 (?,r,t)与之类似。在本文中,对于每个三元组 (h,r,t),我们添加一个逆三元组 (t,r − 1,h),其中r − 1是r的逆关系。基于这样的重构,本文只需要处理尾部实体预测问题。

  • 模型架构

SimKGC采用双编码器结构,使用相同的预训练模型初始化两个编码器但不共享参数。

给定一个三元组(h,r,t),第一个编码器BERT_hr用于计算头实体h的关系感知嵌入,本文不是直接使用第一个token的隐藏状态,而是使用均值池化和L2归一化来获得关系感知的嵌入ehr。类似地,第二编码器BERTt用于计算尾部实体t的嵌入et,BERTt的输入仅由实体t的文本描述组成。然后计算余弦相似度cos(ehr,et)

论文浅尝 | SimKGC:基于预训练语言模型的简单对比知识图谱补全,语言模型,知识图谱,人工智能,自然语言处理

对于尾部实体预测 (h,r,?),计算ehr与E中所有实体之间的余弦相似性,并预测得分最大的实体:

论文浅尝 | SimKGC:基于预训练语言模型的简单对比知识图谱补全,语言模型,知识图谱,人工智能,自然语言处理

  • 负样本

本文提出了三种负采样方法来提高训练效率。

批内负采样(IB):这是在视觉表征学习和密集文本检索等方面被广泛采用的策略。 同一批中的实体可以用作负样本。这种批内负样本允许双编码器模型有效重用实体嵌入。

批前负采样(PB):批内负采样的缺点是负采样的数量与批次大小相关。批前负采样使用来自先前批次的实体嵌入。由于这些嵌入是用前几轮训练的模型参数计算的,所以它们与批内负采样不一致。通常只使用1或2个前批次。

自负采样(SN):除了增加负样本的数量外,挖掘困难负样本对于改进对比表示学习也很重要。对于尾部实体预测 (h,r,?),基于文本的方法倾向于为头部实体h分配高分,这可能是因为文本重叠程度较高。为了缓解这个问题,本文提出了使用头部实体h困难负采样的自负样本。引入自我负样本可以减少模型对虚假文本匹配的依赖。

在训练过程中,将假阴性的样本去除,负样本集合可表示为:

论文浅尝 | SimKGC:基于预训练语言模型的简单对比知识图谱补全,语言模型,知识图谱,人工智能,自然语言处理

  • 基于图的重排策略

知识图谱通常具有空间局限性,与距离较远的实体相比,附近的实体更有可能相关。基于文本的方法擅于捕获语义相关性但无法捕获这种偏差,本文提出一种简单的重排策略:如果ti位于头部实体h的k-hop邻居Ek(h) 中,则根据训练集中的图将候选尾部实体ti的得分提高 α ≥ 0:

论文浅尝 | SimKGC:基于预训练语言模型的简单对比知识图谱补全,语言模型,知识图谱,人工智能,自然语言处理

  • 损失

在训练过程中,使用具有附加余量的InfoNCE损失

论文浅尝 | SimKGC:基于预训练语言模型的简单对比知识图谱补全,语言模型,知识图谱,人工智能,自然语言处理

实验

本文使用的四个数据集如下所示:

论文浅尝 | SimKGC:基于预训练语言模型的简单对比知识图谱补全,语言模型,知识图谱,人工智能,自然语言处理

实验结果如下所示,本文提出的模型SimKGCIB + PB + SN在WN18RR、Wikidata5M-Trans和Wikidata5M-Ind数据集上的性能大大优于现有方法,但在FB15k-237数据集上略有落后 (MRR 33.6% vs 35.8%)。实验结果显示,仅使用批内负采样,SimKGC的表现就已经十分优异。

添加自负样本对于具有归纳设置的wikidata5m数据集很有帮助,MRR从60.3% 上升到71.3%。对于归纳KGC,基于文本的模型更依赖文本匹配。自负样本可以阻止模型简单地预测给定的头部实体。

论文浅尝 | SimKGC:基于预训练语言模型的简单对比知识图谱补全,语言模型,知识图谱,人工智能,自然语言处理

论文浅尝 | SimKGC:基于预训练语言模型的简单对比知识图谱补全,语言模型,知识图谱,人工智能,自然语言处理

总结

本文提出了一种简单的SimKGC方法来改进基于文本的知识图谱补全。本文认为基于文本的知识图谱补全的关键问题是如何进行有效的对比学习。利用对比学习领域的最新进展,SimKGC采用了双编码器体系结构,并结合了三种负采样策略。在WN18RR,FB15k-237和Wikidata5M数据集上的实验表明,SimKGC的性能大大优于SOAT的方法。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。
文章来源地址https://www.toymoban.com/news/detail-516527.html

到了这里,关于论文浅尝 | SimKGC:基于预训练语言模型的简单对比知识图谱补全的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文浅尝 | 记忆力强还是健忘?深入探究语言模型的知识记忆机制

    笔记整理:方润楠,浙江大学硕士,研究方向为自然语言处理 链接:https://arxiv.org/abs/2305.09144 摘要 近年来,大规模预训练语言模型展示出惊人的记忆能力,相比之下,未经预训练的普通神经网络存在着灾难性遗忘的问题。为了研究这种记忆与遗忘出现的原因,并探求语言模

    2024年01月18日
    浏览(42)
  • 多模态模型学习1——CLIP对比学习 语言-图像预训练模型

    学了一些多模态的知识,CLIP算是其中最重要也是最通用的一环,一起来看一下吧。 CLIP的全称是Contrastive Language-Image Pre-Training,中文是对比语言-图像预训练,是一个预训练模型,简称为CLIP。 该模型是 OpenAI 在 2021 年发布的,最初用于匹配图像和文本的预训练神经网络模型,

    2023年04月13日
    浏览(56)
  • 论文浅尝 | 预训练Transformer用于跨领域知识图谱补全

    笔记整理:汪俊杰,浙江大学硕士,研究方向为知识图谱 链接:https://arxiv.org/pdf/2303.15682.pdf 动机 传统的直推式(tranductive)或者归纳式(inductive)的知识图谱补全(KGC)模型都关注于域内(in-domain)数据,而比较少关注模型在不同领域KG之间的迁移能力。随着NLP领域中迁移学习的成功,

    2024年02月15日
    浏览(46)
  • SCIBERT论文阅读(预训练语言模型 - 科学文本)

    【论文基本信息】 标题:SCIBERT: A Pretrained Language Model for Scientific Text 来源:EMNLP 2019(CCF推荐国际学术会议-人工智能-B类) 作者:Allen Institute for Artificial Intelligence, Seattle 原文:https://arxiv.org/abs/1903.10676 报告时间:2022年11月 为科学领域的自然语言处理任务获取大规模带标注的

    2024年02月06日
    浏览(39)
  • 论文浅尝 | 面向多步推理任务专业化较小语言模型

    笔记整理:张沈昱,东南大学硕士,研究方向为自然语言处理 链接:https://github.com/FranxYao/FlanT5-CoT-Specialization 动机 本文的动机是探索如何在多步推理任务中通过大型语言模型提升较小的语言模型的性能。作者认为,大型语言模型模型(如GPT-3.5系列模型)虽然具有强大的建模

    2024年02月13日
    浏览(33)
  • 论文浅尝 | SpCQL: 一个自然语言转换Cypher的语义解析数据集

    笔记整理:郭爱博,国防科技大学博士 论文发表会议:The 31th ACM International Conference on Information and Knowledge Management,CIKM 2022 动机 随着社交、电子商务、金融等行业的快速发展,现实世界编织出一张庞大而复杂的网络。然而,图(或网络)数据难以管理和挖掘,特别是对于经

    2024年02月12日
    浏览(147)
  • 强化学习在生成式预训练语言模型中的研究现状简单调研

    本文旨在深入探讨强化学习在生成式预训练语言模型中的应用,特别是在对齐优化、提示词优化和经验记忆增强提示词等方面的具体实践。通过对现有研究的综述,我们将揭示强化学习在提高生成式语言模型性能和人类对话交互的关键作用。虽然这些应用展示了巨大的潜力,

    2024年01月20日
    浏览(47)
  • 《Training language models to follow instructions》论文解读--训练语言模型遵循人类反馈的指令

    目录 1摘要 2介绍 方法及实验细节 3.1高层次方法论 3.2数据集 3.3任务 3.4人体数据收集  3.5模型 3.6评价 4 结果 4.1 API分布结果 4.2公共NLP数据集的结果 4.3定性结果 问题 1.什么是rm分数 更多资料 使语言模型更大并不能使它们更好地遵循用户的意图。例如,大型语言模型可能生成不

    2024年01月24日
    浏览(51)
  • 【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning)

    论文链接: Continual Learning with Pre-Trained Models: A Survey 代码链接: Github: LAMDA-PILOT 持续学习 (Continual Learning, CL)旨在使模型在学习新知识的同时能够保留原来的知识信息了,然而现实任务中,模型并不能很好地保留原始信息,这也就是常说的 灾害性遗忘 (Catastrophic forgetting)

    2024年04月26日
    浏览(48)
  • 深入浅出对话系统——基于预训练语言模型的对话管理

    主要讲解三篇论文,主要思想是把自然语言理解、对话管理和自然语言生成三部分整合到一起。 数据集 CamRest676 MultiWOZ 都是用的自回归语言模型 causal GPT-2、Transformer Decoder 一个概念:delexicalization 通过相应的占位符替换特定的槽值 占位符作为特定的token,不关心具体的取值

    2024年02月16日
    浏览(74)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包