Language Models as Knowledge Embeddings:语言模型用作知识嵌入 IJCAI 2022

这篇具有很好参考价值的文章主要介绍了Language Models as Knowledge Embeddings:语言模型用作知识嵌入 IJCAI 2022。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.相关工作

1)基于结构的知识嵌入

进一步分成基于翻译的模型和基于语义匹配的模型
基于翻译的模型采用基于距离的评分函数,TransE把实体和关系嵌入到一个维度为d的共享向量空间中;TransH,TransR,RotatE.
语义匹配模型采用基于相似性的评分函数,RESCAL,DistMult,CoKE.

2)基于描述的知识嵌入

DKRL [Xie等人,2016]首先引入实体的描述,并通过卷积神经网络对其进行编码。
KEPLER [Wang等人,2019b]使用PLM作为编码器来派生基于描述的嵌入,并以KE和PLM的目标进行训练。
Pretrain-KGE [Zhang et al ., 2020b]提出了一种通用的基于描述的KE框架,该框架使用基于描述的嵌入初始化另一个可学习的KE,并在微调plm后丢弃plm以提高效率。
KGBERT [Yao等人,2019]将h, r, t的描述作为一个输入序列连接到plm,并通过序列嵌入对这三个序列进行评分。
StAR

2.LMKE模型

在本文中,我们提出了一个更好地将语言模型用作知识嵌入的方法LMKE(Language Models as Knowledge Embeddings),同时利用结构信息和文本信息。
Language Models as Knowledge Embeddings:语言模型用作知识嵌入 IJCAI 2022
Language Models as Knowledge Embeddings:语言模型用作知识嵌入 IJCAI 2022

嵌入完,要进行链接预测和三元组分类两个任务。三元组分类基于上面的p(u)可以进行。但链接预测需要预测出不完整实体的缺失实体,需要将候选实体(一般是所有实体)填入不完整三元组,并把相应的三元组打分,再对候选实体按照得分进行排序。但是上面的LMKE模型,这个流程的时间复杂度太高。
所以就有了下面的变体

为了让语言模型高效用于链接预测任务,一个简单的方式是不完整地编码三元组,而仅编码部分三元组。

MEM-KGC模型

MEM-KGC可以看作LMKE的masked变体,将待预测的缺失实体和其文本描述mask,并将相应的向量表示q输入一个线性层来预测缺失实体。
降低了时间复杂度,担忽略了待预测实体的文本信息,降低了文本信息的利用率。
提出了一个对比学习框架来更充分利用文本信息
在框架中,给定的实体-关系对被看作查询q,目标实体(缺失实体)被看作键k,通过匹配q和k进行对比学习。

3.C-LMKE模型(本文提出的模型)

C-LMKE是对比学习框架下的LMKE变体,
Language Models as Knowledge Embeddings:语言模型用作知识嵌入 IJCAI 2022
C-LMKE进行批次内的对比匹配,从而避免编码负样本带来的额外开销。
具体来说,对于batch中的第i个三元组,它的给定实体关系对q和目标实体k构成一个正样本,而同batch内其他三元组的目标实体k’与q构成负样本。
C-LMKE在训练和链接预测时的时间复杂度均显著优于现有基于文本的方法。
使用双层MLP(多层感知器)来计算q和k的匹配度,而不是使用对比学习中常用的余弦相似度,因为可能存在多个键匹配q。
如果k1和k2都匹配q,并且我们最大化(q, k1)和(q, k2)之间的相似性,(k1, k2)也会被强制相似,这是不可取的。因此,q与k匹配的概率为:

Language Models as Knowledge Embeddings:语言模型用作知识嵌入 IJCAI 2022
d_q和d_k是度数信息,对应实体在训练集中三元组个数
基于得分p(q, k),我们使用二元交叉熵作为损失函数进行训练,并参考RotatE中提出的自对抗负采样来提高难负样本的损失权重。
Language Models as Knowledge Embeddings:语言模型用作知识嵌入 IJCAI 2022文章来源地址https://www.toymoban.com/news/detail-470227.html

到了这里,关于Language Models as Knowledge Embeddings:语言模型用作知识嵌入 IJCAI 2022的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文笔记】Unifying Large Language Models and Knowledge Graphs:A Roadmap

    (后续更新完善) 以往将KGs集成到大型语言模型的工作主要分为三个部分:1)将KGs集成到训练目标中,2)将KGs集成到LLM输入中,3)将KGs集成到附加的融合模块中。 2.1.1 Integrating KGs into Training Objective 这一类的研究工作集中在设计新的知识感知训练目标,一个直观的想法是在预训练

    2024年02月07日
    浏览(43)
  • Unifying Large Language Models and Knowledge Graphs: A Roadmap 论文阅读笔记

    NLP, LLM, Generative Pre-training, KGs, Roadmap, Bidirectional Reasoning LLMs are black models and can\\\'t capture and access factual knowledge. KGs are structured knowledge models that explicitly store rich factual knowledge. The combinations of KGs and LLMs have three frameworks,  KG-enhanced LLMs, pre-training and inference stages to provide external knowl

    2024年02月19日
    浏览(46)
  • 文献阅读:Large Language Models as Optimizers

    文献阅读:Large Language Models as Optimizers 1. 文章简介 2. 方法介绍 1. OPRO框架说明 2. Demo验证 1. 线性回归问题 2. 旅行推销员问题(TSP问题) 3. Prompt Optimizer 3. 实验考察 结论 1. 实验设置 2. 基础实验结果 1. GSM8K 2. BBH 3. 泛化性 3. 消融实验 1. meta-prompt 2. 生成prompt的数目 3. 起始点 4.

    2024年01月19日
    浏览(42)
  • A Survey of Knowledge-Enhanced Pre-trained Language Models

    本文是LLM系列的文章,针对《A Survey of Knowledge-Enhanced Pre-trained Language Models》的翻译。 预训练语言模型(PLM)通过自监督学习方法在大文本语料库上进行训练,在自然语言处理(NLP)的各种任务中都取得了良好的性能。然而,尽管具有巨大参数的PLM可以有效地拥有从大量训练

    2024年02月09日
    浏览(39)
  • Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

    原文链接: Making Large Language Models Perform Better in Knowledge Graph Completion 基于大语言模型(LLM)的知识图补全(KGC) 旨在利用 LLM 预测知识图谱中缺失的三元组 ,并丰富知识图谱,使其成为更好的网络基础设施,这可以使许多基于网络的自动化服务受益。然而,基于LLM的KGC研究有

    2024年01月23日
    浏览(48)
  • A Survey on Knowledge-Enhanced Pre-trained Language Models

    自然语言处理(NLP)已经通过使用BERT等预训练语言模型(plm)发生了革命性的变化。尽管几乎在每个NLP任务中都创造了新的记录, 但plm仍然面临许多挑战,包括可解释性差,推理能力弱,以及在应用于下游任务时需要大量昂贵的注释数据。通过将外部知识集成到plm中,知识增强预

    2024年02月11日
    浏览(42)
  • 论文笔记:Large Language Models as Analogical Reasoners

    iclr 2024 reviewer打分5558 基于CoT prompt的大模型能够更好地解决复杂推理问题 然而传统CoT需要提供相关的例子作为指导,这就增加了人工标注的成本 ——Zero-shot CoT避免了人工标注来引导推理 但是对于一些复杂的任务难以完成推理,例如code generation ——论文提出一种“归纳学习

    2024年04月12日
    浏览(42)
  • Text-Augmented Open Knowledge Graph Completion viaPre-Trained Language Models

    开放知识图谱(KG)完成的任务是从已知的事实中得出新的发现。增加KG完成度的现有工作需要(1)事实三元组来扩大图推理空间,或(2)手动设计提示从预训练的语言模型(PLM)中提取知识,表现出有限的性能,需要专家付出昂贵的努力。为此,我们提出了 TAGREAL ,它自动生成高质量

    2024年02月13日
    浏览(40)
  • 大型语言模型(LLM, Large Language Models)基模和 Chat 模型之间的区别

    最近看大模型相关的知识,有看到大模型都有基础模型(base)和对话模型(chat),不太清楚什么时候用到基础模型,什么时候用到对话模型,故有此文。 通过了解,最简单的概述就是基于基础模型会训练出一个对话(Chat)模型,对话模型主要用于对话场景,基础模型主要做

    2024年02月21日
    浏览(39)
  • LLM预训练大型语言模型Pre-training large language models

    在上一个视频中,您被介绍到了生成性AI项目的生命周期。 如您所见,在您开始启动您的生成性AI应用的有趣部分之前,有几个步骤需要完成。一旦您确定了您的用例范围,并确定了您需要LLM在您的应用程序中的工作方式,您的下一步就是选择一个要使用的模型。 您首先的选

    2024年02月11日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包