KILM: Knowledge Injection into Encoder-Decoder Language Models

这篇具有很好参考价值的文章主要介绍了KILM: Knowledge Injection into Encoder-Decoder Language Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列文章,针对《KILM: Knowledge Injection into Encoder-Decoder Language Models》的翻译。

摘要

大型预训练语言模型(PLMs)已被证明在其参数内保留隐含知识。为了增强这种隐性知识,我们提出了知识注入语言模型(KILM),这是一种通过持续预训练生成知识填充目标将实体相关知识注入编码器-解码器plm的新方法。这无需对plm进行架构修改或添加额外参数即可完成。在一系列知识密集型任务上的实验结果表明,KILM使模型能够在保留一般NLU和NLG任务的原始性能的同时保留更多的知识和更少的幻觉。KILM还在实体消歧等任务上展示了改进的零样本性能,优于具有30倍以上参数的最先进模型。

1 引言

2 相关工作

3 方法

4 实验

5 讨论

6 结论

在本文中,我们提出了一种新的方法,KILM,通过持续的预训练将实体相关知识注入大型plm。我们的方法提高了原始plm在知识密集型任务上的性能,特别是在零样本和小样本设置中,同时不会造成灾难性的后果原始plm中知识的遗忘。所提出的实体知识的独特结构能够灵活地探测不同背景下注入的知识。

局限性

在本文中,我们提出了一种持续预训练的方法,将知识注入到大型预训练的语言模型中。每次预训练实验使用8个V100 gpu,初级设置下,基本尺寸模型预训练5天,大尺寸模型预训练13天。在数据升级设置中,这些数字明显更大(大尺寸模型为30天)。尽管它在减少推理时间的资源需求方面具有优势,但在训练时间内,KILM既耗时又消耗计算资源。
与任何基于模型的生成系统类似,KILM可能容易生成关于实体的事实不正确的陈述。这些陈述也可能有基于种族、种族和性取向的偏见。文章来源地址https://www.toymoban.com/news/detail-722404.html

到了这里,关于KILM: Knowledge Injection into Encoder-Decoder Language Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Transformer系列(1)】encoder(编码器)和decoder(解码器)

    前言 这个专栏我们开始学习transformer,自推出以来transformer在深度学习中占有重要地位,不仅在NLP领域,在CV领域中也被广泛应用,尤其是2021年,transformer在CV领域可谓大杀四方。 在论文的学习之前,我们先来介绍一些专业术语。本篇就让我们先来认识一下encoder和decoder吧!

    2024年03月25日
    浏览(66)
  • transfomer中Decoder和Encoder的base_layer的源码实现

    本专栏主要是深度学习/自动驾驶相关的源码实现,获取全套代码请参考 Encoder和Decoder共同组成transfomer,分别对应图中左右浅绿色框内的部分. Encoder: 目的:将输入的特征图转换为一系列自注意力的输出。 工作原理:首先,通过卷积神经网络(CNN)提取输入图像的特征。然后,

    2024年01月18日
    浏览(55)
  • 论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS

    iclr 2024 spotlight  reviewer 评分 6668 在CV领域,很多Vision-language Model 会把来自图像的Embedding输入给LLM,并让LLM 作为Decoder 输出文字、类别、检测框等 但是在这些模型中,LLM并不会直接处理来自图像的Token,需要和语言进行交互才可以 ——论文探索的是:LLMs能否有效地直接处理完

    2024年04月13日
    浏览(39)
  • Large Language Models and Knowledge Graphs: Opportunities and Challenges

    本文是LLM系列的文章,针对《Large Language Models and Knowledge Graphs: Opportunities and Challenges》的翻译。 大型语言模型(LLM)已经席卷了知识表示和世界。这个拐点标志着从显式知识表示向重新关注显式知识和参数知识的混合表示的转变。在这篇立场文件中,我们将讨论社区内关于

    2024年02月10日
    浏览(44)
  • Unifying Large Language Models and Knowledge Graphs: A Roadmap

      知识图嵌入(KGE)旨在将每个实体和关系映射到一个低维向量(嵌入)空间中。这些嵌入包含KGs的语义和结构信息,可用于各种任务,如问答[182]、推理[38]和推荐[183]。传统的知识图嵌入方法主要依靠知识图的结构信息来优化嵌入上定义的评分函数(如TransE[25]和DisMult[184])。然而,

    2024年02月12日
    浏览(47)
  • Language Models as Knowledge Embeddings:语言模型用作知识嵌入 IJCAI 2022

    1)基于结构的知识嵌入 进一步分成基于翻译的模型和基于语义匹配的模型 基于翻译的模型采用基于距离的评分函数,TransE把实体和关系嵌入到一个维度为d的共享向量空间中;TransH,TransR,RotatE. 语义匹配模型采用基于相似性的评分函数,RESCAL,DistMult,CoKE. 2)基于描述的知识嵌入

    2024年02月07日
    浏览(47)
  • 【论文笔记】Unifying Large Language Models and Knowledge Graphs:A Roadmap

    (后续更新完善) 以往将KGs集成到大型语言模型的工作主要分为三个部分:1)将KGs集成到训练目标中,2)将KGs集成到LLM输入中,3)将KGs集成到附加的融合模块中。 2.1.1 Integrating KGs into Training Objective 这一类的研究工作集中在设计新的知识感知训练目标,一个直观的想法是在预训练

    2024年02月07日
    浏览(44)
  • Unifying Large Language Models and Knowledge Graphs: A Roadmap 论文阅读笔记

    NLP, LLM, Generative Pre-training, KGs, Roadmap, Bidirectional Reasoning LLMs are black models and can\\\'t capture and access factual knowledge. KGs are structured knowledge models that explicitly store rich factual knowledge. The combinations of KGs and LLMs have three frameworks,  KG-enhanced LLMs, pre-training and inference stages to provide external knowl

    2024年02月19日
    浏览(47)
  • Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

    原文链接: Making Large Language Models Perform Better in Knowledge Graph Completion 基于大语言模型(LLM)的知识图补全(KGC) 旨在利用 LLM 预测知识图谱中缺失的三元组 ,并丰富知识图谱,使其成为更好的网络基础设施,这可以使许多基于网络的自动化服务受益。然而,基于LLM的KGC研究有

    2024年01月23日
    浏览(48)
  • A Survey of Knowledge-Enhanced Pre-trained Language Models

    本文是LLM系列的文章,针对《A Survey of Knowledge-Enhanced Pre-trained Language Models》的翻译。 预训练语言模型(PLM)通过自监督学习方法在大文本语料库上进行训练,在自然语言处理(NLP)的各种任务中都取得了良好的性能。然而,尽管具有巨大参数的PLM可以有效地拥有从大量训练

    2024年02月09日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包