KILM: Knowledge Injection into Encoder-Decoder Language Models

这篇具有很好参考价值的文章主要介绍了KILM: Knowledge Injection into Encoder-Decoder Language Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列文章，针对《KILM: Knowledge Injection into Encoder-Decoder Language Models》的翻译。

摘要

大型预训练语言模型(PLMs)已被证明在其参数内保留隐含知识。为了增强这种隐性知识，我们提出了知识注入语言模型(KILM)，这是一种通过持续预训练生成知识填充目标将实体相关知识注入编码器-解码器plm的新方法。这无需对plm进行架构修改或添加额外参数即可完成。在一系列知识密集型任务上的实验结果表明，KILM使模型能够在保留一般NLU和NLG任务的原始性能的同时保留更多的知识和更少的幻觉。KILM还在实体消歧等任务上展示了改进的零样本性能，优于具有30倍以上参数的最先进模型。

1 引言

2 相关工作

3 方法

4 实验

5 讨论

6 结论

在本文中，我们提出了一种新的方法，KILM，通过持续的预训练将实体相关知识注入大型plm。我们的方法提高了原始plm在知识密集型任务上的性能，特别是在零样本和小样本设置中，同时不会造成灾难性的后果原始plm中知识的遗忘。所提出的实体知识的独特结构能够灵活地探测不同背景下注入的知识。

局限性

在本文中，我们提出了一种持续预训练的方法，将知识注入到大型预训练的语言模型中。每次预训练实验使用8个V100 gpu，初级设置下，基本尺寸模型预训练5天，大尺寸模型预训练13天。在数据升级设置中，这些数字明显更大(大尺寸模型为30天)。尽管它在减少推理时间的资源需求方面具有优势，但在训练时间内，KILM既耗时又消耗计算资源。
与任何基于模型的生成系统类似，KILM可能容易生成关于实体的事实不正确的陈述。这些陈述也可能有基于种族、种族和性取向的偏见。文章来源地址https://www.toymoban.com/news/detail-722404.html

到了这里，关于KILM: Knowledge Injection into Encoder-Decoder Language Models的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！