RAG:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 论文阅读

这篇具有很好参考价值的文章主要介绍了RAG:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 论文阅读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

RAG:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 论文阅读,NLP,论文阅读

2020 NeuralPS

文章地址:https://arxiv.org/abs/2005.11401

源码地址:GitHub - huggingface/transformers: 🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.       - 142 RAG

目录

0、背景

1、摘要

2、导言      

3、结论

4、模型

5、实验

6、与REALM比较

7、想法


0、背景

        Language Models as Knowledge Bases?(LAMA)这篇论文作者认为现如今经过预训练之后的语言模型可以看做是一个知识库,但是也引来了模型的局限性:各种知识都隐藏在模型庞大的参数中, 并不知道知识如何获取到的,以及模型给出答案的理由。从这篇论文之后,NLP研究者们就开始致力于从增强模型的可解释性方面入手来提高模型的效果。本篇就是其中的一篇代表作。主要思路和2020.2发表的REALM很类似(在我的nlp专栏里有对REALM这篇文章的讲解)。

1、摘要

        很多参数知识存储在LLMs中的参数中(LAMA这篇文章证明),针对下游任务微调之后可以取得SOTA效果。但是这种方式具有一定的劣势:在Open-QA任务上,仍然还很欠缺,(语言模型还不能很好的获取精确知识)、给出的答案不具有可解释性,对于知识库无法实现实时更新的效果,不便于更新。论文提出RAG:参数化知识(BART预训练学到的知识) + 非参数化知识(维基百科的密集向量索引)结合的方式来解决这三类问题

2、导言      

现如今语言模型缺点

(1) 不能轻易扩展或修改“记忆”

(2) 模型给出的预测不具有可解释性

(3) 可能产生“幻觉”(幻觉的解释:生成了不可靠的文本,即一   本正经的胡说八道)。幻觉的官方定义:在给定的信息源下是无意义的,不可靠的

        综上,在当前的知识密集型任务的研究中,具有实用价值的模型基本都依赖于外部知识库。开放域问答系统(Open-domain QA)是最经典也最重要的知识密集型任务之一,目前的SOTA模型基本都包含两个模块:文档检索器和文档阅读器,前者负责检索重排和输入相关的文档,后者负责从这些文档中抽取或生成出答案片段。

3、结论

(1) 虽然可以直接从文档中抽取答案片段,但直接生成答案有一些额外的好处,比如有些文档并不直接包含整个答案,但包含答案的线索,这些线索就能帮助模型生成更正确的答案;

(2) 与REALM相比,RAG是参数化知识+非参数化知识的结合,所以即是检索不到有用的相关文档z,也可以单凭参数化的知识(BART),根据模型学到的知识回答出正确的答案;

(3)  RAG的灵活性很高。要改变预训练的语言模型所知道的内容,需要用新的文档对整个模型进行再训练。通过 RAG,我们可以通过交换知识检索所用的文档来控制它所知道的内容。

4、模型

RAG:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 论文阅读,NLP,论文阅读

(1) 检索器:DPR模型(Dense Passage Retriever), 用以检索和输入相关的文档,遵循双编码器结构。RAG:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 论文阅读,NLP,论文阅读RAG:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 论文阅读,NLP,论文阅读

 d(z)是Bert产生的文档的密集表示,q(x)也是经过BERT embedding之后产生的向量

使用DPR的预先训练的双编码器来初始化检索器并构建文档索引。这种检索器被训练来检索包含TriviaQA问题和自然问题的答案的文档。

检索器检索到的相关文档经过BERT embedding之后即非参数化知识。

(2) 生成器:seq2seq模型(使用预训练的BART-large作为生成模型),经过预训练已具备一定的参数知识的模型,将上面检索器得到的相关文档和输入一起进行处理,得到输出。

这里是将dz和qx简单拼接之后送入生成器中得到答案。

生成器使用预训练之后的BART即参数化知识。

5、实验

        在下面的实验中,模型使用的外部知识库均为2100万个Wikipedia文档,每个文档包含100个词。在训练之前,首先用文档编码器获取文档的稠密向量表示,然后利用FAISS构建MIPS索引实现文档的快速检索。作者在开放域问答(Open-domain QA)、摘要式问答(Abstractive QA)、开放域问题生成(Open-domain QG)和事实验证(Fact Verification)这四类知识密集型任务上测试了不同模型。

RAG:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 论文阅读,NLP,论文阅读

table 2第一列是开放域问题生成,第二列是摘要式问答,第三列是事实验证

关于实验的主要结论:

开放域问答:RAG在所有四个开放域QA任务上都实现了SOTA,与REALM和T5+SSM不同的是,RAG不需要昂贵的专门“salient span mask”预训练,依靠现成的组件,就可以获得强大的效果。RAG证明,对于最先进的机器阅读性能来说,重新排序器和提取阅读器都不是必需的。此外,虽然可以直接从文档中抽取答案片段,但直接生成答案有一些额外的好处,比如有些文档并不直接包含整个答案,但包含答案的线索,这些线索就能帮助模型生成更正确的答案,而这对抽取式模型来说是做不到的。
开放域问题生成:在引入了外部知识后,RAG模型的表现明显优于BART,证明了引入外部知识的有效性。在Table 3的人工评价中,RAG生成的问题更符合事实(factual),也更具体(specific),同样证明了引入外部知识的有效性。
在摘要式问答和事实验证任务中:由于模型没有使用任务数据集提供的外部知识文档(有些问题如果不使用任务数据集提供的外部知识文档就无法回答)且没有像SOTA模型一样进行针对文本检索结果的fine-fune,RAG能取得与SOTA模型接近的结果仍然是令人印象深刻的。​​​​​​​

RAG:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 论文阅读,NLP,论文阅读

        另外值得注意的是,作者发现在生成实体名的第一个token之后,外部文档对生成结果的贡献再次趋于平缓。这一观察结果表明,生成器无需依赖于特定的文档就可以完成实体生成。换句话说,模型的参数知识足以完成实体生成,文档信息仅仅起到了提示和引导的作用,因此整个RAG模型主要依靠的还是参数知识,而在生成实体时非参数知识才会起到作用。

6、与REALM比较

本篇文章(2020.6)和同年2月发表的REALM之间的区别

(1) 一个是生成式的任务(RAG),一个是抽取式的任务(REALM)。抽取式的弊端就是,如果检索不到问题q相关的文档z,那么模型将无法输出正确的答案。因为REALM输出答案都默认是从文档z中抽取出来的。但是RAG就解决了这个问题,即使没有正确答案,也能根据预训练好的BART生成正确答案。

(2) REALM在预训练期间需要实时更新文档索引,这会造成很大的开销。而RAG作者保持文档编码和索引固定不变,只微调查询编码器BERTq和BART生成器。

相同点

(1) 在检索部分都使用计算向量内积的方式计算相似度得分;

(2) 都使用维基百科作为外部知识库。

7、想法

1.研究模型中的两个组件是否可以从头开始联合预训练,无论是使用类似于BART的去噪目标还是其他目标,都可能是富有成效的;

2.参数记忆 + 非参数记忆如何相互作用以及如何最有效的组合他们开辟了新的研究方向,有望应用于各种NLP任务;

3.从某种程度上讲,这种将相关文档和问题拼接进行预测结果的方式有些类似于提示学习,有没有一种可能,这些相关文档可以替代我们人类给出的提示来提升LMs的效果。

 文章来源地址https://www.toymoban.com/news/detail-755511.html

到了这里,关于RAG:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 论文阅读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (一)

    最近看了一个同事的几个视频。他总结的很好。在使用 LangChain 时,根据 LangChain 的官方文档 https://integrations.langchain.com/vectorstores,目前有三种方法可以进行使用:ElasticVectorSearch,ElasticsearchStore 及 ElasticKnnSearch。 我们从上面的 小红心 来看,Elasticsearch 无疑是最受欢迎的向量

    2024年02月03日
    浏览(40)
  • Retrieval-Augmented Multimodal Language Modeling

    本文是LLM系列文章,针对《Retrieval-Augmented Multimodal Language Modeling》的翻译。 最近的多模态模型,如DALL-E和CM3,在文本到图像和图像到文本生成方面取得了显著进展。然而,这些模型将其所有知识(例如,埃菲尔铁塔的外观)存储在模型参数中,需要越来越大的模型和训练数据

    2024年02月12日
    浏览(42)
  • In-Context Retrieval-Augmented Language Models

    本文是LLM系列文章,针对《In-Context Retrieval-Augmented Language Models》的翻译。 检索增强语言建模(RALM)方法在生成过程中对基础语料库中的相关文档设置语言模型(LM),可以显著提高语言建模性能。此外,它们可以缓解事实上不准确的文本生成问题,并提供自然的来源归因机

    2024年02月10日
    浏览(49)
  • Decoupling Knowledge from Memorization: Retrieval-augmented Prompt Learning

    本文是LLM系列的文章,针对《Decoupling Knowledge from Memorization: Retrieval 提示学习方法在仍然遵循基于参数的学习范式的同时,通过诱导更好的小样本表现,在自然语言处理中掀起了波澜;学习中的遗忘和死记硬背问题可能会遇到不稳定的泛化问题。具体来说,在完全监督的训练

    2024年02月11日
    浏览(47)
  • 【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models

    原文地址:REPLUG: Retrieval-Augmented Black-Box Language Models 本文提出 REPLUG ,一个将语言模型视为黑盒检索增强的语言模型架构。在 REPLUG 中,仅将检索得到的文档拼接到原有输入前面即可,不需要像以前一样更新语言模型参数。该架构中可以通过更新检索器进一步提升性能。 给一

    2024年02月11日
    浏览(41)
  • 【论文笔记】Active Retrieval Augmented Generation

    论文题目:Active Retrieval Augmented Generation 论文地址:Active Retrieval Augmented Generation - ACL Anthology 会议:EMNLP 2023 main (Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing) github 链接:jzbjyb/FLARE: Forward-Looking Active REtrieval-augmented generation (FLARE) (github.com) 笔记参考:

    2024年03月20日
    浏览(55)
  • Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training

    诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类 论文名称:REALM: Retrieval-Augmented Language Model Pre-Training 模型名称:Retrieval-Augmented Language Model pre-training (REALM) 本文是2020年ICML论文,作者来自谷歌,关注RAG+LLM。目标是解决纯用LM参数储存知识就得让LM尺寸越来

    2024年02月04日
    浏览(45)
  • An Efficient Memory-Augmented Transformer for Knowledge-Intensive NLP Tasks

    本文是LLM系列文章,针对《An Efficient Memory-Augmented Transformer for Knowledge 获取外部知识对于许多自然语言处理任务至关重要,例如问答和对话。现有的方法通常依赖于将知识存储在其参数中的参数模型,或者使用可以访问外部知识源的检索增强模型。参数模型和检索增强模型在

    2024年02月09日
    浏览(43)
  • 论文阅读---Albert :Few-shot Learning with Retrieval Augmented Language Models

    增强语言模型 Augmented Language Models https://arxiv.org/abs/2208.03299 提前知识: BERT (Bidirectional Encoder Representations from Transformers)是一种预训练语言模型,它通过在大规模文本数据上进行预训练,学习文本的双向表示,并在多种NLP任务中展现出卓越的性能。BERT的双向性意味着它能够

    2024年04月23日
    浏览(41)
  • An Augmented Reality Approach for Teaching Electrical E

    作者:禅与计算机程序设计艺术 随着互联网、手机应用、AR技术的普及以及其他领域的应用飞速发展,数字绘图在工程应用中的地位越来越重要。但对于非计算机专业人员来说,对数字图像的理解仍然较为困难。因此,如何利用增强现实(AR)技术引导非计算机专业人员进行

    2024年02月07日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包