Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training

这篇具有很好参考价值的文章主要介绍了Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文名称:REALM: Retrieval-Augmented Language Model Pre-Training
模型名称:Retrieval-Augmented Language Model pre-training (REALM)

本文是2020年ICML论文,作者来自谷歌,关注RAG+LLM。目标是解决纯用LM参数储存知识就得让LM尺寸越来越大+模块化+可解释。解决方案思路不复杂,就是从维百里找文章,加到输入里面做QA,预训练检索表征模块,在微调时隔好几步就重新更新一下检索表征。检索是可以更新的(可以在老数据上预训练,在新数据上做表征)

Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training,人工智能学习笔记,语言模型,人工智能,自然语言处理,RAG,LLM,REALM,NLP
这玩意也能端到端真是太牛逼了
retrieve-then-predict
从维百中检索知识(检索到文章),将原文和检索到的文本拼一起预训练

这个具体如何实现端到端训练其实我没太看懂,总之就是说想了个办法,这个检索文档的过程可以定义为Maximum Inner Product Search (MIPS)

下游任务是Open-QA,传统解决方案是从语料库中找出问题对应的原文(retrieval-based),或者直接生成(generation-based)

Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training,人工智能学习笔记,语言模型,人工智能,自然语言处理,RAG,LLM,REALM,NLP

1. REALM模块

  1. 预训练:MLM
    retrieve, then predict
    检索文档 z z z
    预测: p ( y ∣ z , x ) p(y|z,x) p(yz,x)
    Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training,人工智能学习笔记,语言模型,人工智能,自然语言处理,RAG,LLM,REALM,NLP
  2. 微调:Open-QA
  3. neural knowledge retriever:内积
    Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training,人工智能学习笔记,语言模型,人工智能,自然语言处理,RAG,LLM,REALM,NLP
    表征模型:BERT-style Transformers
    Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training,人工智能学习笔记,语言模型,人工智能,自然语言处理,RAG,LLM,REALM,NLP
    对[CLS]表征做线性转换降维:
    Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training,人工智能学习笔记,语言模型,人工智能,自然语言处理,RAG,LLM,REALM,NLP
    这玩意儿还专门分开表征标题和正文,真详细啊。
  4. knowledge-augmented encoder
    join x x x and z z z
    MLM预训练:
    Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training,人工智能学习笔记,语言模型,人工智能,自然语言处理,RAG,LLM,REALM,NLP
    微调时假设答案 y y y z z z 中的连续tokens。 S ( z , y ) S(z,y) S(z,y)是spans:
    Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training,人工智能学习笔记,语言模型,人工智能,自然语言处理,RAG,LLM,REALM,NLP
    所有span指向的可能性是加总
  5. 训练:最大似然
    简化在所有语料库文档上的求和→top k文档求和
    然后这里有一块我没看懂的MIPS,略,大概就是说需要经常重算 ( z ∣ x ) (z|x) (zx) 以简化计算balabala
    Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training,人工智能学习笔记,语言模型,人工智能,自然语言处理,RAG,LLM,REALM,NLP
    这个仅用于预训练,微调不更新知识库向量

数学分析看不懂,略。

  1. Injecting inductive biases into pre-training
    Salient span masking:mask那种需要world knowledge的span
    Null document:不用检索的时候就放个这个
    Prohibiting trivial retrievals:这个是考虑到有时给我们找到原句了,这不得行,所以在预训练时直接把这种情况给删了
    Initialization:这个主要是担心retriever的表征不好(冷启动问题): Inverse Cloze Task (ICT) 预测句子出处。knowledge-augmented encoder用BERT

2. 实验

数据集里面那个CuratedTrec有点怪啊

主实验结果:
Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training,人工智能学习笔记,语言模型,人工智能,自然语言处理,RAG,LLM,REALM,NLP

消融实验:
Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training,人工智能学习笔记,语言模型,人工智能,自然语言处理,RAG,LLM,REALM,NLP

Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training,人工智能学习笔记,语言模型,人工智能,自然语言处理,RAG,LLM,REALM,NLP

3. 其他

附录开篇上来就是数学公式,害怕。Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training,人工智能学习笔记,语言模型,人工智能,自然语言处理,RAG,LLM,REALM,NLP

附录还没看,如果以后有相关研究需求的话再来细看。文章来源地址https://www.toymoban.com/news/detail-758902.html

到了这里,关于Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文笔记:Retrieval-Augmented Generation forAI-Generated Content: A Survey

    北大202402的RAG综述 近年来,人们对人工智能生成内容(AIGC)的兴趣激增。各种内容生成工具已经精心设计,用于生产各种模态下的多样化对象 文本代码:大型语言模型(LLM),包括GPT系列和LLAMA系列 图像:DALL-E和Stable Diffusion 视频:Sora \\\"AIGC\\\"这一词强调内容是由高级生成模型

    2024年04月24日
    浏览(41)
  • RAG:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 论文阅读

    2020 NeuralPS 文章地址:https://arxiv.org/abs/2005.11401 源码地址:GitHub - huggingface/transformers: 🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.       - 142 RAG 目录 0、背景 1、摘要 2、导言       3、结论 4、模型 5、实验 6、与REALM比较 7、想法         Language Mod

    2024年02月05日
    浏览(41)
  • 论文阅读---Albert :Few-shot Learning with Retrieval Augmented Language Models

    增强语言模型 Augmented Language Models https://arxiv.org/abs/2208.03299 提前知识: BERT (Bidirectional Encoder Representations from Transformers)是一种预训练语言模型,它通过在大规模文本数据上进行预训练,学习文本的双向表示,并在多种NLP任务中展现出卓越的性能。BERT的双向性意味着它能够

    2024年04月23日
    浏览(41)
  • Decoupling Knowledge from Memorization: Retrieval-augmented Prompt Learning

    本文是LLM系列的文章,针对《Decoupling Knowledge from Memorization: Retrieval 提示学习方法在仍然遵循基于参数的学习范式的同时,通过诱导更好的小样本表现,在自然语言处理中掀起了波澜;学习中的遗忘和死记硬背问题可能会遇到不稳定的泛化问题。具体来说,在完全监督的训练

    2024年02月11日
    浏览(47)
  • 【论文笔记】Active Retrieval Augmented Generation

    论文题目:Active Retrieval Augmented Generation 论文地址:Active Retrieval Augmented Generation - ACL Anthology 会议:EMNLP 2023 main (Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing) github 链接:jzbjyb/FLARE: Forward-Looking Active REtrieval-augmented generation (FLARE) (github.com) 笔记参考:

    2024年03月20日
    浏览(55)
  • 论文阅读:Making Large Language Models A Better Foundation For Dense Retrieval

    论文链接 密集检索需要学习区分性文本嵌入来表示查询和文档之间的语义关系。考虑到大型语言模型在语义理解方面的强大能力,它可能受益于大型语言模型的使用。然而,LLM是由文本生成任务预先训练的,其工作模式与将文本表示为嵌入完全不同。因此,必须研究如何正确

    2024年01月21日
    浏览(61)
  • 跨模态检索论文阅读:Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可学习支柱的图像文本检索重排

    图像-文本检索旨在弥合模态鸿沟,根据语义相似性检索跨模态内容。之前的工作通常侧重于成对关系(即一个数据样本是否与另一个样本匹配),但忽略了高阶邻接关系(即多个数据样本之间的匹配结构)。重新排序是一种流行的后处理方法,它揭示了在单模态检索任务中捕

    2024年01月16日
    浏览(41)
  • Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (四)

    这篇博客是之前文章: Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (一) Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (二) Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (三) 的续篇。在这篇文章中,我们将学

    2024年02月05日
    浏览(49)
  • Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (三)

    这是继之前文章: Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (一) Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (二) 的续篇。在今天的文章中,我将详述如何使用 ElasticsearchStore。这也是被推荐的使用方法。如果你还没有设置好

    2024年02月08日
    浏览(45)
  • Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (一)

    最近看了一个同事的几个视频。他总结的很好。在使用 LangChain 时,根据 LangChain 的官方文档 https://integrations.langchain.com/vectorstores,目前有三种方法可以进行使用:ElasticVectorSearch,ElasticsearchStore 及 ElasticKnnSearch。 我们从上面的 小红心 来看,Elasticsearch 无疑是最受欢迎的向量

    2024年02月03日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包