Retrieval-Augmented Multimodal Language Modeling

这篇具有很好参考价值的文章主要介绍了Retrieval-Augmented Multimodal Language Modeling。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列文章,针对《Retrieval-Augmented Multimodal Language Modeling》的翻译。

摘要

最近的多模态模型,如DALL-E和CM3,在文本到图像和图像到文本生成方面取得了显著进展。然而,这些模型将其所有知识(例如,埃菲尔铁塔的外观)存储在模型参数中,需要越来越大的模型和训练数据来获取更多的知识。为了以更具可扩展性和模块化的方式集成知识,我们提出了一种检索增强的多模态模型,该模型使基础多模态模型(生成器)能够引用检索器从外部存储器(例如,网络上的文档)中提取的相关文本和图像。具体来说,对于检索器,我们使用预训练的CLIP,对于生成器,我们在LAION数据集上训练CM3 Transformer。我们得到的模型名为Retrieval Augmented CM3(RA-CM3),是第一个可以检索和生成文本和图像的多模态模型。我们发现,RA-CM3在图像和字幕生成任务上显著优于基线多模态模型,如DALL-E和CM3(MS-COCO的12个FID和17个CIDEr改进),同时训练所需的计算量要少得多(<DALLE的30%)。此外,我们发现RA-CM3表现出了新的能力,如忠实的图像生成和多模态上下文学习(例如,从演示中生成图像)

1 引言

2 相关工作

3 方法

4 实验

5 定性结果

6 结论

我们提出了一种检索增强的多模态模型,该模型可以检索和引用用于生成图像和文本的外部存储器。具体来说,我们使用预训练的CLIP实现了一个多模态检索器,并使用CM3架构设计了一个检索增强生成器。我们得到的模型名为RA-CM3,在图像和字幕生成任务上都优于现有的多模态模型,同时需要更少的训练计算。此外,RA-CM3表现出新的能力,如知识密集型图像生成和多模态上下文学习。
这项工作旨在为多模态模型提供一个通用的模块化检索增强框架。我们相信这开辟了各种令人兴奋的研究途径,例如改进多模态检索器和生成器,将模态扩展到图像和文本之外,以及进一步研究多模态提示和上下文学习。文章来源地址https://www.toymoban.com/news/detail-663151.html

到了这里,关于Retrieval-Augmented Multimodal Language Modeling的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Decoupling Knowledge from Memorization: Retrieval-augmented Prompt Learning

    本文是LLM系列的文章,针对《Decoupling Knowledge from Memorization: Retrieval 提示学习方法在仍然遵循基于参数的学习范式的同时,通过诱导更好的小样本表现,在自然语言处理中掀起了波澜;学习中的遗忘和死记硬背问题可能会遇到不稳定的泛化问题。具体来说,在完全监督的训练

    2024年02月11日
    浏览(38)
  • 论文笔记:Retrieval-Augmented Generation forAI-Generated Content: A Survey

    北大202402的RAG综述 近年来,人们对人工智能生成内容(AIGC)的兴趣激增。各种内容生成工具已经精心设计,用于生产各种模态下的多样化对象 文本代码:大型语言模型(LLM),包括GPT系列和LLAMA系列 图像:DALL-E和Stable Diffusion 视频:Sora \\\"AIGC\\\"这一词强调内容是由高级生成模型

    2024年04月24日
    浏览(26)
  • RAG:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 论文阅读

    2020 NeuralPS 文章地址:https://arxiv.org/abs/2005.11401 源码地址:GitHub - huggingface/transformers: 🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.       - 142 RAG 目录 0、背景 1、摘要 2、导言       3、结论 4、模型 5、实验 6、与REALM比较 7、想法         Language Mod

    2024年02月05日
    浏览(31)
  • 论文阅读---Albert :Few-shot Learning with Retrieval Augmented Language Models

    增强语言模型 Augmented Language Models https://arxiv.org/abs/2208.03299 提前知识: BERT (Bidirectional Encoder Representations from Transformers)是一种预训练语言模型,它通过在大规模文本数据上进行预训练,学习文本的双向表示,并在多种NLP任务中展现出卓越的性能。BERT的双向性意味着它能够

    2024年04月23日
    浏览(26)
  • 【论文笔记】Active Retrieval Augmented Generation

    论文题目:Active Retrieval Augmented Generation 论文地址:Active Retrieval Augmented Generation - ACL Anthology 会议:EMNLP 2023 main (Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing) github 链接:jzbjyb/FLARE: Forward-Looking Active REtrieval-augmented generation (FLARE) (github.com) 笔记参考:

    2024年03月20日
    浏览(39)
  • Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (一)

    最近看了一个同事的几个视频。他总结的很好。在使用 LangChain 时,根据 LangChain 的官方文档 https://integrations.langchain.com/vectorstores,目前有三种方法可以进行使用:ElasticVectorSearch,ElasticsearchStore 及 ElasticKnnSearch。 我们从上面的 小红心 来看,Elasticsearch 无疑是最受欢迎的向量

    2024年02月03日
    浏览(31)
  • Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (四)

    这篇博客是之前文章: Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (一) Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (二) Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (三) 的续篇。在这篇文章中,我们将学

    2024年02月05日
    浏览(34)
  • Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (三)

    这是继之前文章: Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (一) Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (二) 的续篇。在今天的文章中,我将详述如何使用 ElasticsearchStore。这也是被推荐的使用方法。如果你还没有设置好

    2024年02月08日
    浏览(30)
  • Can We Edit Multimodal Large Language Models?

    本文是LLM系列文章,针对《Can We Edit Multimodal Large Language Models?》的翻译。 本文主要研究多模态大语言模型(Multimodal Large Language Models, mllm)的编辑。与编辑单模态LLM相比,编辑多模态模型更具挑战性,在编辑过程中需要更高水平的审查和仔细考虑。为了促进这一领域的研究,我

    2024年02月07日
    浏览(31)
  • A Survey on Multimodal Large Language Models

    本文是LLM系列的文章之一,主要是讲解多模态的LLM。针对《A Survey on Multimodal Large Language Models》的翻译。 多模态大语言模型(MLLM)是近年来兴起的一个新的研究热点,它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力,如基于图像写故事和无OCR的

    2024年02月12日
    浏览(82)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包