斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝

这篇具有很好参考价值的文章主要介绍了斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原文链接:https://www.techbeat.net/article-info?id=4403
作者:seven_

斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝

论文链接:
https://arxiv.org/abs/2211.12561

相信目前很多AI大模型研究者都会遇到一个非常困难的问题,那就是很难控制的模型参数和容量,由于参与模型训练的数据量非常庞大,如果模型参数太少会导致过拟合,参数量过大又会影响实用性。最近比较热门的很多多模态模型,例如DALL-E和CM3等文本图像生成模型,都有类似的问题,这些模型将从海量数据中学习到的知识(往往是物体的外观信息)存储在模型参数中,这无疑都增加了模型后期的扩展和部署成本。除此之外,目前AI生成领域另一个非常棘手的问题是,当模型在面对一个非常具体、但是在训练阶段从未见到过的文本提示时,生成效果可能不够精确,例如给定模型一段文字“French flag waving on the moon’s surface(法国国旗在月球表面飘扬)”,使用CM3和Stable Diffusion生成的效果如下:
斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝
很滑稽,模型居然把硬生生的把法国国旗换成了美国国旗,这是一个非常典型的zero-shot生成错误现象。为了解决这些问题,来自斯坦福大学,Meta AI和华盛顿大学的研究者们提出了一个非常巧妙的方案。他们提出了一种基于检索增强的(Retrieval-Augmented)多模态模型RA-CM3,其包含了一个信息检索框架来从外部存储库中获取知识,具体来说,作者首先使用预训练的CLIP模型来实现一个检索器(retriever),然后使用CM3 Transformer架构来构成一个生成器(generator),其中检索器用来辅助模型从外部存储库中搜索有关于当前提示文本中的精确信息,然后将该信息连同文本送入到生成器中进行图像合成,这样设计的模型就不会出现上面这种非常低级的错误了,下面展示了使用本文提出的RA-CM3生成的效果:
斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝
除了展示最终的生成效果之外,作者还将RA-CM3检索到的法国国旗信息一并展示。作者经过一系列的实验证明,RA-CM3在图像和文本生成任务上明显优于目前其他先进的多模态模型,如DALL-E和CM3,(在MSCOCO上提高了12FID和17CIDEr),同时其所需的训练计算量和计算代价也有大幅度降低(小于DALL-E的30%)。

一、引言

作者首先调研了其他图像文本合成方面的多模态模型,例如DALL-E[1]和Parti[2],这些模型的训练往往需要超大规模的训练数据量(1-10B图像)和可学习参数量(10-80B)来涵盖更丰富的知识。但这其实也是这些大模型目前所遇到的一个性能瓶颈,如果希望这些模型能够随着训练的不断进行而达到一种终生学习的效果,那考虑在模型中加入访问外部存储库应该是目前一个比较明智的做法。并且这种做法对于涉及独特实体知识的任务时会更有用,例如上面所列举的“法国国旗在月球表面飘扬”的例子,参考外部知识库可以帮助模型提高生成的准确性和可解释性

此外,本文作者在设计模型时还加入了检索增强技术,该技术其实在自然语言理解领域已有应用,例如给定一段输入文本,模型可以使用一个检索器,从外部知识库中检索相关文件,并让生成器使用检索到的文件来进行更好的预测。然而,这些检索增强的方法主要是针对文本研究的,将它们扩展到多模态环境仍然是一个具有挑战性的开放性问题。作者调研了一些在多模态领域研究数据检索增强的方法,但是这些工作的生成器都局限于单一的模式,要么是文本生成,要么是图像生成,如下表所示:
斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝
在本文中,作者提出了目前第一个利用检索增强技术的多模态模型RA-CM3,它可以同时检索和生成文本和图像。RA-CM3的输入数据和外部存储器由一组多模态文件组成,其中包含图像和文本的混合数据。为了应对这些输入数据,作者使用预训练的CLIP作为多模态编码器,然后基于CM3架构[3]设计了检索增强的生成器,其本质上是一个能够同时生成文本和图像的Transformer序列模型。在模型的具体操作中,作者将检索到的文件作为主输入文件的上下文信息,并通过联合优化主文件和检索到的文件的token预测损失来训练生成器。

二、本文方法

RA-CM3模型主要由三个核心模块构成:检索器(retriever),外部存储(memory)和生成器(generator)。整体框架图如下图所示。RA-CM3是一种可以同时检索和生成文本和图像混合模态的新架构。给定模型一个输入的多模态文件,RA-CM3先使用检索器从外部存储器中检索相关的多模态文件,送入生成器中来对输入文件进行预测。作者将多模态检索器设计成一个密集的、具有混合模态编码特性的检索器,可以对文本和图像的混合文件进行编码。随后基于CM3 Transformer架构构建了一个检索增强的生成器用来合成准确的图像。下面我们将详细介绍这些模块的主要技术细节。
斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝

2.1 预定义

RA-CM3框架由检索器模块 R R R 和生成器模块 G G G 组成。其中检索模块 R R R 将输入序列 x x x 和外部存储器中的文档 M M M 作为输入,并返回检索目标文档列表 M ⊆ M M \subseteq M MM。随后生成器 G G G 将输入序列 x x x 和检索到的文档 M = ( m 1 , … , m K ) M=\left(m_{1}, \ldots, m_{K}\right) M=(m1,,mK) 合并作为输入,并返回生成目标 y y y,其中 y y y 是传统语言建模任务中单独文本生成 x x x 的延续。

2.2 多模态检索

上文提到,RA-CM3的检索器设计为密集编码型检索器,在实际操作时,检索器 r r r 首先从外部存储 M M M 中获取查询 q q q(例如,输入序列 x)和相关文档 m m m,并返回相关性分数 r ( q , m ) r(q, m) r(q,m) ,操作过程可以形式化表示如下:
斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝
其中,查询编码器 E Q E_{Q} EQ 和存储编码器 E M E_{M} EM 分别为查询和存储文件产生密集向量(如下图所示)。由于这里的输入和存储数据均为多模态文件,因此 E Q E_{Q} EQ E M E_{M} EM 必须是混合模态编码器,才可以对文本和图像同时进行混合编码。作者通过实验表明,这里直接采用CLIP作为混合编码器可以获得非常好的效果。
斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝
具体来说,给定一个多模态文档,首先将其分成文本部分和图像部分,用预训练的CLIP文本和图像编码器分别对这两部分进行编码,然后对这两部分进行融合并执行规范化,作为文档的向量表示。随后在存储模块中执行最大内积搜索并按照相关性得分对候选文档列表进行排序,最终从这个列表中选取 K K K 个最接近的检索文档。此外作者还发现保证检索文档的多样性对最终的生成效果至关重要。如果简单地根据相关性得分从文档列表中抽样或取前 K K K 个文件可能会得到重复或高度相似的图像或文本,从而导致生成器性能不佳。因此在获取文档时还需要将其与已检索到的文档计算相似性来排除冗余的文件。

2.3 多模态生成

RA-CM3的生成器遵循CM3 Transformer架构,为了将检索到的文档 M = ( m 1 , … , m K ) M=\left(m_{1}, \ldots, m_{K}\right) M=(m1,,mK) 合理的送入到生成器中,作者将它们添加到主输入序列 x x x 之前,得到一个整体输入序列 ( m 1 , … , m K , x ) \left(m_{1}, \ldots, m_{K}, x\right) (m1,,mK,x),我们可以将其理解为:检索到的文档 M = ( m 1 , … , m K ) M=\left(m_{1}, \ldots, m_{K}\right) M=(m1,,mK) 是主输入序列 x x x 的上下文示例,如下图所示:
斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝
为了训练生成器,作者迭代优化下面的目标函数:
斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝
其中 L main  L_{\text {main }} Lmain  L retr L_{\text{retr}} Lretr 分别是主输入序列 x x x 和检索到的文档 ( m 1 , … , m K ) \left(m_{1}, \ldots, m_{K}\right) (m1,,mK) 的CM3 token预测损失。相比之前方法只优化主序列 L main  L_{\text {main }} Lmain ,这里作者同时优化主序列和检索序列的token,有效提高了模型的训练效率。

三、实验结果

为了验证本文提出的RA-CM3模型,作者先在LAION多模态数据集上训练模型,随后在MS-COCO上进行图像文本合成任务评估,评估任务主要包括文本到图像生成(Caption-to-image)、图像到文本生成(Image-to-caption)和图像填充和编辑(Image infilling and editing)

3.1 文本到图像生成

下表显示了RA-CM3在文本到图像生成任务上的性能对比。评价指标选用FID,一般来说,FID越低图像生成质量越好。本文的RA-CM3在没有微调的情况下获得了16的FID分数,显着优于无检索机制的基线CM3模型(FID 29)和其他模型,例如参数规模比RA-CM3大3倍的DALL-E(FID 28)。这表明检索增强机制可以有效提升模型在图像生成方面的性能
斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝
为了同时考虑训练效率,作者在下图中可视化了RA-CM3模型与其他基线模型的图像生成训练性能对比,其中y轴表示图像合成质量的FID分数,x轴表示模型训练中使用的计算量。可以发现,RA-CM3明显位于其他模型关系线的下方,这表明,RA-CM3可以使用更少的训练计算量来获得更好的FID分数,其拥有更好的训练效率
斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝

3.2 图像到文本生成

下表显示了RA-CM3在没有微调的情况下在图像到文本生成任务上的性能对比。评价指标选用CIDEr分数,该分数越高表示生成效果越好。RA-CM3的CIDEr得分为89,显着优于无检索机制的基线CM3模型(CIDEr 72)。此外,RA-CM3还明显优于其他参数量更庞大的对比模型。这些结果证实RA-CM3可以很好地执行图像到文本生成任务,可以完成较为统一的多模态生成任务。
斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝

3.3 图像填充和编辑

因为RA-CM3模型建立在CM3之上,因此其天然可以执行图像填充和编辑任务,下图显示了RA-CM3的图像填充效果,因为填充图像需要高层次语义的目标知识。例如,要恢复下图中图像mask块,模型就需要了解滑雪的知识。借助检索增强机制,RA-CM3可以准确获得滑雪板的外观信息,因而可以较为准确地恢复图中运动员的腿和滑雪板。
斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝
此外,RA-CM3还可以通过手动指定上下文来进行图像编辑。例如在下图中,我们可以设置上下文指示图片,其中有一个穿红色夹克的人,RA-CM3可以将原始图像中运动员的黑色夹克编辑为红色。
斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝

四、总结

在这项工作中,作者直面目前文本图像合成领域中的痛点问题,提出了一个更加智能的AI大模型RA-CM3。RA-CM3在原有预训练大模型的基础上引入了检索增强机制,以便于模型从外部存储库中检索和引用新知识参与到新图像的合成中。这种设计赋予了模型可以同时对图像和文本混合数据进行编码的能力,同时也大大降低了模型的训练成本和参数容量。此外,RA-CM3在一些精确度要求较高的图像合成场景中会有更好的可信度和可解释性。从另一个角度来看,RA-CM3的提出为社区提供了一种全新通用的、模块化的检索增强多模态框架,相信其能够为这一领域开辟更多有趣的研究途径。

参考

[1] Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., Chen, M., and Sutskever, I. Zero-shot text to-image generation. In International Conference on Machine Learning (ICML), 2021.
[2] Yu, J., Xu, Y., Koh, J. Y., Luong, T., Baid, G., Wang, Z., Vasudevan, V., Ku, A., Yang, Y., Ayan, B. K., et al. Scaling autoregressive models for content-rich text-to-image generation. arXiv preprint arXiv:2206.10789, 2022.
[3] Aghajanyan, A., Huang, B., Ross, C., Karpukhin, V., Xu, H., Goyal, N., Okhonko, D., Joshi, M., Ghosh, G., Lewis, M., and Zettlemoyer, L. CM3: A causal masked multimodal model of the internet. arXiv preprint arXiv:2201.07520, 2022.

Illustration by Ira Design from IconScout

-The End-

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门-TechBeat技术社区以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com文章来源地址https://www.toymoban.com/news/detail-487079.html

到了这里,关于斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 斯坦福2023【FrugalGPT】减少大模型的商业化应用成本

    FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance 这篇文章主要是要解决如何降低调用大语言模型的成本(ChatGPT)。大模型API调用成本主要是三方面的:1. prompt cost(输入的prompt);2. generation cost(输出的部分);3. 每次调用的固定开销(网费等)。不用的模型之前的

    2024年02月06日
    浏览(47)
  • 【斯坦福】FrugalGPT: 如何使用大型语言模型,同时降低成本并提高性能

    FrugalGPT: 如何使用大型语言模型,同时降低成本并提高性能 作者:Lingjiao Chen, Matei Zaharia, James Zou 本文介绍了一种新颖的方法,旨在解决使用大型语言模型(LLM)时面临的成本和性能挑战。随着GPT-4和ChatGPT等LLM的日益流行,我们需要找到降低这些模型推理成本的策略。作者强调

    2024年02月11日
    浏览(37)
  • 大模型也内卷,Vicuna训练及推理指南,效果碾压斯坦福羊驼

    2023开年以来,大模型进入疯狂内卷状态,大模型的发布都要以“天”为单位进行迭代。 之前,尝试了 从0到1复现斯坦福羊驼(Stanford Alpaca 7B) ,下面我们来尝试从0到1复现Vicuna训练及推理。 继斯坦福羊驼(Stanford Alpaca)之后,UC伯克利、CMU、斯坦福等机构的学者,联手发布

    2024年02月08日
    浏览(35)
  • 斯坦福发布 最新 GPT 模型排行榜 AlpacaEval【AI工具免费使用】

    官网地址:https://www.tomchat.fun 🤖 支持gpt4 / gpt-3.5 / claude /code-llm 🎨 支持 AI绘画 🆓 每天十次免费使用机会 🪄 无需魔法 GPT-4 登顶商用模型 微软 WizardLM 登顶开源模型 AlpacaEva 是来自斯坦福的团队发布的一款 大语言模型 自动评测系统, 它是一种基于 LLM 的全自动评估基准,且

    2024年02月02日
    浏览(46)
  • AI大模型额外学习一:斯坦福AI西部世界小镇笔记(包括部署和源码分析)

    github链接 ①背景介绍 This repository accompanies our research paper titled “Generative Agents: Interactive Simulacra of Human Behavior.” It contains our core simulation module for generative agents—computational agents that simulate believable human behaviors—and their game environment. ②总体逻辑 让小镇的NPC自由交流、开party、生

    2024年04月28日
    浏览(25)
  • 大模型机器人发展史:从VoxPoser、RT2到斯坦福Mobile ALOHA、Google机器人

    23年7月,我在朋友圈评估Google的RT2说道: “大模型正在革新一切领域啊,超帅,通过大模型不仅能理解“人话”,还能对“人话”进行推理,并转变为机器人能理解的指令,从而分阶段完成任务。回头仔细看下论文” 当时便对大模型机器人印象深刻,一直想仔细研究下来着

    2024年02月02日
    浏览(36)
  • 斯坦福人生设计课——简略笔记

    来源: ⽐尔 · 博内特 戴夫 · 伊万斯 著图书《人生设计课》 目录 一、认清当下的情况,从四个维度观察自己的人生 二、平衡人生,但不要走入误区 2.1 记录你的“美好时光日志”: 2.1.1 记录内容: 2.1.2 辅助反思的方法:AEIOU方法 2.1.3 一个小TIPS: 2.1.4 如果你发现自己当下

    2024年02月11日
    浏览(34)
  • 斯坦福用几百块钱训练的alpaca,体验一下基于llama的7b和13b模型,据说比gpt3.0还牛,结果怎样??你能信?

    好久没写代码了,上头了,强撸了! 1、自己买个GPU服务器(如果不训练,可以随便买个高内存的即可),有些网站很便宜,小时起租! 2、alpaca和模型下载地址:GitHub - antimatter15/alpaca.cpp: Locally run an Instruction-Tuned Chat-Style LLM git clone GitHub - antimatter15/alpaca.cpp: Locally run an Instr

    2024年02月04日
    浏览(35)
  • 笔记汇总 | 斯坦福 CS229 机器学习

    本文为斯坦福大学 CS229 机器学习课程学习笔记 本文主体部分转载自黄海广博士,文末已给出链接,大家有兴趣可以直接访问笔记首页,下载对应课程资料及作业代码 课程官网:CS229: Machine Learning (stanford.edu) 课程视频:Stanford CS229: Machine Learning Course, Lecture 1 - Andrew Ng (Autumn 2

    2024年02月14日
    浏览(33)
  • 斯坦福JSKarel编程机器人使用介绍

    为了避免被编程语言固有的复杂性所困扰,有一个被称为卡雷尔(Karel)机器人的微型世界(microworld)的简化环境,可以让编程初学者从中学习理解编程的基本概念,而不必掌握大量无关的细节,让编程初学者更容易理解编程的要点和思维方式。 斯坦福Karel是一门面向初学者

    2024年02月05日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包