NExT-GPT: Any-to-Any Multimodal LLM论文笔记

这篇具有很好参考价值的文章主要介绍了NExT-GPT: Any-to-Any Multimodal LLM论文笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文 https://arxiv.org/pdf/2309.05519.pdf
代码 https://github.com/NExT-GPT/NExT-GPT/tree/main

nextgpt.work,多模态LLM,gpt,论文阅读

1. Motivation

  • 现有的多模态大模型大都只是支持输入端的多模态(Text、Image、Video、Audio等),但是输出端都是Text。
  • 也有一些现有的输入输出都是多模态的工作,如CoDi、Visual-ChatGPT、 HuggingGPT等,这一类工作又存在下述问题

nextgpt.work,多模态LLM,gpt,论文阅读

因此,本文提出一种端到端训练的,支持任意模态输入输出MM-LLM(Multimodal Large Language Model)——NExT-GPT。

2. Overall Architecture

nextgpt.work,多模态LLM,gpt,论文阅读

NExT-GPT主要包含三层架构:

  1. Encoder+Input Projection:利用现有的开源编码器(ImageBind)对多模态输入进行编码,随后通过各自的Projection 模块将多模态Embedding对齐到Text Embedding。

  2. LLM:利用开源 的LLM (Vicuna)作为来处理输入多模态Embedding,进行语义理解和推理。LLM 可以直接输出文本,同时其还将输出一种模态信号指令,来决定调用哪个模态的解码器进行解码输出。
    nextgpt.work,多模态LLM,gpt,论文阅读

  3. 对于特定模态的指令,调用对应模态的Projection模块以及相应的开源Diffusion解码器 (Stable Diffusion (SD) for image synthesis, Zeroscope for video synthesis, and AudioLDM for audio synthesis) 生成对应输出。

整个MM-LLM系统中,Encoder、LLM、Diffusion都是现成的开源预训练模型,只有输入端和输出端的Projection模块需要训练,只有1%的参数需要更新。

  • 这样首先避免了难度较大的从头训练人工;
  • 其次,这种模块化的预训练模型拼接方式能够方便集成更多的模态;

3. 输入端和输出端 Projection 模块训练方式

为了解决不同模态输入和输出之间特征对齐问题,本文分别设计了 Encoding-side LLM-centric Multimodal Alignment 和 Decoding-side Instruction-following Alignment 来进行 Projection 模块的训练。

3.1 Encoding-side LLM-centric Multimodal Alignment

nextgpt.work,多模态LLM,gpt,论文阅读

  • 目标:aligning different inputting multimodal features with the text feature space;
  • 做法:prepare the ‘X-caption’ pair (‘X’ stands for image, audio, or video) data from existing corpus and benchmarks. And enforce LLM to produce the caption of each input modality against the gold caption。

3.2 Decoding-side Instruction-following Alignment

nextgpt.work,多模态LLM,gpt,论文阅读

  • 背景:现有的Diffusion Model 大多采用 textual token inputs 作为condition 。
  • 目标:minimizing the distance between the LLM’s modal signal token representations (after each Transformer-based project layer) and the conditional text representations of the diffusion models。

4. Modality-switching Instruction Tuning

尽管讲输入和输出都对齐到了LLM的Embedding 空间,但是为了让模型能够生成用户想要的模态的输出,还要进行指令微调。这需要对整个MM-LLM模型采用 (INPUT, OUTPUT) 对进行训练。采用LoRA对一NeXT-GPT的小部分参数进行更新,同时,Projection 模块也需要有两层也需要进行更新。

nextgpt.work,多模态LLM,gpt,论文阅读

为此,作者还构建了一个 Modality-switching Instruction Tuning (MosIT) 数据集。

这一部分开的还不是很明白,暂时略过。

5. Limitation and Future work

nextgpt.work,多模态LLM,gpt,论文阅读

  1. 模态与任务扩展: 扩展到更多的模态(例如,网页、3D 视觉、热图、表格和图表)和任务(例如,对象检测、分割、定位和跟踪);

  2. 考虑更多基座 LLM: 整合不同大小的 LLM,以及其他 LLM 类型。

  3. 多模态生成策略: 目前版本的 NExT-GPT 系统仅考虑了基于扩散模型的纯输出方式的多模态输出。然而生成模式容易输出错误幻想内容(Hallucination),并且输出内容的质量往往容易受到扩散模型能力的限制。因此,进一步提升扩散模型的性能很关键,这能直接帮助提高多模态内容的输出质量。另外,实际上可以整合基于检索的方法来补充基于生成的过程的弊端,从而提升整体系统的输出可靠性。

  4. MosIT 数据集扩展:目前 NExT-GPT 所使用的 MosIT 数据集规模受限,这也会限制其与用户的交互表现。后续研究可以进一步提升模态切换指令微调学习策略以及数据集。(这个实际使用确实遇到了这种问题,模型在提供很明确的生成图片或者音频的指令情况下无法执行生成任务,只会输出一句话)文章来源地址https://www.toymoban.com/news/detail-761219.html

到了这里,关于NExT-GPT: Any-to-Any Multimodal LLM论文笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读:Multimodal Graph Transformer for Multimodal Question Answering

    论文名 :Multimodal Graph Transformer for Multimodal Question Answering 论文链接 尽管 Transformer模型 在视觉和语言任务中取得了成功,但它们经常隐式地从大量数据中学习知识,而不能直接利用结构化的输入数据。另一方面, 结构化学习方法 ,如集成先验信息的图神经网络(gnn),几乎无法

    2024年02月04日
    浏览(30)
  • Multimodal Sentiment Analysis论文汇总

    Year Title Network Publish Paper Code Read 2019 Multimodal Transformer for Unaligned Multimodal Language Sequences MulT ACL link link √ 2020 CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis CM-BERT ACM MM link link √ 2020 Integrating Multimodal Information in Large Pretrained Transformers MAG ACL link link √ 2020 MISA: Modality-Invariant and

    2024年02月06日
    浏览(28)
  • [论文阅读]Multimodal Virtual Point 3D Detection

    多模态虚拟点3D检测 论文网址:MVP 论文代码:MVP 方法MVP方法的核心思想是将RGB图像中的2D检测结果转换为虚拟的3D点,并将这些虚拟点与原始的Lidar点云合并。具体步骤如下: (1) 使用2D检测器(如CenterNet)在RGB图像中检测物体。 (2) 将检测到的物体掩模投影到Lidar点云中,创建与

    2024年02月03日
    浏览(86)
  • 【论文阅读笔记】Large Multimodal Agents: A Survey

    [写在开头] 深度学习小白,如果有不对的地方请大家多指正,对说的就是你大佬! 论文名称: Large Multimodal Agents: A Survey 论文链接: https://arxiv.org/pdf/2402.15116.pdf Large Multimodal Agents (LMAs) 大型多模态智能体 Motivation 大语言模型的诞生赋予了 agent 类人的决策和推理能力,如何将 LL

    2024年03月18日
    浏览(47)
  • 论文阅读:multimodal remote sensing survey 遥感多模态综述

    参考: From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy Keywords:multimodal remote sensing 本文强调了单模态和多模态遥感影像判读之间的关键差异,然后利用这些差异来指导我们对级联结构中多模态遥感影像判读的研究。最后,对未来可能的研究方向进行了探讨

    2024年02月02日
    浏览(51)
  • VL系列 Exchanging-based Multimodal Fusion with Transformer 论文阅读笔记

    写在前面   又是一个周末 教师节,祝老师们节日快乐呀。依惯例,论文读起来~   这是一篇多模态融合的文章,也算是这些年新出的一种方式了,具体还不知道啥情况,代码已开源,一试便知。 论文地址:Exchanging-based Multimodal Fusion with Transformer 代码地址:https://github.

    2024年02月05日
    浏览(45)
  • 【论文笔记】Gemini: A Family of Highly Capable Multimodal Models——细看Gemini

    【一句话总结,对标GPT4,模型还是transformer的docoder部分,提出三个不同版本的Gemini模型,Ultra的最牛逼,Nano的可以用在手机上。】 谷歌提出了一个新系列多模态模型——Gemini家族模型,包括Ultra,Pro,Nano(1.5B Nano-1,3.25BNano-2)三种尺寸(模型由大到小)。在图像、音频、视

    2024年02月04日
    浏览(28)
  • 论文阅读之Multimodal Chain-of-Thought Reasoning in Language Models

    本文主要对2023一篇论文《Multimodal Chain-of-Thought Reasoning in Language Models》主要内容进行介绍。 大型语言模型(LLM)通过利用思想链(CoT)提示生成中间推理链作为推断答案的基本原理,在复杂推理方面表现出了令人印象深刻的性能。然而,现有的CoT研究主要集中在语言模态上。

    2024年03月14日
    浏览(38)
  • ChatGPT论文:大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、ChatGPT--在自然语言转SQL(NL2SQL、Text-to-SQL)的比较(一)

    ChatGPT的成功引发了一场AI竞赛,研究人员致力于开发新的大型语言模型(LLMs),以匹敌或超越商业模型的语言理解和生成能力。近期,许多声称其性能接近GPT-3.5或GPT-4的模型通过各种指令调优方法出现了。作为文本到SQL解析的从业者,我们感谢他们对开源研究的宝贵贡献。然

    2024年02月02日
    浏览(35)
  • 【论文阅读笔记】Tag-assisted multimodal sentiment analysis under uncertain missing modalities

    Zeng J, Liu T, Zhou J. Tag-assisted multimodal sentiment analysis under uncertain missing modalities[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022: 1545-1554.【开放源码】 【论文概述】 本文提出了一种名为“标签辅助变换器编码器(TATE)网络”的新型多

    2024年01月17日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包