Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言

这篇具有很好参考价值的文章主要介绍了Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.摘要

我们提出了一个多模态框架Video-LLaMA1,它使大型语言模型(LLM)能够理解视频中的视觉和听觉内容。视频-来自冻结的预训练视频和音频编码器和冻结的LLM的美洲驼引导跨模式训练。不像以前的工作,补充线性最小二乘法只处理视觉或听觉信号(朱等,2023;刘等,2023;Huang et al .,2023a),Video-LLaMA通过解决两个挑战来实现视频理解:(1)捕捉视觉场景的时间变化,(2)整合视听信号。为了应对第一个挑战,我们提出了一个视频Q-former来将预训练的图像编码器组装到我们的视频编码器中,并引入视频到文本生成任务来学习视频语言的对应性。对于第二个挑战,我们利用ImageBind (Girdhar等人,2023年),一种对齐多种模态的通用嵌入模型,作为预训练的音频编码器,并在ImageBind之上引入音频Q-former,以学习LLM模块的合理听觉查询嵌入。为了将视频和音频编码器的输出与LLM的嵌入空间对齐,我们首先在大量视频/图像-字幕对上训练视频LLaMA,然后用中等数量但更高质量的视觉指令数据集调整我们的模型。我们发现视频——美洲驼表现出感知和理解视频内容的能力,并根据视频中呈现的视觉和听觉信息产生有意义的反应

Video-LLaMA1: 大语言模型理解视频内容(视觉+听觉内容)

目标:解决视频理解的两个挑战。

        (1)捕捉视觉场景时间变化

        引入视频Q-former:学习视觉语言的对应性。

        (2)整合试听信号

        引入音频Q-former:学习合理的试听听觉查询嵌入。【?怎么学的呢?】

视频Q-former的学习

        与训练图像编码器组装到视频编码器。

        视频->文本生成 任务,学习视频和文本对应性。

 将视频和音频编码器的输出与LLM的嵌入空间对齐:

        视频|图像-字幕训练LLaMA。

        中等数量,高质量视觉指令集调整模型。     

2.研究意义及价值

  •  对于许多应用场景来说,只有文本的人机交互是不够的,因为真实世界的信息通常是多模态的。为了进一步挖掘LLMs的潜力,许多研究者试图赋予LLMs理解多模态内容的能力。
  • 尽管它们有效,但是这些方法致力于将来自一个附加模态的输入与文本(即,图像或音频)对齐,这对于视频理解来说是不令人满意的。具体来说,使LLM能够理解视频需要对不同的模态进行综合处理,包括视觉输入、听觉输入和文本输出,这比只理解图像和只理解音频的任务更具挑战性
  • 在这项工作中,为了填补视听LLM的空白,我们研究了构建多模态LLM的可能性,该多模态LLM支持视频输入,并允许用户围绕用户上传的视频与计算机聊天,该视频通常由多个视频帧和音频组成。

本文认为

  1. 现实世界的信息是多模态的,只有文本的交互不够,所以我们要探索多模态LLMs的潜能。
  2. 现有的方法总是视觉模态+文本模态捆绑模式,所以当前模型对视频理解能力差,尤其是对音频的理解能力。
  3. 该项工作探索了多模态LLMs,填补了音频LLM空白,实现计算机能够理解用户发送的视频的聊天形式。

实现思路:        

        保证跨通道与训练的效率:采用BLIP-2的思想

        明确捕捉视觉场景变化:用与训练视觉编码器分解计算帧表示

                帧嵌入层注入时间

                视频Q-Former生成可是查询令牌

        视频中音频的处理:与训练的音频编码器及音频Q-former来学习合理的听觉嵌入。

------------------------------------------------------------------------------------------------------------------------

文本输出与视频对齐:

        多分支跨模态预训练学习——>视觉语言对应+音频语言对应。

视觉语言对齐

        首先:大规模视频字幕数据集使用视频CLIP到文本的生成任务对视觉相关组间进行预训练。

                预训练阶段引入图像字幕数据集——>加强对静态视觉概念的理解。

        然后:使用视频对话的数据集微调这些组件,为指令优化做准备。

音频编码器+语言编码器的对齐

                音频——>使用音频文本数据集在音频文本生成任务上预训练相关组件。

                音频文本的衔接:使用Imagebind将不同模态与公共嵌入空间对齐

                音频文本数据集有限——>视觉文本数据训练音频相关组件【这合理吗?

总结:

        这些组件学习将Imagebind提供的公共嵌入空间与LLMs的嵌入空间对齐。尽管没有经过音频-文本数据的明确训练,Video-LLaMA在推理过程中表现出显著的零镜头音频理解能力

-----------------------------------------------------------------------------------------------------------------------

Video-LLaMA与现有模型相比表现出色,对视听模态信息理解全面:

创新型

        1.一个多模态框架,弥补了音频LLM空白,使LLM同时处理视频中的视觉+听觉内容。

        2.多分支跨通道预训练框架来实现视觉语言对齐和音频语言对齐

        3.开源了权重和代码

Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言,论文与代码,llama,语言模型,人工智能

3.方法设计

Video-LLaMA旨在使冷冻LLM能够理解视频中的视觉和听觉内容

两个主要的分支:

        视觉语言分支和音频语言分支,分别将视频帧和音频信号转换为与LLMs的文本输入兼容的查询表——多分支跨模态预训练和视听教学调谐

架构

        视觉-语言模型

        音频-语言模型

        多分支跨模态训练:A+B两个分支

                第一阶段,大规模视觉字幕数据集用于训练

                第二阶段,高质量的指令跟随数据集用于微调。图像被视为单帧视频

  •                 视觉语言训练
  •                 音频语言

视频语言模型:

如图1的左部所示,它包括

        一个冻结的预训练图像编码器,用于从视频帧中提取特征

        一个位置嵌入层,用于将时间信息注入视频帧

        一个视频Q-former,用于聚合帧级表示

        一个线性层,用于将输出视频表示投影到与LLM的文本嵌入相同的维度

        实现:利用BLIP-2(李等,2023b)的预训练视觉组件作为冻结视觉编码器,它包括来自EVA-CLIP(方等,2022)的ViT G/14和预训练Q-former

Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言,论文与代码,llama,语言模型,人工智能

音频语言模块:

如图1的右部所示,它包括

        一个预训练的音频编码器,用于在给定一小段原始音频的情况下计算特征

        一个位置嵌入层,用于将时间信息注入音频段

        一个音频Q-former,用于融合不同音频段的特征

        一个线性层,用于将音频表示映射到LLMs的嵌入空间

        Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言,论文与代码,llama,语言模型,人工智能

多分支跨模态训练-视频文本

阶段一

        目标:使用大数据,使视频特征包含尽可能多的视觉知识。

        问题:视频表示使用冻结的LLMs生成的文本,不足以描述完整的视频。

        原因:视频语义与视频文本语义并不完全一致

        数据集

                Webvid-2M:短视频数据集

                CC59K:CC3M过滤的图像字幕数据集

        结果:能够生成视频信息内容,但遵循指令能力下降

-------------------------------------------------------------------------------------------------------------------------

阶段二

        目标:视觉文本对齐 指令跟随能力——>使用高质量数据集微调

        数据集

                MiniGPT4:图像细节描述数据集

                LLaVA:图像指令数据集

                Video-chat: 视频指令数据集

        结果:理解图像和视频方面表现出非凡的能力

多分支跨模态训练-音频文本

目的:将冻结音频编码器的输出嵌入与LLM的嵌入空间对准

问题:音频文本数据的稀缺

解决:变通思路

        ImageBind音频编码器,具有将不同模态的beddings排列到一个公共空间的能力,在跨模态检索和生成任务中表现优秀。

        鉴于音频文本数据的稀缺和视觉文本数据的丰富,使用视觉文本数据训练音频语言分支,遵循与视觉分支相同的数据和过程

结果

        由于ImageBind提供的共享嵌入空间,Video-LLaMA在推理过程中表现出理解音频的能力,即使音频接口从未在音频数据上训练过。

4.相关工作

大型语言模型:

        本文的工作基于这些LLM,并提供即插即用插件,使其能够理解视频中的视觉和听觉内容。

多模态大型语言模型

        现有的方法可以分为两大类。

        第一类包括使用LLM作为控制器和利用现有的多模态模型作为工具

        当接收到用户的文本指令时,LLM识别出用户的注意力,并决定调用哪些工具。然后,它通过整合从这些现成的多模态模型中获得的结果,生成全面的响应。

        第二类集中于训练基本的大规模多模态模型

        关键思想是将用于其他模态的预训练基础模型与文本LLM对齐。

        本文的工作属于第二类,训练基本模型来理解视频中的视觉和听觉内容。

5.实验

展示Video-LLaMA在基于视频/音频/图像的转换中的多模态指令跟随能力

(1)视听整合感知能力-图2(a)和图3

        同时理解听觉和视觉信息的独特能力。两种情况下的视频都包含音频。

        在每次对话中,分别提出两个与视觉和听觉内容相关的问题。如果模型只能接收一个模态,它将无法回答这两个问题。

        结果:在两种情况下都能准确地回答视觉和听觉问题。

(2)捕捉视频中时间动态的能力-图2(b)和图4

        识别动作的能力。它成功地描述了女孩的动作和船的移动方向。

(3)感知和理解静态图像的能力。

        感知和理解图片的能力-图2c+图5

                理解“不寻常”的概念和具体描述不寻常场景的能力-图2c

                不仅准确地描述了主要内容,而且还将它与狗和人之间的友好交互联系起来-图5

(4)常识概念识别能力-图2d+图6

        能成功识别著名的地标和人物,并能进行常识性的问答

Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言,论文与代码,llama,语言模型,人工智能

Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言,论文与代码,llama,语言模型,人工智能     Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言,论文与代码,llama,语言模型,人工智能

Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言,论文与代码,llama,语言模型,人工智能

Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言,论文与代码,llama,语言模型,人工智能

6.总结与限制讨论

Video-LLaMA:一个前沿的多模态框架,它为大型语言模型提供了音频和视频支持。

视听人工智能助理的一个有前途的原型的潜力

它仍然是早期的原型,并且具有一些局限性,包括:

(1)有限的感知能力:

        Video-LLaMA的性能受到当前训练数据集的质量和规模的阻碍。

(2)处理长视频的能力有限。

        长视频(如电影和电视节目)包含大量信息,对计算资源提出了更高的要求。

(3)幻觉。

        Video-LLaMA 继承了冷冻LLMs的幻觉问题。

7.读后感

1.其创新点是支持音频吗?还是处理视频的时序信息吗?

        其创新点是既能支持音频又能支持视频信息,以使模型能够从各个模态理解视频内容。

2.这里的多模态和之前的多模态有什么区别?

        之前的多模态,把各个模态映射到一个公共空间,这里的多模态把各个模态映射到文本空间。最终以文本模态来表达对内容的理解。

3.本文工作的核心内容是什么?

        弥补之前视频理解时听觉模态缺失的问题。

        提供了听觉数据缺失问题的变通方法:

         ImageBind音频编码器,具有将不同模态的beddings排列到一个公共空间的能力,在跨模态检索和生成任务中表现优秀。

        鉴于音频文本数据的稀缺和视觉文本数据的丰富,使用视觉文本数据训练音频语言分支,遵循与视觉分支相同的数据和过程

4.视频理解能力指的是什么?

        根据视频的视觉内容+听觉内容+文本内容——>视频内容描述文本

5.模型实现是怎样的?

模态模板: 输入->编码器->位置层嵌入->Q-former->线性层->LLM

冻结的预训练图像编码器,用于从视频帧中提取特征

位置嵌入层,用于将时间信息注入视频帧

视频Q-former,用于聚合帧级表示

线性层,用于将输出视频表示投影到与LLM的文本嵌入相同的维度

预训练的音频编码器,用于在给定一小段原始音频的情况下计算特征

位置嵌入层,用于将时间信息注入音频段

音频Q-former,用于融合不同音频段的特征

线性层,用于将音频表示映射到LLMs的嵌入空间文章来源地址https://www.toymoban.com/news/detail-776787.html

冻结的LLM

到了这里,关于Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Video-LLaMA 开源,大语言模型也能读懂视频了!

    出品人:Towhee 技术团队 作者:张晨 Video-LLaMA 旨在使冻结的 LLM 能够理解视频中的视觉和听觉内容。如图所示,本文设计了两个分支,即视觉语言分支和音频语言分支,分别将视频帧和音频信号转换为与 LLM 的文本输入兼容的查询表示。 1.1 视觉-语言分支 视觉语言分支旨在使

    2024年02月15日
    浏览(31)
  • Instruction Tuning:无/少样本学习新范式

    作者 | 太子长琴  整理 | NewBeeNLP 大家好,这里是NewBeeNLP。 今天分享一种简单的方法来提升语言模型的 Zero-Shot 能力—— 指示(或指令)微调(instruction tuning) ,在一组通过指示描述的数据集上对语言模型微调,大大提高了在未见过任务上的 Zero-Shot 能力。 模型 137B,在超

    2024年02月15日
    浏览(30)
  • 多模态大语言模型 LlaVA 论文解读:Visual Instruction Tuning

    代码:https://github.com/haotian-liu/LLaVA 在这篇论文中,作者首次尝试使用 纯语言 GPT-4 生成多模态语言图像指令遵循数据 (insruction-following data)。 通过对此类生成数据进行指令调整,推出了 大型语言和视觉助手 (Large Language and Vision Assistant, LLaVA )。一种端到端训练的大型多

    2024年02月11日
    浏览(33)
  • Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

    ©Paperweekly 原创 · 作者 |  Chunyuan Li 使用 GPT-4 进行视觉指令学习!Visual Instruction Tuning with GPT-4! ▲ Generated by GLIGEN (https://gligen.github.io/): A cute lava llama and glasses 我们分享了 LLaVA (Language-and-Vision Assistant),一款展示了某些近似多模态 GPT-4 水平能力的语言和视觉助手: 视觉聊天

    2024年02月11日
    浏览(25)
  • 论文学习——Tune-A-Video

    本文提出了一种方法,站在巨人的肩膀上——在大规模图像数据集上pretrain并表现良好的 text to image 生成模型——加入新结构并进行微调,训练出一套 one shot 的 text to video 生成器。这样做的优点在于利用已经非常成功、风格多样的图像扩散生成模型,在其基础上进行扩展,同

    2023年04月23日
    浏览(41)
  • tune a video:one-shot tuning of image diffusion models for text-to-video generation

    【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!_哔哩哔哩_bilibili 【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!共计2条视频,包括:[论文代码阅读]T

    2023年04月11日
    浏览(41)
  • LLaMA Efficient Tuning

    https://github.com/rancheng/LLaMA-Efficient-Tuning/blob/main/README_zh.md 支持模型: LLaMA、LLaMA-2、BLOOM、BLOOMZ、Falcon、Baichuan、Baichuan2、InternLM、Qwen、XVERSE、ChatGLM2 默认模块 是 --lora_target 参数的部分可选项。请使用 python src/train_bash.py -h 查看全部可选项。 对于所有“基座”(Base)模型, --

    2024年01月17日
    浏览(71)
  • Tune-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning

    Project:https://tuneavideo.github.io 原文链接:Tnue-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning (by 小样本视觉与智能前沿) 目录 为了复制文本到图像(T2I)生成的成功,最近的工作使用大规模视频数据集来训练文本到视频(T2V)生成器。尽管他们的结果很有希望,但这种

    2024年01月15日
    浏览(33)
  • 使用LoRA对大语言模型LLaMA做Fine-tune

    目前有大量对LLM(大语言模型)做 Fine-tune 的方式,不过需要消耗的资源非常高,例如 Stanford Alpaca: 对LLaMA-7B做Fine-tune,需要4颗A100 (80GB) GPU FastChat/Vicuna: 对LLaMA-7B做Fine-tune,需要4颗A100 (40GB) GPU 这种资源需求令普通的学习者望而却步,使用 LoRA 则可以较好的解决这个问题 LoRA 全

    2024年02月09日
    浏览(31)
  • 通过ORPO技术微调 llama3大模型(Fine-tune Llama 3 with ORPO)

    1f45bd1e8577af66a05f5e3fadb0b29 ORPO是一种新颖的微调技术,它将传统的监督微调和偏好对齐阶段整合到一个过程中。这减少了训练所需的计算资源和时间。此外,经验结果表明,ORPO在各种模型大小和基准测试中都超过了其他对齐方法。 在本文中,我们将使用ORPO和TRL库来微调新的

    2024年04月23日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包