Video-LLaMA 论文精读

这篇具有很好参考价值的文章主要介绍了Video-LLaMA 论文精读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

video-LLaMA 一种用于视频理解的指令调整视听语言模型

引言

        Video-LLaMA 一个使大型语言模型(LLM)能够理解视频中的视觉和听觉的内容的多模态框架。它从冻结的预训练的视觉和音频encoder以及冻结的LLM中引导跨模态训练。

        与之前专注于静态图像的视觉LLM不同,如(MiniGPT-4/LLaVA),Video-LLaMA主要解决了两个挑战

  1. 捕捉视觉场景中的时间变化
    1. 提出一种视频QFormer,将预训练的图像编码器组装到我们的视频编码器中,并引入视频到文本生成任务来学习视频语言对应关系。
  2. 整合视听信号。
    1. 利用ImageBind,这是一种将多个模态对齐的通用嵌入模型,作为预训练的音频编码器,并在ImageBind之上引入音频Q-Former,以学习LLM模块的合理听觉查询嵌入。
    2. 为了使视觉和音频编码器的输入与LLM的嵌入空间对齐,使用大量指令调整(instruct-tuned)数据集训练Video-LLaMA。

介绍

        基于大量文本数据训练的LLM模型,表现非凡,尽管它们取得了很大成功,但大多数用户只能通过文本去与LLM进行交互。为了最大化发掘其潜力,将视觉理解能力加入LLM成为趋势。

        BLIP-2,由于其从冷冻的图像encoder与文本decoder引导视觉语言预训练而备受关注。但是难以准确理解非平稳的视觉场景,缓解视频与文本之间的模态间隙比图像和文本更具挑战性。

        本文的工作力图攻克视频转文字,并非采用外部感知模型将视觉与听觉信号转换为文本信号。而是构建一个端到端模型,可以在一个框架内处理来自多个模态的数据。

  • 使用预训练的视觉encoder来处理帧率表示
  • 引入一个用于注入时间信息的帧嵌入层与一个用于生成视觉查询token的视频Q-Former。
  • 利用预训练的音频encoder与音频Q-Former生成器来学习合理的听觉嵌入。
  • 为了使文本输出与视频保持一致,设计了多分支跨模型预训练来学习视频语言对应和音频语言对应。
    • 视觉-语言,首先在大规模的视频字幕数据集上预训练视觉相关组件,并执行视频剪辑到文本生成任务。为了增强对静态视频概念的理解,还在这个预训练阶段添加了图片说明数据。之后,在基于视频的对话数据集上继续微调这些组件,以进行视觉instruct-tuned。
    • 音频-语言,利用imagebind 作为encoder,它在将不同模态和公共嵌入空间对齐方面表现很好。而且鉴于音频文本数据有限,我们利用视觉文本数据来训练音频相关组件。这些组件的学习将imagebind提供的公共嵌入空间与LLM的嵌入空间对齐。
    • 尽管没有使用音频文本数据进行明确训练,但是Video-LLaMA在推理过程中表现出非凡的zero-shot音频理解能力。

Video-LLaMA 论文精读

 

        总结我们这篇论文的贡献:

  • 提出了Video-LLaMA,实现视频与文本之间的桥梁
  • 提出的多分枝跨模型预训练框架,实现视觉语言对齐和音频语言对齐,增强了LLM的视频理解能力。
  • 代码开源且有demo

总结一下我的理解:与最新的多模态文本生成思想类似,整体结构相较于BLip2增加了一个音频处理的encoder与Q-former。处理上进行多分枝跨模态框架进行对齐,然后帧部分加强处理。

方法论

模型结构

视觉分支结构

         由一个用于从视频帧中提取特征的冻结视觉encoder,一个用于将时间信息注入视频帧的位置嵌入曾,一个聚合帧表示的视频Q-Former和一个将输出视频表示映射到LLM的线性层。

        给定N个帧组成视频,Visual Encoder首先将每个帧映射到个图像嵌入向量中,产生视频帧表示为V = [v1,v2,v3,vN],其中   是对应于第i个帧的df维图像嵌入的集合。

        来自冻结图像编码器的帧表示  是在不考虑任何时间信息的条件下进行计算的,因此需要加入位置嵌入作为帧的事件表示。然后将位置编码的帧表示送入视频Q-Former以获得维度为

   的视频嵌入向量。

        添加一个线性层,将视频嵌入转化为视频Query查询,Query查询向量与LLM文本嵌入维度相同,以便输入。在前向传递过程中,连接到输入文本嵌入作为视频prompt,引导冻结的LLM生成相关文本。

        实现上:

  • 冻结visual-encoder使用blip2的组件,包括eva-clip的vit-G/14和预训练的Q-Former
  • 其余组件,位置嵌入,视频Q-Former和线性层,被随机初始化和优化。

音频分支结构

        和视觉很类似

  • 预训练的冻结音频encoder,使用imagebind
    • 对视频2s短音频片段的M个片段进行均匀采样,然后使用128梅尔频谱图仓将每个2s音频片段转换为频谱图。获得输入音频的声谱图列表后,音频encoder将其转换为向量。
  • 位置嵌入算位置
  • 音频Q-Former
  • 线性层

多分枝跨模态训练

        分别训练视觉与音频分支,第一阶段,使用大规模的视觉字幕数据集进行训练,第二阶段,使用高质量的指令跟随数据集进行微调。文章来源地址https://www.toymoban.com/news/detail-499961.html

视觉分支训练

  • 数据集
    • Webvid-2M,大规模短视频数据集,文本描述来源库存网站
    • CC595k,图片说明数据集,来自CC3M
  • 训练
    • 给定视频的表示,用prompt提示冻结的LLM生成对应的文本描述。
    • 效果不如人意,但是本阶段目标是利用大量数据学到尽可能多的视觉知识,为下一阶段视觉文本对齐和指令跟随作准备。
  • 微调
    • 使用高质量的instruction-data进行微调。集成了Mini-GPT4的图像细节描述数据集,LLaVA图像指令数据集和视频聊天的视频指令数据集。
    • 微调使其能力提升。

音频分支训练

  • 使用视觉文本数据训练音频语言分支
    • 由于音频文本数据很稀缺
    • imagebind具有强大的将不同模态的嵌入对齐到一个公共空间的非凡能力

相关工作

  • LLM模型
    • 我们的工作基于这些出色的LLM,并提供即插即用的插件,使他们能够理解视频中的视觉与听觉内容。
  • 多模态LLM模型(两类)
    • 使用LLM作为控制器,并使用现有的多模态模型作为工具。当接受到指令时,LLM识别用户意图并决定调用哪些工具。最后结合多模态模型的结果来生成综合响应。如chatgpt等
    • 训练基本的大规模多模态模型,关键思想为将其他模态预训练模型与文本LLM对齐,如BLIP2,visualGLM,引入Q-Former将学习到的图像查询映射到LLM的文本嵌入空间。
  • Video-LLaMA限制
    • 感知能力有限
    • 处理长视频能力有限
    • 幻觉问题,继承了冻结LLM的幻觉问题。
      • 句法和语义正确但是与现实完全脱节,基于错误假设的模型生成的输出,会导致伦理问题,道德问题。
      • 原因
        • 过拟合
        • encode和decode错误
        • 训练数据的偏差,以及训练数据缺乏多样性。

到了这里,关于Video-LLaMA 论文精读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Video-LLaMA 开源,大语言模型也能读懂视频了!

    出品人:Towhee 技术团队 作者:张晨 Video-LLaMA 旨在使冻结的 LLM 能够理解视频中的视觉和听觉内容。如图所示,本文设计了两个分支,即视觉语言分支和音频语言分支,分别将视频帧和音频信号转换为与 LLM 的文本输入兼容的查询表示。 1.1 视觉-语言分支 视觉语言分支旨在使

    2024年02月15日
    浏览(45)
  • 【图像拼接/视频拼接】论文精读:Dynamic Video Stitching via Shakiness Removing

    第一次来请先看这篇文章:【图像拼接(Image Stitching)】关于【图像拼接论文精读】专栏的相关说明,包含专栏使用说明、创新思路分享等(不定期更新) Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation Adaptive As-Natural-As-Possible Image Stitching Shape-Preserving Half

    2024年01月21日
    浏览(64)
  • 【图像拼接】论文精读:Content-Preserving Warps for 3D Video Stabilization(CPW)

    第一次来请先看这篇文章:【图像拼接(Image Stitching)】关于【图像拼接论文精读】专栏的相关说明,包含专栏使用说明、创新思路分享等(不定期更新) Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation Adaptive As-Natural-As-Possible Image Stitching Shape-Preserving Half

    2024年02月04日
    浏览(48)
  • 【图像拼接/视频拼接】论文精读:Eliminating Warping Shakes for Unsupervised Online Video Stitching(StabStitch)

    第一次来请先看这篇文章:【图像拼接(Image Stitching)】关于【图像拼接论文精读】专栏的相关说明,包含专栏使用说明、创新思路分享等(不定期更新) Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation Adaptive As-Natural-As-Possible Image Stitching Shape-Preserving Half

    2024年03月24日
    浏览(53)
  • 多模态大语言模型 LlaVA 论文解读:Visual Instruction Tuning

    代码:https://github.com/haotian-liu/LLaVA 在这篇论文中,作者首次尝试使用 纯语言 GPT-4 生成多模态语言图像指令遵循数据 (insruction-following data)。 通过对此类生成数据进行指令调整,推出了 大型语言和视觉助手 (Large Language and Vision Assistant, LLaVA )。一种端到端训练的大型多

    2024年02月11日
    浏览(41)
  • 【论文阅读】视频理解系列论文精读

    视频理解论文串讲(上)【论文精读】 我们研究了多种扩展CNN在时域上的连接性的方法,以利用局部的时空信息,并建议采用多分辨率、凹陷的架构作为加速训练的一种有希望的方式。 在图像领域积极成果的鼓舞下,我们研究了CNN在大规模视频分类中的表现,在这种情况下

    2023年04月09日
    浏览(38)
  • 【Whisper】《OpenAI Whisper 精读【论文精读】》学习笔记

    Whisper在论文中表示使用单模型(single model)来完成多个语音任务(multitask),李沐教授认为 优点是设计上比较干净 ; 但是他同时也提出了两个疑问: 使用单模型会不会跑得不够快(因为保证多任务的性能需要大参数的模型) 假设同时能做五个任务,假设有一个任务做得比

    2024年02月16日
    浏览(58)
  • Transformer模型原理—论文精读

    今天来看一下Transformer模型,由Google团队提出,论文名为《Attention Is All You Need》。论文地址。 正如标题所说的,注意力是你所需要的一切,该模型摒弃了传统的RNN和CNN结构,网络结构几乎由Attention机制构成,该论文的亮点在于提出了 Multi-head attention 机制,其又包含了 self-a

    2024年02月08日
    浏览(59)
  • YOLO系列论文精读

    基本思想: 采用预定义候选区,粗略覆盖图片整个区域,找到粗略候选区,再使用RCNN的边框回归调整到更接近真实的bounding box(one-stage) 基本结构: 【卷积+池化】+【dense+dense】,最后一层输出激活函数使用线性函数(预测bounding box需要数值型) YOLO与RCNN: RCNN需要两步:分

    2024年02月04日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包