【Video-LLaMA】增强LLM对视频内容的理解

这篇具有很好参考价值的文章主要介绍了【Video-LLaMA】增强LLM对视频内容的理解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Paper:《Video-LLaMA : An Instruction-tuned Audio-Visual Language Model for Video Understanding》

Authors: Hang Zhang, Xin Li, Lidong Bing;

Affiliation: The Alibaba DAMO Academy;

Keywords: Multimodal Large Language Models, Cross-modal training.

研发背景

大型语言模型 (LLM)在遵循用户意图和指示上表现出了卓越的理解和理解能力,通常,LLM的用户请求和相应的响应都是文本形式的,然而,由于现实世界的信息通常是多模态的,仅文本人机交互对于许多应用场景来说是不够的。为了进一步开发LLM的潜力,许多研究人员试图赋予LLM理解多模态内容的能力。但大多数方法致力于附加一种模态(即图像或音频),与文本对齐,这对于视频理解来说并不令人满意。

Video-LLaMA利用多模态(图像和音频)增强对视频内容理解

如下图,Video-LLaMA具有理解静态图片,无音视频和音频的能力。

【Video-LLaMA】增强LLM对视频内容的理解,LLM,音视频,人工智能,计算机视觉,深度学习,语音识别

主要工作:

研究了支持视频输入并允许用户围绕用户上传的视频与计算机聊天的多模态LLM的可能性,该视频通常有多个视频帧和音频。提出了一种多分支跨模态训练模型,将冻结的大预言模型和冻结的图形/音频编码器链接起来,以实现视觉-语言与音频-语言对齐。

如下图所示,设计了两个分支,即视觉语言分支(Vision-Language Branch)和音频语言分支(Audio-Language Branch),分别将视频帧和音频信号转换为与LLM的文本输入兼容的查询表示。

【Video-LLaMA】增强LLM对视频内容的理解,LLM,音视频,人工智能,计算机视觉,深度学习,语音识别

Vision-Language Branch

视觉语言分支旨在使LLM能够理解视觉输入。如图 2 左侧所示,它由一个用于从视频帧中提取特征的冻结预训练图像编码器、一个用于将时间信息注入视频帧的位置嵌入层、一个用于聚合帧级的视频 Q-former 以及一个线性层将输出的视频表示投影到与 LLM 的文本嵌入相同的维度。给定一个视频由 N 帧组成,图像编码器将首先将每个帧/图像映射到 K f K_f Kf图像嵌入向量,产生视频帧表示 V = [ v 1 , v 2 , . . . , v N v_1, v_2, ..., v_N v1,v2,...,vN],其中 v i ∈ R K f × d f v_i ∈ R^{K_f ×d_f} viRKf×df 是集合对应于第 i 帧的 d f d_f df 维图像嵌入。

由于来自冻结图像编码器的帧表示 v i v_i vi 是在不考虑任何时间信息的情况下计算的,因此需要将位置嵌入作为时间信息的指示符应用于来自不同帧的表示。然后们将位置编码的帧表示送到 Video Q-former,它与 BLIP-2 中的查询转换器 (QFormer) 共享相同的架构,以获得维度为 d v d_v dv k V k_V kV视频嵌入向量作为视频的表示 V ˆ ∈ R k V × d v \overset{ˆ}V ∈ R^{k_V ×d_v} VˆRkV×dv

为了使视频表示适应 LLM 的输入,添加了一个线性层来将视频嵌入向量转换为视频查询向量

视频查询向量与LLM的文本嵌入具有相同的维度。在前向传播中,它们将作为视频软提示与文本嵌入连接起来,并指导冻结的LLM生成以视频内容为条件的文本。

Vision-Language 分支的实现,利用 BLIP-2的预训练视觉组件作为冻结视觉编码器,其中包括来自 EV A-CLIP 的 ViTG/14和一个预先训练的 Q-former。其余组件,包括位置嵌入层、视频 Qformer 和线性层,都被随机初始化和优化,以将冻结视觉编码器的输出很好地连接到冻结的 LLM。

Audio-Language Branch

为了处理给定视频的听觉内容,引入了音频语言分支。具体来说,它由一个预先训练的音频编码器组成,用于计算给定一小段原始音频的特征,一个位置嵌入层,用于向音频片段注入时间信息,一个音频 Q-former,用于融合不同音频片段的特征,以及一个线性层将音频表示映射到 LLM 的嵌入空间中。

利用预先训练的 Imagebind作为音频编码器。首先从视频中均匀采样 M 个 2 秒短音频片段,然后使用 128 个梅尔频谱图箱将每个 2 秒音频片段转换为频谱图。获得输入音频的频谱图列表后,音频编码器将每个频谱图映射为密集向量。因此,给定视频生成的音频表示可以表示为 A = [ a 1 , a 2 , . . . , a M ] 。 A = [a_1, a_2, ..., a_M]。 A=[a1,a2,...,aM]

与视频 Q-Former 类似,音频 Q-former 通过向音频片段添加可学习的位置嵌入来注入时间信息。然后,通过计算位置编码音频片段之间的交互来生成固定长度的音频特征。 Audio Q-Former 采用与 Q-Former 相同的架构。它将可变长度音频表示列表 A 投影为固定长度序列$ \overset{ˆ}A ∈ R^{K_a×d_a}$,其中 K a K_a Ka 是音频嵌入向量的数量, d a d_a da 是每个向量的维度。最后,使用线性层将音频特征映射到 LLM 的嵌入空间。

如何训练

分别训练视觉语言和音频语言分支。在第一阶段,使用大规模视觉字幕数据集进行训练在第二阶段,使用高质量的指令跟踪数据集进行微调。该图像被视为一帧视频。

Training of Vision-Language Branch

对于视觉语言分支的预训练,使用了 Webvid-2M(一个来自素材网站的带有文本描述的大规模短视频数据集),图像描述数据集 CC595k。在预训练阶段采用视频到文本生成任务,即给定视频的表示,促使冻结的LLM生成相应的文本描述。但是很大一部分文字描述不足以反映视频的全部内容。因此,视频中的视觉语义与视频描述中的文本语义并不完全一致。尽管如此,这一阶段的目标是利用大量数据,使视频特征包含尽可能多的视觉知识。将视觉文本对齐和指令跟踪的能力留给下一阶段。

经过预训练阶段后,模型可以生成有关视频中信息的内容,但其遵循指令的能力有所下降。因此,在第二阶段,使用高质量的指令数据对模型进行微调。集成了 MiniGPT4 的图像细节描述数据集、LLaV A 的图像指令数据集和 Video-Chat 的视频指令数据集 。经过微调,Video-LLaMA 在遵循指令和理解图像和视频方面表现出了卓越的能力。

Training of Audio-Language Branch

由于此类数据的稀有性,直接使用音频文本数据训练音频语言分支非常具有挑战性。音频语言分支中可学习参数的目标是将冻结音频编码器的输出嵌入与 LLM 的嵌入空间对齐。

鉴于音频文本数据的稀缺,采用一种变通策略来实现这一目标。用作音频编码器的 ImageBind 具有将不同模态的嵌入对齐到一个公共空间的能力,在跨模态检索和生成任务上展示了很强的性能。鉴于音频文本数据的稀缺性和视觉文本数据的丰富性,我们使用视觉文本数据训练音频语言分支,遵循与视觉分支相同的数据和过程。得益于 ImageBind 提供的共享嵌入空间,Video-LLaMA 在推理过程中展现了理解音频的能力,即使音频接口从未接受过音频数据的训练。

展示

【Video-LLaMA】增强LLM对视频内容的理解,LLM,音视频,人工智能,计算机视觉,深度学习,语音识别

(1)视听整合感知能力。

图 2(a) 显示了 Video-LLaMA 同时理解听觉和视觉信息的独特能力。两种情况下的视频都包含音频。在每次对话中分别提出两个与视觉和听觉内容相关的问题。如果模型只能接收一种模态,它将无法回答这两个问题。然而,可以观察到 VideoLLaMA 在这两种情况下都能准确地响应视觉和听觉问题。

(2) 捕捉视频中时间动态的能力。图 2(b) 说明了 Video-LLaMA 识别随时间变化的操作的能力。它成功地描述了和船的行进方向。

(3)感知和理解静态图像的能力。图 2© 显示了 VideoLLaMA 感知和理解图片的能力。图 2© 展示了 Video-LLaMA 理解“不寻常”概念并具体描述不寻常场景的能力。

不足

存在一些局限性,包括:

(1)有限的感知能力:Video-LLaMA 的性能受到以下因素的阻碍:当前训练数据集的质量和规模。

(2)处理长视频的能力有限。长视频(例如电影、电视节目)包含大量信息,对计算资源提出更高的要求。

(3)幻觉。 Video-LLaMA 继承了冻结LLM的幻觉问题。文章来源地址https://www.toymoban.com/news/detail-761435.html

到了这里,关于【Video-LLaMA】增强LLM对视频内容的理解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Video-LLaMA 论文精读

    video-LLaMA 一种用于视频理解的指令调整视听语言模型         Video-LLaMA 一个使大型语言模型(LLM)能够理解视频中的视觉和听觉的内容的多模态框架。它从冻结的预训练的视觉和音频encoder以及冻结的LLM中引导跨模态训练。         与之前专注于静态图像的视觉LLM不同

    2024年02月10日
    浏览(38)
  • video标签自动播放音视频并绘制波形图

    html中的video标签可以用来播放常见的音视频格式,支持的格式包括:MP3、Ogg、WAV、AAC、MP4、WebM、AVI等,当然支持的格式也和浏览器和操作系统有关。这里以一个可以自动播放音视频并绘制波形图的页面为例说明一下video标签的用法。 video标签想自动播放,需要设置三个可选属性

    2024年02月09日
    浏览(52)
  • 【HTML】音视频标签(audio、video、embed)

    我们通常用audio标签来向页面中引入一个外部的音频文件。 音视频文件引入时,默认情况下不允许用户自己控制播放停止。 属性 controls controls指定是否允许用户控制播放。 这个属性不是通过值来判断的,而是通过有没有,有这个属性就是允许,没有就是不允许。 autoplay aut

    2023年04月13日
    浏览(47)
  • 全方位支持图文和音视频、100+增强功能,Facebook开源数据增强库AugLy

    Facebook 近日开源了数据增强库 AugLy,包含四个子库,每个子库对应不同的模态,每个库遵循相同的接口。支持四种模态:文本、图像、音频和视频。 最近,Facebook 开源了一个新的 Python 库——AugLy,该库旨在帮助 AI 研究人员使用数据增强来评估和改进机器学习模型的可用性。

    2024年02月15日
    浏览(45)
  • 视频增强修复Topaz Video AI

    Topaz Video AI是一款强大的视频增强软件,利用人工智能技术对数千个视频进行训练,结合多个输入视频的帧信息来提高素材的分辨率。该软件可将视频的分辨率提高到最高8K,并保持真实的细节和运动一致性。同时,它还能自动修复视频中的受损、模糊部分,增强画质。界面简

    2024年01月20日
    浏览(66)
  • 曦力音视频转换—Xilisoft Video Converter Ultimate for Mac

    在数字化时代,音视频的应用越来越广泛,不同的设备和平台对音视频格式的要求也不尽相同。因此,如何找到一款功能强大、易于操作的音视频转换软件成为了Mac用户的迫切需求。而Xilisoft Video Converter Ultimate for Mac(曦力音视频转换)将成为您的最佳选择。 首先,Xilisoft

    2024年02月03日
    浏览(63)
  • 最强视频无损放大工具 HitPaw Video Enhancer 视频修复增强工具和Topaz Video Al对比

    最强视频无损放大工具 HitPaw Video Enhancer 视频修复增强工具 由 心语家园(https://www.xinyucn.cc/)独家或原创发布,你可通过右上角“私信本站”联系我们。 如果你网上搜索视频无损放大工具,找到的一定是Topaz Video Al。但是我要推荐的还是HitPaw Video Enhancer,为何,因为Topaz Vi

    2024年02月05日
    浏览(133)
  • 曦力音视频转换工具Xilisoft Video Converter Ultimate mac中文版

    Xilisoft Video Converter Ultimate mac是一款功能强大的视频转换软件,它可以将几乎所有流行的视频格式转换为其他格式,包括AVI、MPEG、WMV、DivX、MP4、H.264/AVC、AVCHD、MKV、RM、MOV、XviD、3GP等。此外,它还支持将视频转换为音频格式,如MP3、WMA、WAV、RA、M4A、AAC、AC3、OGG等。 Xilisoft V

    2024年02月07日
    浏览(50)
  • Topaz Video AI for mac(视频增强和修复工具)

    Topaz Video AI for Mac是一款视频增强和修复工具,采用了人工智能技术,可以提高视频的清晰度、降噪、去抖动和插帧等。这款软件支持多种视频格式,包括MP4、MOV、AVI等。 使用Topaz Video AI for Mac,用户只需将需要处理的视频导入到软件中,选择相应的增强和修复选项,即可得到

    2024年02月12日
    浏览(43)
  • 视频增强修复软件Topaz Video AI mac中文版支持功能

    Topaz Video AI mac是一款使用人工智能技术对视频进行增强和修复的软件。它可以自动降噪、去除锐化、减少压缩失真、提高清晰度等等。Topaz Video AI可以处理各种类型的视频,包括低分辨率视频、老旧影片、手机录制的视频等等。 使用Topaz Video AI非常简单,只需要将需要处理的

    2024年02月06日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包