Video-LLaMA 开源,大语言模型也能读懂视频了!

这篇具有很好参考价值的文章主要介绍了Video-LLaMA 开源,大语言模型也能读懂视频了!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

出品人:Towhee 技术团队

作者:张晨

架构

Video-LLaMA 旨在使冻结的 LLM 能够理解视频中的视觉和听觉内容。如图所示,本文设计了两个分支,即视觉语言分支和音频语言分支,分别将视频帧和音频信号转换为与 LLM 的文本输入兼容的查询表示。

Video-LLaMA 开源,大语言模型也能读懂视频了!,程序人生

1.1 视觉-语言分支

视觉语言分支旨在使 LLM 能够理解视觉输入。如图左侧所示,它由用于从视频帧中提取特征的冻结预训练图像编码器、用于将时间信息注入视频帧的位置 embedding 层、用于聚合帧的视频 Q-former 组成级表示和线性层,用于将输出视频表示投影到与 LLM 的文本 embeddings 相同的维度。

1.2 音频分支

为了处理给定视频的听觉内容,本文引入了音频语言分支。具体来说,它包括一个预训练的音频编码器,(用的是用预训练的 Imagebind),它用于计算给定一小段原始音频的特征,一个位置 embedding 层,用于将时间信息注入音频片段,一个音频 Q-former,用于融合不同音频片段的特征,和一个线性层,用于将音频表示映射到 LLM 的 embedding 空间。

训练

本文分别训练视觉语言和音频语言分支。第一阶段使用大规模视觉-字幕数据集进行训练,第二阶段使用高质量的指令遵循数据集进行fine-tuning训练。

2.1 视觉-语言分支训练

对于预训练视觉语言分支,本文使用了 Webvid-2M,这是一个大型短视频数据集,带有来自素材网站的文本描述。此外,使用了图像标题数据集 CC595k,该数据集来自 CC3M 。在预训练阶段采用视频到文本生成任务,即给定视频表示,促使冻结的 LLM 生成相应的文本描述。本文发现很大一部分文字描述不足以反映视频的全部内容。因此,视频中的视觉语义与视频描述中的文本语义并不完全一致。然而,这一阶段旨在利用大量数据并使视频特征包含尽可能多的视觉知识。

经过预训练阶段后,模型可以生成视频中的信息内容,但其遵循指令的能力有所下降。因此,在第二阶段,本文 fine-tune 使用高质量的指令数据来构建模型,整合了来自 MiniGPT-4的图像细节描述数据集、来自 LLaVA 的图像指令数据集和来自 Video-Chat 的视频指令数据集。在 fine-tuning 之后,Video-LLaMA 在遵循指令和理解图像和视频方面表现出非凡的能力。

2.2 音频分支训练

由于此类数据的稀有性,直接使用音频文本数据训练音频语言分支非常具有挑战性。音频语言分支中可学习参数的目标是将冻结音频编码器的输出 embedding 与 LLM 的 embedding 空间对齐。鉴于音频文本数据的稀缺性,本文采用变通策略来实现这一目标。用作音频编码器的 ImageBind 具有将不同模态的 embeddings 对齐到一个公共空间的非凡能力,在跨模态检索和生成任务上展示了令人印象深刻的性能。由于音频文本数据的稀缺性和视觉文本数据的丰富性,本文使用视觉文本数据训练音频语言分支,遵循与视觉分支相同的数据和过程。由于 ImageBind 提供的共享 embedding 空间,Video-LLaMA 展示了在推理过程中理解音频的能力,即使音频接口从未在音频数据上进行过训练。

限制

尽管 Video-LLaMA 在理解视频中的视觉和听觉内容方面表现出了令人印象深刻的能力,但它仍处于早期原型阶段并且存在一些局限性,包括:(1) 有限的感知能力:Video-LLaMA 的性能受到质量和当前训练数据集的规模。本文正在积极构建高质量的音频-视频-文本对齐数据集,以增强模型的感知能力(2) handle 长视频的能力有限。长视频(如电影和电视节目)包含大量信息,对计算资源提出更高要求。这一挑战仍然是研究界正在积极努力解决的一个关键问题(3)幻觉。 Video-LLaMA 继承了冻结 LLM 的幻觉问题。未来更强大的 LLM 的进步有望缓解这个问题。

参考链接:

代码地址:https://github.com/DAMO-NLP-SG/Video-LLaMA 论文地址:https://arxiv.org/abs/2306.02858 在线测试:https://huggingface.co/spaces/DAMO-NLP-SG/Video-LLaMA

🌟全托管 Milvus SaaS/PaaS 即将上线,由 Zilliz 原厂打造!覆盖阿里云、百度智能云、腾讯云、金山云。目前已支持申请试用,企业用户 PoC 申请或其他商务合作请联系 business@zilliz.com。


  • 如果在使用 Milvus 或 Zilliz 产品有任何问题,可添加小助手微信 “zilliz-tech” 加入交流群。 ​
  • 欢迎关注微信公众号“Zilliz”,了解最新资讯。

本文由 mdnice 多平台发布文章来源地址https://www.toymoban.com/news/detail-556351.html

到了这里,关于Video-LLaMA 开源,大语言模型也能读懂视频了!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Video-LLaMa:利用多模态增强对视频内容理解

    在数字时代,视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务,不仅需要视觉和听觉信号的整合,还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中的视觉和听觉内容。论文设

    2024年02月09日
    浏览(44)
  • 一文读懂大型语言模型参数高效微调:Prefix Tuning与LLaMA-Adapter

    芝士AI吃鱼 在快速发展的人工智能领域中,高效、有效地使用大型语言模型变得日益重要,参数高效微调是这一追求的前沿技术,它允许研究人员和实践者在最小化计算和资源占用的同时,重复使用预训练模型。这还使我们能够在更广泛的硬件范围内训练AI模型,包括计算能

    2024年01月17日
    浏览(53)
  • 开源语言大模型演进史:向LLaMA 2看齐

    本文是开源 LLM 发展史系列文章的第三部分。此前,第一部分《 开源语言大模型演进史:早期革新 》回顾了创建开源 LLM 的最初尝试。第二部分《 开源语言大模型演进史:高质量基础模型竞赛 》研究了目前可用的最受欢迎的开源基础模型(即已进行预训练但尚未微调或对齐

    2024年02月05日
    浏览(49)
  • 免费商用 Meta 发布开源大语言模型 Llama 2

    Meta 和微软深度合作,正式推出下一代开源大语言模型  Llama 2 ,并宣布免费提供给研究和商业使用。   Llama 2 论文地址:Llama 2: Open Foundation and Fine-Tuned Chat Models 据介绍,相比于 Llama 1, Llama 2 的训练数据多了 40%,上下文长度是 Llama 1 的 2 倍 ,并采用了分组查询注意力机制。

    2024年02月15日
    浏览(42)
  • 欢迎 Llama 3:Meta 的新一代开源大语言模型

    Meta 公司的 Llama 3 是开放获取的 Llama 系列的最新版本,现已在 Hugging Face 平台发布。看到 Meta 持续致力于开放 AI 领域的发展令人振奋,我们也非常高兴地全力支持此次发布,并实现了与 Hugging Face 生态系统的深度集成。 Llama 3 提供两个版本:8B 版本适合在消费级 GPU 上高效部署

    2024年04月24日
    浏览(59)
  • LLaMA 2:开源的预训练和微调语言模型推理引擎 | 开源日报 No.86

    Stars: 36.0k License: NOASSERTION LLaMA 2 是一个开源项目,用于加载 LLaMA 模型并进行推理。 该项目的主要功能是提供预训练和微调后的 LLaMA 语言模型的权重和起始代码。这些模型参数范围从 7B 到 70B 不等。 以下是该项目的关键特性和核心优势: 支持多种规模 (7B、13B 和 70B) 的语言模

    2024年02月04日
    浏览(43)
  • 放弃 console.log 吧!用 Debugger 你能读懂各种源码

    很多同学不知道为什么要用 debugger 来调试,console.log 不行么? 还有,会用 debugger 了,还是有很多代码看不懂,如何调试复杂源码呢? 这篇文章就来讲一下为什么要用这些调试工具: 相信绝大多数同学使用 console.log 调试的,把想看的变量值打印在控制台。 这样能满足需求,

    2023年04月17日
    浏览(40)
  • 技术速览|Meta Llama 2 下一代开源大型语言模型

    AI 使用大型语言模型(LLM)来理解和生成自然语言。LLM 可以从大量文本中学习并创建有关各种主题的文本,并可以完成比如编写代码、生成歌词、总结文章等任务。但有些 LLM 相关课程成本高昂且封闭,而现有的开放课程数量十分有限。这就是 Meta 推出新的开源 LLM Llama 2 的原

    2024年02月16日
    浏览(47)
  • Meta语音达LLaMA级里程碑!开源MMS模型可识别1100+语言

    【新智元导读】Meta的大规模多语言语音 (MMS) 项目将彻底改变语音技术,使用wav2vec 2.0的自监督学习,MMS将语音技术扩展到1100到4000种语言。 在语音方面,Meta又达到了另一个LLaMA级的里程碑。 今天,Meta推出了一个名为MMS的大规模多语言语音项目,它将彻底改变语音技术。

    2024年02月09日
    浏览(68)
  • 一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models

    返回论文和资料目录 LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B),LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。开源的代码在github上可以很方便获得

    2024年02月09日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包