开源版视频Diffusion Transformer来了吗?

这篇具有很好参考价值的文章主要介绍了开源版视频Diffusion Transformer来了吗?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

今天分享的这篇文章来自于上海人工智能实验室,论文的Title为:Latte: Latent Diffusion Transformer for Video Generation。该方法探索如何有效的对视频中的时间、空间信息进行建模,将视频信息有效的处理成连续的tokens。另外在如何提高视频生成质量上,也做了非常多的实验。 项目已开源,相关实验结果可以借鉴~

vchitect模型结构,Sora,音视频,transformer,深度学习
  • 标题: Latte: Latent Diffusion Transformer for Video Generation
  • URL: https://arxiv.org/abs/2401.03048v1
  • 代码: https://github.com/Vchitect/Latte
  • 作者: Xin Ma, Yaohui Wang, Gengyun Jia, Xinyuan Chen, Ziwei Liu, Yuan-Fang Li, Cunjian Chen, Yu Qiao

一、概述

1 Motivation

  • 视频生成技术如何提高生成质量是一个难题,如何更好的挖掘时序、空间的信息?采用何种架构对模型进行建模?这些都值得探索。
  • 本文提出了一个全新的Latent Diffusion Transformer,名为Latte,用于视频生成。其目标是在潜在空间中对视频分布进行建模,并提高生成视频的质量。

2 Methods

方法概述:

Latte首先从输入视频中提取spatio-temporal tokens(空间-时间标记),然后采用一系列的Transformer块来在潜在空间对视频分布进行建模。

这里有两个难题,一个是如何充分挖掘视频的时间和空间维度的信息,从视频中抽取出连续的tokens。 本文对比了四种高效的模型变体来探索最优处理视频输入的方式。

另外一个难题是如何提升视频生成质量。 本文在模型变种 (Model Variants)、timestep-class information injection (时间步长类信息注入)、temporal positional embedding (时间位置嵌入)、and learning strategies (学习策略)等方面进行了充分的实验,来探索最优提升质量的方法。

2.1 The model variants of Latte

为了对从视频中提取的spatio-temporal information进行建模,我们从分解输入视频的空间和时间维度的角度引入了四种高效的变体。这些变体旨在通过不同的方式分解输入视频的空间和时间维度,以提高视频生成的质量。以下是这四种模型变体的详细介绍:

vchitect模型结构,Sora,音视频,transformer,深度学习
  1. Variant 1:这个变体的Transformer骨干由两种不同类型的Transformer块组成:空间Transformer块和时间Transformer块。空间Transformer块专注于在具有相同时间索引的token之间捕捉空间信息,而时间Transformer块则以“交错融合”的方式在时间维度上捕捉信息。
  2. Variant 2:与Variant 1中的“交错融合”设计不同,Variant 2采用了“后期融合”方法来结合时空信息。这个变体同样包含与Variant 1相同数量的Transformer块,输入形状与Variant 1相似,但融合时空信息的方式不同。
  3. Variant 3:专注于分解Transformer块中的多头注意力(multi-head attention)。这个变体首先在空间维度上计算自注意力,然后是时间维度,从而每个Transformer块都能捕捉到时空信息。
  4. Variant 4:多头注意力(MHA)被分解为两个组件,每个组件使用一半的注意力头。不同的组件分别处理空间和时间维度的token。两个不同的注意力操作计算完成后,时间维度的token被重塑并添加到空间维度的token中,然后作为Transformer块下一个模块的输入。

这些模型变体的设计旨在通过不同的策略来优化视频生成过程中的时空信息处理 ,以期达到更好的视频生成效果。在实验部分,作者通过综合分析这些变体,确定了最佳的实践方法,包括视频片段嵌入、模型变体、时间步长-类别信息注入、时间位置嵌入和学习策略,以实现高质量的视频生成。

2.2 The empirical analysis of Latte

为了提高生成视频的质量 ,我们通过严格的实验分析确定了 Latte 的最佳实验,包括video clip patch embedding(视频剪辑补丁嵌入)、model variants(模型变体)、timestep-class information injection,(时间步长-类信息注入)、temporal positional embedding(时间位置嵌入和学习策略),以下是这一节内容的详细介绍:

  1. Latent video clip patch embedding

    vchitect模型结构,Sora,音视频,transformer,深度学习

    • 作者探索了两种视频片段嵌入方法:均匀帧补丁嵌入(uniform frame patch embedding)和压缩帧补丁嵌入(compression frame patch embedding)。
    • 均匀帧补丁嵌入是将每个视频帧单独嵌入到token中,类似于ViT(Vision Transformer)的方法。
    • 考虑捕获时间信息,然后将 ViT patch 嵌入方法从 2D 扩展到 3D,随后沿着时间维度提取,通过按一定步长提取时间序列中的“管状”结构,然后映射到token。
  2. Timestep-class information injection

    vchitect模型结构,Sora,音视频,transformer,深度学习

    图 4:(a)第 3.3.2 节中描述的 S-AdaLN 架构。(b)图 2(a)和(b)中使用的 vanilla transformer 块的架构。MLP 和 MHA 分别表示多层感知层和多头注意力。

    • 为了将时间步长或类别信息集成到模型中,作者尝试了两种方法:将信息作为token处理(all tokens),以及采用可扩展自适应层归一化(S-AdaLN)。
    • S-AdaLN通过线性回归计算γc和βc,然后应用到Transformer块的隐藏嵌入上,以适应性地编码时间步长或类别信息。
  3. Temporal positional embedding

    • 为了使模型理解时间信号,作者探索了两种时间位置嵌入方法:绝对位置编码(absolute positional encoding)和相对位置编码(relative positional encoding)。
    • 绝对位置编码使用不同频率的正弦和余弦函数,而相对位置编码则使用旋转位置编码(RoPE)来捕捉连续帧之间的时间关系。
  4. Enhancing video generation with learning strategies

    • 作者研究了两种学习策略:使用预训练模型(ImageNet预训练)和图像-视频联合训练(image-video joint training)。
    • 使用预训练模型可以利用ImageNet上学习到的图像生成知识,而图像-视频联合训练则通过在每个视频样本后附加随机选择的视频帧来提高模型的多样性和性能。

通过这些实证分析,作者确定了最佳的模型配置和训练策略,使得Latte模型能够在多个标准视频生成数据集上实现最先进的性能。这些分析结果对于理解如何将Transformer架构有效地集成到扩散模型中,以及如何优化视频生成过程具有重要意义。

3 Conclusion

  • Latte模型在四个标准视频生成数据集(FaceForensics, SkyTimelapse, UCF101和Taichi-HD)上展示了其最先进的性能。
  • Latte还被扩展到了文本到视频的生成任务上,并取得了与最新T2V模型相媲美的结果。

二、详细内容

1 在4个不同数据集上的视频生成效果

定性:

vchitect模型结构,Sora,音视频,transformer,深度学习
  • 在具有挑战性的 UCF101 数据集内合成高质量视频方面表现出色,而其他方法往往在这项任务中失败。

定量:

vchitect模型结构,Sora,音视频,transformer,深度学习

vchitect模型结构,Sora,音视频,transformer,深度学习

数据集选择:

  • 实验主要在四个公开的视频数据集上进行:FaceForensics、SkyTimelapse、UCF101 和 Taichi-HD。
  • 这些数据集用于训练和测试模型,以生成具有高分辨率(256×256像素)的视频。

评估指标

  • 评估指标:Fréchet Video Distance (FVD),FVD是一种评估视频生成质量的指标,它衡量生成视频与真实视频之间的相似度。
  • FID和IS则用于评估视频帧的质量。

基线比较

  • 与当前最先进的视频生成方法进行了比较,包括MoCoGAN、VideoGPT、MoCoGAN-HD、DIGAN、StyleGAN-V、PVDM、MoStGAN-V 和 LVDM。
  • Latte(本文提出的方法)
  • Latte+IMG(本文提出的方法,结合了图像-视频联合训练):放方法在4项任务中,都取得了sota。

2 消融实验

vchitect模型结构,Sora,音视频,transformer,深度学习

  1. Video sampling interval:研究不同的视频采样间隔对模型性能的影响。
  2. Temporal positional embedding:比较绝对位置编码和相对位置编码对模型性能的影响。
  3. ImageNet pretraining: 比较是否在ImageNet数据上进行预训练对实验结果的影响。
  4. Model variants:比较Latte模型的不同变体(Variant 1, Variant 2, Variant 3, Variant 4)在FVD上的表现。
  5. Video clip patch embedding:研究不同的视频片段嵌入方法对FVD的影响,例如均匀帧补丁嵌入与压缩帧补丁嵌入。
  6. Timestep-class information injection:分析将时间步长或类别信息以不同方式注入模型(如所有token或可扩展自适应层归一化S-AdaLN)对FVD的影响。

结论:

  1. Video sampling interval:不同的采样间隔在训练初期对性能有显著影响,但随着训练的进行,这些影响逐渐减小。
  2. Temporal positional embedding:绝对位置编码在某些情况下能提供稍微更好的结果。
  3. ImageNet pretraining: 使用在ImageNet上预训练的模型作为初始权重可以帮助视频生成模型更快地学习,但随着训练的进行,模型可能会遇到适应特定视频数据集分布的挑战。这可能导致性能在达到一定水平后趋于稳定,不再显著提高。
  4. Model variants:Variant 1在迭代增加时表现最佳,而Variant 4由于计算效率较高,尽管性能稍逊,但在资源受限的情况下可能是一个不错的选择。
  5. Video clip patch embedding:均匀帧补丁嵌入在某些情况下表现更好,因为它可能更好地保留了视频的时空信息。
  6. Timestep-class information injection:S-AdaLN方法更有效地将信息传递给模型,从而提高了性能。

3 模型大小对性能的影响

模型参数设置:

vchitect模型结构,Sora,音视频,transformer,深度学习

不同参数模型效果:

vchitect模型结构,Sora,音视频,transformer,深度学习

图表可能显示随着模型大小的增加,模型在视频生成任务上的性能(如FVD分数)通常会有所提高。这表明更大的模型能够捕捉更复杂的视频特征,从而生成更高质量的视频。

4 文本到视频生成(T2V)任务的表现

vchitect模型结构,Sora,音视频,transformer,深度学习

结论:Latte文生图能力也能与当前领先的VideoFusion和Align your Latents T2V模型相比了。

三、总结

亮点总结:

  • Latte采用Transformer技术实现了视频生成的模型革新。 创新性地提取空间-时间标记并在潜在空间建模视频,效果在多个视频生成数据集上取得sota。
  • 四种效率变体的引入允许更灵活地处理视频数据。 模型内部transformer结构上,探索了多种变体用于处理视频的时间、空间信息。
  • 丰富的实验和分析确保了最佳实践的确定。 为了提升视频生成质量,在多个方面进行详细的实验与结果分析,相关经验都可借鉴!

应用价值和行业影响:

  • Latte模型极具潜力,能够在视频生成和相关领域如自动动画制作、虚拟现实内容创建等方面发挥重大作用。
  • 文本到视频的生成能力显示Latte在跨媒体内容生成领域的广泛适用性,对未来研究影响深远。

目前代码已经开源,相关代码实现和实验经验,可以给大家做一个有效的参考!
欢迎关注公众号: NLP PaperWeekly,后台回复Latte领取原始论文!
进技术交流群请添加我微信(id: FlyShines)
请备注昵称+公司/学校+研究方向,否则不予通过文章来源地址https://www.toymoban.com/news/detail-839980.html

到了这里,关于开源版视频Diffusion Transformer来了吗?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 新的生图模型DeepFloyd IF来了,可以拳打Stable Diffusion,脚踢Dall-E?

    Stability AI与它的多模式AI研究实验室DeepFloyd共同宣布研究版本DeepFloyd IF的发布,这是一款强大的文text-to-image级联像素扩散模型(cascaded pixel diffusion model),复现了Google的Imagen(Text-to-Image Diffusion Models)。 对比Stable Diffusion(可以看我以前的文章:北方的郎:深入浅出讲解Stable

    2024年02月11日
    浏览(39)
  • 制造业的寒冬真的要来了吗?

    制造业的寒冬真的要来了吗?其实当前,我国制造业发展水平是处于全球第三阵列,排名第四的: 但能处第三序列靠前,还是因为“规模发展”起了重要支撑——依靠规模拉动发展。所以如果从“质量效益”、“结构优化”、“持续发展”三项来评估,我们仅排名第六,就与

    2023年04月08日
    浏览(99)
  • 【大模型】更强的开源可商用的中英文大语言模型baichuan2来了,从零开始搭建

    baichuan-7B 可以查看这篇文章: 【AI实战】开源可商用的中英文大语言模型baichuan-7B,从零开始搭建 Baichuan 2 是百川智能推出的第二代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。 Baichuan 2 在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的

    2024年02月09日
    浏览(36)
  • 开源语音大语言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!

    论文链接: https://arxiv.org/pdf/2311.07919.pdf 开源代码: https://github.com/QwenLM/Qwen-Audio 大型语言模型(LLMs)由于其良好的知识保留能力、复杂的推理和解决问题能力,在通用人工智能(AGI)领域取得了重大进展。然而,语言模型缺乏像人类一样感知非文本模态(如图像和音频)的

    2024年01月18日
    浏览(44)
  • 全球最强开源AI大模型来了!Databricks称DBRX吊打Llama 2和GPT-3.5

    美国AI初创公司Databricks公布,在语言理解、编程和数学方面,其将开源的模型DBRX的测试得分均高于GPT-3.5、Mixtral、Meta的Llama 2-70B、马斯克旗下xAI的Grok-1。作为混合专家模型,DBRX的输出token速度高Llama 2一筹。 全球最强大的开源人工智能大语言模型将要易主 美国AI初创公司Data

    2024年04月12日
    浏览(45)
  • 2023年市场规模将超147亿美元,中国人工智能产业的“风口”来了吗?

    2023年IDC中国ICT市场趋势论坛于5月10日召开,会议重点探讨了人工智能、工业互联网、网络安全、大数据、云计算等领域,并强调了智能终端、智慧城市和半导体等行业的前景。 IDC预计,中国人工智能市场规模在2023年将超过147亿美元,到2026年将超过263亿美元。IDC中国副总裁钟

    2024年02月05日
    浏览(62)
  • OpenAI视频生成模型Sora的全面解析:从ViViT、扩散Transformer到NaViT、VideoPoet

    真没想到,距离视频生成上一轮的集中爆发( 详见《视频生成发展史:从Gen2、Emu Video到PixelDance、SVD、Pika 1.0、W.A.L.T》 )才过去三个月,没想OpenAI一出手,该领域又直接变天了 自打2.16日OpenAI发布sora以来( 其开发团队包括DALLE 3的4作 Tim Brooks 、DiT一作 Bill Peebles 等13人 ),不但把同

    2024年02月19日
    浏览(67)
  • Stable Diffusion 开源模型 SDXL 1.0 发布

    关于 SDXL 模型,之前写过两篇: Stable Diffusion即将发布全新版本 Stable Diffusion XL 带来哪些新东西? 一晃四个月的时间过去了,Stability AI 团队终于发布了 SDXL 1.0。当然在这中间发布过几个中间版本,分别是 SDXL beta 和 SDXL 0.9。相较于 SDXL 0.9 的仅供研究的版本,这次的完整版本进

    2024年02月15日
    浏览(46)
  • 【AI实战】开源中文 llama2 来了,30 分钟搭建 130 亿参数大模型 Llama2-Chinese-13b-Chat

    Llama2 2023年7月19日:Meta 发布开源可商用模型 Llama2。 Llama2 是一个预训练和微调的生成文本模型的集合,其规模从70亿到700亿个参数不等。 LLaMA2 的详细介绍可以参考这篇文章:【大模型】更强的 LLaMA2 来了,开源可商用、与 ChatGPT 齐平 Llama2-Chinese Llama2中文社区 Llama2-Chinese Git

    2024年02月12日
    浏览(42)
  • Stable Diffusion 母公司开源大语言模型,代号「StableLM」!

    公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 昨天晚上 11 点,Stable Diffusion 的母公司 Stability AI 重磅宣布,正式开源一款全新的大语言模型: StableLM 。 该模型的 Alpha 版本有 30 亿和 70 亿参数,并将于后续开放 150 亿和 650 亿的参数模型。 Stability AI 的创始人

    2024年02月04日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包