Tune-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning

这篇具有很好参考价值的文章主要介绍了Tune-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,论文解析,Text-to-Video,Diffusion,扩散模型,one-shot,Tuning,Tune-A-Video

Project:https://tuneavideo.github.io
原文链接:Tnue-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning (by 小样本视觉与智能前沿)

目录

01 现有工作的不足?

为了复制文本到图像(T2I)生成的成功,最近的工作使用大规模视频数据集来训练文本到视频(T2V)生成器。尽管他们的结果很有希望,但这种范式在计算上是昂贵的。

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,论文解析,Text-to-Video,Diffusion,扩散模型,one-shot,Tuning,Tune-A-Video

02 文章解决了什么问题?

我们提出了一种新的T2V生成设置-单次视频调优,其中只有一个文本视频对。我们的模型建立在最先进的T2I扩散模型上,该模型是在大量图像数据上预训练的。

03 关键的解决方案是什么?

我们引入了Tune-A-Video,它涉及定制的时空注意机制和有效的一次性调整策略。在推理中,我们采用DDIM反演为采样提供结构指导。

04 主要的贡献是什么?

  • 我们为 T2V 生成引入了 One-Shot Video Tuning 的新设置,消除了使用大规模视频数据集进行训练的负担。
  • 我们提出了 Tune-A-Video,这是第一个使用预训练的 T2I 模型生成 T2V 的框架。
  • 我们提出了有效的注意力调整和结构反转,显着提高了时间一致性。

05 有哪些相关的工作?

  • Text-to-Image diffusion models.
  • Text-to-Video generative models.
  • Text-driven video editing.
  • Generation from a single video.

06 方法具体是如何实现的?

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,论文解析,Text-to-Video,Diffusion,扩散模型,one-shot,Tuning,Tune-A-Video

Network Inflation

spatial self-attention mechanism:

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,论文解析,Text-to-Video,Diffusion,扩散模型,one-shot,Tuning,Tune-A-Video

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,论文解析,Text-to-Video,Diffusion,扩散模型,one-shot,Tuning,Tune-A-Video
其中, z v i z_{v_i} zvi 是帧 v i v_i vi对应的潜码表示。 W ∗ W^* W是将输入投影到查询、键和值的可学习矩阵,d 是键和查询特征的输出维度。

我们提出使用稀疏版本的因果注意机制(causal attention mechanism),其中在帧 z v i z_{v_i} zvi 和帧 z v 1 z_{v_1} zv1 z v i − 1 z_{v_{i-1}} zvi1 之间计算注意矩阵,保持低计算复杂度在 O ( 2 m ( N ) 2 ) O(2m(N)^2) O(2m(N)2)
我们实现Attention(Q,k,V)如下:

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,论文解析,Text-to-Video,Diffusion,扩散模型,one-shot,Tuning,Tune-A-Video
其中 [ ⋅ ] [\cdot] []表示连接操作,视觉描述见图5。

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,论文解析,Text-to-Video,Diffusion,扩散模型,one-shot,Tuning,Tune-A-Video

Fine-Tuning and Inference

1)Model fine-tuning

我们微调整个时间自注意力 (T-Attn) 层,因为它们是新添加的。此外,我们建议通过更新交叉注意力中的查询投影来细化文本-视频对齐(Cross-Attn)。在实践中,与完全调优[39]相比,微调注意块在计算上是有效的,同时保留了预训练的T2I扩散模型的原始特性。我们在标准ldm[37]中使用相同的训练目标。图4 说明了带有突出显示可训练参数的微调过程。

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,论文解析,Text-to-Video,Diffusion,扩散模型,one-shot,Tuning,Tune-A-Video

2)基于DDIM反演的结构指导

通过没有文本条件的DDIM反演得到源视频V的潜在噪声。该噪声作为DDIM采样的起点,由编辑后的提示 T ∗ \mathcal{T}^* T指导。输出视频 V ∗ \mathcal{V}^* V 由下式给出:

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,论文解析,Text-to-Video,Diffusion,扩散模型,one-shot,Tuning,Tune-A-Video

07 实验结果和对比效果如何?

Applications

1)Object editing.

我们的方法的主要应用之一是通过编辑文本提示来修改对象。这允许轻松替换、添加或删除对象。图 6 显示了一些示例.

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,论文解析,Text-to-Video,Diffusion,扩散模型,one-shot,Tuning,Tune-A-Video

2)Background change.

我们的方法还允许用户更改视频背景(即对象所在的位置),同时保留对象运动的一致性。例如,我们可以通过添加新位置/时间描述并将图 7 中的国家侧道路视图更改为海洋视图,将图 6 中滑雪人的背景修改为“海滩上”或“太阳落下”。

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,论文解析,Text-to-Video,Diffusion,扩散模型,one-shot,Tuning,Tune-A-Video

3)Style transfer.

由于预训练 T2I 模型的开放域知识,我们的方法将视频转换为各种难以仅从视频数据中学习的风格(12)。例如,我们通过将全局样式描述符附加到提示中,将现实世界的视频转换为漫画风格(图 6,或 Van Gogh风格(图 10)。

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,论文解析,Text-to-Video,Diffusion,扩散模型,one-shot,Tuning,Tune-A-Video

4)个性化可控生成

我们的方法可以很容易地与个性化的T2I模型集成(例如,DreamBooth[39],它以3-5张图像作为输入,并返回一个个性化的T2I模型),直接对它们进行细化。例如,我们可以使用“现代迪士尼风格”或“土豆头先生”个性化的DreamBooth来创建特定风格或主题的视频(图11)。我们的方法还可以与T2I适配器[29]和ControlNet[52]等条件T2I模型集成,在不需要额外训练成本的情况下对生成的视频进行不同的控制。例如,我们可以使用一系列人体姿势作为控制来进一步编辑运动(例如,图1中的舞蹈)。

定性结果

我们在图7中给出了我们的方法与几个基线的视觉比较。 相比之下,我们的方法生成了时间连贯的视频,保留了输入视频中的结构信息,并与编辑过的单词和细节保持一致。另外的定性比较可以在图12中找到。

定量结果

我们通过automatic metrics和用户研究来根据基线量化我们的方法,并在表1中报告框架一致性和文本可信度。

08 消融研究告诉了我们什么?

我们在Tune-A-Video中进行了一项消融研究,以评估时空注意(ST-Attn)机制、DDIM反演和微调的重要性。每个设计都是单独的,以分析其影响。结果如图8所示。

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,论文解析,Text-to-Video,Diffusion,扩散模型,one-shot,Tuning,Tune-A-Video
这些结果表明,我们所有的关键设计都有助于我们方法的成功结果。

09 这个工作还是可以如何优化?

图9给出了输入视频中包含多个目标并出现遮挡时,我们的方法失败的情况。这可能是由于T2I模型在处理多个对象和对象交互方面的固有局限性。一个潜在的解决方案是使用附加的条件信息,如深度,使模型能够区分不同的对象及其相互作用。这方面的研究要留待将来研究。

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,论文解析,Text-to-Video,Diffusion,扩散模型,one-shot,Tuning,Tune-A-Video

10 结论

在本文中,我们介绍了T2V生成的一项新任务–one-shot视频调优。该任务涉及仅使用单个文本视频对和预训练的T2I模型来训练T2V生成器。我们提出Tune-A-Video,一个简单而有效的框架,用于文本驱动的视频生成和编辑。为了生成连续视频,我们提出了一种有效的调优策略和结构反演,可以生成时间相干视频。大量的实验证明了我们的方法在广泛的应用中取得了显著的效果。

原文链接:Tnue-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning (by 小样本视觉与智能前沿)文章来源地址https://www.toymoban.com/news/detail-791596.html

到了这里,关于Tune-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【AIGC】IP-Adapter:文本兼容图像提示适配器,用于文本到图像扩散模型

            IPAdapter能够通过图像给Stable Diffusion模型以内容提示,让其生成参考该图像画风,可以免去Lora的训练,达到参考画风人物的生成效果。         通过文本提示词生成的图像,往往需要设置复杂的提示词,通常设计提示词变得很复杂。文本提示可以由图像来替代

    2024年01月16日
    浏览(45)
  • 【AIGC-文本/图片生成视频系列-10】SparseCtrl:在文本生成视频的扩散模型中添加稀疏控制

    目录 一. 项目概述 二. 方法详解 三. 应用结果 四.个人思考 由于扩散模型生成空间的不确定性,仅仅通过文本生成视频时,会导致模糊的视频帧生成。 今天解析的SparseCtrl,是一种有效解决上述问题的方案,通过带有附加编码器的时间稀疏条件图来控制文本到视频的生成。

    2024年04月15日
    浏览(33)
  • 【AIGC】手把手使用扩散模型从文本生成图像

    在这篇文章中,我们将手把手展示如何使用Hugging Face的diffusers包通过文本生成图像。 DALLE2是收费的,用户只有一些免费的额度,如果免费额度使用完毕就需要付费了,所以必须寻找替代方案,并发现了Hugging Face,他们发布了一个扩散模型的包diffusers ,可以让我们直接使用。

    2024年02月09日
    浏览(40)
  • 文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研

    基于近年来图像处理和语言理解方面的技术突破,融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功。 文本生成图像(text-to-image)是图像和文本处理的多模态任务的一项子任务,其根据给定文本生成符合描述的真实图像,具有巨大的应用潜力,如 视觉推

    2023年04月08日
    浏览(28)
  • 扩散模型实战(十):Stable Diffusion文本条件生成图像大模型

     扩散模型实战(一):基本原理介绍 扩散模型实战(二):扩散模型的发展 扩散模型实战(三):扩散模型的应用 扩散模型实战(四):从零构建扩散模型 扩散模型实战(五):采样过程 扩散模型实战(六):Diffusers DDPM初探 扩散模型实战(七):Diffusers蝴蝶图像生成实

    2024年02月03日
    浏览(41)
  • DALL·E 2 解读 | 结合预训练CLIP和扩散模型实现文本-图像生成

      论文标题: 《Hierarchical Text-Conditional Image Generation with CLIP Latents》 作者/单位:Aditya Ramesh et al. / Open AI 论文链接: http://arxiv.org/abs/2204.06125 论文中文对照版:论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents详解_nocol.的博客-CSDN博客 代码链接: 非官方实现 h

    2024年02月11日
    浏览(29)
  • stable diffusion为什么能用于文本到图像的生成

      推荐基于稳定扩散(stable diffusion) AI 模型开发的自动纹理工具: DreamTexture.js自动纹理化开发包 - NSDT 如果你还没有看过它:稳定扩散是一个文本到图像的生成模型,你可以输入一个文本提示,比如“一个人一半尤达一半甘道夫”,然后接收一个图像(512x512像素)作为输出,

    2024年02月03日
    浏览(28)
  • Text2Video-Zero:Text-to-Image扩散模型是Zero-Shot视频生成器

    Paper: https://arxiv.org/abs/2303.13439 Project: https://github.com/Picsart-AI-Research/Text2Video-Zero 原文链接:Text2Video-Zero:Text-to-Image扩散模型是Zero-Shot视频生成器(by 小样本视觉与智能前沿) 目录 最近的text-to-video生成方法依赖于计算量大的训练,并且需要大规模的视频数据集。 在本文中,我

    2024年02月11日
    浏览(27)
  • 零样本从文本直接生成视频:Text2video-zero的试用和启发

    前段时间,一款AI视频应用及其创始人刷爆了科技圈,顺便还带火了自家公司的股票。这是一家名为pikaai的初创公司,他们的主打产品是一款文本生成视频应用Pika 1.0。对于AI生成图片大多数人已经不陌生了,甚至已经用的非常熟练,其中不乏常见的Stable Diffusion以及Midjourney等

    2024年01月20日
    浏览(29)
  • 免费使用支持离线部署使用的 txt2video 文本生成视频大模型(Text-to-Video-Synthesis Model)

    免费使用支持离线部署使用的 txt2video 文本生成视频大模型(Text-to-Video-Synthesis Model)。 文本生成视频大模型(Text-to-Video-Synthesis Model)是一种基于深度学习技术的人工智能模型,它可以将自然语言文本描述转换为相应的视频。即通过输入文本描述,自动生成符合描述内容的视频。

    2024年02月22日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包