AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画

这篇具有很好参考价值的文章主要介绍了AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


论文: 《AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning》
github: https://github.com/guoyww/animatediff/

1. 摘要

随着文生图模型Stable Diffusion及个性化finetune方法:DreamBooth、LoRA发展,人们可以用较低成本生成自己所需的高质量图像,这导致对于图像动画的需求越来越多。本文作者提出一种框架,可将现有个性化文生图模型所生成图片运动起来。该方法内核为在模型中插入一个运动建模模块,训练后用于蒸馏合理的运动先验。一旦训练完成,所有基于同一个文生图模型的个性化版本都可变为文本驱动模型。作者在动画、真实图上验证,AnimateDiff生成视频比较平滑,同时保留域特性及输出多样性。

2. 引言

作者提出的AnimateDiff,可对于任意个性化文生图模型生成动图,收集每个个性化域对应视频进行finetune是不方便的,因此作者设计运动建模模块,在大规模视频上进行finetune,学习到运动先验。

3. 算法

AnimateDiff结构如图2所示,
AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画,论文详解,视频生成,跨模态,stable diffusion,AnimateDiff,文生视频,跨模态,论文阅读,AIGC

3.1 Preliminaries

作者使用通用文生图模型SD,对于个性化图像生成领域,如果采集目标域数据进行finetune模型,成本大,DreamBooth通过设置稀有字符串作为目标域标志,同时增加原始模型生成图像进行训练,减少信息丢失;LoRA训练模型参数差值∆W,为降低计算量,作者将∆W解耦为两个低秩矩阵,只有transformer block中映射矩阵参与finetune

3.2. Personalized Animation

Personalized Animation定义为:给出个性化文生图模型,比如DreamBooth或LoRA,通过少量训练成本或不训练即可驱动生成器,保留原始域信息及质量。
为达到上述目的,常规方案是扩展模型增加关注时间的结构,通过大量视频数据学习合理运动先验,但是个性化视频收集成本大,有限视频将导致源域信息丢失。
对此,作者选择训练泛化性运动建模模块,推理时将其插入文生图模型,作者实验验证发现,该模块可用于任何基于同一基础模型的文生图模型,因为几乎未改变基础模型特征空间,ControlNet也曾证明过。

3.3 Motion Modeling Module

网络扩展:
原始SD仅能用于处理图像数据,若要处理5D视频张量(batch × \times ×channels × \times ×frames × \times ×height × \times ×width),则需要扩展网络,作者将原模型中每个2D卷积及attention层转换到仅关注空间的伪3D层,将frame维度合并到batch维度。新引入的运动模块可在每个batch中跨帧执行,使得生成视频跨帧平滑,内容一致,细节如图3所示。
AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画,论文详解,视频生成,跨模态,stable diffusion,AnimateDiff,文生视频,跨模态,论文阅读,AIGC
运动建模模块设计:
该模块主要用于高效交换跨帧信息,作者发现普通的时空transformer足够建模运动先验。其由几个self-attention在时空维执行,特行图z的空间维度height、width reshape到batch维度,得到长度frames的 b a t c h ∗ h e i g h t ∗ w i d t h batch*height*width batchheightwidth的序列,该映射特征经过几个self-attention block,如式4,
AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画,论文详解,视频生成,跨模态,stable diffusion,AnimateDiff,文生视频,跨模态,论文阅读,AIGC
使得该模块可以捕获帧序列同一位置之间时空依赖性;为扩大感受野,作者在U型扩散网路每个分辨率层级引入该模块;此外,self-attention中增加正弦位置编码,使得网络关注当前帧时空位置

训练目标函数:
训练过程:采样视频数据,通过预训练编码器,编码到隐空间,经过运动模块扩展的扩散网络,将噪声隐向量及对应文本prompt作为输入,预测增加到隐向量上的噪声,如式5,AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画,论文详解,视频生成,跨模态,stable diffusion,AnimateDiff,文生视频,跨模态,论文阅读,AIGC

4. 实验

如图4,作者展示不同模型效果;
AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画,论文详解,视频生成,跨模态,stable diffusion,AnimateDiff,文生视频,跨模态,论文阅读,AIGC
图5,作者比较AnimateDiff与Text2Video-Zero,帧与帧之间内容一致性,Text2Video-Zero内容缺少细粒度一致性。
AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画,论文详解,视频生成,跨模态,stable diffusion,AnimateDiff,文生视频,跨模态,论文阅读,AIGC
消融实验:
AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画,论文详解,视频生成,跨模态,stable diffusion,AnimateDiff,文生视频,跨模态,论文阅读,AIGC
表2作者比较3种不同扩散机制,可视化结果如图6,Schedule B达到两者均衡。
AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画,论文详解,视频生成,跨模态,stable diffusion,AnimateDiff,文生视频,跨模态,论文阅读,AIGC

5.限制

作者发现个性化文生图模型数据域为非逼真图片,更容易生成失败,如图7,有明显伪影,不能生成合理运动,归因于训练视频与个性化模型之间存在较大分布差异。可通过收集目标域视频finetune解决。
AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画,论文详解,视频生成,跨模态,stable diffusion,AnimateDiff,文生视频,跨模态,论文阅读,AIGC

6. 结论

作者提出AnimateDiff,可将大多数个性化文生图模型进行视频生成,基于简单设计的运动建模模块,在大量视频数据学习运动先验,插入个性化文生图模型用于生成自然合理的目标域动图。文章来源地址https://www.toymoban.com/news/detail-630781.html

到了这里,关于AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • diffusers加速文生图速度;stable-diffusion、PixArt-α模型

    参考: https://pytorch.org/blog/accelerating-generative-ai-3/ https://colab.research.google.com/drive/1jZ5UZXk7tcpTfVwnX33dDuefNMcnW9ME?usp=sharing#scrollTo=jueYhY5YMe22 大概GPU资源8G-16G;另外模型资源下载慢可以在国内镜像:https://aifasthub.com/ 1、加速代码 能加速到2秒左右

    2024年04月23日
    浏览(73)
  • Stable Diffusion + AnimateDiff运用

    1.安装AnimateDiff,重启webui 2.下载对应的模型,最好到c站下载,google colab的资源有可能会出现下载问题 https://civitai.com/models/108836 3.下载完成后,你可以随便抽卡了。 抽卡完成后固定seed,然后打开这个插件,然后通过填写一下参数,点生成就可以开始生成。可以首先固定生成好

    2024年02月08日
    浏览(56)
  • 【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型

    Animatediff是一个有效的框架将文本到图像模型扩展到动画生成器中,无需针对特定模型进行调整。只要在大型视频数据集中学习到运动先验知识。AnimateDiff就可以插入到个性化的文生图模型中,与Civitai和Huggingface的文生图模型兼容,也可以与自己微调的大模型兼容。  随着文本

    2024年01月25日
    浏览(58)
  • 一文读懂Stable Diffusion 论文原理+代码超详细解读

    Stable diffusion是一个基于Latent Diffusion Models(LDMs)实现的的文图生成(text-to-image)模型。 2022年8月,游戏设计师Jason Allen凭借AI绘画作品《太空歌剧院(Théâtre D’opéra Spatial)》获得美国科罗拉多州博览会“数字艺术/数码摄影“竞赛单元一等奖,“AI绘画”引发全球热议。得力

    2024年01月19日
    浏览(58)
  • Diffusion扩散模型学习2——Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例

    用了很久的Stable Diffusion,但从来没有好好解析过它内部的结构,写个博客记录一下,嘿嘿。 https://github.com/bubbliiiing/stable-diffusion 喜欢的可以点个star噢。 Stable Diffusion是比较新的一个扩散模型,翻译过来是稳定扩散,虽然名字叫稳定扩散,但实际上换个seed生成的结果就完全不

    2024年02月15日
    浏览(67)
  • Stable Diffusion WebUI使用AnimateDiff插件生成动画

    AnimateDiff 可以针对各个模型生成的图片,一键生成对应的动图。 GPU显存建议12G以上,在xformers或者sdp优化下显存要求至少6G以上。 要开启sdp优化,在启动参数加上--sdp-no-mem-attention 实际的显存使用量取决于图像大小(batch size)和上下文批处理大小(Context batch size)。可以尝试

    2024年02月05日
    浏览(56)
  • [Stable Diffusion]AnimateDiff :最稳定的文本生成视频插件

    一、AnimateDiff简介 AnimateDiff采用控制模块来影响Stable Diffusion模型,通过大量短视频剪辑的训练,它能够调整图像生成过程,生成一系列与训练视频剪辑相似的图像。简言之,AnimateDiff通过训练大量短视频来优化图像之间的过渡,确保视频帧的流畅性。 与传统的SD模型训练方式

    2024年02月04日
    浏览(44)
  • Stable Diffusion 动画SD-Animatediff V2

    AI不仅可以生成令人惊叹的图片,还能给这些图片注入生命,让它们动起来。 这就是AnimateDiff要做的事情,一个神奇的工具,能将静态的AI生成图像转换成动画。 本次介绍基于SD如何实现这个神奇的方法。 进入SD页面在扩展下输入网址 https://github.com/continue-revolution/sd-webui-anim

    2024年02月07日
    浏览(144)
  • [Stable Diffusion进阶篇]AnimateDiff :最稳定的文本生成视频插件

    一、AnimateDiff简介 AnimateDiff采用控制模块来影响Stable Diffusion模型,通过大量短视频剪辑的训练,它能够调整图像生成过程,生成一系列与训练视频剪辑相似的图像。简言之,AnimateDiff通过训练大量短视频来优化图像之间的过渡,确保视频帧的流畅性。 与传统的SD模型训练方式

    2024年02月04日
    浏览(78)
  • Stable Diffusion AnimateDiff-最火文本生成视频插件V3发布

    AnimateDiff采用控制模块来影响Stable Diffusion模型,通过大量短视频剪辑的训练,它能够调整图像生成过程,生成一系列与训练视频剪辑相似的图像。简言之,AnimateDiff通过训练大量短视频来优化图像之间的过渡,确保视频帧的流畅性。 与传统的SD模型训练方式不同,AnimateDiff通过

    2024年04月26日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包