【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型

这篇具有很好参考价值的文章主要介绍了【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

 前言

Animatediff是一个有效的框架将文本到图像模型扩展到动画生成器中,无需针对特定模型进行调整。只要在大型视频数据集中学习到运动先验知识。AnimateDiff就可以插入到个性化的文生图模型中,与Civitai和Huggingface的文生图模型兼容,也可以与自己微调的大模型兼容。

【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型,深度学习,pytorch,AIGC,AnimateDiff

摘要 

 随着文本到图像模型(例如,Stable Diffusion [22])和相应的个性化技术的进步DreamBooth [24] 和 LoRA [13] 等产品,每个人都可以以可承受的成本将他们的想象力体现成高质量的图像。因此,对图像动画技术的需求很大,可以进一步将生成的静态图像与运动动态相结合。在本报告中,我们提出了一个实用的框架,可以一劳永逸地为大多数现有的个性化文本到图像模型制作动画,从而节省特定于模型的调整工作。所提出的框架的核心将新初始化的运动建模模块插入到冻结的文本到图像模型中,并在视频剪辑上对其进行训练,以提炼出合理的运动先验。经过训练后,只需注入此运动建模模块,从同一基础 T2I 派生的所有个性化版本都很容易成为文本驱动的模型,从而生成多样化和个性化的动画图像。我们对动漫图片和逼真照片中的几个具有公共代表性的个性化文本到图像模型进行了评估,并证明了我们提出的框架有助于这些模型生成时间平滑的动画剪辑,同时保留其输出的域和多样性。代码和预训练权重将在我们的项目页面上公开提供。

引言 

 文本生成图像领域广受关注,几种轻量级个性化方法,如DreamBooth [24]和LoRA [13],以使用消费级设备(如带有RTX3080的笔记本电脑)在小型数据集上对这些模型进行定制微调,然后这些模型可以生成质量显着提高的定制内容。通过这种方式,用户可以以非常低的成本将新概念或风格引入预训练的 T2I 模型,从而产生艺术家和业余爱好者在模型共享平台(如 CivitAI [4] 和 Huggingface [8] )上贡献的众多个性化模型。

文生图质量很高,但都是静态图像,缺乏时间自由度。最近的通用文本到视频生成方法[7,12,33]建议将时间建模合并到原始T2I模型中,并在视频数据集上调整模型。然而,个性化 T2I 模型变得具有挑战性,因为用户通常负担不起敏感的超参数调整、个性化视频收集和密集的计算资源。

本文的做法将运动建模模块引入到基础T2I模型中,然后对大型视频剪辑[1]进行微调,学习合理的运动先验。值得注意的是,基本模型的参数保持不变。经过微调后,我们证明了派生的个性化 T2I 也可以从学习良好的运动先验中受益,从而产生流畅且吸引人的动画。也就是说,运动建模模块设法为所有相应的个性化 T2I 模型制作动画,而无需进一步收集数据或进行自定义训练。

相关工作 

 文生图模型

  • GLIDE[17]将文本条件引入扩散模型,并证明分类器引导产生更令人愉悦的结果
  • DALLE-2 [21] 通过 CLIP [19] 联合特征空间改进了文本-图像对齐
  • Imagen[25]结合了在文本语料库上预训练的大型语言模型[20]和级联扩散模型,以实现逼真的图像生成。
  • Stable Diffusion[22],即稳定扩散,提出在自动编码器的潜在空间中执行去噪过程,有效地减少所需的计算资源,同时保持生成图像的质量和灵活性。

个性化的文生动画 

         现有工作[7,12,15,28,31,33]更新了网络中的全部参数,损害了原始T2I模型的领域知识。

  •  Tune-a-Video [31] 通过轻微的架构修改和子网调优解决了一次性视频生成任务。
  •  Text2Video-Zero [15] 引入了一种免训练方法,在给定预定义的仿射矩阵的情况下,通过潜在包装对预训练的 T2I 模型进行动画处理。
  • Align-Your-Latents [3],这是一种文本到视频 (T2V) 模型,可在 T2I 模型中训练单独的时间层。

方法

预备知识 

文生图生成器 

 SD基于潜在扩散模型(LDM)[22],该模型在自动编码器的潜在空间(即E(·)和D(·))中执行去噪过程,在大型图像数据集上预先训练为VQ-GAN [14]或VQ-VAE [29]这种设计在降低计算成本的同时保持高视觉质量方面具有优势。在潜伏扩散网络的训练过程中,输入图像最初由冻结编码器映射到潜伏空间,产生,然后被预定义的马尔可夫过程扰动:

 

对于时间t=1,...,T,T表示前向扩散过程的步数。超参数决定了每一步的噪声强度 ,上述的迭代公式可以被简化为下面这个式子,

【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型,深度学习,pytorch,AIGC,AnimateDiff

.Stable Diffusion 采用DDPM[5]中提出的训练目标函数.

 y是对应的文字描述,是将字符串映射到向量序列的文本编码器。

在SD中,使用一个UNet变体实现的[23],包括四个上采样/下采样模块和一个中间模块,使潜在空间发生四个分辨率级别的变化。每个分辨率级别都集成了2D卷积层以及自注意力和交叉注意力机制。文本模型是使用CLIP [19] ViT-L/14文本编码器实现的。

个性化图像生成 

 随着时代进程的不断推进,个性化图像生成越来越受到重视。DreamBooth [24] 和 LoRA [13] 是两种具有代表性且广泛使用的个性化方法。要引入新域(新概念、风格等)对于预先训练的 T2I 模型,一种简单的方法是在该特定领域的图像上对其进行微调。但是,在没有正则化的情况下直接调整模型通常会导致过度拟合或灾难性遗忘,尤其是当数据集较小时。为了克服这个问题,DreamBooth[24]使用一个罕见的字符串作为指示器来表示目标域,并通过添加原始T2I模型生成的图像来增强数据集。这些正则化图像是在没有指示器的情况下生成的,因此允许模型在微调期间学习将稀有字符串与预期域相关联。

另一方面,LoRA [13] 采用了一种不同的方法,试图微调模型权重的残差,即训练 ∆W 而不是 W 。微调后的权重计算为 W’ = W + α∆W ,其中 α 是一个超参数,用于调整调整过程的影响,从而为用户提供更大的自由度来控制生成的结果。为了进一步避免过拟合并降低计算成本,∆W分解为两个低秩矩阵,即∆W = ,其中A∈,B∈,r≪m,n。在实践中, 仅对transformer模块中的投影矩阵进行微调, 进一步降低了 LoRA 模型的训练和存储成本.与训练后存储整个模型参数的 DreamBooth 相比,LoRA 模型在训练和用户之间共享的效率要高得多。

 

 个性化动画【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型,深度学习,pytorch,AIGC,AnimateDiff

对个性化图像模型进行动画处理通常需要对相应的视频集进行额外调整, 使其更具挑战性。在本节中,我们以个性化动画为目标,其正式表述为:给定一个个性化的 T2I 模式,例如,由用户训练或从 CivitAI [4] 或 Huggingface [8] 下载的 DreamBooth [24] 或 LoRA [13] 检查点),目标是将其转换为动画生成器,只需很少或没有培训成本,同时保留其原始领域知识和质量。例如,假设 T2I 模型针对特定的 2D 动漫风格进行了个性化设置。在这种情况下,相应的动画生成器应该能够生成具有适当动作的该风格的动画剪辑,例如前景/背景分割、角色身体运动等。

为了实现这一点,一种朴素的方法是通过添加时间感知结构并从大规模视频数据集中学习合理的运动先验来膨胀T2I模型[7,12,33]。但是,对于个性化域,收集足够的个性化视频成本很高。同时,有限的数据将导致源域的知识流失。因此,我们选择单独训练一个可泛化的运动建模模块,并在推理时将其插入到个性化的 T2I 中。通过这样做,我们避免了对每个个性化模型的特定调整,并通过保持预先训练的权重不变来保留他们的知识。这种方法的另一个关键优点是,一旦模块被训练,它就可以插入到同一基础模型上的任何个性化 T2I 中,而无需进行特定的调整,正如以下实验所验证的那样。这是因为个性化过程几乎没有修改基础 T2I 模型的特征空间,这也是Controlnet采用的方法。

【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型,深度学习,pytorch,AIGC,AnimateDiff

运动模块的详细信息。模块插入(左):我们的运动模块插入到预训练的图像层之间。当数据批处理通过图像层和我们的运动模块时,其时间和空间轴将分别重塑为批处理轴。模块设计(右):我们的模块是一个普通的临时转换器,具有零初始化的输出项目层。

 运动建模模块

 网络膨胀。由于原始标清只能批量处理图像数据,因此需要模型膨胀以使其与我们的运动建模模块兼容,该模块采用 5D 视频张量批量×通道形状的×帧数×高度×宽度作为输入。为了实现这一点,我们采用了类似于视频扩散模型[12]的解决方案。具体来说,我们通过将帧数轴重塑为批处理轴并允许网络独立处理每一帧,将原始图像模型中的每个 2D 卷积和注意力层转换为空间伪 3D 层。与上述不同的是,我们新插入的运动模块在每批中跨帧操作,以实现动画剪辑中的运动流畅性和内容一致性。

模块设计。对于运动建模模块的网络设计,我们的目标是实现跨帧的高效信息交换。为了实现这一点,我们选择了普通的时态变压器作为运动模块的设计。值得注意的是,我们还对运动模块的其他网络设计进行了实验,发现普通时间变换器足以对运动先验进行建模。我们将寻找更好的运动模块留给未来的工作。

原版时间transformer由几个沿时间轴操作的自注意力块组成。当通过我们的运动模块时,特征图z的空间维度高度和宽度将首先被重塑为批量维度,从而在帧的长度处产生批量×高度×宽度序列。然后,重塑的特征图将被投影并经过几个自注意力块,即

 是重塑特征图的三个投影。此操作使模块能够捕获跨时轴上同一位置的要素之间的时间依赖关系。为了扩大运动模块的感受野,我们将其插入U形扩散网络的每个分辨率水平。此外,我们在自注意力块中添加了正弦位置编码[30]让网络知道动画剪辑中当前帧的时间位置。为了在训练过程中插入我们的模块而不产生有害影响,我们将时态转换器的输出投影层初始化为零,这是ControlNet验证的有效做法[32]。

训练目标。我们的运动建模模块的训练过程类似于潜在扩散模型[22]。采样的视频数据首先通过预训练的自动编码器逐帧编码到潜在代码中。然后,使用定义的前向扩散时间策略【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型,深度学习,pytorch,AIGC,AnimateDiff对潜在码进行噪声化。使用我们的运动模块膨胀的扩散网络将噪声潜在代码和相应的文本提示作为输入,并预测添加到潜在代码中的噪声强度,这是由 L2 损失项鼓励的。我们运动建模模块的最终训练目标是:

 

 在优化过程中,基础 T2I 模型的预训练权重将被冻结,以保持其特征空间不变。

实验

考虑到大多数公共个性化模型都基于此版本,我们选择了 Stable Diffusion v1 作为训练运动建模模块的基础模型。我们使用 WebVid-10M [1](一个文本-视频对数据集)训练了运动模块。数据集中的视频剪辑首先以 4 的步幅进行采样,然后调整大小并居中裁剪为 256 × 256 的分辨率。我们的实验表明,在 256 上训练的模块可以推广到更高的分辨率。因此,我们选择了 256 作为我们的训练分辨率,因为它保持了训练效率和视觉质量的平衡。用于训练的视频剪辑的最终长度设置为 16 帧。在实验过程中,我们发现,使用与训练基本 T2I 模型的原始时间表略有不同的扩散时间表有助于获得更好的视觉质量并避免低饱和度和闪烁等伪影。我们假设稍微修改原始计划可以帮助模型更好地适应新任务(动画)和新数据分布。因此,我们使用了线性 beta 计划,其中 β= 0.00085,β= 0.012,只和原来的SD模型训练稍有不同。

【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型,深度学习,pytorch,AIGC,AnimateDiff

不足之处

 在我们的实验中,我们观察到大多数失败案例出现在个性化 T2I 模型的领域远非现实时,例如 2D 迪士尼卡通(图 7)。在这些情况下,动画结果具有明显的伪影,无法产生适当的运动。我们假设这是由于训练视频(现实)和个性化模型之间的分布差距很大。这个问题的一个可能的解决方案在目标域中手动收集几个视频,并稍微微调运动建模模块,我们把它留给未来的工作。

总结 

我们介绍了 AnimateDiff,这是一个实现个性化文本到图像模型动画的实用框架,旨在将大多数现有的个性化 T2I 模型一劳永逸地转化为动画生成器。我们证明了我们的框架,其中包括一个在基础 T2I 上训练的简单设计的运动建模模块,可以从大型视频数据集中提取可泛化的运动先验。经过训练后,我们的运动模块可以插入到其他个性化模型中,以生成具有自然和适当运动的动画图像,同时忠实于相应的领域。对各种个性化T2I模型的广泛评估也验证了我们方法的有效性和通用性。因此,AnimateDiff 为个性化动画提供了一个简单而有效的基准,可能使广泛的应用程序受益。 

 参考链接

https://arxiv.org/pdf/2307.04725.pdf

GitHub - guoyww/AnimateDiff: Official implementation of AnimateDiff. 文章来源地址https://www.toymoban.com/news/detail-823527.html

到了这里,关于【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 服装行业多模态算法个性化产品定制方案 | 京东云技术团队

    一、项目背景 AI赋能服装设计师,设计好看、好穿、好卖的服装 传统服装行业痛点 • 设计师无法准确捕捉市场趋势,抓住中国潮流 • 上新周期长,高库存滞销风险大 • 基本款居多,难以满足消费者个性化需求 解决方案 • GPT+数据洞察,快速反应市场时尚流行趋势 • 柔性

    2024年02月14日
    浏览(40)
  • 奥威BI数据可视化工具:个性化定制,打造独特大屏

    每个人都有自己独特的审美,因此即使是做可视化大屏,也有很多人希望做出不一样的报表,用以缓解审美疲劳的同时提高报表浏览效率。因此这也催生出了数据可视化工具的个性化可视化大屏制作需求。 奥威BI数据可视化工具:个性化定制,打造独特可视化大屏 奥威BI数据

    2024年02月12日
    浏览(38)
  • 三防平板定制服务:亿道信息与个性化生产的紧密结合

    在当今数字化时代,个性化定制已经成为了市场的一大趋势,而三防平板定制服务作为其中的一部分,展现了数字化技术与个性化需求之间的紧密结合。这种服务是通过亿道信息所提供的技术支持,为用户提供了满足特定需求的定制化三防平板,从而使得产品更符合用户的个

    2024年04月09日
    浏览(32)
  • 基于ssm个性化旅游攻略定制系统设计与实现+jsp论文

    在如今社会上,关于信息上面的处理,没有任何一个企业或者个人会忽视,如何让信息急速传递,并且归档储存查询,采用之前的纸张记录模式已经不符合当前使用要求了。所以,对个性化旅游攻略信息管理的提升,也为了对个性化旅游攻略信息进行更好的维护,个性化旅游

    2024年02月03日
    浏览(45)
  • 三种风格:山海鲸可视化软件模板的个性化定制之旅“

    当我们谈论数据可视化时,一个好的可视化组件套件模板至关重要。一个优秀的模板不仅可以提高数据可视化的效果,还能让用户更加深入地探索和理解数据。作为山海鲸可视化软件的开发者,在提供 免费好用 的产品同时我们也希望最大限度降低用户设计难度,因此我们精

    2024年01月22日
    浏览(39)
  • 个性化定制,提升运营效率:SAP二次开发引领企业数字化转型

    SAP二次开发引领企业数字化转型 随着企业竞争的日益激烈,定制化管理方案成为企业实现差异化竞争的重要工具。SAP作为全球领先的企业管理软件提供商,SAP二次开发服务应运而生,为企业提供个性定制的解决方案,助力其实现数字化转型,提高运营效率,迎接不断变化的业

    2024年02月22日
    浏览(30)
  • 基于Android+Django+Python的服饰管理与个性化定制系统的设计与实现

    资源下载地址:https://download.csdn.net/download/sheziqiong/87904742 资源下载地址:https://download.csdn.net/download/sheziqiong/87904742 一、选题的背景和意义 1、课题研究背景 随着移动终端技术和网络技术的飞速发展,人们可以使用移动客户端上网,随时随地从互联网获取信息和服务,解决吃

    2024年03月13日
    浏览(85)
  • 个性化定制界面 VS 极简版原装界面:你更喜欢哪一个?为什么?

    不管昨天、今天、明天,能豁然开朗就是最美好的一天。 个性化定制界面和极简版原装界面,哪一个你用起来更加顺手呢,相比之下你更喜欢哪一个? 随着移动互联网技术的不断发展,手机和电脑成为我们生活中必不可少的工具之一。而手机和电脑界面作为我们与手机交互

    2024年02月11日
    浏览(40)
  • 【ChatGPT】Mr. Ranedeer:可定制个性化学习体验的 GPT-4 AI 导师提示

    Mr. Ranedeer AI Tutor 是一个可定制的提示,为具有不同需求和兴趣的用户提供个性化的学习体验。它使用GPT-4来释放AI的潜力,并允许您调整知识深度以匹配您的学习需求,自定义学习风格,沟通类型,语气和推理框架 。 当您使用Mr. Ranedeer AI Tutor时,您 可以选择自己的学习风格

    2024年02月11日
    浏览(33)
  • 企业版ChatGPT用户激增至60万;百度文心一言推出个性化声音定制功能

    🦉 AI新闻 🚀 企业版ChatGPT用户激增至60万 摘要 :OpenAI首席运营官Brad Lightcap在接受采访时透露,企业版ChatGPT的注册用户已超60万,相较2024年1月的15万用户,短短三个月内增长了300%。这一版本自2023年8月推出,特别支持无限制访问GPT-4模型并提供深入的数据分析,帮助企业更有

    2024年04月09日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包