【AIGC-文本/图片生成视频系列-10】SparseCtrl:在文本生成视频的扩散模型中添加稀疏控制

这篇具有很好参考价值的文章主要介绍了【AIGC-文本/图片生成视频系列-10】SparseCtrl:在文本生成视频的扩散模型中添加稀疏控制。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一. 项目概述

二. 方法详解

三. 应用结果

四.个人思考


由于扩散模型生成空间的不确定性,仅仅通过文本生成视频时,会导致模糊的视频帧生成。

今天解析的SparseCtrl,是一种有效解决上述问题的方案,通过带有附加编码器的时间稀疏条件图来控制文本到视频的生成。

一. 项目概述与贡献

已有解决方案:

目前学术界利用密集结构信号(例如每帧深度/边缘序列)来增强可控性,但其收集相应地增加了推理负担。

提出的SparseCtrl:

  1. 实现对时间稀疏信号的灵活结构控制,仅需要一个或几个输入。

  2. 它包含一个额外的条件编码器来处理这些稀疏信号,同时保持预训练的 T2V 模型不变。

  3. 所提出的方法与各种模式兼容,包括草图、深度和 RGB 图像,为视频生成提供更实用的控制,并促进故事板、深度渲染、关键帧动画和插值等应用。

  4. 大量实验证明了 SparseCtrl 在原始和个性化 T2V 生成器上的泛化能力。

sparsectrl(稀疏控制) 的模型,AIGC中的Diffusion Models,AIGC,深度学习,计算机视觉

二. 方法详解

sparsectrl(稀疏控制) 的模型,AIGC中的Diffusion Models,AIGC,深度学习,计算机视觉

(a)SparseCtrl管线概述。(b)vanilla ControlNet(左), SparseCtrl的稀疏条件编码器(右)之间的比较

在SparseCtrl管线中,主要由两部分网络结构组成:

  1. 预训练的T2V主干网络,处于冻结状态;

  2. 附加的稀疏编码器。

这里需要着重解析的是Sparse Encoder, 和原生的ControlNet只考虑单帧的情况不同,Sparse Encoder 考虑了输入的稀疏性和时序性,加入了T2V时间层(这里的时间层就是带有位置编码的时序attention)。由此,稀疏条件编码器可以使条件信号从帧传播到帧,保证了生产视频的一致性。

原生的ControlNet和Sparse encoder中的差别在于:

  1. 原生ControlNet不仅拷贝了Unet 的编码器,还拷贝了输入的噪声样本。输入的条件和输入的噪声样本进行sum 操作后再进入ControlNet网络。这样的设计保证了模型训练的稳定以及加速收敛。

  2. 在Sparse Ctrl中,如果沿用原生ControlNet的设置,那么对于无条件帧而言,Sparse encoder的输入变为仅噪声样本。但这可能会鼓励Sparse encoder忽略条件输入并在训练过程中依赖噪声样本zt,这与我们可控性增强的目标相矛盾。因此SparseCtrl提出的稀疏编码器消除了噪声样本输入,只接受条件和掩码图的组合输入。

三. 应用结果

SparseCtrl可以应用于图像动画,关键帧插值,视频插值,视频预测,深度图引导生成,素描生成视频,故事板生成等领域。

sparsectrl(稀疏控制) 的模型,AIGC中的Diffusion Models,AIGC,深度学习,计算机视觉

sparsectrl(稀疏控制) 的模型,AIGC中的Diffusion Models,AIGC,深度学习,计算机视觉

sparsectrl(稀疏控制) 的模型,AIGC中的Diffusion Models,AIGC,深度学习,计算机视觉

sparsectrl(稀疏控制) 的模型,AIGC中的Diffusion Models,AIGC,深度学习,计算机视觉

四.个人思考

总体而言,SparseCtrl还是给人带来很多启发的。只用稀疏的控制信号就可以实现以往连续控制信号才可以做到的事,生成效果不错的同时也比较符合现实应用。毕竟为了生成一个视频,我们不可能都预先准备好逐帧的控制信号图,这个太不现实。依靠一两帧控制图就可以生成视频比较符合现实操作环境。


关注公众号【AI杰克王】

1. 回复“资源”,获取AIGC 博客教程,顶级大学PPT知识干货;

2. 回复“星球”,获取AIGC 免费知识星球入口,有前沿资深算法工程师分享讨论。

欢迎加入AI杰克王的免费知识星球,海量干货等着你,一起探讨学习AIGC!

sparsectrl(稀疏控制) 的模型,AIGC中的Diffusion Models,AIGC,深度学习,计算机视觉文章来源地址https://www.toymoban.com/news/detail-852095.html

到了这里,关于【AIGC-文本/图片生成视频系列-10】SparseCtrl:在文本生成视频的扩散模型中添加稀疏控制的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • SSR-Encoder:用于主题驱动生成的通用编码器详解_AIGC-图片生成视频系列

    本文介绍了SSR-Encoder,一种用于主题驱动生成的通用编码器,能够根据文本提示或掩码查询生成图像,无需额外的测试时间微调。文章详细解释了SSR-Encoder的贡献概述、方法详解以及综合结果,展示了其在图像生成和视频生成方面的有效性。

    2024年02月02日
    浏览(126)
  • Tune-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning

    Project:https://tuneavideo.github.io 原文链接:Tnue-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning (by 小样本视觉与智能前沿) 目录 为了复制文本到图像(T2I)生成的成功,最近的工作使用大规模视频数据集来训练文本到视频(T2V)生成器。尽管他们的结果很有希望,但这种

    2024年01月15日
    浏览(49)
  • AI短视频制作一本通:文本生成视频、图片生成视频、视频生成视频

    💂 个人网站:【工具大全】【游戏大全】【神级源码资源网】 🤟 前端学习课程:👉【28个案例趣学前端】【400个JS面试题】 💅 寻找学习交流、摸鱼划水的小伙伴,请点击【摸鱼学习交流群】 第一部分:文本生成视频 1. 文本生成视频概述 随着人工智能(AI)技术的飞速发展

    2024年02月05日
    浏览(50)
  • 【超详细】AIGC生成图片和视频

    前沿 准备 接入 源代码 这两天突然看到一个niubility的项目,名叫:stability,这个网站就是大名鼎鼎的stability,网址是:stability.io,感兴趣的朋友可以去访问试试。 今天的主要目的是写一个对接这个项目的一个实操案例,主要是用golang来实现的。 下面呢我会带着大家一步一步

    2024年02月03日
    浏览(34)
  • 用python实现文本/图片生成视频

    使用Python来生成视频通常涉及到使用一些专门的库,比如 OpenCV 或者 moviepy。下面是一个简单的例子,使用OpenCV和PIL(Python Imaging Library)来创建一个视频。 python复制代码 import cv2 import numpy as np from PIL import Image import os # 图片路径列表 image_list = [\\\'img1.jpg\\\', \\\'img2.jpg\\\', \\\'img3.jpg\\\'] # 视频

    2024年01月17日
    浏览(88)
  • 【赠书第14期】AI短视频制作一本通:文本生成视频+图片生成视频+视频生成视频

    文章目录 前言 1 前期准备 2 拍摄与录制 3 后期编辑 4 技巧与注意事项 5 推荐图书 6 粉丝福利 随着智能技术的迅猛发展, AI 短视频制作成为了一种新兴而创新的表达方式,广泛应用于社交媒体、广告营销、教育培训等领域。本文将介绍 AI 短视频制作的一本通,包括从前期准

    2024年02月04日
    浏览(51)
  • 【兔子王赠书第8期】AI短视频制作一本通: 文本生成视频+图片生成视频+视频生成视频

    1本书精通AI短视频制作,文本生成视频+图片生成视频+视频生成视频+AI短视频应用!高效视频制作技巧,助你快速成长为行业大咖! 《AI短视频制作一本通: 文本生成视频+图片生成视频+视频生成视频》 当当网链接:http://product.dangdang.com/29632771.html 京东的链接:https://item.jd

    2024年02月05日
    浏览(57)
  • 【AIGC】IP-Adapter:文本兼容图像提示适配器,用于文本到图像扩散模型

            IPAdapter能够通过图像给Stable Diffusion模型以内容提示,让其生成参考该图像画风,可以免去Lora的训练,达到参考画风人物的生成效果。         通过文本提示词生成的图像,往往需要设置复杂的提示词,通常设计提示词变得很复杂。文本提示可以由图像来替代

    2024年01月16日
    浏览(59)
  • AIGC:利用多个AI技术前沿模型(GPT-3.5/GPT-4/Claude/ForefrontChat/HuggingChat)实现文本理解、生成文本类/图片类的结果对比并分析性能案例集合

    AIGC:利用多个AI技术前沿模型(GPT-3.5/GPT-4/Claude/ForefrontChat/HuggingChat)实现文本理解、生成文本类/图片类的结果对比并分析性能案例集合 目录 文本理解 1、理解语境中的术语含义 GPT-4的回答 GPT-3.5的回答 Forefront Chat(GPT-3.5)的回答 Claude+的回答 HuggingChat的回答 2、请用一句话总结贝

    2024年02月09日
    浏览(45)
  • 【AIGC】阿里达摩院:文本生成视频大模型-通用领域 (Text-to-video-synthesis Model in Open Domain)

    说实话,这篇破文章没什么营养,就是记录一下 阿里达摩院的文章水平。 :多模态 text2video generation diffusion model 文到视频 文生视频 文本生成视频  目录 文本生成视频大模型-通用领域 (Text-to-video-synthesis Model in Open Domain) 模型描述 (Model Description)

    2023年04月09日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包