【AIGC-文本/图片生成视频系列-10】SparseCtrl：在文本生成视频的扩散模型中添加稀疏控制

这篇具有很好参考价值的文章主要介绍了【AIGC-文本/图片生成视频系列-10】SparseCtrl：在文本生成视频的扩散模型中添加稀疏控制。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一. 项目概述

二. 方法详解

三. 应用结果

四.个人思考

由于扩散模型生成空间的不确定性，仅仅通过文本生成视频时，会导致模糊的视频帧生成。

今天解析的SparseCtrl，是一种有效解决上述问题的方案，通过带有附加编码器的时间稀疏条件图来控制文本到视频的生成。

一. 项目概述与贡献

已有解决方案：

目前学术界利用密集结构信号（例如每帧深度/边缘序列）来增强可控性，但其收集相应地增加了推理负担。

提出的SparseCtrl:

实现对时间稀疏信号的灵活结构控制，仅需要一个或几个输入。
它包含一个额外的条件编码器来处理这些稀疏信号，同时保持预训练的 T2V 模型不变。
所提出的方法与各种模式兼容，包括草图、深度和 RGB 图像，为视频生成提供更实用的控制，并促进故事板、深度渲染、关键帧动画和插值等应用。
大量实验证明了 SparseCtrl 在原始和个性化 T2V 生成器上的泛化能力。

sparsectrl(稀疏控制) 的模型,AIGC中的Diffusion Models,AIGC,深度学习,计算机视觉

二. 方法详解

sparsectrl(稀疏控制) 的模型,AIGC中的Diffusion Models,AIGC,深度学习,计算机视觉

（a）SparseCtrl管线概述。（b）vanilla ControlNet（左）, SparseCtrl的稀疏条件编码器（右）之间的比较

在SparseCtrl管线中，主要由两部分网络结构组成：

预训练的T2V主干网络，处于冻结状态；
附加的稀疏编码器。

这里需要着重解析的是Sparse Encoder, 和原生的ControlNet只考虑单帧的情况不同，Sparse Encoder 考虑了输入的稀疏性和时序性，加入了T2V时间层（这里的时间层就是带有位置编码的时序attention）。由此，稀疏条件编码器可以使条件信号从帧传播到帧，保证了生产视频的一致性。

原生的ControlNet和Sparse encoder中的差别在于：

原生ControlNet不仅拷贝了Unet 的编码器，还拷贝了输入的噪声样本。输入的条件和输入的噪声样本进行sum 操作后再进入ControlNet网络。这样的设计保证了模型训练的稳定以及加速收敛。
在Sparse Ctrl中，如果沿用原生ControlNet的设置，那么对于无条件帧而言，Sparse encoder的输入变为仅噪声样本。但这可能会鼓励Sparse encoder忽略条件输入并在训练过程中依赖噪声样本zt，这与我们可控性增强的目标相矛盾。因此SparseCtrl提出的稀疏编码器消除了噪声样本输入，只接受条件和掩码图的组合输入。