视频生成: 基于Stable Diffusion的微调方法

这篇具有很好参考价值的文章主要介绍了视频生成: 基于Stable Diffusion的微调方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

chatGPT带来了几个月的AIGC热度，文本图像生成模型大行其道，但AI在视频生成任务上尚没有较好的开源仓库，并受限于“缺那么几百块A100"的资源问题，大多数人无法展开视频生成的研究。好在目前有不少针对视频生成的相关paper，也有不少开源实现，事实上缺的是一个完整的训练+推理+Pretrained模型，本文要解决的就是这个问题。

1. Stable Diffusion以及其中Unet结构，下图摘自论文: High-Resolution Image Synthesis with Latent Diffusion Models

视频生成: 基于Stable Diffusion的微调方法

为了支持视频生成，需要对Unet结构中的部分模块进行改造，包括2d卷积以及Self-Attention和Cross-Attention。在许多的Stable Diffusion开源实现中，Tune A Video这篇论文的代码较为干净简洁，在利用Stable Diffusion V1-4权重作为pretrained，参考Make A Video利用3d伪引入空间信息，并且保留Tune A Video中关于Sparse Cross Attention的修改。

2. 3d伪卷积引入时空相关信息，图片摘自Make A Video

视频生成: 基于Stable Diffusion的微调方法