AIGC视频生成/编辑技术调研报告

1年前作者：AI记忆分类：Toy博客阅读(11)违法举报

这篇具有很好参考价值的文章主要介绍了AIGC视频生成/编辑技术调研报告。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

人物AIGC：FaceChain人物写真生成工业级开源项目，欢迎上github体验。

简介： 随着图像生成领域的研究飞速发展，基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天，视频生成/编辑技术也引起了学术界和产业界的高度关注。该分享主要介绍视频生成/编辑的研究现状，包括不同技术路线的优劣势，以及该领域当下面临的核心问题与挑战。

摘要

随着图像生成领域的研究飞速发展，基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天，视频生成/编辑技术也引起了学术界和产业界的高度关注。该分享主要介绍视频生成/编辑的研究现状，包括不同技术路线的优劣势，以及该领域当下面临的核心问题与挑战。

1. 背景介绍

不少视频生成/编辑模型都是基于图像生成模型的预训练权重进行训练，结构也与图像生成模型一脉相承，因此在介绍视频生成/编辑模型之前有必要先介绍图像生成/编辑模型。我们根据不同的技术路线将图像生成/编辑模型分成四种类型，分别是使用编辑前后数据对进行训练的模型、zero-shot模型、one-shot/few-shot模型以及解耦合模型。我们将视频生成/编辑模型也分成四类，分别是large-data-driven模型、zero-shot模型、one-shot/few-shot模型和解耦合模型。接下来将分别介绍这几种类型。

2. 图像生成/编辑

2.1. 使用编辑前后数据对进行训练

比较典型的工作是 InstructPix2Pix [1]。该方法通过构造编辑前后的图像数据对来生成训练数据，使用这种数据进行训练得到的模型无需 finetune 即可进行图像编辑。具体的构造方式是利用 GPT3 生成编辑前后的 text prompt，再利用 stable diffusion + Prompt2Prompt 的方式进行编辑得到编辑前后图像对。

下图是 InstructPix2Pix 的示意图：

AIGC视频生成/编辑技术调研报告,深度学习论文与相关应用,AIGC,人工智能,深度学习,技术报告,编辑生成

2.2. Zero-Shot 方法

比较具有代表性的工作是 Prompt-to-prompt [2] 和 MasaCtrl [3]。他们通过修改 cross attention 里的 attention maps 或 attention 机制的方式来实现无需 finetune 的图像编辑。Prompt-to-prompt 的具体做法是，对于由给定 prompt 通过模型生成的图像（若是真实场景图像，则需要做精确的 inversion），保留其 cross attention 步骤中的 attention map，对于新 text prompt，将新的词生成的 new attention 插入原 attention maps 中，并根据权重重新计算，生成编辑后的图像。

下图是 Prompt-to-prompt 的示意图：

AIGC视频生成/编辑技术调研报告,深度学习论文与相关应用,AIGC,人工智能,深度学习,技术报告,编辑生成

2.3. One-Shot/Few-Shot方法

该类方法分为两类，一种是通过 finetune 来让网络学习到关于输入图像的 identifier，这样编辑过程中就能保留原图的内容和结构；第二种是通过设计保留原图内容和结构的 loss 来进行 finetune。第一种的代表性方法包括 Dreambooth [4] 和 DreamArtist [5]。其中 Dreambooth 便是通过对描述输入图像的 text prompt 插入特征 tokenizer，然后在同一物体的少量数据上训练，让网络记住该物体与该特定 identifier 之间的对应关系。接下来便能通过对 identifier 进行修饰从而达到对该物体的图像进行编辑的目的。

下图是 Dreambooth 的示意图：

AIGC视频生成/编辑技术调研报告,深度学习论文与相关应用,AIGC,人工智能,深度学习,技术报告,编辑生成

第二种的代表性方法是 Text2live [6]。对于一张输入图像以及 target text prompt，该方法对图像和 text 分别做 augmentations 并生成数据集 internal dataset，然后在这个 internal dataset 上对模型进行finetune。模型的输出是带 alpha 通道的图层，该图层添加到原图上构成最终的输出图像。为了让生成的图像在保留原图内容和结构不变的基础上符合 target prompt 的描述，它使用了三种 loss：Composition Loss，Structure Loss 和 Screen Loss。Composition Loss 计算生成图像与 target prompt 在 clip 空间的距离；Structure Loss 计算生成图像与原图在结构和内容上的距离；Screen Loss 计算将带 alpha 通道的图层与绿幕组合后的图像与对该绿幕图像的 text 描述之间的 clip 距离。

下图是 Text2live 的示意图：

AIGC视频生成/编辑技术调研报告,深度学习论文与相关应用,AIGC,人工智能,深度学习,技术报告,编辑生成

2.4. 解耦合方法

这类方法将图像要素解耦合成控制条件（如人体pose、edge map等）与图像内容/风格/语义，通过训练显式的编码器对控制条件或图像内容/风格/语义分别进行编码。推理阶段，修改图像内容/风格来生成符合控制条件的编辑后图像，或是通过修改控制条件来生成相同内容/风格/语义的图像。比较典型的方法如 DisCo [14] 和 Prompt-Free Diffusion [15]。其中 DisCo 是针对人物姿态转换的模型，在第一阶段的训练中，它将人物图像进一步拆解成前景（人物）和背景对网络进行训练，第二阶段在第一阶段的基础上加上对控制条件（人物姿态）的编码器进行进一步训练。DisCo 虽然在图像数据集上训练，但它可以被用来进行姿态引导的人物动态视频的生成，只要对单帧分别处理即可。

下图是 DisCo 的示意图：

AIGC视频生成/编辑技术调研报告,深度学习论文与相关应用,AIGC,人工智能,深度学习,技术报告,编辑生成

3. 视频生成/编辑

3.1. Large-Data-Driven

这类方法在保持图像生成模型权重不变的基础之上，添加时序层，用大量的视频或者视频-文本数据对时序层进行训练，让模型学习到视频帧间连续性的同时尽可能保留原模型的图像生成能力。这类方法包括 Make-A-Video [7]，Follow Your Pose [8]，Control-A-Video [9]，AnimateDiff [10]，Align your Latents [11]。其中 Follow Your Pose 采取两阶段的训练方法，第一阶段使用带 pose 的 text-image 图像数据对进行训练，第二阶段使用不带 pose 的 text-video 数据对 temporal self-attention layer 和 cross-frame spatial attention layer 进行训练。最终 inference 阶段，使用 pose 和 text 共同控制视频的生成。

下图是 Follow Your Pose 的示意图：

AIGC视频生成/编辑技术调研报告,深度学习论文与相关应用,AIGC,人工智能,深度学习,技术报告,编辑生成

3.2. One-Shot/Few-Shot 方法

与图像的方法类似，这类方法针对单个视频进行 finetune，使网络学习到属于该视频的时域特征，比较典型的是Tune-A-Video [12] 和 ControlVideo [13]。Tune-A-Video 将图像生成模型的权重固定不变，在单个视频上使用 source text prompt 和 image 对时序层进行 finetune。在 inference 阶段，先对输入视频进行 DDIM inversion，然后使用新的 prompt 生成编辑后的视频。ControlVideo 在 Tune-A-Video 的基础之上，加入了如 edge map 等其他控制手段引导视频的生成。

下图是 ControlVideo 的示意图： AIGC视频生成/编辑技术调研报告,深度学习论文与相关应用,AIGC,人工智能,深度学习,技术报告,编辑生成

3.3. Zero-Shot 方法

与图像的方法类似，这类方法通过对视频求精确的 inversion，然后修改 attention maps 或是 attention 机制来进行无需训练的视频编辑，典型的比如 Fatezero [16]，Zero-shot video editing [17] 和 Video-p2p [18]。另一类方法根据视频时域连续性的先验知识，有针对性地设计新的 cross attention 机制或 adapter 来控制采样阶段生成的帧序列在结构、内容和色彩上的连续性。典型的方法比如 ControlVideo [19] 和 Rerender A Video [20]。其中 Rerender A Video 利用视频的光流信息，对采样阶段的隐空间特征进行变换和引导，同时辅以结构和色彩 adapter，实现了对输出视频的时域连续性控制。

下图为 Rerender A Video 的示意图： AIGC视频生成/编辑技术调研报告,深度学习论文与相关应用,AIGC,人工智能,深度学习,技术报告,编辑生成

3.4. 解耦合方法

图像编辑的解耦合方法也可以用来实现视频编辑，例如 DisCo [14]，这里我们主要介绍针对视频的解耦合方法（考虑了时域特征）。与图像解耦合思路类似，视频也能被解耦合成控制条件帧序列（如人体pose、edge map等）与单帧图像内容/风格/语义，通过训练显式的编码器对控制条件序列或单帧图像内容/风格/语义进行编码，典型的方法如 DreamPose [21]。另一类解耦合方法，CoDeF [22]，从视频本身的特性出发将视频拆解成 canonical content field 和 temporal deformation field 两个元素。只要通过图像编辑/生成模型对单帧图像进行编辑，生成新的 canonical content field，再根据原视频的 temporal deformation field 就能生成被编辑后的视频。这一类方法的效果高度依赖解耦合思路的合理性以及模型的解耦合程度/能力。

下图为 DreamPose 的示意图： AIGC视频生成/编辑技术调研报告,深度学习论文与相关应用,AIGC,人工智能,深度学习,技术报告,编辑生成

4. 总结

视频编辑/生成的核心难点是如何保证帧间的连续性，在内容和结构上获得令人满意的视觉效果。这四种方法本质上均是试图解决帧间内容连续性的问题，只不过采用了四种不同的手段和技术路线。Large-Data-Driven 需要大量的优质视频数据进行训练，对存储空间和算力资源的需求很大。One-Shot/Few-Shot 方法对资源的消耗较小，但每次需对单个视频进行 finetune，较为耗时。Zero-Shot 方法对资源消耗小且速度快，但囿于技术手段本身的局限性，所能实现的效果存在着天然的瓶颈，且对精心设计的时域控制手段的要求也很高。解耦合方法从视频本身特性出发，将视频拆解成不同的要素，进行针对性的训练以及再组合，但效果的好坏取决于解耦合的设计与模型解耦合的能力。探索出保证视频帧间连续性的技术路线仍然是一个亟待解决的核心问题。

References

[1] InstructPix2Pix: Learning to Follow Image Editing Instructions.

[2] Prompt-to-prompt image editing with cross attention control.

[3] MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing.

[4] Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation.

[5] DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via Contrastive Prompt-Tuning.

[6] Text2live: Text-driven layered image and video editing.

[7] Make-A-Video: Text-to-Video Generation without Text-Video Data.

[8] Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos.

[9] Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models.

[10] AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning.

[11] Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models.

[12] Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation.

[13] ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing.

[14] DisCo: Disentangled Control for Referring Human Dance Generation in Real World.

[15] Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models.

[16] Fatezero: Fusing attentions for zero-shot text-based video editing.

[17] Zero-shot video editing using off-the-shelf image diffusion models.

[18] Video-p2p: Video editing with cross-attention control.

[19] ControlVideo: Training-free Controllable Text-to-Video Generation.

[20] Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation.

[21] DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion.

[22] CoDeF: Content Deformation Fields for Temporally Consistent Video Processing.文章来源地址https://www.toymoban.com/news/detail-755771.html

到了这里，关于AIGC视频生成/编辑技术调研报告的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

容器性能测验调研报告
https://aijishu.com/a/1060000000206531#item-4-9 An Updated Performance Comparison of Virtual Machines and Linux Containers, IBM Research https://dominoweb.draco.res.ibm.com/reports/rc25482.pdf Unix传统上并没有强烈地实现最小权限原则，即“系统的每个程序和每个用户都应该使用完成工作所需的最小权限集进行操作。”
2023年04月12日
浏览(7)
clickhouse调研报告2
由Distributed表发送分片数据 clickhouse分区目录合并 clickhouse副本协同流程 clickhouse索引查询逻辑 clickhouse一级索引生成逻辑(两主键) clickhouse的data目录下包含如下目录：
2024年02月14日
浏览(9)
OCR调研报告
本文简要概述了OCR的概念和应用场景，以及OCR常用算法解决方案。最主要的是调研并对比了几个github上star较多的开源项目。现阶段推荐百度开源的项目paddlocr，可直接使用其预训练模型进行演示，并且支持docker部署（实践通过）。可以支持身份证，车牌号，信用卡号识别。并
2024年02月10日
浏览(11)
项目调研丨多区块并行处理公链 Transformers 研究报告
目录一、项目简介二、项目愿景三、特色和优势（1）速度（2）安全（3）可扩展性（4）高度定制（5）不可篡改（6）所有数据公开透明（7）支持智能合约四、发展历史五、团队背景六、融资信息七、项目架构（1）网络（2）共识算法（3）DAG （4）同步化（5）交易
2024年02月10日
浏览(10)
AI绘画设计师专用单词表；游戏业AI正在疯抢工作；使用AI工具翻译整本英文书；用GPT-4搞定调研报告 | ShowMeAI日报
👀 日报周刊合集 | 🎡 生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！皮克斯是美国顶级的电脑动画制作公司，发布了《玩具总动员》《海底总动员》《超人总动员》《机器人瓦力》《飞屋环游记》等大名鼎鼎的动画长片，并收获无数大奖。 the_Champion 在 Reddit 发帖
2024年02月10日
浏览(10)
AIGC产业研究报告2023——视频生成篇
易观：今年以来，随着人工智能技术不断实现突破迭代，生成式AI的话题多次成为热门，而人工智能内容生成（AIGC）的产业发展、市场反应与相应监管要求也受到了广泛关注。为了更好地探寻其在各行业落地应用的可行性和发展趋势，易观对AIGC产业进行了探索并将发布AIGC产
2024年02月10日
浏览(9)
CVPR 2023 | 视频AIGC，预测/插帧/生成/编辑
视频预测（video prediction）的性能已经通过先进的深度神经网络大幅提高。然而，大多数当前的方法存在着大的模型尺寸和需要额外的输入（如，语义/深度图）以实现良好的性能。出于效率考虑，本文提出了一个动态多尺度体素流网络（Dynamic Multi-scale Voxel Flow Network，DMVFN），
2024年02月09日
浏览(25)
AIGC内容分享(二十)：「AI视频生成」技术核心基础知识和模型应用
目录何为AI视频？一、技术发展概况二、代表模型及应用三、仍存在许多技术难点「 AI 视频」通常指的是由人工智能（AI）技术生成或处理的视频。这可能包括使用深度学习、计算机视觉和其他相关技术来改善视频的质量、内容或生成全新的视频内容。一
2024年01月18日
浏览(10)
【AIGC调研系列】AI赋能软件测试的具体技术实现案例
AI赋能软件测试的具体技术实现案例主要包括以下几个方面：自动化测试：AI技术可以通过编写自动化测试脚本，自动执行测试用例，从而提高测试效率。例如，Functionize是一个基于AI的自动化测试平台，使用机器学习和自然语言处理技术理解测试需求，生成测试用例，并自动
2024年03月10日
浏览(6)
视频拼接技术调研介绍
最近开始了解一些视频拼接技术方法，这里先简单汇总了一些方法链接，之后有时间再补上一些论文动态发展情况。 1. 北京智汇云舟科技有限公司 1、全景视频拼接的关键技术与发展优势、作用、应用 2. 上海元镜像信息科技（延时600ms左右，具体跟服务器、带宽等配置有关）
2024年02月21日
浏览(9)