AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识

这篇具有很好参考价值的文章主要介绍了AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一、VGen整体架构

二、VGen核心基础内容

三、快速上手使用VGen进行视频生成

四、VGen与SVD的比较


一、VGen整体架构

「VGen」是一个基于扩散模型的视频生成系统,提供以视频生成扩散模型为中心的强大代码库,具有先进的视频生成模型。VGen的整体架构主要围绕三个关键领域:基本模型、创造性合成和高效合成

项目地址:https://github.com/ali-vilab/i2vgen-xl.git

VGen的主要特性:

  • 可扩展性:可以轻松管理您自己的实验;

  • 完整性:包含视频生成的所有常见组件;

  • 性能卓越:在多个任务中具有强大的预训练模型。

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频

二、VGen核心基础内容

「VGen」可以根据输入的文本、图像、所需的运动、所需的主题,甚至提供的反馈信号生成高质量的视频。它还提供了各种常用的视频生成工具,例如可视化、采样、训练、推理、使用图像和视频的联合训练、加速等。

在VGen项目中,主要包含以下方法的实现

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频

艺术的真正源泉是您的想象力,而 VGen是将其变为现实的解决方案。

(The real source of art is your imagination, and VGen is the solution for bringing it to life.)

2.1  I2VGen-Xl:通过级联扩散模型进行高质量图像到视频合成

受益于扩散模型的快速发展,视频合成最近取得了显著进步。然而,它在语义准确性、清晰度和时空连续性方面仍然遇到挑战。

主要源于缺乏良好对齐的文本视频数据以及视频复杂的固有结构,使得模型很难同时确保语义和质量的卓越性。

在本报告中,提出一种级联「I2VGen-XL」方法,该方法通过解耦这两个因素来增强模型性能,并通过利用静态图像作为关键指导形式来确保输入数据的对齐。

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频

I2VGen-XL 由两个阶段组成:

i) 基础阶段通过使用两个分层编码器保证连贯的语义并保留输入图像的内容;

ii) 细化阶段通过合并额外的简短文本来增强视频的细节,并将分辨率提高到 1280x720 。

为了提高多样性,收集大约 3500 万个单镜头文本-视频对和 60 亿个文本-图像对来优化模型。通过这种方式,I2VGen-XL可以同时增强生成视频的语义准确性、细节的连续性和清晰度。

通过大量的实验,研究了 I2VGen-XL 的基本原理,并将其与当前的顶级方法进行了比较,这可以证明其在各种数据上的有效性。

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频

2.2  VideoComposer:具有运动可控性的视频合成

可控性作为视觉内容创作的更高标准的追求,在可定制的图像合成方面取得了显著进步。然而,由于时间动态的巨大变化和跨帧时间一致性的要求,实现可控视频合成仍然具有挑战性。

基于合成生成的范式,这项工作提出「VideoComposer」,它允许用户灵活地根据文本条件、空间条件,更重要的是时间条件来合成视频。

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频

具体来说,考虑到视频数据的特性,引入压缩视频的运动矢量作为显式控制信号,以提供有关时间动态的指导。

此外,还开发了一个时空条件编码器(STC-encoder),它作为一个统一的接口,可以有效地整合顺序输入的空间和时间关系,通过它,模型可以更好地利用时间条件,从而实现更高的交互性。

大量的实验结果表明,VideoComposer 能够以各种形式同时控制合成视频中的空间和时间模式,例如文本描述、草图序列、参考视频,甚至简单的手工制作的动作。

2.3 HiGen:用于文本到视频生成的分层时空解耦

尽管扩散模型已显示出生成逼真图像的强大能力,但生成逼真且多样化的视频仍处于起步阶段。关键原因之一是当前的方法将空间内容和时间动态交织在一起,导致文本到视频生成(T2V)的复杂性显着增加。

在这项工作中,提出「HiGen」,一种基于扩散模型的方法,该方法通过从结构级别和内容级别两个角度解耦视频的空间和时间因素来提高性能。

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频

在结构层面,使用统一的降噪器将 T2V 任务分解为两个步骤,包括空间推理和时间推理。具体来说,在空间推理期间使用文本生成空间相干先验,然后在时间推理期间从这些先验生成时间相干的运动。

在内容层面,从输入视频的内容中提取两个微妙的线索,分别可以表达运动和外观变化。然后,这两个线索指导模型的视频生成训练,实现灵活的内容变化并增强时间稳定性。

通过解耦范式,HiGen 可以有效降低该任务的复杂性,并生成具有语义准确性和运动稳定性的逼真视频。大量实验证明 HiGen 的性能优于最先进的 T2V 方法。

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频

2.4 TF-T2V:使用无文本视频扩大文本到视频生成的方法

基于扩散模型的文本到视频生成在过去一年中取得了令人瞩目的进展,但仍然落后于文本到图像生成技术。

考虑到视频字幕的高成本,关键原因之一是公开数据的规模有限(例如,WebVid10M 中的 10M 视频文本对与 LAION 中的 5B 图像文本对)。

相反,从 YouTube 等视频平台收集未标记的视频可能要容易得多。受此启发,研究者提出一种新颖的文本到视频生成框架——「TF-T2V」,它可以直接使用无文本视频进行学习。

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频

基本原理:将文本解码过程与时间建模过程分开;采用内容分支和运动分支,通过共享权重进行联合优化。

遵循这样的流程,研究使用一些随机收集的无文本视频将训练集规模(即仅视频 WebVid10M)加倍,并观察性能的改进(FID 从 9.67 到 8.19,FVD 从 484到 441),展示了方法的可扩展性。

2.5 InstructVideo:使用人类反馈指导视频扩散模型

扩散模型已成为视频生成事实上的范例。然而,他们对质量参差不齐的网络规模数据的依赖往往会产生视觉上没有吸引力且与文本提示不一致的结果。

为了解决这个问题,提出「 InstructVideo」,通过奖励微调来指导具有人类反馈的文本到视频扩散模型。

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频

InstructVideo 有两个关键要素:

1)为了改善通过完整 DDIM 采样链生成而引起的奖励微调成本,将奖励微调重新定义为编辑。通过利用扩散过程来破坏采样视频,InstructVideo 只需要 DDIM 采样链的部分推断,降低微调成本,同时提高微调效率;

2)为了缓解缺乏针对人类偏好的专用视频奖励模型的情况,重新利用了已建立的图像奖励模型,例如HPSv2。为此,提出了分段视频奖励(Segmental Video Reward)(一种基于分段稀疏采样提供奖励信号的机制)和时间衰减奖励(Temporal Attenuated Reward)(一种在微调期间减轻时间建模退化的方法)。

大量的定性和定量实验验证了在 InstructVideo 中使用图像奖励模型的实用性和有效性,在不影响泛化能力的情况下显著提高了生成视频的视觉质量。

2.6 DreamVideo:用定制的主题和动作创作您的梦想视频

使用扩散模型的定制生成在图像生成方面取得了令人印象深刻的进展,但在具有挑战性的视频生成任务中仍然不能令人满意,因为它需要对象和运动的可控性。

为此,研究者提出「DreamVideo」,这是一种从所需主题的一些静态图像和目标运动的一些视频生成个性化视频的新颖方法。

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频

DreamVideo 通过利用预先训练的视频传播模型,将此任务分解为两个阶段:主题学习和动作学习。

主题学习的目的是从提供的图像中准确捕捉主题的精美外观,这是通过结合文本反转和我们精心设计的身份适配器的微调来实现的。

在运动学习中,构建一个运动适配器,并在给定的视频上对其进行微调,以有效地对目标运动模式进行建模。将这两个轻量且高效的适配器相结合,可以灵活定制任何运动的任何主题。

大量的实验结果表明,DreamVideo 比最先进的定制视频生成方法具有卓越的性能。

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频

2.7 VideoLCM:视频潜在一致性模型

一致性模型在高效图像生成方面表现出了强大的能力,并允许在几个采样步骤内进行合成,从而减轻了扩散模型中的高计算成本。

然而,在更具挑战性和资源消耗的视频生成中,一致性模型的探索仍然较少。在本报告中,研究者提出了「VideoLCM」框架来填补这一空白,该框架利用图像生成的一致性模型的概念,以最少的步骤有效地合成视频,同时保持高质量。

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频

VideoLCM 基于现有的潜在视频扩散模型,并结合用于训练潜在一致性模型的蒸馏技术。实验结果揭示了VideoLCM 在计算效率、保真度和时间一致性方面的有效性。

值得注意的是,VideoLCM 只需 4 个采样步骤即可实现高保真、流畅的视频合成,展现了实时合成的潜力。

三、快速上手使用VGen进行视频生成

3.1 准备环境

# 基础环境​​​​​​​

conda create -n vgen python=3.8conda activate vgenpip install torch==1.12.0+cu113 torchvision==0.13.0+cu113 torchaudio==0.12.0 --extra-index-url https://download.pytorch.org/whl/cu113pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
# 确保安装ffmpeg
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6  -y
# 克隆代码
git clone https://github.com/damo-vilab/i2vgen-xl.gitcd i2vgen-xl

3.2 训练text-to-video模型

开始训练:​​​​​​​

# 执行以下命令来启用分布式训练,So easy!!!python train_net.py --cfg configs/t2v_train.yaml

t2v_train.yaml配置文件中,可以指定数据,使用frame_lens调整视频与图像的比例,并使用不同的扩散设置验证你的想法等等。

  • 在训练之前,可以下载VGen任何开源模型进行初始化。代码库支持自定义初始化和grad_scale设置,所有这些都包含在Pretrainyaml 文件中的项目中。

  • 训练过程中,可以在workspace/experiments/t2v_train目录中查看保存的模型和中间推理结果。

训练完成后,您可以使用以下命令对模型进行推理。

执行推理:

python inference.py --cfg configs/t2v_infer.yaml
 

然后就可以在目录中找到生成的视频了workspace/experiments/test_img_01。数据、模型、种子等具体配置请参考文件t2v_infer.yaml

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频

3.3 运行I2VGen-XL模型

(i) 下载模型和测试数据:

​​​​​​​

!pip install modelscopefrom modelscope.hub.snapshot_download import snapshot_downloadmodel_dir = snapshot_download('damo/I2VGen-XL', cache_dir='models/', revision='v1.0.0')

或者也可以通过 HuggingFace 下载(https://huggingface.co/damo-vilab/i2vgen-xl):

​​​​​​​

git lfs installgit clone https://huggingface.co/damo-vilab/i2vgen-xl

(ii) 运行以下命令:

python inference.py --cfg configs/i2vgen_xl_infer.yaml

或者你可以运行:

​​​​​​​

python inference.py --cfg configs/i2vgen_xl_infer.yaml  test_list_path data/test_list_for_i2vgen.txt test_model models/i2vgen_xl_00854500.pth
 

test_list_path表示输入图像路径及其相应的标题。具体格式和建议请参考demo文件中data/test_list_for_i2vgen.txttest_model是加载模型的路径。

几分钟后,就可以从目录中检索想要创建的高清视频workspace/experiments/test_list_for_i2vgen

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频

四、VGen与SVD的比较

目前,Stable Video Diffusion(SVD)作为一种强大的开源模型,在高清视频生成方面取得了显著进展!接下来,我们将比较VGen中的I2VGen-XL模型和SVD模型在视频生成任务中的性能和差异。

整体比较:

如下表所示全面比较两个模型,考虑了模型、数据和参数数量等方面。我们得出如下结论:

i)主要思想相似,如框架设计、训练策略和数据构建;

ii)不同的输入:与SVD相比,I2VGen-XL具有接受文本输入的额外能力,具备文本到视频和图像到视频的能力。

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频

定性比较:

如下图展示了I2VGen-XL模型和SVD模型的定性差异,我们可以发现:

i)I2VGen-XL方法生成的运动更加真实,并且运动的幅度更大;

ii)SVD生成的运动更类似于单个图像或3D对象的变换;

iii)从统计的角度来看,考虑到运动的合理性,I2VGen-XL相对于SVD具有明显优势。

AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识,AIGC 内容分享,AI(人工智能) 内容分享,AIGC,音视频文章来源地址https://www.toymoban.com/news/detail-813174.html

到了这里,关于AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 在疯狂三月之后,深入浅出分析AIGC的核心价值 (上篇)|【AI行研&商业价值分析】

    Rocky Ding WeThinkIn 【AI行研商业价值分析】栏目专注于分享AI行业中最新热点/风口的思考与判断。也欢迎大家提出宝贵的优化建议,一起交流学习💪 大家好,我是Rocky。 2023年3月21日,微软创始人比尔·盖茨在其博客文章《The Age of AI has begun》中表示, 自从1980年首次看到图形用

    2024年02月09日
    浏览(40)
  • 在疯狂三月之后,深入浅出分析AIGC的核心价值 (下篇)|【AI行研&商业价值分析】

    Rocky Ding 公众号:WeThinkIn 【AI行研商业价值分析】栏目专注于分享AI行业中最新热点/风口的思考与判断。也欢迎大家提出宝贵的优化建议,一起交流学习💪 大家好,我是Rocky。 本文是《在疯狂三月之后,深入浅出分析AIGC的核心价值》系列的第二篇文章,在第一篇文章中,我

    2024年02月16日
    浏览(33)
  • AIGC内容分享(五十七):AIGC:合规引领探索之路

    目录 引言 01 资质合规 02 内部合规管理体系及制度 03 互联网应用关键条款完善 04 外部商业合作 结语 从GPT 3.5的问世、GPT4.0的革新到Google最近推出的Gemini系列原生多模态AI基础模型,生成式人工智能(AIGC)在全球范围内的奇点时刻似乎愈来愈近。在中国, AIGC的应用也已经深入

    2024年01月24日
    浏览(57)
  • AIGC内容分享(五十八):AIGC数据跨境的法律监管和合规路径

    目录 一、引言 二、AIGC数据出境主要场景分析 三、数据出境法律监管和合规路径 四、对AIGC数据出境的合规建议 在生成式人工智能(Generative AI,下称 “AIGC” )技术的发展和应用过程中,相关法律监管问题一直备受各国政府关注。例如,AIGC相关技术和硬件的出口管制问题、

    2024年01月25日
    浏览(46)
  • AIGC内容分享(五十一):音韵如诗如斯:AIGC音乐创新工具之Suno

    目录 Suno是谁? 先听为快 如何使用Suno 歌曲的结构及如何使用Metatags Suno收费吗? Suno的模型 朋友与对手 结语 AI生成音乐是一种创新的音乐创作方式,通过人工智能技术,使任何人都能够轻松地创作出引人入胜的音乐作品。与传统的音乐创作方式不同,AI生成音乐不要求用户具

    2024年04月15日
    浏览(51)
  • AIGC内容分享(四十三):AIGC黑马: Comfyui快捷操作整理

    目录 Ctrl加回车 Ctrl加shift加回车 Ctrl加S Ctrl加D Ctrl加O Ctrl加A Alt加C Ctrl加M Ctrl加B Ctrl加左键 Shift 首先,我们要介绍的是Ctrl加回车的神奇组合。这个组合键的作用是执行节点生成图。 一旦按下,你的生成请求将进入队列,等待处理。 而Ctrl加shift加回车则更为强大,它能将你最

    2024年04月17日
    浏览(31)
  • AIGC内容分享(三十三):AIGC“造浪”:创新应用爆发,钉钉为何先行一步?

    目录 前言  AI产业元年带来的变化与重构  AI如何深入产业、解决痛点?  智能时代的超级APP  结语 刚刚过去的2023年,可谓是AI产业发展的关键之年。 在这短短的一年内,AIGC(生成式人工智能,Artificial Intelligence Generated Content)就已经历了三波浪潮:第一波,以GPT为代表的大

    2024年01月21日
    浏览(46)
  • 【深入浅出Selenium库的百变玩法】: 掌握Web自动化测试的关键技术和策略,包括元素定位、页面操作、动态内容处理等,适用于初学者和高级开发者的综合指南

    Selenium是一个功能强大的库,支持多种高级操作,如处理多窗口、多标签页、键盘与鼠标事件、滚动操作等。掌握Selenium可以大大提高Web应用的测试效率和覆盖范围。希望这篇文章能帮助你开启Selenium进行自动化测试的新篇章。 Selenium也是一个广泛使用的自动化测试工具,它支

    2024年02月20日
    浏览(51)
  • 深入浅出IAM(1)

    在本人即将入职的一份基础架构的工作前,我提前联系到了团队leader并跟他进行了一次1-1。谈话中提到了我可能会先上手的一个项目是IAM相关的实现,于是趁着入职前的间隙,我学习了部分优秀开源IAM项目实现思路以及腾讯云开发专家孔老师的专栏。 在反复思考和总结提炼后

    2024年02月05日
    浏览(33)
  • 深入浅出Kafka

    这个主题 武哥漫谈IT ,作者骆俊武 讲得更好 首先我们得去官网看看是怎么介绍Kafka的: https://kafka.apache.org/intro Apache Kafka is an open-source distributed event streaming platform. 翻译成中文就是:Apache Kafka 是一个开源的分布式流处理平台。 Kafka 不是一个消息系统吗?为什么被称为分布式

    2023年04月11日
    浏览(59)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包