gen1-视频生成论文阅读

这篇具有很好参考价值的文章主要介绍了gen1-视频生成论文阅读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


论文: 《Structure and Content-Guided Video Synthesis with Diffusion Models》
官网: https://research.runwayml.com/gen1
github:未开源

摘要

现有编辑视频内容方法在保留结构的同时编辑视频内容需要重新训练,或者跨帧图像编辑传播过程易出错。
本文提出一种结构和内容导向的视频扩散模型,可基于视觉、文本描述编辑视频。结构表征与用户提供内容编辑之间冲突是由于两者不充分解耦导致。对此,作者基于包含各种信息的单个深度估计进行训练,用于保证结构及内容完整度。gen1基于视频及图片联合训练,用于控制时间一致性。作者实验证明在多个方面取得成功:细粒度控制、基于参考图定制生成、用户对模型结果的偏好。

贡献

作者提出的gen1,可控制结构,关注内容的视频扩散模型,由大量无标注视频及成对文本图像数据数据构成。使用单目深度估计优化表征结构,使用预训练模型embedding表征内容。
本文贡献:
1、扩展LDM至视频生成;
2、提出一个关注结构及内容模型,通过参考图或文本引导视频生成;
3、展示对视频时间、内容、结构一致性控制;
4、该模型通过在小数据集finetune,可生成特定目标视频。

算法

gen1-视频生成论文阅读,视频生成,论文详解,跨模态,音视频,论文阅读,gen1,视频生成
基于纹理结构表征 s s s,文本内容表征 c c c,作者训练生成模型 p ( x ∣ s , c ) p(x|s, c) p(xs,c),生成视频 x x x。整体架构如图2。

3.1 LDM

前向扩散过程如式1, x t − 1 x_{t-1} xt1通过增加正态分布噪声获得 x t x_t xt
gen1-视频生成论文阅读,视频生成,论文详解,跨模态,音视频,论文阅读,gen1,视频生成
学习去噪过程如式2,3,4,其中方差固定,
gen1-视频生成论文阅读,视频生成,论文详解,跨模态,音视频,论文阅读,gen1,视频生成
µ θ ( x t , t ) µ_θ(x_t, t) µθ(xt,t)为UNet预测均值,损失函数如式5, µ t ( x t , x 0 ) µ_t(x_t, x_0) µt(xt,x0)为前向后验函数 q ( x t − 1 ∣ x t , x 0 ) q(x_{t−1}|x_t, x_0) q(xt1xt,x0)的均值。

LDM将扩散过程迁移进隐空间。

3.2 时空隐空间扩散

UNet主要有两个block:Residual blocks及transformer blocks,如图3,作者增加1D跨时间卷积,在时间轴学习空间中对应目标,在transformer block中引入基于帧号的位置编码;
gen1-视频生成论文阅读,视频生成,论文详解,跨模态,音视频,论文阅读,gen1,视频生成
对于 b × n × c × h × w b ×n× c × h ×w b×n×c×h×w的数据,重排为 ( b ⋅ n ) × c × h × w (b·n) × c × h × w (bn)×c×h×w,用于空间层, ( b ⋅ h ⋅ w ) × c × n (b·h·w) × c × n (bhw)×c×n用于时间卷积, ( b ⋅ h ⋅ w ) × n × c (b · h · w) × n × c (bhw)×n×c用于时间self-attention

3.3表征内容及结构

受限于无视频-文本对数据,因此需要从训练视频x提取结构及内容表征;因此每个样本损失函数如式6,
gen1-视频生成论文阅读,视频生成,论文详解,跨模态,音视频,论文阅读,gen1,视频生成
推理时,结构 s s s及内容 c c c通过输入视频 y y y及文本prompt t t t提取,如式7,x为生成结果。
gen1-视频生成论文阅读,视频生成,论文详解,跨模态,音视频,论文阅读,gen1,视频生成

内容表征

使用CLIP的image embedding表征内容,训练先验模型,可通过text embedding采样image embedding,使得可通过image输入进行编辑视频。
解码器可视化证明CLIP embedding增加对语义及风格敏感度,同时保持目标大小、位置等几何属性不变。

结构表征

语义先验可能会影响视频中目标形状。但是可以选择合适的表征引导模型降低语义与结构之间相关性。作者发现输入视频帧深度估计提供所需结构信息。
为了保留更多结构信息,作者基于结构表征训练模型,作者通过模糊算子进行扩散与其他增加噪声方法相比,增加稳定性。

条件机制

结构表征视频各帧空间信息,作者使用concat进行使用此信息;
对于内容信息与特定位置无关,因此使用cross-attention,可将此信息传递至各位置。
作者首先基于MiDaS DPT-Large模型对所有输入帧估计深度图,然后使用 t s t_s ts轮模糊及下采样操作,训练过程 t s t_s ts随机采样 0 − T s 0-T_s 0Ts,控制结构保留度,如图10,将扰动深度图重采样至RGB帧分辨率并使用 ϵ \epsilon ϵ进行编码,得到特征与输入 z t z_t zt进行concat输入UNet。
gen1-视频生成论文阅读,视频生成,论文详解,跨模态,音视频,论文阅读,gen1,视频生成

采样

作者使用DDIM,使用无分类器扩散引导提升采样质量;依据下式进行,
gen1-视频生成论文阅读,视频生成,论文详解,跨模态,音视频,论文阅读,gen1,视频生成
作者训练两个共享参数模型:视频模型以及图像模型,利用式8控制视频帧时间一致性,效果如图4所示。
gen1-视频生成论文阅读,视频生成,论文详解,跨模态,音视频,论文阅读,gen1,视频生成

3.4优化过程

1、使用预训练LDM初始化模型;
2、基于CLIP image embeddings finetune模型;
3、引入时间联系,联合训练图像及视频;
4、引入结构信息 s s s t s t_s ts设置为0,训练模型;
5、 t s t_s ts随机采样0-7,训练模型

实验结果

为自动生成prompt,作者使用blip获取视频description,使用GPT-3生成prompt
对于各种输入结果如图5所示,拥有多种可编辑能力,比如风格变化、环境变化、场景特性。
gen1-视频生成论文阅读,视频生成,论文详解,跨模态,音视频,论文阅读,gen1,视频生成
图8证明mask视频编辑任务;
gen1-视频生成论文阅读,视频生成,论文详解,跨模态,音视频,论文阅读,gen1,视频生成
用户评判结果如图7,
gen1-视频生成论文阅读,视频生成,论文详解,跨模态,音视频,论文阅读,gen1,视频生成
帧一致性评估:计算输出视频各帧CLIP image embeddings,计算连续帧之间平均余弦相似度;
Prompt一致性评估:计算输出视频各帧CLIP image embeddings与text embeddings之间平均余弦相似度。

图6展示实验结果,日益增加的时间尺度 w s w_s ws,导致更高帧一致性但是第prompt一致性,结构尺度 t s t_s ts越大,导致更高prompt一致性,内容与输入结构一致性越低。
gen1-视频生成论文阅读,视频生成,论文详解,跨模态,音视频,论文阅读,gen1,视频生成
基于小数据集finetune方法DreamBooth,作者在15-30张图片上finetune模型,图10展示可视化结果。

结论

作者提出基于扩散模型视频生成方法。基于深度估计确保结构一致性,同时利用文本或图片进行内容控制;通过在模型中引入时间连接以及联合图像视频训练确保时间稳定性,通过控制轮次 t s t_s ts控制结构保留度。文章来源地址https://www.toymoban.com/news/detail-530141.html

到了这里,关于gen1-视频生成论文阅读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 如何确认电脑USB口哪个快(USB 3.0 3.2 Gen1 Gen2)

    用了这么久的电脑才发现,速度快的USB接口竟然在机箱背面! 首先,用CPU-Z查看自己主板型号 去主板官网下载用户手册 以华硕为例:https://www.asus.com.cn/support/Download-Center/ 查看主板USB各个接口类型

    2024年02月11日
    浏览(47)
  • LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解

    Valley: Video Assistant with Large Language model Enhanced abilitY 大家好,我是 卷了又没卷,薛定谔的卷的AI算法工程师「陈城南」 ~ 担任某大厂的算法工程师,带来最新的前沿 AI知识和工具,包括AI相关技术、ChatGPT、AI绘图等, 欢迎 大家交流 ~。 近期基于LLaMA微调的模型有很多,Alpaca,

    2024年02月15日
    浏览(48)
  • [EFI]ThinkPad-X13-Gen1电脑 Hackintosh 黑苹果efi引导文件

    硬件 型号 驱动情况 主板 Lenovo ThinkPad X13 Gen1 处理器 Intel(R) Core(TM) i7-10810U 已驱动 内存 16Gb DDR4x 3733MHz 已驱动 硬盘 WDS100T3X0C 已驱动 显卡 Intel(R) UHD Graphics 已驱动 声卡 Realtek® ALC1200 codec; 已驱动 网卡 Intel(R) Ethernet Connection (10) I219-LM 已驱动 无线网卡+蓝牙 AX201 自行根据系统版本

    2024年01月19日
    浏览(54)
  • [EFI]ThinkPad-X13-Gen1-20T3电脑 Hackintosh 黑苹果efi引导文件

    硬件 型号 驱动情况 主板 Gigabyte X570 Aorus Elite 处理器 AMD Ryzen 9 5900X 已驱动 内存 32GB DDR4 3200MHz 已驱动 硬盘 NMVe XPG Atom 50 1TB PCIe Gen4 已驱动 显卡 AMD Radeon RX 6900XT 16GB 已驱动 声卡 瑞昱 Realtek ALC257 @ 英特尔 High Definition Audio 控制器 已驱动 网卡 Intel® GbE LAN 已驱动 无线网卡+蓝牙

    2024年02月22日
    浏览(48)
  • 【论文阅读 09】融合门控自注意力机制的生成对抗网络视频异常检测

            2021年 中国图象图形学报 背景: 视频异常行为检测是智能监控技术的研究重点,广泛应用于社会安防领域。当前的挑战之一是如何提高异常检测的准确性,这需要有效地建模视频数据的空间维度和时间维度信息。生成对抗网络(GANs)因其结构优势而被广泛应用于视

    2024年02月03日
    浏览(46)
  • 多模态论文阅读之VLMo

    VLMo:Unified Vision_Langugae Pre-Training with Mixture-of-Modality-Experts CLIP和ALIGN都采用 dual-encoder 的方式分别编码图像和文本,模态之间的交互采用cosine similarity ,这种方法对retrieval tasks(检索任务)及其有效;但是如此shallow intersection between images and text is not enough to handle complex VL classficatio

    2024年02月06日
    浏览(41)
  • 多模态论文阅读之BLIP

    BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have

    2024年02月06日
    浏览(43)
  • 论文阅读-NOLANet多模态伪造检测

    一、论文信息: 题目: Deepfake Video Detection Based on Spatial,Spectral, and Temporal Inconsistencies UsingMultimodal Deep Learning(多模态伪造检测——视觉+频谱+语音) 作者团队: 会议:AIPR 2020 二、背景与创新 背景: 合成视频威胁到数字媒体的信任与隐私,许多deepfake检测方法使用单帧视频,

    2023年04月14日
    浏览(52)
  • 多模态大模型-CogVLm 论文阅读笔记

    论文地址 :https://arxiv.org/pdf/2311.03079.pdf code地址 : https://github.com/THUDM/CogVLM 时间 : 2023-11 机构 : zhipuai,tsinghua : visual language model 效果:(2023-11) :CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W,

    2024年02月03日
    浏览(55)
  • 【AI生成视频工具】阿里推出图片生成视频Ai工具,免费无限制国内可用,比GEN2香多了

    大家好,我是龙一,专注AI轻创副业项目分享,今天给大家分享一款阿里近日推出的开源的图片生成视频的Ai工具,目前可免费使用,没有使用次数的限制,效果非常好,不得不说比RunwayGen2香多了。 可以根据用户输入的静态图像和文本生成目标接近、语义相同的视频,生成的

    2024年02月08日
    浏览(86)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包