短视频模型Imagen Video:艺术和3D建模大师

这篇具有很好参考价值的文章主要介绍了短视频模型Imagen Video:艺术和3D建模大师。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

看到Imagen这个字眼,那不是前阵子很火的文本图像生成圈的一个模型吗?这不,谷歌在10月份基于这个模型的基础上,发布了能够生成短视频的Imagen Video模型。

Imagen Video,是基于文本条件生成视频的模型。给定相应的文本提示,在基于“视频生成模型”和“交错时空视频流超分辨率模型”,Imagen Video能够生成高清晰度的视频。
短视频模型Imagen Video:艺术和3D建模大师

在论文中,主要描述了如何构建一个高清晰度的文本视频生成模型。比如,在特定分辨率下,如何选择完全卷积时域和空间超分辨率模型,以及如何选择扩散模型中的参数。

同时把之前的文本图像生成的扩散模型,迁移到文本视频生成模型上。最后使用分类器进行指导,以实现快速和高质量的采样。在实验中发现,Imagen Video仅能够生成高保真视频,而且具有高度的可控性和世界知识,包括能够生成各种艺术风格的视频,3D结构的视频,或者是生成特定的动画。

先来看看该模型生成的效果:
短视频模型Imagen Video:艺术和3D建模大师

网友评价说:Imagen Video虽然是令人兴奋,但也让他对创造和内容的未来感到紧张。
短视频模型Imagen Video:艺术和3D建模大师

级联扩散模型:空间高分辨率模型 + 时域高分辨率模型

首先来看看,通过上采样,该模型逐步把低分辨率提升到高分辨率,比如输入“在书本中,豆芽进行生长”
短视频模型Imagen Video:艺术和3D建模大师

Imagen Video使用级联扩散模型生成高分辨率视频:本质上就是说,单独一个模型不能够生成高分辨率,但是我可以堆叠多个小模型,来完成这一个目标

  • 第一步:获取输入文本提示,并使用T5文本编码器将其编码
  • 第二部:基于视频扩散模型生成一个16帧的视频,分辨率为24*48,每一秒3帧;然后利用时域超分辨率模型和空间超分辨率模型,以1280×768分辨率和每秒24帧的速度进行上采样,并最终生成128帧的视频,共5.3秒。

短视频模型Imagen Video:艺术和3D建模大师

Imagen Video使用Video U-Net架构捕获空间保真度和时间动态。视频扩散模型中使用了temporal self-attention,而时域卷积则用于时域和空间超分辨率模型。

具体的细节模型结构图如下所示:
短视频模型Imagen Video:艺术和3D建模大师

  • 输入部分是文本Prompt
  • 文本编辑器采用T5-XXL
  • 3个SSR(空间超分辨率模型)
  • 3个TSR(时域超分辨率模型)
  • 上面的所有模型加起来参数达到116亿

用于训练这些模型的数据通过空间大小调整和跳帧处理到合适的空间和时间分辨率。在生成时,SSR模型提高了所有输入帧的空间分辨率,而TSR模型通过填充输入帧之间的中间帧来提高时间分辨率

级联模型的一个优点是,每个扩散模型都可以独立训练,从而可以并行训练所有7个模型。(谷歌有钱就是可以为所欲为的)
短视频模型Imagen Video:艺术和3D建模大师

此外,论文中提到的超分辨率模型是通用的视频超分辨率模型,它们可以应用于真实视频或生成模型中的样本,而不是本文中介绍的模型。

在细节的处理上,模型能够还原不同艺术风格下的动图。比如“猫吃食物的整体动作”
短视频模型Imagen Video:艺术和3D建模大师

从实验中可以进一步看出,Imagen Video可以生成比较完美的3D结构的视频:
短视频模型Imagen Video:艺术和3D建模大师

存在问题

目前AI技术,在文本图像圈和视频生成圈已经爆火起来,近9个月以来,通过扩散模型已经发布了很多有趣的AI算法:

  • DALL.E2(2022 4月),文本图像生成
  • Imagen(2022 5月),文本图像生成
  • Stable Diffusion(20228月),文本图像生成
  • Make-A-Video(2022 9月),文本视频生成
  • Imagen-Video(2022 10月),文本视频生成

但是扩散生成模型的飞速发展,也会给社会带来不同层面的影响。视频生成模型可以用来对社会产生积极影响,例如通过放大和增强人类的创造力。然而,这些生成模式也可能被滥用,例如生成虚假、仇恨、明确或有害的内容。因为在Imagen Video中已经采取了多个步骤来最小化这些问题,例如在内部试验中,输入文本提示过滤和输出视频内容过滤。

然而,仍然存在一些重要的安全和道德挑战。Imagen Video及其冻结的T5-XXL文本编码器是根据有问题的数据进行训练的。

在内部测试表明,许多明确和暴力的内容可以被过滤掉,但仍存在社会偏见等观念,难以检测和过滤。因此谷歌暂时还不开放Image-Video的使用。

好了,本期就到这里了,我是leo,我们下期再见~文章来源地址https://www.toymoban.com/news/detail-421942.html

到了这里,关于短视频模型Imagen Video:艺术和3D建模大师的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Video-LLaMA 开源,大语言模型也能读懂视频了!

    出品人:Towhee 技术团队 作者:张晨 Video-LLaMA 旨在使冻结的 LLM 能够理解视频中的视觉和听觉内容。如图所示,本文设计了两个分支,即视觉语言分支和音频语言分支,分别将视频帧和音频信号转换为与 LLM 的文本输入兼容的查询表示。 1.1 视觉-语言分支 视觉语言分支旨在使

    2024年02月15日
    浏览(33)
  • 深度解读:如何解决Image-to-Video模型视频生成模糊的问题?

    Diffusion Models视频生成-博客汇总 前言 :目前Image-to-Video的视频生成模型,图片一般会经过VAE Encoder和Image precessor,导致图片中的信息会受到较大损失,生成的视频在细节信息上与输入的图片有较大的出入。这篇博客结合最新的论文和代码,讲解如何解决Image-to-Video模型视频生成

    2024年04月09日
    浏览(26)
  • 北京大学&快手发布统一的图文视频生成大模型Video-LaVIT

    随着多模态大语言模型(LLMs)的新发展,人们越来越关注如何将它们从图像-文本数据扩展到更具信息量的真实世界视频。与静态图像相比,视频为有效的大规模预训练带来了独特的挑战,因为需要对其时空动态进行建模。 针对视频与语言联合预训练的挑战,文章提出了高效

    2024年04月23日
    浏览(15)
  • SuperMap三维复杂模型建模之3D极坐标建模——基础篇

    作者:超图研究院技术支持中心-于丁 SuperMap三维复杂模型建模之3D极坐标建模——基础篇 在上一篇文章中我们了解了曲面建模(UV极坐标下)的基础原理,这篇文章便带领大家进行3D极坐标建模的简单使用和参数了解,上手该功能。 一、所需工具 1、 SuperMap iDesktop 10i(2021)V10

    2024年01月18日
    浏览(28)
  • 使用 Docker 和 Diffusers 快速上手 Stable Video Diffusion 图生视频大模型

    本篇文章聊聊,如何快速上手 Stable Video Diffusion (SVD) 图生视频大模型。 月底计划在机器之心的“AI技术论坛”做关于使用开源模型 “Stable Diffusion 模型” 做有趣视频的实战分享。 因为会议分享时间有限,和之前一样,比较简单的部分,就用博客文章的形式来做补充分享吧。

    2024年01月24日
    浏览(53)
  • 3D视觉——1.人体姿态估计(Pose Estimation)入门——使用MediaPipe含单帧(Signel Frame)与实时视频(Real-Time Video)

    使用MediaPipe工具包进行开发 MediaPipe是一款由Google Research 开发并开源的多媒体机器学习模型应用框架,用于处理视频、音频等时间序列数据。这个跨平台架构使用于桌面/服务器、Android、iOS和嵌入式设备等。 我们使用MeidaPipe下的Solutions(方案特定的模型),共有16个Solutions: 人

    2024年01月18日
    浏览(36)
  • 多相机拍照系统3D拍照建模,3D真人手办,博物馆模型制作

                   最近3D真人手办行业比较火爆,数据采集比较关键。我们自己研发测试了相关设备,并做出了矩阵相机产品,在此将研发心得和过程发布出来和大家沟通学习。         数据采集,分为2种,一种是扫描仪,一种是矩阵相机。扫描仪轻便,但是需要客户静止

    2024年02月09日
    浏览(38)
  • Three.js--》建模软件如何加载外部3D模型?

    目录 三维建模软件的介绍 Blender官方文档介绍 Blender软件安装 GLTF格式简介 gltf不同文件形式         看过我之前讲解的three文章的人都知道,我在创建模型的时候都没有使用three.js自带的一些简单模型,而是引入外部的模型并加载到页面上, 简言之 :对于简单的立方体、

    2024年02月06日
    浏览(32)
  • 图像生成模型浅析(Stable Diffusion、DALL-E、Imagen)

    简单学习下图像生成模型的相关知识🤗 以下内容来自于李宏毅老师的视频讲解 课程主页:https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.php 视频链接:机器学习2023(生成式AI) 这节我们来讲图像生成模型,在开始之前呢,我们先讲图像生成有什么特别的地方,那图像生成有什么特

    2024年04月24日
    浏览(31)
  • 【3D建模制作技巧分享】Maya模型如何导入zbrush

    在Maya中制作基础模型之后,我们都需要将其导入到zbrush进行雕刻。那怎么将Maya模型导入到zbrush中呢? Maya模型导入zbrush 1、在Maya中制作完成模型,点击windows(窗口)-settings/preferences(设置/首选项)-plug-in Manager。 2、把OBJ后面的两个空格都打勾,导出OBJ格式,这样就很容易导

    2023年04月09日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包