可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强

这篇具有很好参考价值的文章主要介绍了可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

又有创业公司的饭碗要被抢了。

最近一波视频生成模型突然出现,在许多情况下展示了令人惊叹的如画质量,例如 Runway、Pika。然而当前视频生成的瓶颈之一是产生连贯大运动的能力。在许多情况下,即使是当前领先的大模型也会产生较小的运动,或者当产生较大的运动时,会表现出明显的伪影。

谷歌刚刚发布了零镜头视频生成大模型 VideoPoet。

它能够执行各种视频生成任务,包括文本到视频、图像到视频、视频风格化、视频修复和修复,以及视频转音频。该工具被感叹是一个突破性文生视频工具。

目前市场上一些领先的视频生成模型都是基于扩散的,然而,VideoPoet 不是。

VideoPoet 的重要特点之一就是,它将许多视频生成功能无缝集成在单个大模型中,而不是依赖于专门针对每个任务的单独训练的组件。

白皮书:

https://storage.googleapis.com/videopoet/paper.pdf

研究论文:

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

VideoPoet 概述

VideoPoet 是一种简单的建模方法,可以将任何自回归语言模型或大型语言模型(LLM)转换为高质量的视频生成器。它包含一些简单的组件:

  • 预训练的 MAGVIT V2 视频分词器和 SoundStream 音频分词器将可变长度的图像、视频和音频剪辑转换为统一词汇表中的离散代码序列。这些代码与基于文本的语言模型兼容,有助于与文本等其他模式的集成。
  • 自回归语言模型跨视频、图像、音频和文本模态学习,以自回归预测序列中的下一个视频或音频 Token。
  • 大模型训练框架引入了多模态生成学习目标的混合,包括文本到视频、文本到图像、图像到视频、视频帧延续、视频修复和修复、视频风格化和视频到视频-声音的。此外,这些任务可以组合在一起以获得额外的零样本功能(例如文本到音频)。

这个简单的秘诀表明,语言模型可以合成和编辑具有高度时间一致性的视频。VideoPoet 展示了最先进的视频生成功能,特别是在生成各种大型、有趣且高保真度的动作方面。VideoPoet 模型支持生成方形或纵向视频,以针对短格式内容定制生成视频,并支持从视频输入生成音频。

下图说明了 VideoPoet 的功能。输入图像可以被动画化以产生运动,并且(可以选择裁剪或遮罩)视频可以被编辑以进行修复或修复。对于风格化,该模型接收代表深度和光流(代表运动)的视频,并在顶部绘制内容以产生文本引导的风格。

可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强,音视频

VideoPoet 概述,能够在各种以视频为中心的输入和输出上执行多任务处理。该大模型可以选择将文本作为输入来指导文本到视频、图像到视频、视频到音频、风格化和绘画任务的生成。

VideoPoet 的特点

1. 能生成更长的视频,或者说任意时长的视频

目前市场上的视频生成模型一般仅能生成很短的视频,1秒、2 秒......默认情况下,VideoPoet 输出 2 秒的视频,但该模型还能够通过给定 1 秒视频剪辑的输入来预测 1 秒的视频输出来生成长视频。这个过程可以无限地重复,以生成任意时长的视频。尽管输入上下文很短,但该模型显示出先前作品中未见的强大的对象身份保留,如这些较长持续时间的剪辑所示。

可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强,音视频

VideoPoet 任务设计详细图,显示各种任务的训练和推理输入和输出。使用 Tokenizer 编码器和解码器将模态与标记进行转换。每个模态都被边界 Token 包围,任务 Token 指示要执行的任务类型。

2. 可控视频编辑

VideoPoet 模型可以编辑主题以遵循不同的动作,例如舞蹈风格。在下面的示例中,模型使用不同的提示处理相同的输入剪辑。

3. 交互式视频编辑

还可以进行交互式编辑,将输入视频延长较短的持续时间并从示例列表中进行选择。通过从候选列表中选择最佳视频,可以从较大的生成视频中精细地控制所需运动的类型。

4.图像到视频生成

VideoPoet 可以获取任何输入图像并生成与给定文本提示匹配的视频。

5.零镜头风格化

VideoPoet 还能够根据文本提示对输入视频进行风格化,并展示风格上令人愉悦的提示遵守情况。

6. 应用视觉样式和效果

可以在文本到视频的生成中轻松组合样式和效果。我们从一个基本提示开始,并向其附加一个样式。

7.零镜头可控相机运镜

VideoPoet 预训练的一个新兴特性是,通过在文本提示中指定摄像机镜头的类型,可以实现很大程度上高质量的摄像机运动定制。

VideoPoet 生成的示例

我们的模型生成的一些示例如下所示:

可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强,音视频

VideoPoet 根据各种文本提示生成的视频,参考来源:https://sites.research.google/videopoet/

对于文本到视频,视频输出的长度是可变的,并且可以根据文本内容应用一系列动作和样式。为了确保负责任的做法,我们参考公共领域的艺术品和风格,例如梵高的“星夜”。

按照以下文本输入:

1. “浣熊在时代广场跳舞” A Raccoon dancing in Times Square

可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强,音视频

2. “一匹马在梵高的《星夜》中驰骋”A horse galloping through Van-Gogh’s ‘Starry Night’

可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强,音视频

3. “两只熊猫打牌”Two pandas playing cards

可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强,音视频

4. “一大团爆炸飞溅的彩虹油漆,出现一个苹果,8k” A large blob of exploding splashing rainbow paint, with an apple emerging, 8k

可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强,音视频

对于图像到视频,VideoPoet 可以获取输入图像并通过提示将其动画化。

带有文本提示来引导动作的图像到视频的示例。每个视频都与其左侧的图像配对。

左:“一艘在波涛汹涌的大海、雷暴和闪电中航行的船,画布上的动画油画。”

中:“飞过有许多闪烁星星的星云。”

右:“大风天,一个拄着拐杖站在悬崖上的流浪者,俯视着下面旋转的海雾。”

可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强,音视频

对于视频风格化,我们在将一些额外的输入文本输入 VideoPoet 之前预测光流和深度信息。

在 VideoPoet 文本到视频生成的视频之上进行视频风格化的示例,其中使用文本提示、深度和光流作为调节。每对中的左侧视频是输入视频,右侧是风格化输出。

左:“戴着墨镜的袋熊在阳光明媚的海滩上拿着沙滩球。”

中:“泰迪熊在清澈的冰冻湖面上滑冰。”

右:“一只金属狮子在熔炉的光芒下咆哮。”

可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强,音视频

VideoPoet 还能够生成音频。在这里,我们首先从模型生成 2 秒的剪辑,然后尝试在没有任何文本指导的情况下预测音频。这使得能够从单个模型生成视频和音频。

默认情况下,VideoPoet 模型会生成纵向视频,以根据短格式内容定制其输出。为了展示其功能,我们制作了一部由 VideoPoet 生成的许多短片组成的短片。对于剧本,我们要求巴德写一个关于一只旅行浣熊的短篇故事,并附有逐个场景的分解和附带的提示列表。然后,我们为每个提示生成视频剪辑,并将所有生成的剪辑拼接在一起以生成下面的最终视频。

“一名宇航员开始在火星上跳舞,然后五彩缤纷的烟花在背景中爆炸。”

可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强,音视频

“丛林中一座非常锋利的精灵石城的 FPV 镜头,有明亮的蓝色河流、瀑布和大而陡峭的垂直悬崖面。”

可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强,音视频

还可以交互地编辑由 VideoPoet 生成的现有视频剪辑。如果我们提供输入视频,我们可以改变对象的运动来执行不同的动作。对象操作可以集中在第一帧或中间帧,这允许被高度编辑控制。

例如,我们可以从输入视频中随机生成一些剪辑,并选择所需的下一个剪辑。

可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强,音视频

左侧的输入视频被用作条件,根据初始提示生成四个选择:“一个可爱的、生锈的、损坏的蒸汽朋克机器人的特写,上面覆盖着潮湿的苔藓和发芽的植被,周围环绕着高高的草丛。”对于前三个输出,我们展示了无提示运动会发生什么。对于下面列表中的最后一个视频,我们添加了提示“在背景中冒烟通电”来指导操作。

图像到视频控制

类似地,我们可以将运动应用于输入图像,以根据文本提示将其内容编辑为所需的状态。

可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强,音视频

使用不同的提示对绘画进行动画处理。左:“一位女士转身看着镜头。”右:“一个打哈欠的女人。”

相机运动

我们还可以通过将所需的相机运动类型附加到文本提示来精确控制相机运动。例如,我们通过模型生成了一张图像,提示为“雪山日出、清澈河流的冒险游戏概念艺术”。下面的示例附加给定的文本后缀以应用所需的动作。

可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强,音视频

从左到右提示:“缩小”、“移动变焦”、“向左平移”、“弧线拍摄”、“云台拍摄”、“FPV 无人机拍摄”。

评价结果

我们使用各种基准来评估 VideoPoet 在文本到视频生成方面的表现,以将结果与其他方法进行比较。为了确保中立的评估,我们在各种不同的提示下运行了所有模型,没有挑选示例,并要求人们对他们的偏好进行评分。下图以绿色突出显示了 VideoPoet 被选为以下问题的首选选项的时间百分比。

文本保真度

可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强,音视频

用户对文本保真度的偏好评级,即在准确遵循提示方面首选视频的百分比。

运动趣味性

可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强,音视频

用户对动作兴趣度的偏好评级,即在产生有趣的动作方面首选视频的百分比。

基于上述情况,平均而言,人们选择 VideoPoet 中 24-35% 的示例作为比竞争模型更好的跟随提示,而竞争模型的这一比例为 8-11%。评分者还更喜欢 VideoPoet 中 41-54% 的示例,因为它们的动作更有趣,而其他模型的这一比例为 11-21%。

结论

VideoPoet 展示了大模型在各种任务中具有高度竞争力的视频生成质量,特别是在视频中生成有趣且高质量的动作方面。结果表明大模型在视频生成领域的巨大潜力。对于未来的方向,谷歌希望这个框架能够支持“任意到任意”的生成,例如,扩展到文本到音频、音频到视频和视频字幕等。

本篇攻略评测来源:slsrj.com文章来源地址https://www.toymoban.com/news/detail-779124.html

到了这里,关于可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 解读谷歌视频生成模型代表作:Lumiere A Space-Time Diffusion Model for Video Generation

    Diffusion Models视频生成-博客汇总 前言 :前段时间谷歌发布了基于LLMs的视频生成模型VideoPoet,这种信仰Transformers的做法就很Google。大家都以为2024年视频生成会是LLMs和SD两条路线之争,但是谷歌很快就发布了基于SD的视频生成模型Lumiere,这波直接偷家了?这篇博客详细解读Lum

    2024年02月19日
    浏览(39)
  • 谷歌产品大更新:Bard可生成图像;文生音乐平台等5大免费功能

    2月2日,谷歌在官网对生成式AI产品进行了大更新,包括类ChatGPT聊天助手Bard可以通过文本提示生成图像; 全新的文生音乐平台MusicFX;新的文生图像平台ImageFX;新的文本扩写平台TextFX;在谷歌地图中增加生成式AI功能,用文本提示快速查找路线、店铺等。 值得一提的是,这

    2024年02月20日
    浏览(52)
  • Sora是什么?Sora怎么使用?OpenAI最新文字转视频AI模型Sora,一句子生成60秒超逼画面

    Sora 是 OpenAI 开发的AI视频生成模型,它能够根据用户的文本描述生成 长达 60 秒 、1080P 高质量视频,其中包含 精细复杂的场景、生动的角色表情以及复杂的镜头运动 。 Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款模型不仅能理解用户的

    2024年02月20日
    浏览(57)
  • OpenAI 最新发布的从文本生成视频模型 Sora 炸裂登场,它能根据文字指令创造逼真且富有想象力的场景

    🍉 CSDN 叶庭云 : https://yetingyun.blog.csdn.net/ 此页面上的所有视频均由 Sora 直接生成,未经修改。 OpenAI - Sora is an AI model that can create realistic and imaginative scenes from text instructions. 2024 年 2 月 16 日,OpenAI 发布 AI 视频模型 Sora,60 秒的一镜到底,惊艳的效果生成。AI 视频生成可能要

    2024年02月19日
    浏览(57)
  • 只需3步,使用Stable Diffusion无限生成AI数字人视频

    搞一张照片,搞一段语音,合成照片和语音,同时让照片中的人物动起来,特别是头、眼睛和嘴。 语音合成的方法很多,也比较成熟了,大家可以选择自己方便的,直接录音也可以,只要能生成一个语音文件就行了。 如下图所示 :输入你的文字,选择播音员,填写验证码,

    2024年04月08日
    浏览(85)
  • 【AI生成视频工具】阿里推出图片生成视频Ai工具,免费无限制国内可用,比GEN2香多了

    大家好,我是龙一,专注AI轻创副业项目分享,今天给大家分享一款阿里近日推出的开源的图片生成视频的Ai工具,目前可免费使用,没有使用次数的限制,效果非常好,不得不说比RunwayGen2香多了。 可以根据用户输入的静态图像和文本生成目标接近、语义相同的视频,生成的

    2024年02月08日
    浏览(86)
  • Sora:探索AI视频模型的无限可能

    随着人工智能技术的不断突破,AI视频模型已经成为科技界的新宠。作为OpenAI推出的首个AI视频模型,Sora凭借其卓越的性能和前瞻性的技术,正引领着AI视频领域的创新发展。本文将深入探讨Sora的技术特点、应用场景以及对未来创作方式的深远影响。 Sora的技术架构融合了深度

    2024年03月14日
    浏览(47)
  • AI作画升级!一键帮你用Stable Diffusion 生成无限缩放效果视频

    在这一篇文章中,我们介绍了利用OpenVINO™优化和加速Stable Diffusion模型的推理,在英特尔®独立显卡上能够根据我们输入的指令(prompt),快速生成我们喜爱的AI画作。今天,我们对这一应用场景再次升级,除了能够作画,利用OpenVINO对Stable Diffusion v2模型的支持及优化,我们还

    2024年02月10日
    浏览(61)
  • 9款最新文生图模型汇总!含华为、谷歌、Stability AI等大厂创新模型(附论文和代码)

    2023年真是文生图大放异彩的一年,给数字艺术界和创意圈注入了新鲜血液。从起初的基础图像创作跃进到现在的超逼真效果,这些先进的模型彻底变革了我们制作和享受数字作品的途径。 最近,一些大公司比如华为、谷歌、还有Stability AI等人工智能巨头也没闲着,纷纷推出

    2024年01月23日
    浏览(51)
  • 新出炉!谷歌AI #DreamFusion 从文本生成3D模型

    文本生成图像已有了大量模型工具,文本生成3D模型的工具到是很少见。 # 我记得有一期推文介绍了文本生成数字人模型吧,现在有能生成通用3D模型的工具了? 近期谷歌AI 发布了文本生成3D模型— Dreamfusion # 赶紧去体验下有多神奇~ DreamFusion Dreamfusion  是 Google 的大型AI图像

    2023年04月08日
    浏览(77)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包