【译】Lumiere,谷歌令人惊叹的视频突破

这篇具有很好参考价值的文章主要介绍了【译】Lumiere,谷歌令人惊叹的视频突破。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原作:伊格纳西奥·德格雷戈里奥

引言:文本到视频的新境界

著名商学教授斯科特·加洛韦 (Scott Galloway) 打赌,2024 年将是谷歌的人工智能年。

现在看起来似乎正在成为现实。

今天,谷歌推出了 Lumiere,这是文本到视频领域的巨大突破,是当今生成人工智能中最艰巨的任务之一。而且就其实现的影响而言,可能是迄今为止尚未达到的最重要里程碑,因为一旦实现,它将永久改变像好莱坞、YouTube或CGI 这样的行业

现在,谷歌已经让我们更进一步,因为它对于人工智能视频合成的方法不仅是革命性的,而且展示了令人难以置信的视频质量和各种令人惊叹的技巧,如视频修补、图像动画和视频风格化,使其成为该领域的新标准

但它是如何生成视频的呢?

看起来像魔法,但事实并非如此。让我们揭开它的秘密。

 永恒的难题

在所有数据模式中,视频无疑是最难用人工智能生成的。

然而,考虑到视频只是图像(称为帧)的串联,以每秒一定的帧速率显示(fps 越高,视频越平滑),构建文本到视频(T2V)系统的合理路径是从一个文本到图像模型(T2I)出发,比如DALL-eStable Diffusion

然而,T2V增加了一个额外的复杂维度:时间。

也就是说,仅仅生成多个帧还不够(你可以使用T2I模型生成所需数量的帧),它们必须随着时间的推移保持一致。

换一种说法,如果您要生成有关狮子的视频,则必须确保狮子在所有帧上看起来都相似。

事实证明,这是一个巨大的难题,因为在多个帧之间保持结构的复杂性使得人工智能视频变得非常短,并且它们往往会展示出瑕疵,例如下面这个由人工智能生成的视频中突然出现的橙色斑点。

 资料来源:英伟达

这些不一致的原因在于这些模型的构建方式,我们很快将解释Lumiere如何彻底改变这种方法。

 来源:谷歌

最初,视频合成过程涉及三个步骤:

  1. 文本到图像(T2I)模型生成了一组关键帧,这些帧覆盖了整个视频的完整持续时间。
  2. 接下来,几个 TSR(时间超分辨率)模型用一组新帧“填充”了关键帧之间的间隙。例如,如果两个关键帧分别是一个认真的人和同一个人微笑着,那么TSR模型将生成完整的中间帧,产生微笑的动作。
  3. 然后,一组 SSR(空间超分辨率)将获取低分辨率帧并对其进行升级以提高视频质量,因为大多数文本到视频模型在低分辨率像素空间(或者在某些情况下,在矢量空间,如Stable Diffusion)中工作,这样可以实现更高效和更便宜的处理过程。
  4. 最后,将SSR的输出进行“拼接”,从而得到视频。

最重要的是,人工智能视频只是采用图像生成器并对其进行训练,使其随时间批量生成某种程度一致的图像,并将它们拼凑在一起。

这确实有效……但也存在一些问题。

就像在拍摄一个演员的片段过程中,他突然脱离角色,你试图通过强迫他保持特定的姿势来完成剩下的片段,避免失去前半部分一样,无论你如何编辑,裁剪是会可见的。

此外,由于该过程涉及使用几种不同类型的模型,这些模型并不总是共享相同的经验和表征(即它们对概念的理解方式),这使得它极易出错。

考虑到这些限制,视频生成似乎还不够完善。但是通过谷歌的Lumiere项目,我们可能正在见证一项重大进展的开始。

空间、时间和多重扩散

就像图像生成器一样,文本到视频(T2V)模型主要是扩散模型。

扩散模型是一种通过去噪过程学习将嘈杂的数据分布映射到目标分布的AI系统。

通俗地说,他们采用噪声图像和文本条件(即你期望的最终结果),然后逐渐去除图像中的噪声,直到得到所需的结果。

“猫的肖像”。资料来源:英伟达

可以将扩散过程类比为将一个大理石块,就像米开朗基罗一样,逐渐雕刻出多余的大理石,从而“挖掘”出雕像。

将扩散过程想象为取出一块大理石块,就像米开朗基罗一样,雕刻出多余的大理石以“挖掘”雕像。

然而,Google 没有遵循我们之前描述的标准程序,而是通过创建 STUnet 找到了替代方案。

那么STUnet是什么呢?

 来源:谷歌

UNet是一种架构,它对图像进行下采样、处理并生成一组新的图像。

换句话说,它接收一组噪声样本(如上图中显示的模糊图像)并生成一组新的高质量图像,这些图像也彼此一致连贯以生成视频。

为了做到这一点,在处理图像时应用卷积(以理解图像所见内容)的同时,还能对图像进行下采样(使其变小)。

一旦压缩足够,就会对其应用注意力机制(就像ChatGPT在文本序列上应用注意力那样,但是应用在图像的压缩表示上,以更好地把握图像中出现的概念,比如熊猫),然后将它们恢复成像素空间,从而得到期望的图像。

然而,STUnet还包括时间卷积和注意力机制,这意味着它压缩了时间。

换句话说,虽然空间卷积和注意力机制专注于处理和确保生成的图像符合用户的要求,但是时间卷积和注意力机制确保整个图像集在时间上是一致的。

这听起来很抽象,但STUnet基本上不仅理解每帧代表什么,而且还理解不同帧之间的关系。

换句话说,不仅要捕捉画面中描绘的熊猫,还要捕捉熊猫随着时间的推移应该做什么动作。

事实上,生成过程是“时间感知”的,Lumiere 可以一次性创建视频中的所有帧(而不是我们之前讨论的通常的关键帧 + 级联帧填充),因此STUnet只需要专注于捕捉帧的语义并将其放大到实际的视频中。

 来源:谷歌

然而,由于内存限制,您仍然需要许多 SSR 模型来放大图像,这意味着最后仍然需要进行一些“拼接”。

因此,为了避免每个 SSR 的放大输出之间的不一致,他们应用了 MultiDiffusion(Bar-Tal 等人,2023)。

这样做的目的是通过使用MultiDiffuser确保在不同生成的帧批次之间的一致性。

简而言之,MultiDiffuser允许同时在一帧上进行多个图像生成过程。

例如,您可以创建一个“模糊图像”,同时对图像的某些区域应用并行生成,比如在图像的特定部分绘制“一只老鼠”或“一堆书”。

关键的直觉是,MultiDiffuser确保无论你通过单独的扩散过程在图像的那些片段中生成什么,它们都与整体作品一致

技术提示:这是通过在标准一代“之上”应用额外的生成步骤来实现的,并且这些生成步骤必须符合一个额外的目标函数,该函数测量了并行生成的数据分布之间的“差异”。

换句话说,MultiDiffuser 允许您在原始内容上“绘制”新内容,同时尽可能保留原始结构。

因此,该组件确保对于需要拼接的视频的多个帧批次,您可以重新创建不同SSR模型输出之间的边界,以使它们保持一致,从而确保片段之间的平滑过渡。

您可以将MultiDiffuser想象成使用Photoshop在SSR模型放大的不同补丁之间“平滑处理”边界,就像视频编辑器希望确保在批次之间不会出现任何切割一样。

它可以使图像的某些部分动起来,

修复新的对象和概念:

除此之外,您还可以在这里查看其他令人惊叹的功能:查看由Lumiere生成的视频。

视频新时代

借助 Lumiere,我们可以清楚地看到视频生成、编辑和动画等领域的未来方向。

很快,任何人都能够在短时间内从零开始创建令人印象深刻的视频,从而创造一个充满可能性的新世界。

尽管取得了令人印象深刻的成果,但感觉我们只看到了冰山一角。文章来源地址https://www.toymoban.com/news/detail-825319.html

到了这里,关于【译】Lumiere,谷歌令人惊叹的视频突破的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 使用Three.js创建令人惊叹的WebGL 3D可视化

    WebGL 可视化 3D 绘图是一项新兴技术,具有广阔的应用前景。它允许开发人员在 Web 浏览器中创建和渲染 3D 图形,而无需安装额外的插件或软件。 本博客将介绍 Three.js,Three.js 是一个功能强大的 WebGL 框架,提供了丰富的 API 用于创建和渲染 3D 图形,接下来让我们通

    2024年01月19日
    浏览(66)
  • CSS动画属性关键帧Keyframes详解:创建令人惊叹的动画效果

    CSS中的关键帧(Keyframes)是一种强大的工具,可用于创建各种动画效果,从简单的渐变到复杂的运动路径。通过定义关键帧的属性值和时间轴上的位置,我们可以实现令人惊叹的视觉效果。本文将详细介绍CSS动画属性关键帧Keyframes的使用方法,并提供相应的源代码示例。 关键

    2024年01月23日
    浏览(59)
  • ❤️创意网页:使用CSS和HTML创建令人惊叹的3D立方体

    ✨ 博主: 命运之光   🌸 专栏: Python星辰秘典 🐳 专栏: web开发(简单好用又好看) ❤️ 专栏: Java经典程序设计 ☀️ 博主的其他文章: 点击进入博主的主页 前言: 欢迎踏入我的Web项目专栏,一段神奇而令人陶醉的数字世界! 🌌 在这里,我将带您穿越时空,揭开属于

    2024年02月12日
    浏览(46)
  • 【AI绘画--七夕篇】:如何训练Lora模型打造令人惊叹的AI绘画

    在数字时代的今天,人工智能(AI)技术正不断改变着我们的生活,也给艺术领域带来了前所未有的革新。AI绘画模型,作为其中的一颗明星,让计算机能够像艺术家一样创作绘画作品,引发了广泛关注。然而,AI绘画模型的训练对计算资源和时间的要求较高,这对于大部分人

    2024年02月12日
    浏览(45)
  • 艺术创作的新纪元:如何训练Lora模型打造令人惊叹的AI绘画

    在数字时代的今天,人工智能(AI)技术正不断改变着我们的生活,也给艺术领域带来了前所未有的革新。AI绘画模型,作为其中的一颗明星,让计算机能够像艺术家一样创作绘画作品,引发了广泛关注。然而,AI绘画模型的训练对计算资源和时间的要求较高,这对于大部分人

    2024年02月13日
    浏览(46)
  • 华为余承东表示「鸿蒙 HarmonyOS 2 升级用户数突破 1 亿」,意味着谷歌已被吓得瑟瑟发抖...

    本来全球手机市场有超过八成的份额为安卓占有,而苹果占有一成多。苹果每年的手机销量大约在2亿多部,如果鸿蒙系统每年增加2亿用户,那么鸿蒙系统就将如苹果iOS系统一样占有一成多的市场份额,这一成多市场份额正是从谷歌手里夺取的,那就代表着谷歌的安卓占有的

    2024年02月11日
    浏览(45)
  • 视频号挂公众号链接突破绑定公众号限制,突破10000阅读量限制,随便加

    想必玩视频号绑定公众号链接的应该清楚了,8月初,视频号再次对公众号做出了限制,以前是直接放在视频上 方,后来又把链接放在评论区顶部,在评论区顶部活的时间还挺长,持续了估计有一年左右,接着视频号再次放出 大招,直接做出限制,要求视频号必须绑定公众号

    2024年02月10日
    浏览(41)
  • AI 视频 | HiDream.ai 支持长视频,突破 4 秒限制!

    2024 年,AI 视频领域大有可为。那么想卷 AI 视频领域,首先得掌握几个 AI 视频的工具。 之前的文章已经分享了一些常用的 AI 视频工具,比如 Pika、Runway Gen-2、Moonvalley、NeverEnds、DomoAI 以及 Stable Video Diffusion。 这些「往期 AI 视频的教程」,在文末都附上了,感兴趣的可以看看

    2024年01月16日
    浏览(55)
  • 突破性创新:OpenAI推出Sora视频模型,预示视频制作技术的未来已到来!

    此页面上的所有视频均由 Sora 直接生成,未经修改。 OpenAI - Sora is an AI model that can create realistic and imaginative scenes from text instructions. 2024 年 2 月 16 日,OpenAI 发布 AI 视频模型 Sora,60 秒的一镜到底,惊艳的效果生成。AI 视频生成可能要变天? 能力 OpenAI 正在教授 AI 理解和模拟运

    2024年02月21日
    浏览(48)
  • GANs在视频生成与分析中的突破性进展

    视频生成和分析是计算机视觉和人工智能领域的重要研究方向之一,它涉及到许多实际应用,如视频压缩、视频质量评估、视频生成、视频增强、视频编辑、视频检索等。在过去的几年里,深度学习技术尤其是生成对抗网络(Generative Adversarial Networks,GANs)在视频生成和分析

    2024年02月01日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包