科普的理解 Sora 视频生成模型的核心技术

这篇具有很好参考价值的文章主要介绍了科普的理解 Sora 视频生成模型的核心技术。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

OpenAI 发布的人工智能文生视频大模型Sora在2024年2月15日亮相并引发热议,我们了解到 Sora 不仅完美继承了 DALL·E 3的卓越画质和遵循指令能力,更进一步利用 GPT 扩写技术,展现出超长生成时间(60s)、单视频多角度镜头以及理解物理世界三大突出优势。我们可以看到从 Runway、Pika 到 Sora,文生视频大模型的技术在不断进步。从最初的表情包长度3s、4s,到如今主流短视频长度的60s,模型的生成内容越来越丰富多样。网络上对Sora的解读文章非常多,本文会尝试对Sora做一份"浅显易懂"的科普解读分享。

科普的理解 Sora 视频生成模型的核心技术,人工智能,音视频,gpt

一、灵活处理不同分辨率视频数据

Sora视频生成模型能够根据文字描述生成逼真视频,其核心在于从大量视频数据中"学习"生成视频的技能。然而,训练数据中的视频长短分辨率参差不齐,如何高效地处理这些多样化数据,是Sora面临的第一个技术难题。

传统的视频处理方式要求输入视频保持相同的分辨率和大小,这在很大程度上限制了训练数据的丰富度。而Sora则采用了一些巧妙的技术手段,可以灵活处理不同格式的视频数据:

(1)处理不同长度视频:

对较短视频,重复采样拉长画面长度

对较长视频,智能识别并丢弃相似冗余的画面块,缩短总长度

将所有视频特征压缩塞进固定大小的"数据包"中

(2)处理不同分辨率视频:

通过插值和缩放技术,统一所有画面至同一分辨率

在训练时,Sora还可根据每个视频的具体情况动态调整批处理大小,并引入"稀疏注意力机制",让模型集中关注视频中的关键区域和动作,从而提高了注意力资源的利用效率。通过上述方法,Sora可高效处理各种多样化的视频数据,为后续的训练和生成奠定基础。

二、生成高质量视频的核心机制

Sora视频生成模型的核心技术源自一种创新架构——Diffusion Transformers(DiT)。DiT融合了变分自动编码器(VAE)、视觉转换器(ViT)和扩散去噪概率模型(DDPM)三者的优势,实现了端到端的视频生成。

整个生成过程可以简单概括为:先让清晰视频变模糊,再让模型学会如何还原。具体来说,VAE编码器首先获取原始清晰视频的压缩表示,然后对这个表示进行"前向扩散",也就是人为添加噪声,让它变得模糊不清。

接下来就是模型需要"学习"的关键一步了。将加了噪声的模糊表示切分成一个个小块,输入到ViT模型中去。ViT的任务就是通过学习,掌握如何从这些小块的噪声信号中还原出干净的视频画面。推理时,则按相反过程操作。ViT模型逐步减少噪声,直到获得比较干净的视频压缩表示,最后由VAE解码器将其生成为最终视频输出。这个过程有点类似给孩子们出"反向"脑筋急转弯,先让他们了解"清晰视频是如何变模糊的",从而学会"如何从模糊中还原清晰"。

Sora并非是全新设计的,借鉴了谷歌Imagen Video模型的成果。Imagen Video可以把一段文字描述转化为机器可理解的语义表示,深入把握文字主题、情感和意图等要素。接下来,Sora应该参考了多伦多大学的Video LDM模型的做法。Video LDM先生成视频的关键帧,比如开始、结束和转折等重要时刻。然后引入"时间层"分析相邻帧之间的联系,插值生成新的中间帧,最终将所有关键帧和新生成帧串联成完整流畅的视频。通过上述创新技术,Sora实现了根据文字描述生成高质量视频的能力,而且处理能力更加通用灵活。

科普的理解 Sora 视频生成模型的核心技术,人工智能,音视频,gpt

三、对Sora参数量和算力需求的猜测

尽管Sora能生成出高质量逼真的视频,但其模型参数量可能仅有30亿左右,远远低于公众的预期。这意味着相比其他大型人工智能模型,Sora的训练和推理过程将更加节省算力,未来的迭代升级也将更加便捷高效。

那么,Sora是如何在相对精简的参数量下实现卓越性能的呢?这与它所借鉴的DiT(Diffusion Transformers)架构息息相关。

DiT架构有两个主要规模版本,分别是中等的B/2版和大型的XL版,其中XL版参数量为10亿。根据OpenAI的技术报告,Sora模型的初级版本质量很差,推测当时采用的是B/2版本。而最终版的Sora质量则比初级版提升了16倍。

我们知道,一个模型的计算复杂度通常与其参数规模成正比。如果Sora最终版本的计算量也提升了16倍,而且考虑到DiT XL版本相比B/2版本的计算复杂度提升了12倍,那么我们可以粗略估计,Sora最终版本的计算复杂度约为DiT XL的16/12=1.33倍。

由于计算复杂度与参数规模正相关,我们可以进一步推测,Sora最终版本的参数量大约在10亿到20亿之间。当然,OpenAI团队肯定还对Sora做了其他改进,因此最终给出的参数量是30亿左右。

四、广泛多样的训练数据

除了创新的模型架构,Sora取得卓越表现的另一个重要原因,在于它使用了高质量且种类丰富多样的训练数据。据了解,Sora的训练数据包括:

(1)游戏引擎数据,这些数据通过建模模拟,能够较为真实地再现现实世界的物理规律。它们有助于提高Sora生成视频的逻辑性和一致性,避免出现违反常理的画面。

(2)合成数据和重构数据,合成数据是通过计算机渲染生成的,重构数据则是对现有视频进行加工处理而来。这两种数据的优点是可以按需定制,扩充训练集的多样性,提升视频生成的质量和多样性。

(3)纪录片、长镜头视频等,这类数据来源于真实拍摄,能够很好地捕捉场景和动作细节,有助于Sora更好地学习和理解真实世界中的运动规律和场景特征。

正是由于训练数据的特殊组合以及极高的质量,Sora才得以汲取生成逼真视频所需的各种"知识"。高质量的数据源是人工智能模型取得卓越表现的重要基础之一。

五、新型SiT模型有望带来突破

DiT架构的原作者团队最近发布了一种改进的SiT(Sequence Iterative Transformer)模型。SiT在保持DiT架构的同时,提供了更优的性能和收敛速度,值得关注。

Sora的出现,标志着基于扩散模型的视频生成技术迈入了一个新的里程碑。 借助创新的DiT架构、高质量多样的训练数据,以及强大的文本理解能力,Sora不仅能根据文字描述生成逼真视频,而且生成质量和处理能力都达到了一个全新的高度。 这一突破性进展,必将为视频生成AI在多媒体创作、虚拟现实等领域的应用铺平道路,催生更多革命性创新。 我们可以期待,在不久的将来,创作者无需复杂的拍摄制作,只需简单输入一段文字,就能"变戏法"般生成出栩栩如生的视频作品。 虚拟现实体验也将因此更加身临其境、无遮无拦。 甚至在VideoGame等游戏领域,玩家的任何随心所欲设想,都可能被实时渲染为超写实的影像场景。

视频生成AI所带来的无限想象力和创造力,只有亲身体验才能体会。而Sora这一开路先锋,无疑为我们拨开了通往未来的新视野。让我们拭目以待,期待视频生成AI带来下一个"酷改变"。文章来源地址https://www.toymoban.com/news/detail-849335.html

到了这里,关于科普的理解 Sora 视频生成模型的核心技术的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 全面解读视频生成模型Sora

    2024年2月15日,OpenAI在其官网发布了《Video generation models as world simulators》的报告,该报告提出了作为世界模拟器的 视频生成模型Sora 。 OpenAI对Sora介绍如下: We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images

    2024年02月21日
    浏览(46)
  • OpenAI 生成视频模型 Sora 论文翻译

    视频生成模型作为世界模拟器 本技术报告的重点是 (1) 将所有类型的视觉数据转换为统一表示,以便对生成模型进行大规模训练的方法,以及 (2) 对索拉的能力和局限性的定性评估。 该报告不包括模型和实现细节。 许多先前的工作使用各种方法研究了视频数据的生成建模,包

    2024年02月20日
    浏览(52)
  • Sora:通过视频生成模型制造世界模拟器(世界模型)

    OpenAI官网介绍:Video generation models as world simulators OpenAI尝试在视频数据上探索生成模型的大规模训练,研究结果表明, 尺度可变视频生成模型是构建物理世界通用模拟器的有希望的途径 。(可变的视频时长、帧分辨率和长宽比) OpenAI从大型语言模型(LLM)中获得灵感,LLM通

    2024年02月20日
    浏览(44)
  • 详细解读开源版Sora视频生成模型Latte

    Diffusion Models专栏文章汇总:入门与实战 前言 :OpenAI的视频生成模型Sora一经发布就广受全世界的瞩目,上海人工智能实验室最近推出了一个基于Diffusion Transformer的结构的模型Latte,堪称最接近Sora原理的视频生成模型。这篇博客就详细解读Latte,并从中窥探Sora的神秘面纱。 目

    2024年04月14日
    浏览(40)
  • SORA 2.1 ——Stable diffusion技术解析+基于diffusion的视频生成技术介绍

    本文是DataWhale开源项目Sora原理与技术实战的第二次打卡任务的第一节,主要是简单试用Stable diffusion技术在魔塔社区进行文生图实践。同一打卡任务的其他小节请参见个人主页。 目录 一.【AIGC简介——以文生图为例】 1.基于生成对抗网络的(GAN)模型 2.基于自回归(Autoregress

    2024年03月21日
    浏览(79)
  • 最新技术解析:Open ai新推出了视频生成工具Sora

    文章目录 概要 技术名词解释 技术细节 小结 OpenAI 的 GPT 大模型最近几年发展迅猛,起初我还是观望或者看客心态,毕竟新鲜事物太多。直到最近半年两个技术改变了我的看法,之前推出的诸如人工智能图片生成器(Midjourney、DALL-E2、Stableboost、NovelAI和Stable Diffusion等)以及本

    2024年03月16日
    浏览(60)
  • 一个支持Sora模型文本生成视频的Web客户端

    大家好,我是 Java陈序员 。 最近 Open AI 又火了一把,其新推出的文本生成视频模型 —— Sora,引起了巨大的关注。 Sora 目前仅仅只是发布预告视频,还未开放出具体的 API. 今天,给大家推荐一个最近十分火热的开源项目,一个支持使用 Sora 模型将文本生成视频的 Web 客户端。

    2024年03月09日
    浏览(53)
  • OpenAI发布Sora模型,可根据文字生成逼真AI视频

    早在2022年11月30日,OpenAI第一次发布人工智能聊天机器人ChatGPT,随后在全世界掀起了人工智能狂潮,颠覆了一个又一个行业。在过去的一年多的时间里,chatGPT的强大功能改变了越来越多人的工作和生活方式,成为了世界上用户增长最快的应用程序。 昨天,OpenAI发布了一款新

    2024年02月19日
    浏览(52)
  • Sora是什么?Sora怎么使用?OpenAI最新文字转视频AI模型Sora,一句子生成60秒超逼画面

    Sora 是 OpenAI 开发的AI视频生成模型,它能够根据用户的文本描述生成 长达 60 秒 、1080P 高质量视频,其中包含 精细复杂的场景、生动的角色表情以及复杂的镜头运动 。 Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款模型不仅能理解用户的

    2024年02月20日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包