Sora 技术实现

这篇具有很好参考价值的文章主要介绍了Sora 技术实现。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Sora 技术实现

Sora 的发布宛如一枚核弹,受到各行各业的追捧和关注。不可否认,Sora 生成的视频效果确实太炸裂了,甩开之前文生视频模型几条街。下面是 Sora vs. Pika vs. RunwayML vs. Stable Video 生成视频效果对比

Sora vs. Pika vs. RunwayML vs. Stable Video 生成视频效果对比

很明显可以看出 Sora 无论从分辨率、时长、精细度和对真实世界的还原程度上都远远好于其他模型。下表给出了详细的对比。

Sora 技术实现,生成AI,sora,openai,人工智能,LLM,生成式AI,agi

寻找 Sora 的技术实现线索

Sora 目前还没有论文发布。要想了解 Sora 后背的技术细节只有两个途径:

  1. Sora 技术报告
  2. Sora 团队核心成员过往的论文

Sora 的技术报告中关于技术细节阐述的很简略,文章开头开宗明义地点明“本报告不包含模型和实施细节”。但我们还是能了解到 Sora 采用的是 Transform 架构,其中一项很关键的技术是时空补片(Spacetime Patches),后面我会单独写一篇文章介绍 Spacetime Patches。

既然技术报告能获取的技术细节不多,我们就深挖一下团队核心成员的论文。Sora 团队的领导者是 Tim Brooks 和 William Peebles。两位负责人都是在去年(2023年)刚刚博士毕业,应该都有很新鲜热辣的论文。

再继续向上追溯他们的导师,我惊讶的发现他们都师从 Alyosha Efros。Alyosha Efros 是加州大学伯克利分校计算机科学教授,是一位在计算机视觉和计算机图形学领域具有广泛影响的学者也是 BAIR (Berkeley Artificial Intelligence Research Lab) 伯克利人工智能研究实验室的成员。他在计算机视觉领域最著名的研究是“纹理合成”和“图像补全”,这些技术可以自然地填补图像中的缺失部分,或者生成具有特定风格的新图像。

顺着这条线索,我找到了两篇我认为对 Sora 实现至关重要的论文:

  • Sequential Modeling Enables Scalable Learning for Large Vision Models
  • Scalable Diffusion Models with Transformers

其中第二篇论文的一作正是 Sora 技术领导人之一 William Peebles。

Sora 技术解析

Sequential Modeling Enables Scalable Learning for Large Vision Models 这篇论文通过类比 LLM,提出了 LVM(Large Visual Model)大型视觉模型。通过 420B 的海量图片、视频数据进行训练。类似 LLM 将句子转换为 Token 表征,LVM 将视频也可以看做是一个长语句,不同的是 LVM 将关键帧就是语句中的 Token。这个思路跟 Sora 技术报告中描述的关键技术非常相似。模型采用 LLM 训练中常用到的 Multi-task Learning 和 In-context Learning 进行训练。

Sora 技术实现,生成AI,sora,openai,人工智能,LLM,生成式AI,agi

关于自回归视觉模型(Auto-regressive Visual Models),首先训练一个大型的 Visual Tokenizer,将单张图片转成一串 Visual Token,接着训练一个自回归 Transformers 来处理 Visual 句子。论文采用 LLaMA 的 Transformer 架构,可以容纳 16 张图像组成的视觉句子。推测 Sora 是 3B 的模型我理解也是因为这里。

Sora 技术实现,生成AI,sora,openai,人工智能,LLM,生成式AI,agi

Sora 技术实现,生成AI,sora,openai,人工智能,LLM,生成式AI,agi

Sora 发布后,Scalable Diffusion Models with Transformers 这篇论文的二作——Saining Xie 给出了自己的分析。

我们可以肯定的有两点:

  • 架构:Sora 的确是基于 Scalable Diffusion Models with Transformers(DiT)模型构建的——简而言之,它是一个以 Transformers 为主干的扩散模型

    DiT = [ VAE 编码器 + ViT + DDPM + VAE 解码器 ] \text{DiT} = [\text{VAE 编码器} + \text{ViT} + \text{DDPM} + \text{VAE 解码器}] DiT=[VAE 编码器+ViT+DDPM+VAE 解码器]

    根据 Sora 的技术报告,这部分似乎没有太多额外的花哨功能。

  • “视频压缩网络”:看起来它只是一个 VAE,但是在原始视频数据上训练的。Tokenization 在获得良好的时间一致性方面可能发挥了重要作用。顺便说一下,VAE 是一个 ConvNet,所以 DiT 从技术上讲是一个混合模型 。

Xie 解释说,当初在开发 DiT 时,并没有专注于创造新奇性,而是优先考虑简单性可扩展性。这两个特性给 DiT 带来了巨大的优势。

  • 简单性意味着灵活性。人们经常忽略的关于原生 ViT 的酷炫之处在于,当涉及到处理输入数据时,它使你的模型变得更加灵活。例如,在掩码自编码器(MAE)中,ViT 帮助我们只处理可见的补片并忽略被掩码的补片。同样的,Sora 技术报告中提到“通过在适当大小的网格中排列随机初始化的补片,可以控制生成视频的大小。” 而 UNet 并不直接提供这种灵活性。

    推测:Sora 也可能使用了 Google 的 Patch n’ Pack: NaViT,使 DiT 能够适应不同分辨率、时长和宽高比。

  • 可扩展性是 DiT 论文的核心主题。首先,优化后的 DiT 运行得比 UNet 快得多。更重要的是,Sora 证明了 DiT 的扩展定律不仅适用于图像,现在也适用于视频——Sora 复制了在 DiT 中观察到的视觉扩展行为。

    在 Sora 报告中,第一个视频的质量相当差,它使用的是基础模型大小。粗略计算:DiT XL/2 的 GFLOPs 是 B/2 模型的 5 倍,所以最终的 16X 计算模型可能是 3X DiT-XL 模型大小,这意味着 Sora 可能有约 3B 参数——如果上面的计算是合理的,这可能表明,训练 Sora 模型可能不需要像人们预期的那样多的 GPU,同时也暗示了未来的迭代可能会非常快速。

    Sora 技术实现,生成AI,sora,openai,人工智能,LLM,生成式AI,agi

Sora 最关键的能力是 “涌现出的模拟能力”。在 Sora 之前,尚不清楚长时间的一致性是否能自发出现,或者是否需要复杂的主题驱动生成管道甚至是物理模拟器。Sora 已经证明,尽管不完美,但这些行为可以通过端到端训练实现。然而,有两个要点尚未讨论。文章来源地址https://www.toymoban.com/news/detail-831898.html

  1. 训练数据:完全没有讨论训练数据的来源和构建,这可能暗示数据很可能是 Sora 成功的至关重要的因素。有人推测 Sora 使用了来自游戏引擎的数据,以及电影、纪录片、电影长镜头等。
  2. (自回归)长视频生成:Sora 的一个重大突破是能够生成非常长的视频。制作 2 秒视频和制作 1 分钟视频之间的差异天壤之别。Sora 可能通过联合帧预测实现长视频生成。该预测允许自回归采样,然而一个主要挑战是如何解决错误累积并维持质量/一致性。这些技术细节非常重要,希望将来能揭秘。

到了这里,关于Sora 技术实现的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人工智能技术应用笔记(三):Sora内测资格申请方法(快去申请,不知道什么时候关闭!)

    openAI 已经开放了 sora 的测试资格申请,但是路径很深,很多人可能还不知道! 如何申请测试资格? https://openai.com/ 根据目前的热度,sora的内测渠道不知道什么时候就会关闭了,赶紧去试试吧! ————————————————————————————————————

    2024年03月15日
    浏览(44)
  • 如何将OpenAI Sora生成的普通AI视频转化为Vision Pro的空间视频,沉浸式体验

    【基于AI的Vision Pro空间视频】工作流:这个工作流程用于将2D视频转换为适用于 Vision Pro的Spatial视频: 1、使用Deep3D将2D视频转换为3D SBS: 使用Deep3D工具将2D视频转换为3D SBS格式: 转换例子: Prediction– lucataco/deep3d – Replicate https://replicate.com/p/uxtucj3bk2y3dd4brmtph5nxtu 2、使用

    2024年02月20日
    浏览(47)
  • 最新技术解析:Open ai新推出了视频生成工具Sora

    文章目录 概要 技术名词解释 技术细节 小结 OpenAI 的 GPT 大模型最近几年发展迅猛,起初我还是观望或者看客心态,毕竟新鲜事物太多。直到最近半年两个技术改变了我的看法,之前推出的诸如人工智能图片生成器(Midjourney、DALL-E2、Stableboost、NovelAI和Stable Diffusion等)以及本

    2024年03月16日
    浏览(63)
  • AI之Sora:Sora(文本指令生成视频的里程碑模型)的简介(能力/安全性/技术细节)、使用方法、案例应用之详细攻略

    AI之Sora:Sora(文本指令生成视频的里程碑模型)的简介(能力/安全性/技术细节)、使用方法、案例应用之详细攻略 导读 :Sora 是OpenAI研发的一个可以 根据文字描述生成视频 的AI模型。它的主要特性、功能以及OpenAI在安全和应用方面的策略的核心要点如下所示: 核心功能 Sora可以

    2024年02月21日
    浏览(51)
  • OpenAI 生成视频模型 Sora 论文翻译

    视频生成模型作为世界模拟器 本技术报告的重点是 (1) 将所有类型的视觉数据转换为统一表示,以便对生成模型进行大规模训练的方法,以及 (2) 对索拉的能力和局限性的定性评估。 该报告不包括模型和实现细节。 许多先前的工作使用各种方法研究了视频数据的生成建模,包

    2024年02月20日
    浏览(58)
  • OpenAI-Sora:60s超长长度、超强语义理解、世界模型。浅析文生视频模型Sora以及技术原理简介

    Sora官方链接:https://openai.com/sora   视频模型领头羊Runway Gen 2、Pika等AI视频工具,都还在突破几秒内的连贯性,而OpenAI,已经达到了史诗级的纪录。 OpenAI,永远快别人一步!!!! 像ChatGPT成功抢了Claude的头条一样,这一次,谷歌核弹级大杀器Gemini 1.5才推出没几个小时,全世

    2024年03月15日
    浏览(59)
  • OpenAI Sora出炉,视频鉴赏,详细介绍,小白看过来~~立即尝试Sora,开启您的AI视频创作之旅吧!

    OpenAI最新推出的视频创作的颠覆性产品:Sora,它开启了该行业的新纪元,吊打目前一众视频制作工具。 无论是专业人士还是爱好者,都可以轻松创作出高质量的视频内容。 Sora同样是一个根据文本指令创建逼真而富有想象力的场景的人工智能模型。 尽管仍有一些限制,但随

    2024年02月21日
    浏览(53)
  • [ai笔记8] 聊聊openAI最新文生视频产品-Sora

    欢迎来到文思源想的ai空间,这是技术老兵重学ai以及成长思考的第8篇分享! 近期sora在科技届引发不小的轰动,虽然这是openai并未对外发布的相关产品,目前如同小米汽车的技术发布会,但是确实引发了不小的震撼,因此特地到官方网站阅读了它的所有介绍,包括技术资料,

    2024年02月20日
    浏览(43)
  • OpenAI首个AI视频模型Sora:给世界亿点点震撼

    春节假期余额不足,临近复工。 要问今天最大的新闻是什么? 那必然是由 OpenAI 发布的首款视频模型 Sora。 Sora 官网截图 说起 AI 视频工具,大家应该并不陌生。 像 RunwayGen2、Stable Video Diffusion 和 Pika 等 AI 视频工具早就如雷贯耳。 那为什么今天发布的 Sora 还能掀起如此巨浪?

    2024年02月19日
    浏览(51)
  • Sora六大优点全解析:OpenAI文本生成视频模型引领影像创作新潮流

    OpenAI,这个一直走在人工智能前沿的巨头,在不久前发布了他们的首个文本转视频模型——Sora!就是那个能将你的文字想象转化为栩栩如生视频的神器。现在,让我们一起揭开Sora的神秘面纱,看看第一部AI短剧离我们还有多远吧! 想象一下,你脑海中的一段故事、一个场景

    2024年03月21日
    浏览(93)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包