[OpenAI]继ChatGPT后发布的Sora模型原理与体验通道

这篇具有很好参考价值的文章主要介绍了[OpenAI]继ChatGPT后发布的Sora模型原理与体验通道。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

[OpenAI]继ChatGPT后发布的Sora模型原理与体验通道,粉丝福利活动,学习,sora,openai

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家:https://www.captainbed.cn/z
[OpenAI]继ChatGPT后发布的Sora模型原理与体验通道,粉丝福利活动,学习,sora,openai

ChatGPT体验地址

[OpenAI]继ChatGPT后发布的Sora模型原理与体验通道,粉丝福利活动,学习,sora,openai

OpenAI体验通道

ChatGPT体验地址

OpenAI Sora文生视频(图像看作单帧视频)一放出就炸翻整个AI 圈,也是ChatGPT掀起GenAI热潮时隔一年后,OpenAI再次史诗级的更新。OpenAI 随后公布的技术综述,难掩其勃勃雄心:视频生成模型作为世界模拟器。
[OpenAI]继ChatGPT后发布的Sora模型原理与体验通道,粉丝福利活动,学习,sora,openai

笔者春节前原计划整理一下对Google Lumiere文生视频的认知,多个因素遗憾推迟。对比看两者大的技术方向均选择了扩散模型,却也有许多关键细节不同。恰好可以借着 OpenAI技术综述来提纲挈领,一起梳理一下,为什么笔者觉得这是又一史诗级的更新。

sora官网:https://openai.com/sora

Spacetime Latent Patches 潜变量时空碎片, 建构视觉语言系统

在“ChatGPT是第一个真正意义的人工通用智能”中,笔者总结过大语言模型借助Embedding将人类的语言 “编码”成自己的语言,然后通过注意力Attention从中提取各种丰富的知识和结构,加权积累与关联生成自己的语言,然后“编码”回人类的语言。

与ChatGPT首先引入Token Embedding 思路一致,针对视觉数据的建模方法则作为构建Sora最重要的第一步。碎片Patch已经被证明是一个有效的视觉数据表征模型,且高度可扩展表征不同类型的视频和图像。将视频压缩到一个低维的潜变量空间,然后将其拆解为时空碎片Spacetime Latent Patches。笔者觉得时空碎片是时空建模的关键,统一了时空分割的"语言"。

有了时空碎片这一统一的语言,Sora 自然解锁了多种技能:1. 自然语言理解,采用DALLE3 生成视频文本描述,用GPT丰富文本prompts ,作为合成数据训练Sora, 架起了GPT 与 Sora语言空间的更精确关联,等于在Token与Patch 之间统一了“文字”;2. 图像视频作为prompts,用户提供的图像或视频可以自然的编码为时空碎片Patch,用于各种图像和视频编辑任务 – 静态图动画、扩展生成视频、视频连接或编辑等。
[OpenAI]继ChatGPT后发布的Sora模型原理与体验通道,粉丝福利活动,学习,sora,openai

扩散模型与Diffusion Transformer,组合成强大的信息提取器

OpenAI 讲Sora 是一个Diffusion Transformer,这来自伯克利学者的工作Diffusion Transformer (DiT):“采用Transformer的可扩展扩散模型 Scalable diffusion models with transformers”
[OpenAI]继ChatGPT后发布的Sora模型原理与体验通道,粉丝福利活动,学习,sora,openai

DiT应用于潜变量时空碎片,学习获得海量视频中时空碎片的动态关联

与“LLM在其高维语言空间中通过Transformer提取人类语言中无数的结构与关联信息”类似,Sora是个基于扩散模型的Transformer,被用于从高维的时空碎片张成的空间中,观察并提取丰富的时空碎片之间的关联与演化的动态过程。如果把前者对应人类读书,后者就是人类的视觉观察。

遗憾的是OpenAI的技术综述没有提供技术细节,不过笔者觉得大家可以参照Google Lumiere的技术原理来大胆推演一下。视频其实是记录了时空信息的载体: 时空碎片patch可以看作是三维空间的点集(x,y,z)的运动(t)或者说其实是个四维时空模型(x,y,z,t)。Sora和Lumiere之类的生成模型的第一步都是如何从中提取出相应的关键信息。[OpenAI]继ChatGPT后发布的Sora模型原理与体验通道,粉丝福利活动,学习,sora,openai

Sora 或Lumiere 视频学习与生成的技术背后蕴含的原理分析

SSM整体思维模型:

[OpenAI]继ChatGPT后发布的Sora模型原理与体验通道,粉丝福利活动,学习,sora,openai

  1. 态空间对事物的表征和刻画:状态空间的高维度,某时刻的信息,即某时刻的事物的能量的概率分布,是众多维度的联合概率分布,各维度都可能具有连续性和非线性,如何用线性系统近似,并最大努力消除非线性的影响非常关键;不同层次的潜变量空间,对信息的提取,和粗颗粒度逐层抽象,都需要类似重整化群 RG中的反复归一化,以消除“近似非线性处理”对整体概率为 1 的偏离。

  2. 状态空间的动态性:即从时间的维度,研究整个状态空间的变迁。这个变迁是状态空间的大量非时间维度的信息逐层提取,叠加时间这一特殊维度的(状态-时间)序列sequence。不管是高维度低层次的细颗粒度的概率分布的时间变化,还是低维度高层次的粗颗粒度概率分布的时间变化,都是非线性时变系统,用线性时不变(LTI)的模型都是无法很好刻画的。
    [OpenAI]继ChatGPT后发布的Sora模型原理与体验通道,粉丝福利活动,学习,sora,openai

sora最新关键词效果预览

  1. minecraft with the most gorgeous high res 8k texture pack ever
    [OpenAI]继ChatGPT后发布的Sora模型原理与体验通道,粉丝福利活动,学习,sora,openai

  2. this close-up shot of a futuristic cybernetic german shepherd showcases its striking brown and black fur…
    [OpenAI]继ChatGPT后发布的Sora模型原理与体验通道,粉丝福利活动,学习,sora,openai

  3. pov footage of an ant navigating the inside of an ant nest
    [OpenAI]继ChatGPT后发布的Sora模型原理与体验通道,粉丝福利活动,学习,sora,openai

  4. a golden retriever and samoyed should walk through NYC, then a taxi should stop to let the dogs pass a crosswalk, then they should walk past a pretzel and hot dog stand, and finally they should end up looking at Broadway signs.[OpenAI]继ChatGPT后发布的Sora模型原理与体验通道,粉丝福利活动,学习,sora,openai

最快更新体验通道

Sora体验地址

[OpenAI]继ChatGPT后发布的Sora模型原理与体验通道,粉丝福利活动,学习,sora,openai

自媒体运营从入门到精通

从Sora的即将问世,人人做up的时代真正来袭,抓住这个历史性时刻,从运营入手,实现弯道超车!!!

  • 🎁本次送书1~3本【取决于阅读量,阅读量越多,送的越多】👈
  • ⌛️活动时间:截止到2024-2月27号
  • ✳️参与方式:关注博主+三连(点赞、收藏、评论)

[OpenAI]继ChatGPT后发布的Sora模型原理与体验通道,粉丝福利活动,学习,sora,openai文章来源地址https://www.toymoban.com/news/detail-834193.html

到了这里,关于[OpenAI]继ChatGPT后发布的Sora模型原理与体验通道的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Sora:继ChatGPT之后,OpenAI的又一力作

    关于Sora的报道,相信很多圈内朋友都已经看到了来自各大媒体铺天盖地的宣传了,这次,对于Sora的宣传,绝不比当初ChatGPT的宣传弱。自OpenAI发布了GPT4之后,就已经有很多视频生成模型了,不过这些模型要么生成的质量堪忧,要么生成的时间太短,比如Gen-2、Pika、Runway、Vi

    2024年02月19日
    浏览(37)
  • 如何将OpenAI Sora生成的普通AI视频转化为Vision Pro的空间视频,沉浸式体验

    【基于AI的Vision Pro空间视频】工作流:这个工作流程用于将2D视频转换为适用于 Vision Pro的Spatial视频: 1、使用Deep3D将2D视频转换为3D SBS: 使用Deep3D工具将2D视频转换为3D SBS格式: 转换例子: Prediction– lucataco/deep3d – Replicate https://replicate.com/p/uxtucj3bk2y3dd4brmtph5nxtu 2、使用

    2024年02月20日
    浏览(45)
  • OpenAI全新发布文生视频模型:Sora!

    OpenAI官网原文链接:https://openai.com/research/video-generation-models-as-world-simulators#fn-20      我们探索视频数据生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空Patche

    2024年02月19日
    浏览(43)
  • OpenAI 生成视频模型 Sora 论文翻译

    视频生成模型作为世界模拟器 本技术报告的重点是 (1) 将所有类型的视觉数据转换为统一表示,以便对生成模型进行大规模训练的方法,以及 (2) 对索拉的能力和局限性的定性评估。 该报告不包括模型和实现细节。 许多先前的工作使用各种方法研究了视频数据的生成建模,包

    2024年02月20日
    浏览(52)
  • 来自OpenAI的降维打击! OpenAI发布文生视频模型Sora——视频模型的奇点或许来临!!

    手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) 文章目录 1 卓越能力 1.1 60s超长时间 高度详细复杂的场景 1.2 复杂的相机运动 1.3 同一场景多个镜头 2 技术原理 3 不足 4 安全

    2024年02月21日
    浏览(49)
  • 重磅!OpenAI发布文生视频模型Sora——视频模型的奇点或许来临!!

    OpenAI发布文生视频模型Sora——视频模型的奇点或许来临!! 初七啦,得开始工作了,没想到第一天就这么劲爆! 今天OpenAI迎来重大更新——发布视频模型Sora!! 官网Sora (openai.com) 说实话有点惊艳,在AI圈子里好多头部内容创作者看到都禁不住国粹了! 除了能够仅根据文本

    2024年02月20日
    浏览(43)
  • OpenAI首个AI视频模型Sora:给世界亿点点震撼

    春节假期余额不足,临近复工。 要问今天最大的新闻是什么? 那必然是由 OpenAI 发布的首款视频模型 Sora。 Sora 官网截图 说起 AI 视频工具,大家应该并不陌生。 像 RunwayGen2、Stable Video Diffusion 和 Pika 等 AI 视频工具早就如雷贯耳。 那为什么今天发布的 Sora 还能掀起如此巨浪?

    2024年02月19日
    浏览(46)
  • 深入浅出熟悉OpenAI最新大作Sora文生视频大模型

    蠢蠢欲动,惴惴不安,朋友们我又来了,这个春节真的过的是像过山车,Gemini1.5 PRO还没过劲,OpenAI又放大招,人类真的要认输了吗,让我忍不住想要再探究竟,到底是什么让文生视频发生了质的跃迁,再次不仅止不住唏嘘,那些老板们辛辛苦苦创起来的业,恐怕又被降维打击

    2024年02月21日
    浏览(46)
  • OpenAI发布Sora模型,可根据文字生成逼真AI视频

    早在2022年11月30日,OpenAI第一次发布人工智能聊天机器人ChatGPT,随后在全世界掀起了人工智能狂潮,颠覆了一个又一个行业。在过去的一年多的时间里,chatGPT的强大功能改变了越来越多人的工作和生活方式,成为了世界上用户增长最快的应用程序。 昨天,OpenAI发布了一款新

    2024年02月19日
    浏览(52)
  • Sora是什么?Sora怎么使用?OpenAI最新文字转视频AI模型Sora,一句子生成60秒超逼画面

    Sora 是 OpenAI 开发的AI视频生成模型,它能够根据用户的文本描述生成 长达 60 秒 、1080P 高质量视频,其中包含 精细复杂的场景、生动的角色表情以及复杂的镜头运动 。 Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款模型不仅能理解用户的

    2024年02月20日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包