OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?

这篇具有很好参考价值的文章主要介绍了OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Sora大模型简介

OpenAI 的官方解释了在视频数据基础上进行大规模训练生成模型的方法。

我们下面会摘取其中的关键部分罗列让大家快速get重点。

喜欢钻研的伙伴可以到官网查看技术报告:

https://openai.com/research/video-generation-models-as-world-simulators

技术特点

  • 三维空间的连贯性:Sora可以生成带有动态相机运动的视频。随着相机移动和旋转,人物和场景元素在三维空间中保持连贯的运动。

  • 模拟数字世界:Sora还能模拟人工过程,如视频游戏。Sora能够同时控制Minecraft中的玩家,并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示,可以零样本地激发Sora的这些能力

  • 长期连续性和物体持久性:对视频生成系统来说,Sora通常能够有效地模拟短期和长期的依赖关系。同样,它能在一个样本中生成同一角色的多个镜头,确保其在整个视频中的外观一致。

  • 与世界互动:Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上留下随时间持续的新笔触,或者一个人吃汉堡时留下咬痕。

强在哪里

  • 文本到视频生成能力:Sora能够根据用户提供的文本描述生成长达60S的视频,这些视频不仅保持了视觉品质,而且完整准确还原了用户的提示语。

  • 复杂场景和角色生成能力:Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜,使得生成的视频具有高度的逼真性和叙事效果。

  • 语言理解能力:Sora拥有深入的语言理解能力,能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令,并在生成的视频内容中忠实地反映这些指令。

  • 多镜头生成能力:Sora可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。

  • 从静态图像生成视频能力:Sora不仅能够从文本生成视频,还能够从现有的静态图像开始,准确地动画化图像内容,或者扩展现有视频,填补视频中的缺失帧。

  • 物理世界模拟能力:Sora展示了人工智能在理解真实世界场景并与之互动的能力,这是朝着实现通用人工智能(AGI)的重要一步。它能够模拟真实物理世界的运动,如物体的移动和相互作用。

为什么是可作为世界模拟器的视频生成模型

  • 统一的视觉数据表示:研究者们将所有类型的视觉数据转换为统一的表示,以便进行大规模的生成模型训练。Sora 使用视觉补丁(patches)作为其表示方式,类似于大型语言模型(LLM)中的文本标记。

  • 视频压缩网络:研究者们训练了一个网络,将原始视频压缩到一个低维潜在空间,并将其表示分解为时空补丁。Sora 在这个压缩的潜在空间中进行训练,并生成视频。

  • 扩散模型:Sora 是一个扩散模型,它通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。

  • 视频生成的可扩展性:Sora 能够生成不同分辨率、时长和宽高比的视频,包括全高清视频。这种灵活性使得 Sora 能够直接为不同设备生成内容,或者在生成全分辨率视频之前快速原型化内容。

  • 语言理解:为了训练文本到视频生成系统,需要大量的视频和相应的文本标题。研究者们应用了在 DALL·E 3 中引入的重新描述技术,首先训练一个高度描述性的标题生成器,然后为训练集中的所有视频生成文本标题。

  • 图像和视频编辑:Sora 不仅能够基于文本提示生成视频,还可以基于现有图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务,如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。

  • 模拟能力:当视频模型在大规模训练时,它们展现出了一些有趣的新兴能力,使得 Sora 能够模拟物理世界中的某些方面,如动态相机运动、长期一致性和对象持久性等。

  • 讨论:尽管 Sora 展示了作为模拟器的潜力,但它仍然存在许多局限性,例如在模拟基本物理交互(如玻璃破碎)时的准确性不足。研究者们认为,继续扩展视频模型是开发物理和数字世界模拟器的有前途的道路。

训练过程

Sora 的训练受到了大语言模型(Large Language Model)的启发。这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。Sora实际上是一种扩散型变换器模型(diffusion transformer)。

  • 首先将视频压缩到一个低维潜在空间中,然后将这种表现形式分解成时空区块,从而将视频转换为区块。

  • 训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入,输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并在此空间中生成视频。还开发了一个对应的解码器模型,它能将生成的潜在表示映射回到像素空间。

  • 对于给定的压缩输入视频,提取一系列时空区块,它们在变换器模型中充当标记(token)。这种方案同样适用于图像,因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中,可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。

  • 随着 Sora 训练计算量的增加,样本质量有了显著提升。

  • Sora训练时没有对素材进行裁切,使得Sora能够直接为不同设备以其原生纵横比创造内容。

  • 针对视频的原生纵横比进行训练,还可以提高构图和取景的质量。

  • 训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。

  • 与DALL·E 3相似,也利用了GPT技术,将用户的简短提示转换成更详细的提示,然后发送给视频模型。Video generation models as world simulators。

与其他视频大模型的比较分析

绘图能力 - 与MJ6对比

来源:https://twitter.com/doganuraldesign/status/1758444092328194217

OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?,音视频,AIGC,人工智能,aigc,ai,gpt,Sora

OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?,音视频,AIGC,人工智能,aigc,ai,gpt,Sora

OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?,音视频,AIGC,人工智能,aigc,ai,gpt,Sora

OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?,音视频,AIGC,人工智能,aigc,ai,gpt,Sora

视频效果 - 与Runway,Pika,Stable Video对比

去年,Pika Labs发布的文生视频大模型Pika 1.0曾轰动一时。该产品只需某张图片输入所需要的动态指令,或者框选某段视频的某个部位,输入指令,就能生成相应的视频。

当时,有不少网友都表示,该产品生成的视频质量属实很炸裂,但只能生成3秒以内的视频,这点有些影响体验。几个月时间不到,Sora已经能够生产60s级的稳定、连续、模拟真实世界的视频,而且效果上几乎碾压,我们来看看对比:

Sora吊打其他

Sora吊打SD

商业变现场景

Sora可能带来的影响

如果Sora能够真正意义上实现文生视频,可能会带来哪些影响呢?我们来听听Sora发布后业界的声音:

  1. 没有演员的影视作品出现,对演员来说是个小挑战,将出现真正的“虚拟偶像”,此前的二次元人物并没有真正达到“偶像”的级别。
  2. 利好编剧行业,剧本、文本创作力成为核心竞争力。
  3. Sora可能才是真正的文生视频,此前的文生视频大多只有2秒,仅仅是对象的小幅度移动。
  4. OpenAI继续拉大领先程度,对众多还在进行大模型测试打分pk的厂商,构成压力。
  5. 直接的影响是影视行业,特别是特效行业。使用AI来制作一些特效和高风险的镜头,可以大幅降低拍摄成本,也可以避免很多危险。
  6. 摄影师行业也会受到影响,用文本来生成一些视频,可以省去很多拍摄工作。
  7. 短视频流行开以后,视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用AI来代替,可能会有很多视频剪辑师失业。
  8. 对于很多短视频创作者来说,用AI来替代繁琐的剪辑工作,可以大幅提高工作效率。
  9. 很多歌手拍摄MV都是大成本制作,如果可以用AI来生成所需要的MV画面,也可以省去很大一部分制作成本。
  10. 另外,如果真正意义上的文生视频得以实现,可能会有不法份子利用这项技术实施新手段的违法犯罪。不过,从Sora官网目前展示的视频画面效果来看,效果还没那么逼近真实,短期内不会产生让行业失业,但会有辅助作用,做个动画片应该问题不大。

在Sora官网,OpenAI也表示,Sora是能够理解和模拟现实世界的模型的基础,OpenAI相信这一能力将是实现AGI的重要里程碑。

进一步落地后,可能的应用场景:

Sora+广告

  1. 个性化和定制化广告内容:根据目标受众的兴趣、习惯及互动历史,生成个性化的广告内容。例如,为每个观众提供定制的产品展示视频,以提高广告的吸引力和转化率。
  2. 高效率的广告制作:借助Sora的能力,广告制作过程可以大幅简化,从概念到成品的时间大大缩短,同时保持或提高广告的视觉质量。
  3. 虚拟场景和角色的创新应用:创建虚拟的场景和角色参与广告,无需实地拍摄或聘请演员,为广告创意提供几乎无限的可能性。
  4. 动态内容更新:针对不同的广告投放周期和受众反馈,实时更新广告内容和呈现方式,保持广告的新鲜感和相关性。
  5. 交互式和沉浸式广告体验:结合Sora的技术和交互式媒体(如AR/VR),为用户提供沉浸式的广告体验,增强品牌印象和用户参与度。
  6. 广告数据分析和优化:通过分析用户对AI生成广告内容的互动和反馈,优化广告策略和创意设计,实现更高的ROI。
  7. 品牌形象和故事叙述:Sora的出现让企业制作品牌视频的成本大幅下降,会反过来刺激企业品牌视频的需求,只需要一段文字就可以通过Sora生成的内容,塑造和传递品牌故事,加深品牌形象和价值观在目标受众心中的印象。

Sora+教育

  1. 历史和文化重现:通过Sora技术,历史事件、文化遗产和著名地标可以被逼真地重现,提供沉浸式的学习体验,帮助学生更好地理解和感受历史和文化。
  2. 语言学习与文化沉浸:Sora可以生成不同文化背景的虚拟场景和对话,帮助学习者在沉浸式环境中学习新语言,提高语言学习的效率和乐趣。
  3. 远程教育与在线课程:Sora技术可以为远程教育提供高质量的视频内容,使在线学习更加生动和吸引人,提高学习者的参与度和满意度。
  4. 互动式学习游戏和活动:结合游戏化学习理念,Sora可以创建互动式的学习游戏和活动,提高学习的趣味性和有效性。
  5. 特殊教育资源开发:为特殊需要的学生设计定制化的教育内容,例如为视障学生创建音频重点的教育材料,或为听障学生设计带有手语解释的视频。

Sora+大电影

  1. 虚拟演员和虚拟导演:开发虚拟演员和虚拟导演参与电影制作,不仅降低成本,还能创造出超越现实限制的表演和视觉效果。
  2. 个性化和定制电影制作:用户可以根据自己的喜好定制电影内容,包括剧情走向、角色设定甚至是结局。这种个性化服务可以作为高端娱乐产品向市场推出。
  3. 虚拟电影制作服务:为小型电影制作公司或独立电影制作者提供虚拟电影制作服务,包括虚拟场景构建、角色设计等,极大降低电影制作成本,加速电影制作进程。
  4. 电影内容的即时生成:根据观众的反馈和需求,实时调整和生成电影内容,为观众提供更加个性化和互动的观影体验。
  5. 云端电影制作平台:提供云端的电影制作和编辑平台,允许全球的创作者协同工作,共同参与电影项目的制作。
  6. 跨媒体内容创作:结合图书、游戏、虚拟现实(VR)等多种媒介,利用Sora技术创作跨媒体故事内容,吸引更广泛的受众。
  7. 电影营销和宣传新模式:通过Sora技术快速制作电影预告片、角色介绍等宣传材料,提高营销效率和吸引力。
  8. 版权和衍生品开发:AI创作的电影和角色可以开发出新的版权和衍生品市场,包括虚拟商品、角色授权等。
  9. AI影评和内容推荐:利用AI技术分析电影内容和用户偏好,提供个性化的影评和电影推荐服务。
  10. 电影制作教育和培训:制作结合Sora技术的电影制作的在线教育和培训课程,让更多的人学会以较低成本制作影视作品的相关技能。

总之,我们一直说的未来,好像真的要来了!
OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?,音视频,AIGC,人工智能,aigc,ai,gpt,Sora文章来源地址https://www.toymoban.com/news/detail-830715.html

到了这里,关于OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • OpenAI 发布文生视频大模型 Sora,AI 视频要变天了,视频创作重新洗牌!AGI 还远吗?

    早上一觉醒来,群里和朋友圈又被刷屏了。 今年开年 AI 界最大的震撼事件: OpenAI 发布了他们的文生视频大模型 Sora。 OpenAI 文生视频大模型 Sora 的横空出世,预示着 AI 视频要变天了,视频创作领域要重新洗牌! 啥都不说,先来感受一番: OpenAI Sora 生成视频 再来看看其他由

    2024年02月19日
    浏览(44)
  • Sora-OpenAI 的 Text-to-Video 模型:制作逼真的 60s 视频片段

    OpenAI 推出的人工智能功能曾经只存在于科幻小说中。 2022年,Openai 发布了 ChatGPT,展示了先进的语言模型如何实现自然对话。 随后,DALL-E 问世,它利用文字提示生成令人惊叹的合成图像。 现在,他们又推出了 Text-to-Video 模型 Sora,将技术向前推进了一步。这种全新的扩散模

    2024年03月24日
    浏览(48)
  • 深入浅出熟悉OpenAI最新大作Sora文生视频大模型

    蠢蠢欲动,惴惴不安,朋友们我又来了,这个春节真的过的是像过山车,Gemini1.5 PRO还没过劲,OpenAI又放大招,人类真的要认输了吗,让我忍不住想要再探究竟,到底是什么让文生视频发生了质的跃迁,再次不仅止不住唏嘘,那些老板们辛辛苦苦创起来的业,恐怕又被降维打击

    2024年02月21日
    浏览(46)
  • OpenAI发布Sora模型,可根据文字生成逼真AI视频

    早在2022年11月30日,OpenAI第一次发布人工智能聊天机器人ChatGPT,随后在全世界掀起了人工智能狂潮,颠覆了一个又一个行业。在过去的一年多的时间里,chatGPT的强大功能改变了越来越多人的工作和生活方式,成为了世界上用户增长最快的应用程序。 昨天,OpenAI发布了一款新

    2024年02月19日
    浏览(52)
  • [ai笔记8] 聊聊openAI最新文生视频产品-Sora

    欢迎来到文思源想的ai空间,这是技术老兵重学ai以及成长思考的第8篇分享! 近期sora在科技届引发不小的轰动,虽然这是openai并未对外发布的相关产品,目前如同小米汽车的技术发布会,但是确实引发了不小的震撼,因此特地到官方网站阅读了它的所有介绍,包括技术资料,

    2024年02月20日
    浏览(39)
  • OpenAI 最新发布的从文本生成视频模型 Sora 炸裂登场,它能根据文字指令创造逼真且富有想象力的场景

    🍉 CSDN 叶庭云 : https://yetingyun.blog.csdn.net/ 此页面上的所有视频均由 Sora 直接生成,未经修改。 OpenAI - Sora is an AI model that can create realistic and imaginative scenes from text instructions. 2024 年 2 月 16 日,OpenAI 发布 AI 视频模型 Sora,60 秒的一镜到底,惊艳的效果生成。AI 视频生成可能要

    2024年02月19日
    浏览(51)
  • 精炼爆炸性新闻!OpenAI发布革命性AI视频生成模型Sora:实现长达60秒的高清视频创作「附AIGC行业系统搭建」

    在人工智能领域,每一次技术革新都引领着未来的发展方向。OpenAI,作为全球领先的人工智能研究机构,再次证明了其在推动AI技术革新方面的领导地位。近日,OpenAI宣布推出了一款革命性的AI视频生成模型——Sora,这一大胆的创新举措,无疑将AI视频生成技术推向了一个新的

    2024年02月20日
    浏览(85)
  • 文生视频大模型Sora的复现经验

      大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的

    2024年04月22日
    浏览(38)
  • AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频

    在过年期间,OpenAI放出了SORA文生视频的预览效果,一瞬间各大媒体争相报道,又引爆了一次科技圈,可惜的是,SORA依然没选择开源。 在这个契机下,本来我也对文生视频的工作非常感兴趣,所以也研究了一些与SORA相关的技术,虽然我们没有像OpenAI那么大的算力,但做一些基

    2024年04月17日
    浏览(36)
  • OpenAI Sora引领AI跳舞视频新浪潮:字节跳动发布创新舞蹈视频生成框架

    OpenAI的Sora已经引起广泛关注,预计今年AI跳舞视频将在抖音平台上大放异彩。下面将为您详细介绍一款字节跳动发布的AI视频动画框架。 技术定位 :这款框架采用先进的diffusion技术,专注于生成人类舞蹈视频。它不仅能够实现人体动作和表情的迁移,还能保持身份信息的准确

    2024年02月22日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包