太炸了!Sora深夜发布!网友:我要失业了

这篇具有很好参考价值的文章主要介绍了太炸了!Sora深夜发布!网友:我要失业了。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

2022年末,OpenAI聊天机器人ChatGPT的面世无疑成为了引领人工智能浪潮的标志性事件,宣告了新一轮科技革命的到来。无论是聊天娱乐、教育学习,还是工作生产、医疗健康等领域,人工智能正以前所未有的速度渗透到我们生活的方方面面。

2月16日凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。

这意味着,继文本、图像之后,OpenAI将其先进的AI技术拓展到了视频领域。OpenAI亦表示,Sora是能够理解和模拟现实世界的模型的基础,这一能力将是实现AGI(通用人工智能)的重要里程碑。

太炸了!Sora深夜发布!网友:我要失业了,AI资讯早班车,Sora,chatgpt,ai

对于OpenAI视频生成模型的出现,业内其实早有预期,但仍有人评价称“比想象中来得更快”,亦有人振奋地表示“我们真的看到新工业革命来临”。

2月16日,业内分析人士对《每日经济新闻》记者表示,Sora无疑是人工智能领域的一次重大突破,该技术不仅展示了AI在理解和创造复杂视觉内容方面的先进能力,而且对内容创作、娱乐和影视制作行业带来了前所未有的挑战和机遇。

目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型甚至还可以根据提示、静止图像填补现有视频中的缺失帧来生成视频。

太炸了!Sora深夜发布!网友:我要失业了,AI资讯早班车,Sora,chatgpt,ai
人们一直期待GPT-5,但Sora带来的轰动不亚于一次GPT-5的发布。

作为OpenAI 首推的文本转视频模型,Sora能够根据文本指令或静态图像生成长达 1分钟的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。同时也接受现有视频扩展或填补缺失的帧。

每条提示60秒的视频长度与Pika Labs的3秒、Meta Emu Video的4秒、和Runway公司Gen-2的18秒相比,妥妥地铁赢了。并且从官方发布的演示来看,无论从视频流畅度还是细节表现能力上,Sora的效果都相当惊艳。

例如一个Prompt(大语言模型中的提示词)的描述是:在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

太炸了!Sora深夜发布!网友:我要失业了,AI资讯早班车,Sora,chatgpt,ai

在Sora生成的视频里,女士身着黑色皮衣、红色裙子在霓虹街头行走,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。

对于五官和皮肤的刻画十分真实,特别是痘印和法令纹,细节让人惊叹。

太炸了!Sora深夜发布!网友:我要失业了,AI资讯早班车,Sora,chatgpt,ai

AI想象中的龙年春节,红旗招展人山人海。有儿童紧跟舞龙队伍抬头好奇观望,还有不少人掏出手机边跟边拍,海量人物角色各有各的行为。
太炸了!Sora深夜发布!网友:我要失业了,AI资讯早班车,Sora,chatgpt,ai
竖屏超近景视角下,这只蜥蜴细节拉满:

太炸了!Sora深夜发布!网友:我要失业了,AI资讯早班车,Sora,chatgpt,ai
Sora模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景。该模型不仅能理解用户在提示中所要求的内容,还能理解这些事物在现实世界中的存在方式。该模型对语言有深刻理解,能准确解读提示,并生成表达丰富情感的引人入胜的角色。Sora还能在单个生成的视频中创建多个镜头,使角色和视觉风格保持准确一致。

比如一大群纸飞机在树林中飞过,Sora知道碰撞后会发生什么,并表现其中的光影变化。

一群纸飞机在茂密的丛林中翩翩起舞,在树林中穿梭,就像候鸟一样。

太炸了!Sora深夜发布!网友:我要失业了,AI资讯早班车,Sora,chatgpt,ai
对于Sora当前存在的弱点,OpenAI也不避讳,指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。

太炸了!Sora深夜发布!网友:我要失业了,AI资讯早班车,Sora,chatgpt,ai

例如,它在准确模拟复杂场景的物理现象方面存在困难,也可能不理解特定的因果关系。比方说“一个人咬一口饼干后,饼干上可能并没有咬痕。”

模型也可能混淆提示的空间细节,像是弄错左右。或者“在准确体现随时间发生的事件方面遇到困难,比如遵循特定的摄像机轨迹”。

Sora也使用了DALL·E 3的recaptioning技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此模型能够更忠实地按照用户在生成视频中的文本指令进行操作。

它能够一次性生成整个视频,或是扩展已生成的视频使其变长。通过让模型一次性预见多帧,解决了即使主体暂时离开视线也能保持不变的挑战性问题。

例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,狼的数量会变化,有的狼崽凭空出现或消失。

太炸了!Sora深夜发布!网友:我要失业了,AI资讯早班车,Sora,chatgpt,ai
该模型还可能混淆提示词的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。

如根据提示词“篮球穿过篮筐然后爆炸”生成的视频中,篮球撞到篮筐边缘竟然没有反弹而是直接穿过。

太炸了!Sora深夜发布!网友:我要失业了,AI资讯早班车,Sora,chatgpt,ai
OpenAI表示,他们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。

同时OpenAI解释了Sora的工作原理,Sora是一个扩散模型,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,视频也从最初的随机像素转化为清晰的图像场景。Sora使用了Transformer架构,有极强的扩展性。

如今,Sora正面向部分成员开放,以评估关键领域的潜在危害或风险。同时,OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入,期望获得宝贵反馈,以推动模型进步,更好地助力创意工作者。

Sam Altman就转发网友用Sora制作的“金光灿灿动物园”视频,玩起了自己的“What”梗:

太炸了!Sora深夜发布!网友:我要失业了,AI资讯早班车,Sora,chatgpt,ai
他还邀请大家踊跃提出想用Sora制作视频的提示词,团队马上为大家生成,瞬间8千多条回复。

网友脑洞大开,要看海洋生物的自行车公开赛。
太炸了!Sora深夜发布!网友:我要失业了,AI资讯早班车,Sora,chatgpt,ai

关于安全性,OpenAI表示正与错误信息、仇恨内容和偏见等领域的专家合作,对模型进行对抗性测试。同时也在开发帮助检测误导性内容的工具,识别视频是否由Sora生成。对于违反使用政策的文本提示,例如暴力、仇恨和侵犯他人知识产权等内容,将拒绝显示给用户。

除此以外,为DALL·E 3产品构建的现有安全方法也同样适用于Sora。

“尽管进行了广泛的研究和测试,我们仍无法预测人们将如何利用我们的技术,也无法预见人们如何滥用它。这就是为什么我们相信,从真实世界的用例中学习,是随时间构建越来越安全的AI系统的关键组成部分。”

OpenAI对 Sora信心满满,认为这为模型理解和模拟真实世界奠定了基础,是“实现AGI的重要里程碑”。

网友们也第n+1次纷纷哀悼起相关赛道的公司们:

“OpenAI就是不能停止杀死创业公司。”

“天哪,现在起我们要弄清什么是真的,什么是假的。”

“我的工作没了。”

“整个影像素材行业被血洗,安息吧。”

太炸了!Sora深夜发布!网友:我要失业了,AI资讯早班车,Sora,chatgpt,ai

能杀死GPT-4的世界模型?这不就是吗

OpenAI一如既往没有给出很详细的技术说明,但一些只言片语已经足够让你浮想联翩。

其中最吸引我们注意的第一个点,是对数据的处理。

Sora是一个扩散模型(diffusion model),采用类似GPT的Transformer架构。而在解决训练中文本资料与视频数据之间的统一方面,OpenAI表示,他们在处理图像和视频数据时,把对它们进行分割后得到的最小单元,称为小块(patches),也就是对应LLM里的基本单元tokens。

这是一个很重要的技术细节。把它作为模型处理的基本单元,使得深度学习算法能够更有效地处理各种视觉数据,涵盖不同的持续时间、分辨率和宽高比。

从最终的震撼效果看,你很难不得出这样一个结论:对语言的理解能力,是可以迁移到对更多形态的数据的理解方法上去的。

此前的Dalle-3的效果就被公认很大程度来自OpenAI在GPT上积累的领先N代的语言能力,哪怕是个图像为输出的模型,语言能力提升也是至关重要的。而今天的视频模型,同样如此。

至于它是如何做到的,有不少行业内的专家给出了相同的猜测:它的训练数据里使用了游戏领域最前端的物理引擎Unreal Engine5,简单粗暴的理解,就是语言能力足够强大之后,它带来的泛化能力直接可以学习引擎生成的图像视频数据和它体现出的模式,然后还可以直接用学习来的,引擎最能理解的方式给这些利用了引擎的强大技术的视觉模型模块下指令,生成我们看到的逼真强大的对物理世界体现出“理解”的视频。

基于这个猜测,OpenAI简短的介绍中的这句话似乎就更加重要了:

“Sora 是能够理解和模拟现实世界的模型的基础,OpenAI相信这一功能将成为实现AGI的重要里程碑。”

理解,现实,世界。

这不就是人们总在争论的那个唯一有可能“干掉”GPT-4的世界模型。现在,OpenAI搞出来了它的雏形,摆在了你的面前。

看起来,这个模型学会了关于 3D 几何形状和一致性的知识,而且并非OpenAI训练团队预先设定的,而是完全是通过观察大量数据自然而然地学会的。负责Sora训练的OpenAI科学家Tim Brooks表示,AGI将能够模拟物理世界,而Sora就是迈向这个方向的关键一步。

太炸了!Sora深夜发布!网友:我要失业了,AI资讯早班车,Sora,chatgpt,ai

显然,在OpenAI眼里,它不只是一个“文生视频模型”,而是更大的东西。

我们如果尝试进一步给一个暴论,就是:语言是理解一切的基础,理解了视频后,世界模型才会到来。

可能这才是比今天刷屏感慨“现实不存在了”之外,更恐怖的地方。这可能是人类通往AGI的又一个ChatGPT时刻。


免责声明:AI资讯内容均来自网络收集,仅供学习交流使用,严禁商用,版权属于原作者,本公众号不承担用户因使用或分享该资源对自身以及他人所造成的任何影响和伤害,如需获得更好体验,还请大家支持正版。如本公众号内容侵犯原作者的版权或利益,我们深感抱歉,请及时联系我们删除,发送邮件到:hmmwx53@163.com,我们将会在收到消息后立即删除并撤下资源,感谢!文章来源地址https://www.toymoban.com/news/detail-830145.html

到了这里,关于太炸了!Sora深夜发布!网友:我要失业了的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Open Sora 发布!开源的高效复现类 Sora 视频生成方案

    不久前 OpenAI Sora 的发布可以说是震惊了世界,但是奈何目前 OpenAI 还未将 Sora 开放公测,但在昨天,我们却等来了 Open Sora 1.0 的发布,这是 Colossal-AI 团队的一个完全开源的视频生成项目,致力于 高效 制作高质量视频,并使所有人都能使用其模型、工具和内容的计划。 通过采

    2024年03月27日
    浏览(48)
  • 谷歌深夜王炸级更新!PaLM 2大模型震撼发布!Bard写代码,哪里不懂点哪里!

    谷歌CEO桑达尔·皮查伊:我们对AI的态度是又大胆又负责。 出品|网易科技智见焦点 作者|赵芙瑶 编辑|丁广胜 这回,谷歌急了! 他们这半年过得是真憋屈!近半年来AI的发展速度就像坐上了火箭,11月ChatGPT横空出世,今年2月发布的New Bing和3月发布的GPT-4,更是让许多大厂

    2024年02月09日
    浏览(74)
  • OpenAI全新发布文生视频模型:Sora!

    OpenAI官网原文链接:https://openai.com/research/video-generation-models-as-world-simulators#fn-20      我们探索视频数据生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空Patche

    2024年02月19日
    浏览(43)
  • 与Sora同架构的Stable Diffusion 3.0 震撼发布

    Stability AI 发布了 Stable Diffusion 3,这款图像生成 AI 模型再次刷新了人们的认知。 这款由 Stability AI 倾力打造的文本变图模型,可是迄今为止最强大的“黑科技”!无论你想生成多主题的奇幻场景,还是高精度的风景写真,统统不在话下! Stability AI 强调了该版本的几个亮点,

    2024年03月10日
    浏览(48)
  • OpenAI发布Sora模型,可根据文字生成逼真AI视频

    早在2022年11月30日,OpenAI第一次发布人工智能聊天机器人ChatGPT,随后在全世界掀起了人工智能狂潮,颠覆了一个又一个行业。在过去的一年多的时间里,chatGPT的强大功能改变了越来越多人的工作和生活方式,成为了世界上用户增长最快的应用程序。 昨天,OpenAI发布了一款新

    2024年02月19日
    浏览(53)
  • 重磅!OpenAI发布文生视频模型Sora——视频模型的奇点或许来临!!

    OpenAI发布文生视频模型Sora——视频模型的奇点或许来临!! 初七啦,得开始工作了,没想到第一天就这么劲爆! 今天OpenAI迎来重大更新——发布视频模型Sora!! 官网Sora (openai.com) 说实话有点惊艳,在AI圈子里好多头部内容创作者看到都禁不住国粹了! 除了能够仅根据文本

    2024年02月20日
    浏览(43)
  • OpenAI Sora引领AI跳舞视频新浪潮:字节跳动发布创新舞蹈视频生成框架

    OpenAI的Sora已经引起广泛关注,预计今年AI跳舞视频将在抖音平台上大放异彩。下面将为您详细介绍一款字节跳动发布的AI视频动画框架。 技术定位 :这款框架采用先进的diffusion技术,专注于生成人类舞蹈视频。它不仅能够实现人体动作和表情的迁移,还能保持身份信息的准确

    2024年02月22日
    浏览(57)
  • 来自OpenAI的降维打击! OpenAI发布文生视频模型Sora——视频模型的奇点或许来临!!

    手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) 文章目录 1 卓越能力 1.1 60s超长时间 高度详细复杂的场景 1.2 复杂的相机运动 1.3 同一场景多个镜头 2 技术原理 3 不足 4 安全

    2024年02月21日
    浏览(49)
  • OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?

    OpenAI 的官方解释了在视频数据基础上进行大规模训练生成模型的方法。 我们下面会摘取其中的关键部分罗列让大家快速get重点。 喜欢钻研的伙伴可以到官网查看技术报告: https://openai.com/research/video-generation-models-as-world-simulators 技术特点 三维空间的连贯性:Sora可以生成带有

    2024年02月20日
    浏览(69)
  • OpenAI 发布文生视频大模型 Sora,AI 视频要变天了,视频创作重新洗牌!AGI 还远吗?

    早上一觉醒来,群里和朋友圈又被刷屏了。 今年开年 AI 界最大的震撼事件: OpenAI 发布了他们的文生视频大模型 Sora。 OpenAI 文生视频大模型 Sora 的横空出世,预示着 AI 视频要变天了,视频创作领域要重新洗牌! 啥都不说,先来感受一番: OpenAI Sora 生成视频 再来看看其他由

    2024年02月19日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包