新的风口:继ChatGPT热潮后,OpenAI又推出视频生成新浪潮

这篇具有很好参考价值的文章主要介绍了新的风口:继ChatGPT热潮后,OpenAI又推出视频生成新浪潮。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

先来总结

如果非要用三个词来总结Sora,那就是“60s超长长度”、“单视频多角度镜头”和“世界模型”。

官网:https://openai.com/sora

首页 

gpt sora使用,ChatGPT,chatgpt,音视频

 官网首页

介绍

gpt sora使用,ChatGPT,chatgpt,音视频

 官网介绍

翻译后内容:

作为世界模拟器的视频生成模型

我们探索视频数据生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的变压器架构。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

以下内容来源于OpenAI官网:

https://openai.com/research/video-generation-models-as-world-simulators#fn-19

用于视频生成的缩放变压器

Sora是一个扩散模型;给定输入噪声补丁(以及文本提示等调节信息),它被训练来预测原始的“干净”补丁。重要的是,Sora 是一个扩散变压器。Transformer 在各个领域都表现出了卓越的扩展特性,包括语言建模、计算机视觉和图像生成。

gpt sora使用,ChatGPT,chatgpt,音视频

噪声补丁示意图

效果

gpt sora使用,ChatGPT,chatgpt,音视频

不同模式下的视频效果截图

可变的持续时间、分辨率、宽高比

过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸,例如,分辨率为 256x256 的 4 秒视频。我们发现,对原始大小的数据进行训练有几个好处。

采样灵活性

Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。这使得 Sora 可以直接以其原生宽高比为不同设备创建内容。它还使我们能够在以全分辨率生成之前快速以较低尺寸制作原型内容 - 所有这些都使用相同的模型。

gpt sora使用,ChatGPT,chatgpt,音视频

 不同宽高比下视频截图

通过图像和视频进行提示

上面的所有结果都显示文本到视频的示例。但 Sora 也可以通过其他输入进行提示,例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务 - 创建完美的循环视频、动画静态图像、及时向前或向后扩展视频等。

DALL·E 图像动画

Sora 能够生成提供图像和提示作为输入的视频。下面我们展示基于DALL·E 2生成的示例视频和达尔·E 3图片。

一只戴着贝雷帽和黑色高领毛衣的柴犬。

gpt sora使用,ChatGPT,chatgpt,音视频

一只戴着贝雷帽和黑色高领毛衣的柴犬。

上面图片生成的视频如下:

一只戴着贝雷帽和黑色高领毛衣的柴犬

在一座华丽的历史大厅里,巨大的浪潮达到顶峰并开始崩塌。两名冲浪者抓住时机,熟练地驾驭海浪。

gpt sora使用,ChatGPT,chatgpt,音视频

驾驭海浪

上面图片生成的视频:

在一座华丽的历史大厅里,巨大的浪潮达到顶峰并开始崩塌。两名冲

扩展生成的视频

Sora 还能够在时间上向前或向后扩展视频。下面是四个视频,它们都是从生成的视频片段开始向后延伸的。因此,这四个视频的开头都不同,但所有四个视频的结局都是相同的。

gpt sora使用,ChatGPT,chatgpt,音视频

不同时间的扩展视频效果截图

视频到视频编辑

扩散模型启用了多种根据文本提示编辑图像和视频的方法。下面我们应用其中一种方法,SDEdit,到索拉。这项技术使 Sora 能够零镜头地改变输入视频的风格和环境。

gpt sora使用,ChatGPT,chatgpt,音视频

编辑视频操作

编辑后生成视频的效果

gpt sora使用,ChatGPT,chatgpt,音视频

将视频时间设置为冬天生成视频截图

连接视频

我们还可以使用 Sora 在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中,中心的视频插值在左侧和右侧的相应视频之间。

   将两个视频连接后的效果图

gpt sora使用,ChatGPT,chatgpt,音视频

 左右两个原始视频,中间是连接后视频截图

图像生成能力

Sora 还能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像,分辨率高达 2048x2048。

新兴的模拟功能

我们发现,视频模型在大规模训练时表现出许多有趣的新兴功能。这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。这些属性的出现对 3D、物体等没有任何明确的归纳偏差——它们纯粹是尺度现象。

3D 一致性。 Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人和场景元素在三维空间中一致移动。

gpt sora使用,ChatGPT,chatgpt,音视频

 动态摄像机运动视频截图

远程相干性和物体持久性。视频生成系统面临的一个重大挑战是在采样长视频时保持时间一致性。我们发现 Sora 通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。例如,我们的模型可以保留人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。

gpt sora使用,ChatGPT,chatgpt,音视频

多角度视频截图

与世界互动。索拉有时可以用简单的方式模拟影响世界状况的行动。例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。

gpt sora使用,ChatGPT,chatgpt,音视频

与世界互动

模拟数字世界。 Sora 还能够模拟人工过程——一个例子是视频游戏。 Sora 可以同时通过基本策略控制《我的世界》中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过用提及“我的世界”的标题提示 Sora 来零射击。

gpt sora使用,ChatGPT,chatgpt,音视频

模拟数字世界

如果想要使用这个功能,需要先有GPT账号,然后,我们知道GPT我们是不能访问的。所以,如果想要使用Sora这个功能,需要有访问GPT的网络,同时需要有GPT账号。如果还不会的朋友,可以看看凯哥的业务:

gpt sora使用,ChatGPT,chatgpt,音视频文章来源地址https://www.toymoban.com/news/detail-830482.html

到了这里,关于新的风口:继ChatGPT热潮后,OpenAI又推出视频生成新浪潮的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 无限访问 GPT-4,OpenAI 强势推出 ChatGPT 企业版!

    继 ChatGPT 收费大降价、推出 App 版等系列动作之后,OpenAI 于今日宣布正式发布面向企业的 AI 助手——ChatGPT Enterprise 版。 与 To C 端的 ChatGPT 版本有所不同的是,该版本可以以更快速度无限制地访问 GPT-4,还可以用来处理更长输入的上下文窗口、拥有加密、企业级安全和营私

    2024年02月09日
    浏览(28)
  • OpenAI推出ChatGPT企业版,提供更高安全和隐私保障

    🦉 AI新闻 🚀 OpenAI推出ChatGPT企业版,提供更高安全和隐私保障 摘要 :OpenAI发布了面向企业用户的ChatGPT企业版,用户可以无限制地访问强大的GPT-4模型,进行更深入的数据分析,并且拥有完全控制和拥有自己数据的权利。该企业版还将推出用户自定义ChatGPT对企业数据的知识

    2024年02月10日
    浏览(40)
  • ChatGPT热潮下,因生成式AI失业的人出现,我成了第一批失业的人

    近几个月来,越来越多的知名人士预计,年内大热的ChatGPT有望掀起一场新的工业革命。而纵观历史,历次工业革命往往会深远改变当时的社会结构——从机械织布机到内燃机再到第一台计算机,新技术的出现总是会引起人们对于被机器取代的恐慌,并在一个阶段造成大量失业

    2023年04月09日
    浏览(27)
  • 突破性创新:OpenAI推出Sora视频模型,预示视频制作技术的未来已到来!

    此页面上的所有视频均由 Sora 直接生成,未经修改。 OpenAI - Sora is an AI model that can create realistic and imaginative scenes from text instructions. 2024 年 2 月 16 日,OpenAI 发布 AI 视频模型 Sora,60 秒的一镜到底,惊艳的效果生成。AI 视频生成可能要变天? 能力 OpenAI 正在教授 AI 理解和模拟运

    2024年02月21日
    浏览(32)
  • 【AIGC】OpenAI推出王炸级模型sora,颠覆AI视频行业

    强烈推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站: 人工智能 前言 2月16日,OpenAI宣布推出全新的生成式人工智能模型“Sora”。 据了解,通过文本指令,Sora可以直接输出长达60秒的视频,并且包含高度细致的

    2024年02月21日
    浏览(39)
  • 亚马逊宣布推出Rufus,这是一种新的由生成式AI驱动的对话式购物体验

      深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/ 。  亚马逊今天宣布推出Rufus,一款基于生成式人工智能

    2024年02月20日
    浏览(37)
  • 全新推出Bard,谷歌google或许可以靠它打败微软OpenAI ChatGPT

    截止到目前,谷歌已经在180个国家推出了聊天机器人,但是经过几个星期的试验,它被不少使用者吐槽落后于竞争对手OpenAI。 于是近期(2023年5月),谷歌又推出了一个全新的 改进版Bard ,Bard的重新推出是谷歌与OpenAI和微软之间人工智能军备竞赛的下一个阶段,因为它推出了

    2024年02月09日
    浏览(35)
  • OpenAI 宣布推出适用于 iPhone 和 iPad 的 ChatGPT 官方应用程序。

    🚀 OpenAI 宣布推出适用于 iPhone 和 iPad 的 ChatGPT 官方应用程序。 OpenAI 宣布推出适用于 iPhone 和 iPad 的 ChatGPT 官方应用程序。 该应用程序具备即时回答各种问题、量身定制的建议、创意灵感、专业意见和个性化学习等功能和特性,可以帮助提高生产力。 该应用程序需要支付

    2024年02月05日
    浏览(39)
  • OpenAI推出GPT-4:功能强过ChatGPT 能玩梗图还能做网页

    雷递网 雷建平 3月15日 在人们还在熟悉ChatGPT之际,人工智能企业OpenAI又推出了更强大的GPT-4,也被称为“王炸”产品。OpenAI CEO Sam Altman 称,GPT-4 是“我们迄今为止最强大、对齐最好的模型”。 OpenAI总裁Greg Brockman说:“我们发布了 GPT-4——一个大型多模式模型(图像和文本

    2023年04月23日
    浏览(36)
  • OpenAI 推出用于下一代对话式 AI 开发的 ChatGPT 和 Whisper API

    人工智能已经成为技术行业的推动力,使机器能够学习和执行以前被认为是人类独有的任务。领先的 AI 研究机构 OpenAI 一直走在这场革命的最前沿,开发可以处理自然语言并生成类似人类文本的强大模型。其中一个模型是 ChatGPT API,它可以对文本输入生成连贯且上下文相关的

    2024年02月09日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包