红衣大叔讲AI:Sora技术原理大揭秘

这篇具有很好参考价值的文章主要介绍了红衣大叔讲AI:Sora技术原理大揭秘。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

红衣大叔讲AI:Sora技术原理大揭秘

前沿:Sora是一个OpenAI技术大集成模型,融合了ChatGPT、DALL E3,以及把视频融合到Transformer中,生成一个一的视频帧,利用矢量来表示,最后把这个矢量送到Transformer中训练视觉大模型。

Sora生成图像能力Sora是一个文生视频模型,但同样具备生成图像能力,这个创新属于业内第一家。Sora可以生成不同大小,分辨率高达2048x2048的图像例如,充满活力的珊瑚礁,有色彩缤纷的鱼类和海洋生物。

sora是代码写的吗,chatgpt,机器学习,深度学习,AIGC,Sora视频模型

苹果树下有一只可爱的小老虎,哑光绘画数字风格,细节华丽

sora是代码写的吗,chatgpt,机器学习,深度学习,AIGC,Sora视频模型

Sora技术原理以及“视频帧片”

Sora技术原理

衣服破了一个洞怎么办?通常的方法是打一个补丁,然后缝缝补补又穿3年。同理,OpenAI从大语言模型ChatGPT领悟到了灵感:大模型可以生成各种细化文本内容,主要得益于精准的数据标记,统一了文本代码、数学和各种自然语言的不同模式。既然大模型有文本标记,那Sora当然也可以有“视频帧片”

OpenAI发现,视频帧片是一种高度可扩展且有效的表示形式,可用于在不同类型的视频和图像上训练生成模型。

在较高维度上,OpenAI首先将视频压缩到低维潜在空间中,然后将其分解为时空补丁,从而将视频转化为补丁。

sora是代码写的吗,chatgpt,机器学习,深度学习,AIGC,Sora视频模型

视频压缩网络:OpenAI训练了一个降低视觉数据维度的网络。该网络将原始视频作为输入,并输出在时间和空间上压缩的潜在表示。Sora 在这个压缩的潜在空间中接受训练,并随后生成视频。同时还训练了相应的解码器模型,将生成的潜伏映射回像素空间。

sora是代码写的吗,chatgpt,机器学习,深度学习,AIGC,Sora视频模型

时空潜伏斑块:给定一个压缩输入视频,OpenAI提取了一系列时空补丁作为转换标记。基于补丁的表示法,使 Sora 能够在不同分辨率、持续时间和长宽比的视频和图像上进行训练。在推理时,可以通过在适当大小的网格中排列随机初始化的补丁,来控制生成视频的大小。

模型架构:Sora是一个扩散模型在给定输入噪声补丁,被训练来预测原始的“干净”补丁。此外,Sora 和ChatGPT一样使用了Transformer 架构,在语言建模、计算机视觉以及图像生成等方面非常优秀。

改善构图:OpenAI发现,在原始长宽比的视频上进行训练,可以极大改善构图和取景,并将 Sora 与所有训练视频裁剪成正方形的模型版本进行了比较,取景效果获得了极大的改善。

sora是代码写的吗,chatgpt,机器学习,深度学习,AIGC,Sora视频模型

右图为Sora生成全景视频。

精准文本语义理解:训练视频模型需要大量,带有相应字幕的视频。OpenAI将DALL·E 3的重新字幕技术引入到了Sora。首先训练一个高度描述性的字幕模型,然后用它为训练集中的所有视频制作文本字幕。

OpenAI表示,在高度描述性的视频字幕上进行训练,可提高文本的保真度以及视频的整体质量。与 DALL-E 3 一样,OpenAI也通过 GPT 将简短的用户提示转化为较长的详细字幕,并发送给视频模型。这使得 Sora 能够精准地还原用户的文本提示,生成高质量的长视频。

从这份技术报告来看,Sora更像是OpenAI的技术大集合,使用到了很多ChatGPT、DALL E3以及之前积累的技术沉淀,也是Sora能呈现出那么多超强视频技术的原因。

sora是代码写的吗,chatgpt,机器学习,深度学习,AIGC,Sora视频模型

总之:Sora是一个OpenAI技术大集成模型,融合了ChatGPT、DALL E3,以及把视频融合到Transformer中,生成一个一的视频帧,利用矢量来表示,最后把这个矢量送到Transformer中训练视觉大模型。文章来源地址https://www.toymoban.com/news/detail-840151.html

到了这里,关于红衣大叔讲AI:Sora技术原理大揭秘的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI之Sora:Sora(文本指令生成视频的里程碑模型)的简介(能力/安全性/技术细节)、使用方法、案例应用之详细攻略

    AI之Sora:Sora(文本指令生成视频的里程碑模型)的简介(能力/安全性/技术细节)、使用方法、案例应用之详细攻略 导读 :Sora 是OpenAI研发的一个可以 根据文字描述生成视频 的AI模型。它的主要特性、功能以及OpenAI在安全和应用方面的策略的核心要点如下所示: 核心功能 Sora可以

    2024年02月21日
    浏览(51)
  • 当前爆火的:ChatGPT4、Claude3、Gemini、Sora、GPTs及AI领域中的集中大模型的最新技术

    原文链接:当前爆火的:ChatGPT4、Claude3、Gemini、Sora、GPTs及AI领域中的集中大模型的最新技术 第一: 2024年AI领域最新 技术 1. 最新超强模型Claude3使用 2.OpenAI新模型-GPT-5 3. 谷歌新模型-Gemini使用 4.Meta新模型-LLama3 5. 阿里巴巴-通义千问 6. 科大讯飞-星火认知 7. 百度-文心一言 8. M

    2024年03月24日
    浏览(54)
  • Sora 的工作原理

    原文:How Sora Works (And What It Means) 作者: DAN SHIPPER OpenAI 的新型文本到视频模型为电影制作开启了新篇章 DALL-E 提供的插图。 让我们先明确一点,我们 不会 急急忙忙慌乱。我们不会预测乌托邦或预言灾难。我们要保持冷静并... 你真的看到 SORA 了吗??? OpenAI 的新文本到视频

    2024年02月19日
    浏览(35)
  • Sora是什么?Sora怎么使用?OpenAI最新文字转视频AI模型Sora,一句子生成60秒超逼画面

    Sora 是 OpenAI 开发的AI视频生成模型,它能够根据用户的文本描述生成 长达 60 秒 、1080P 高质量视频,其中包含 精细复杂的场景、生动的角色表情以及复杂的镜头运动 。 Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款模型不仅能理解用户的

    2024年02月20日
    浏览(57)
  • Sora 技术实现

    Sora 的发布宛如一枚核弹,受到各行各业的追捧和关注。不可否认,Sora 生成的视频效果确实太炸裂了,甩开之前文生视频模型几条街。下面是 Sora vs. Pika vs. RunwayML vs. Stable Video 生成视频效果对比 Sora vs. Pika vs. RunwayML vs. Stable Video 生成视频效果对比 很明显可以看出 Sora 无论从

    2024年02月21日
    浏览(44)
  • 深度解析Sora的核心技术

    Sora面临的挑战是将不同类型的视觉信息,如视频、文本、图像和声音等,整合为一种共同的表征形式。这种转换是实现统一训练过程的关键,旨在将各类数据集中到一个训练框架中,以便于进行大规模的统一学习。简而言之,OpenAI的目标是将视频数据和其他多种类型的数据结

    2024年02月22日
    浏览(58)
  • sora生成高质量视频的原理

    Sora 是 OpenAI 在日前发布的超强视频生成 AI,旨在探索 AI 如何在理解真实世界运动和交互方面做得更好 Sora目前无灰度体验 Sora面对的挑战就像是需要处理和理解来自世界各地、不同设备拍摄的数以百万计的图片和视频。这些视觉数据在 分辨率、宽高比、色彩深度 等方面都存

    2024年02月21日
    浏览(90)
  • 51-28 Sora 文生视频背后的核心技术

    2024年2月16日,OpenAI发布Sora文生视频模型,一石激起千层浪,迅速刷屏爆火于整个AI圈。一方面,Sora从文本、图像迈向视频大模型,这可以说是通向通用人工智能的里程碑事件;另一方面,训练和推理需求从文本、图像又增加一个视频维度,将拉动AI芯片、AI应用雨后春笋般的

    2024年03月19日
    浏览(42)
  • OpenAI Sora出炉,视频鉴赏,详细介绍,小白看过来~~立即尝试Sora,开启您的AI视频创作之旅吧!

    OpenAI最新推出的视频创作的颠覆性产品:Sora,它开启了该行业的新纪元,吊打目前一众视频制作工具。 无论是专业人士还是爱好者,都可以轻松创作出高质量的视频内容。 Sora同样是一个根据文本指令创建逼真而富有想象力的场景的人工智能模型。 尽管仍有一些限制,但随

    2024年02月21日
    浏览(53)
  • Sora的原理,中国小学生游戏在践行

    大家龙年好呀,春节假期和家人出去浪了,旅行期间,几乎没刷社交媒体信息。等我17号回到家仔细看手机,Sora的消息铺面而来,什么“新革命”、“划时代”、“新纪元”······说的挺神呼。 任何新事物出现,讨论热烈是好事,但仁者见仁、智者见智。真实情况如何,还

    2024年02月21日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包