Sora的原理，中国小学生游戏在践行-Toy模板网

这篇具有很好参考价值的文章主要介绍了Sora的原理，中国小学生游戏在践行。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大家龙年好呀，春节假期和家人出去浪了，旅行期间，几乎没刷社交媒体信息。等我17号回到家仔细看手机，Sora的消息铺面而来，什么“新革命”、“划时代”、“新纪元”······说的挺神呼。

任何新事物出现，讨论热烈是好事，但仁者见仁、智者见智。真实情况如何，还是要去看看产品的技术原理。

OpenAI已在官网发布了Sora的技术文档，发布一周后的今天，鹅厂研究院翻译了这篇技术文档。（咱就是说，同样是研究机构，有些在创新引领，有些沦为翻译搬运工还不标注来源，挺戏谑啊～）

昨天晚上我认真看过Sora的技术文档后，突然启发我回忆起童年玩过的一款游戏，相信大部分国人都玩过。以下内容只是个人见解，不喜勿喷，欢迎评论区探讨～

与Sora原理相似的中国小学生游戏

先简介一下这款小学生游戏原理，方便后面模仿理解Sora原理。

假设一个班上有6个小学生，A、B、C、D、E、F。每个人分到6张纸，同一个人分到的纸颜色相同。让6个小学生分别独自在自己分到的纸上写主语、谓语、宾语、时间副词、地点副词、形容词的词组，如图所示：

Sora的原理，中国小学生游戏在践行,AI,视频编解码,推荐算法

然后，把A、B、C、D、E、F小学生写的纸条都折成相同大小的阄，按颜色分成6堆。

接下来，让A学生依次在黄色阄、蓝色阄、绿色阄、灰色阄·······、紫色阄中分别抽一张。每次抽取后都不放回，36张阄组成的场景共有720种。其中：
既可以组成简短的场景片刻，比如“饥饿的小明晚上在房间吃鸡腿”；

Sora的原理，中国小学生游戏在践行,AI,视频编解码,推荐算法

也可以组成滑稽的动态场景，比如“1940年，狗子在书房激烈的玩粑粑”；
还可以组成一个有时间跨度(durations)的场景系列。比如：
   “饥饿的小明晚上在房间吃鸡腿，（想到了）
   马冬梅昨天在餐厅开心的喝奶茶，（与此同时），
     小明家安静的猫正在痛苦的拉粑粑。小明看作业（中）写（着），
   上世纪狗子在院里谨慎的看家······“

有孩子的可以尝试带家里的小学生玩一玩上述游戏，有助于启蒙汉语语法结构、英语语法结构，当然，也可以用这个游戏为高年级孩子形象讲解，大模型的token是什么。

还没当父母的有志青年们，请继续往下看，上述的游戏和Sora原理的共通之处。

Sora技术原理中的关键--patch

上述游戏的每个阄，就相当于Sora中的patch。只不过，上述游戏的阄是二维平面文字，patch是带像素空间的三维立体数据包。根据技术文档介绍，Sora是一个扩散模型，它接受输入的噪声包（ noisy patches），然后被训练去预测原始的“干净”包。

OpenAI在Sora的技术文档里，用大语言模型的token类比了patch在文字生成视频中的过程，并放出了Sora的三维patch解码器模型，如下图所示：

Sora的原理，中国小学生游戏在践行,AI,视频编解码,推荐算法同样，咱们上述抓阄游戏有同样的过程，如下图所示：

Sora的原理，中国小学生游戏在践行,AI,视频编解码,推荐算法

就说这原理像不像吧？大道无形啊！！！

当然，咱们的抓阄游戏比较粗糙，但是Sora刚开始训练生出的视频画面也很抽象啊。随着训练量的增加，Sora的扩散转换器生成的视频样本越来越清晰。如下图所示：

Sora的原理，中国小学生游戏在践行,AI,视频编解码,推荐算法

小狗视频从左往右依次是初始训练、4倍训练、32倍训练。

类似地，咱们上述介绍的抓阄游戏，只以6个要素（6种颜色的纸条）来描述场景。如果我们要素增加，比如“小明吃鸡腿”这个动作，我们加上，“小明第一口花了0.05秒咬到鸡腿上的皮，然后用了0.1秒咬到鸡腿上的肉，直到0.2秒时吃到第一口鸡腿肉，并开始用牙齿咀嚼······”，以此类推，“饥饿的小明晚上在房间吃鸡腿”这个场景，高低可以整出10分钟视频。（至少，我一般需要十几分钟能吃完一个鸡腿😂）

所以，咱们上述抓阄游戏，把每个小学生的抓阄结果连成一句话后，让DALL·E 2、DALL·E 3根据文字生成图片，然后再根据一定的逻辑把成百上千的图片一帧一帧的连起来，就可以形成一个视频雏形。毕竟，连OpenAI也在Sora的技术文档里写道，“

因为视频本质上就是由连续帧构成的，所以图像也可以看作是单帧的视频。通过基于包的表示方式，Sora能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段，只需在适当大小网格中安排随机初始化的包，以此控制生成视频的大小和分辨率。

Sora的原理，中国小学生游戏在践行,AI,视频编解码,推荐算法