结合OpenAI、Google、Meta发布Sora、Gemini Pro 1.5、V-JEPA，分析三家AGI路线及当前情势

这篇具有很好参考价值的文章主要介绍了结合OpenAI、Google、Meta发布Sora、Gemini Pro 1.5、V-JEPA，分析三家AGI路线及当前情势。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

这里是陌小北，一个正在研究硅基生命的碳基生命。正在努力成为写代码的里面背诗最多的，背诗的里面最会写段子的，写段子的里面代码写得最好的…厨子。

写在前面

昨天整理每周新闻，发现2024年2月15日是个大日子，三大科技巨头Google、Meta和OpenAI同时发布了他们的最新技术成果：Gemini Pro 1.5、V-JEPA以及Sora。

就目前来说，三足鼎立之势已初步形成，OpenAI无疑是目前的老大，AGI是他们提出来的愿景，所以另外两家也得被迫跟着，至少是要表明态度。

在陌小北看来，除了Google的Gemini Pro 1.5，2.15其他两家发布的还不属于AGI路线下的拳头产品系列；2024年，OpenAI还是要看GPT5，Meta还是要看LLaMa 3，只是Sora被炒的热度实在是太高，但大家还是要冷静观之，不要冲动…

三家其实对于AGI的侧重和路线都有不同，这就会导致在实际工作和产品开发上的思路却存在一定差异。所以本文就结合个人观点，浅谈一下这件事。

本文脉络

1、浅谈2月15日及2024年三家发布的产品

2、三家AGI路线的异同分析

3、用三国视角浅析当前三家格局和策略

4、陌小北对于AGI的一些看法

三家产品浅析

OpenAI

首先是OpenAI的Sora，从目前透露出的Sora团队的组建情况和研究基础来看，Sora应该是OpenAI近一年来的最新成果。OpenAI 2024的重点应该还是GPT5，Sora应该是个意外之喜。现在放出Sora，可能是出于融资或是其他考虑，毕竟先是透露一直在做搜索产品，然后在Gemini Pro 1.5同一天放出Sora，OpenAI估值就到800亿美金，只能说Altman是懂商业的。

至于说Sora何时开放给用户，以及能否整合到GPT5中，个人认为还是要看产品的最终成熟度以及其对算力的消耗程度，像是DALLE就是在产品迭代成熟后才集成进GPT的，Sora目前甚至还没有开放给用户使用，bad case的比例有多少，生成1分钟视频的时间要多久，要消耗多少算力，这些目前我们都还不清楚，不好下结论。

Google

然后是Google的Gemini Pro 1.5，我理解整个Gemini系列就是OpenAI的对标产品，无论是年初的Bard，还是现在的Gemini，都是为了应对OpenAI所做的防御，人家都打到家门口来了，意大利炮还不拿出来？

所以无论是产品的规格、付费模式、使用方式等都在对标OpenAI，其他包括多模态理解，100万tokens的上下文理解等，都是在围绕着跟随OpenAI路线不变的情况下做的创新优化。

虽然，Google的每次应战都有些仓促，但我认为这是由于两家对于AGI路线的观点不同导致的，这不是Google的主场作战，他手里还有牌没出，这个我下面会细讲。

三家对于AGI的侧重点

OpenAI

首先是OpenAI，OpenAI已经把实现AGI放在官网的愿景里了，好像是这两天才更新的。

结合OpenAI、Google、Meta发布Sora、Gemini Pro 1.5、V-JEPA，分析三家AGI路线及当前情势,AI,人工智能,AI,OpenAI,AGI

这里提到的AGI使命主要包含两方面：1、一个可以解决人类问题的系统（a system that can solve human-level problems）；2、构建安全并且有价值的AGI（Building safe and beneficial AGI）

在之前Q-Star项目曝出时，他们也表述过关于AGI的定义：

OpenAl defines AGI as autonomous systems that surpass humans in most economically valuable tasks.

在那次表述中，他们对 AGI 的定义是在大多数具有经济价值的任务中超越人类。

结合这两个关于AGI的表述，我的理解是，OpenAI的目标是，在对人类有价值的问题领域，做超越人类水平的AI，所以他们目前的策略是通过LLM先实现一个模糊的深度，再通过对齐来实现精准深度。

Google

最早提出Transformer架构的是谷歌，若论起研发实力一定是不输OpenAI的，为什么领先的不是谷歌？是不是他们本身对于AI的路线就不是这个？

对于AGI的定义和路线，DeepMind 给出了一个更为具体也更有层次的定义。在论文《Levels of AGI: Operationalizing Progress on the Path to AGI》中，将 AGI 分成了 6 个等级，如下图

结合OpenAI、Google、Meta发布Sora、Gemini Pro 1.5、V-JEPA，分析三家AGI路线及当前情势,AI,人工智能,AI,OpenAI,AGI

左边是专门解决特定任务的弱人工智能，右边是能够解决通用任务的通用人工智能，可以通过类比来理解 AGI 的层次。先看左边， 0级相当于没有AI，比如计算器；一级属于涌现级别，也就是比纯外行要强。二级是胜任级别，也就是能达到 50% 该领域从业者的水平，换句话说就是平均水平，比如Siri等一众语言助手。三级是专家级别，可以达到 90% 该领域从业者的水平，比如像一些拼写或语法检查器之类的；四级是大师级别，可以达到 99% 该领域从业者的水平，比如下棋的深蓝和Alphago；五级是超人级别，也就是在这个领域比 100% 的人类都强。比如预测蛋白质结构的AlphaFold。

如果我们能把 AI 在这些特定领域展现出的水平推广到其他任意领域，那就相当于实现了各个等级的强人工智能。而对右边而言，目前来说只实现到了第一级，也就是涌现级别。典型的例子就是以 ChatGPT 为代表的一众大语言模型。

所以DeepMind的路线应该是一如既往的研发解决特定问题的专项模型，先逐一攻克 AI 在特定领域的深度问题，再想办法将其延展到其他各个领域。

总结

所以如果将AGI从深度和广度分别来看，Meta 更侧重于广度，更侧重于人类基础能力上的覆盖，但是在他们看来目前的路径错了。DeepMind 更侧重于深度的实现，也就是先在某些特定领域实现出超人级别的AI，再想办法逐步扩展到更多领域。OpenAI 的定义似乎可以看作是介于二者之间。OpenAI 不在意所有任务，只在意大多数有价值的任务，这其实是有限的广度，而同时他又希望在这些有价值的任务上超越人类，所以通过「LLM+对齐」的方式，在有限的广度内实现超人级别的深度。

一个群雄并起的时代

声明，以下观点纯属是陌小北的梦话，言论与她本人以及她所在的“陌北有棵树”账号无关。

我是个三国重度爱好者，那也是一场精彩的、关于一群天才的奋斗史诗，所以不妨戏说一下比较一下当前和三国局势，各位看官就当看个乐子就好，切莫当真。

OpenAI

说起魏国，最开始一定是得人心的，官渡之战可以说所有的好运气都在他这边，让其完成了最初的地盘和人才的聚集。

但随着「奉天子以令不臣」变为「挟天子以令诸侯」，OpenAI变成CloseAI。衣带诏事件后，东汉皇室已再无翻身可能，再回想OpenAI的那场宫斗大戏。公元213年曹操称魏公，加九锡，荀彧的梦想破灭了，llya的梦想好像也破灭了。公元216年称魏王，至此汉朝四百年的老匾，逐渐转移到刘备头上，看看现在是谁在举着OpenAI当年的开源大旗。

但最后，统一三国的却是司马家，因为他们代表着世家大族的利益。曹操、曹丕到曹叡，和世家大族一直都是在博弈，曹丕称帝向士族们让渡的利益，终是埋下了祸根的。对世家大族而言，既然你始终不跟我们一条心，何不取而代之？微软在一旁沉默不语。