【译】LWM,AI 世界模型的黎明?

这篇具有很好参考价值的文章主要介绍了【译】LWM,AI 世界模型的黎明?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原作:格列高利的伊格内修斯

引言:从语言到视频

 

【译】LWM,AI 世界模型的黎明?

AI行业的下一个里程碑--视频的征服真在加剧。

借助业界最热门的创新之一“Ring Attention(环形注意力、环形使者)”,一组研究人员构建了 LWM 视频模型,尽管这些模型还非常小,但包含的功能超越了目前ChatGPT的能力。

然而,基于视频的模型作为大型语言模型(LLMs)的潜在“升级”,可能会带来意想不到的后果,向其已经令人印象深刻的监视、定位和潜在操纵的武器库中又增加了一种手段。

模态的征服

对于人工智能来说,征服视频始终是一个具有标志性意义的事件。

 黄金模态

视频通常被视为数据的圣杯,被认为是解锁人工智能的关键力量,因为视频通过一种形式封装了我们世界的大量数据。

尽管如此,今天我们最先进的模型是 LLMs,这些模型通过文本的镜头了解我们的世界。

这一点非常令人兴奋,毫无疑问,人类已经极其擅长通过书籍描绘我们世界的历史,通过小说展示我们最深刻的幻想,通过哲学篇章展现人类思维的发展,等等。

然而,我们的世界远不止于此。我们可以通过皮肤感受到它,用眼睛看到它,用耳朵听到它。

对于文本,我们只能信任我们最伟大的作家通过精心编写的文本以最好的方式描绘这些感觉,但您肯定会同意我,阅读关于纽约的描述并非与亲眼目睹它的景象相同。

因此,捕捉对我们世界的理解是非常有限,并且人工智能的潜力远远超出了当前LLMs所能提供的范围。

跨越多模态差距

当然,业界在处理图像等其他数据类型方面已经非常成熟,这有助于使这些LLMs成为多模态LLMs,例如GPT-4V或Gemini。

通过这种方式,人工智能模型能够吸收世界的其他直觉。

它们能理解我们世界中动物或无生命物体的真实外观,同时还能够推断一些其他空间低级细节,如图像深度、透视等。

然而,您依然会同意我,世界远不止于此。

因此,视频被认为是向人工智能真实展示世界的关键,原因如下:

  • 视频本质上捕捉了时间的流动,提供了一系列随时间展开的视觉和听觉线索。与提供信息快照的文本或图像不同,视频提供了叙事线索,使人工智能能够了解不同元素如何随着时间的推移相互作用和变化。
  • 视频自然地集成了多种数据模式——视觉、声音,有时甚至包括文字元素(通过字幕或屏幕文字)。这种多模态性呈现了全面的感官体验,反映了人类感知世界的方式。
  • 视频还使人工智能能够弥合低级感知学习和高级语义理解之间的差距。通过分析视频数据,模型可以学习在感知层面识别模式、物体和面孔,同时还可以通过所描述的事件和交互的进展来掌握更抽象的概念,例如情感、意图和社会动态。

总而言之,如果人工智能通过我们提供的数据学习,那么视频被视为其中最丰富的数据形式,因此可能是解锁人工智能真正力量的关键。

然而,最丰富的数据形式也是迄今为止最复杂的,以至于多年来,这一挑战是仍然难以克服

直到现在?

透过AI看世界

为了理解类似LWM模型将会变得多么重要,我们必须了解我们最初面临的挑战以及我们最终可能克服的挑战。让我们从第一性原理出发。

Token大问题

在当今最先进的人工智能中,无论您使用什么模式(文本、图像、视频),在模型看来,这都是token,这个概念你可能已经听说过多次。

那么什么是token呢?

简单地说,它们是人工智能模型可以处理的世界的离散表示。简而言之,我们以某种形式获取数据,例如一段文本,并将其分解为有意义的块,每个块都有其特殊的意义。

例如,“懒狗回头打哈欠”这句话包括“狗”这个token,在我们的世界中是一个已知的概念,“懒”是另一个概念,等等。

然后,这些新的块被表示为一组数字,这是机器处理它们的先决条件。这些集合被称为“嵌入(embeddings)”

因为token是人工智能模型的基本处理单元,我们根据它们可以处理的标记数量来衡量它们的容量。例如,ChatGPT 可以同时处理多达 128,000 个token。

折算成文本,大约是 100,000 个词,这意味着 ChatGPT 可以同时处理整本书的内容,对于大多数情况来说是可以接受的。

然而,我们的世界的“token  化”可以应用于每种可能的数据类型,包括图像和视频。

对于由一堆像素组成的图像,我们将它们分成这些像素的块。在某些情况下,我们可能希望将整个图像变成一个token,让这个token代表整个图像的语义。

但对于视频来说,token的数量猛增。

例如,一部长达 44 分钟的布斯特·基顿(Buster Keaton)无声电影所占用的token几乎是ChatGPT最大处理token数量的 6 倍,尽管这是一部相当过时的无声视频,但很快接近了百万标记,原因在于视频提供的信息远远超过文本能提供的。

通过感官,人类大脑在其一生中捕获了数万亿的token。

在这里有一篇发人深思的文章,他们试图进行这个练习,结果是 30 岁人类在其一生中大约产生了 310 万亿个token。

长话短说,数据类型拥有的token越多,传达的信息就越多。因此,在构建超级人工智能系统的道路上,我们需要找到增加它们可以处理的token数量的方法。

然而,当前引领潮流的架构Transformer 难以处理长序列的token,原因在于其底层机制——注意力(attention)。

然而,当今的开创性架构 Transformers 由于其底层机制“注意力”,无法很好地处理长序列的令牌。

有关注意力机制的更详细解释,请查看这篇文章。

但“Ring Attention(环形注意力、环形使者)”改变了这一点。有了它,我们可能会进入一个新时代。

解决问题

Ring Attention 提出了一种新型Transformer实现方法,该方法通过在环状GPU结构上分配长序列来进行计算。

尽管我在这篇论文中对此进行了详细探讨,但Ring Attention的关键直觉在于,由于LLMs非常庞大,需要多个GPU来运行同一个模型,将集群构建为基于环形结构可以实现每个GPU计算和通信之间的完全重叠。

理解上可能有难度,但通俗地说, Ring Attention 可以被视为一种高效处理基于Transformer的AI模型(如ChatGPT、Gemini或今天的主角LWM)的方法,计算效率高且在经济上可行。

这种实现非常强大,被认为是Google新的MLLM Gemini 1.5开发的基础,该模型可以一次处理高达1000万个token。

那么,什么是LWM模型呢?

视频模型的黎明

正如前面的例子所表明的那样,处理视频已经成为人工智能一个极为渴望达到的里程碑。

而我们可能刚刚征服了这一挑战,因为基于Meta的LLaMa 2 7B模型的LWM(长序列Wav2vec-Masked LM)系列MLLMs已经被训练出来,具备一次处理超过100万个标记的能力,使其能够处理长达一个小时的视频,以及图像和文本,自然地。

我们可能刚刚征服了它,因为 LWM(基于 Meta 的 LLaMa 2 7B 模型的 MLLM 系列)经过训练,能够一次处理超过 100 万个token,使其能够处理长达一小时的视频,当然还有图像和文本。

与类似的 MLLMs 一样,它包含一个LLM,以及视频和文本编码器,如下所示:

【译】LWM,AI 世界模型的黎明?

  • BPE 分词器(Byte Pair Encoding Tokenizer)接收文本序列,例如“一只小狗在草坪上奔跑”,并将其转换为文本标记。
  • 而VQGAN则是一个视频编码器,它接收每一帧图像并将其转换为图像标记。

然后,我们将这两种类型的token输入LLM,并使用它们来预测序列中的下一个token,就像ChatGPT所做的那样。

如果我们看一下它的架构,就会发现它是一个相当标准的 MLLM。但使 LWM 模型与众不同的关键直觉有两点:

  1. 通过使用 Ring Attention 实现,它们可以向标准MLLM提供巨大的输入序列
  2. 在训练过程中,他们采用了智能渐进式训练程序,首先在短序列上训练模型,随着时间推移逐渐增加序列的大小,以最小化整体训练成本

结果显而易见。

在充满独立短片的长达一小时的视频中,LWM可以回答大多数当前模型无法回答的查询。

【译】LWM,AI 世界模型的黎明?

请注意,他们指的是 Gemini 1.0。 Gemini 1.5 应该完全能够正确回答这个答案。

此外,LWM 在大海捞针问题中表现出完美的分数,这是一种常见的测试,旨在查看模型是否可以在极长的序列上提取非常具体的一次性数据。

【译】LWM,AI 世界模型的黎明?

与像ChatGPT这样的尖端模型在多针问题(从长序列中提取多组特定数据)上相比,尽管据称LWM的能力和规模要小得多,但其表现却不逊色,这实际上展示了它们的强大之处。

【译】LWM,AI 世界模型的黎明?

总体而言,这是一个令人印象深刻的展示,但对我们所有人来说有什么实际意义呢?

真善美、假恶丑

长序列建模为MLLMs的许多高价值任务铺平了道路,例如:

  • 视频和DNA处理:这些数据类型由于提供的信息量巨大,因此具有庞大的token需求。

  • Web 代理,因为浏览网络需要代理来处理多个网页的冲浪,每个站点有数千个token
  • 世界模型,可以观察和预测现实世界的AI模型
  • 通用智能体,即居住在我们世界中的人工智能,需要大量的模拟训练,只有通过长序列建模才能实现

视频处理涉及到一个更为黑暗和直接的影响:监视。

如今,大多数广告定向机制通过从我们的搜索数据、社交媒体上查看的图像和视频的元标签中收集信息来创建与我们匹配的“客户画像”,从而给我们精准推送广告。

但是,像LWM这样可以解释视频的人工智能使得谷歌、Meta或TikTok等公司可以将客户监视推向一个全新的维度。

例如,他们可以分析您最关注视频的哪些部分,解释你的需求,并进行定向营销。

以YouTube为例,它已经识别了视频中最热门的部分,这意味着它们可以高精度地知道人们正在关注视频中的哪些部分。

现在,通过这些模型,他们可以prompt提取该组帧中发生的事件识别用户可能感兴趣的对象,甚至进行许多更高级的解释,比如“从第x到第y帧,他们正在谈论斯多葛主义,这可能表明用户对此感兴趣,所以我们将会给他/她推送Ryan Holiday关于斯多葛主义的书籍”,或者其他内容。

我的观点是,现在视频不再仅仅是一系列帧的连接,或带有简单文本描述的内容,视频现在是通往人类最无意识欲望的大门,让广告平台可以从视频的不同部分提取含义,衡量我们的参与度,并对我们的客户资料进行分类以找到可能符合我们兴趣的产品匹配。

广告定向即将迎来全新的定义,这再次表明,AI的颠覆总是会牵涉到权衡。文章来源地址https://www.toymoban.com/news/detail-839548.html

到了这里,关于【译】LWM,AI 世界模型的黎明?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Generative AI 新世界 | 扩散模型原理的代码实践之采样篇

    本期文章,我们一起来探究生成式 AI 这一火热的新知识领域。 目前计划有三个大方向: 代码深度实践方向。例如用代码完整诠释 Diffusion 模型的工作原理,或者 Transformer 的完整架构等; 模型部署和训练优化方向。例如尝试解读 LMI、DeepSpeed、Accelerate、FlashAttention 等不同模型

    2024年04月10日
    浏览(47)
  • 从AI人工智能LLM大型语言模型到通用人工智能AGI “世界模型”的演进路径

    近年来,人工智能技术取得了飞速的发展,各种领域都出现了涉及人工智能的应用。大型语言模型(Large Language Model, LLM)作为其中一种重要的技术手段,已成为当前自然

    2024年02月08日
    浏览(94)
  • Generative AI 新世界 | Falcon 40B 开源大模型的部署方式分析

    在上期文章,我们探讨了如何在自定义数据集上来微调(fine-tuned)模型。本期文章,我们将重新回到文本生成的大模型部署场景,探讨如何在 Amazon SageMaker 上部署具有 400 亿参数的 Falcon 40B 开源大模型。 亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技

    2024年02月08日
    浏览(52)
  • IQ测试GPT完胜大学生;AIGC+表情包=?微软将GPT全面集成到Office;原作者对AI有声读物不太满意;GitHub今日热榜 | ShowMeAI资讯日报

    GPT-3 在智商(IQ)测试中的表现如何 ?UCLA(加利福尼亚大学洛杉矶分校)的研究人员发现,在衡量 IQ 的一系列推理测试中,自回归语言模型 GPT-3 的成绩已经明显优于普通大学生了。🌍 论文 作者之一 Taylor Webb 补充说到, GPT-3 在所有问题类型上的表现都优于人类参与者,无

    2024年02月05日
    浏览(46)
  • Amazon Generative AI 新世界 | 基于 Amazon 扩散模型原理的代码实践之采样篇

    以前通过论文介绍 Amazon 生成式 AI 和大语言模型(LLMs)的主要原理之外,在代码实践环节主要还是局限于是引入预训练模型、在预训练模型基础上做微调、使用 API 等等。很多开发人员觉得还不过瘾,希望内容可以更加深入。因此,本文将讲解基于扩散模型原理的代码实践,

    2024年02月06日
    浏览(62)
  • Explainable AI (XAI) 帮助机器学习模型理解外部世界,并找出影响预测结果的最重要因素

    作者:禅与计算机程序设计艺术 Explainable Artificial Intelligence (XAI)是一种通过可解释的方式来帮助机器学习系统理解自身运作方式,进而更好地被人类所理解的领域。其发展历史可以追溯到1987年IBM Watson团队发表的一篇文章《The Vision of AI: A Cognitive View of the Future》中提出的概

    2024年02月06日
    浏览(43)
  • 体验文心一言AI大模型生成中国著名主持人撒贝宁、美国数学家丘成桐、世界著名数学家陈省身简介

    撒贝宁,1976年3月23日出生于广东省湛江市,籍贯湖北省武汉市,祖籍安徽和县,毕业于北京大学法律系,获得法学硕士学位,中国内地节目主持人。 丘成桐(Shing-Tung Yau),美籍华裔数学家,原籍广东梅州蕉岭县,1949年4月生于广东汕头,同年随父母移居香港,菲尔兹奖首位

    2024年02月12日
    浏览(50)
  • FOMO的量子商用黎明

    身处快速动荡的变局之中,无论国家、企业还是个人,都或多或少有一种FOMO情绪,即fear of missing out,害怕错过。 有的焦虑并无必要,几天不网上冲浪,其实并不会真的错过什么八卦新闻。但有的事物却饱含着进步与变革,需要所有人的密切关注,就像曾经的互联网、AI,以

    2024年02月04日
    浏览(27)
  • 【译】重新定义存在:诺斯替教与AGI意识的黎明

    原作:盖尔·麦克莱恩 引言:从古代神秘主义到存在的未来 /机器翻译/ 作者创造了技术诺斯替主义路径在未来汇聚的形象。 “到目前为止,人工智能最大的危险是人们过早地认为他们理解它。” — Eliezer Yudkowsky,人工智能研究员和作家 (2008) 灵知:超越单纯信息积累和概念

    2024年03月23日
    浏览(29)
  • Sora:通过视频生成模型制造世界模拟器(世界模型)

    OpenAI官网介绍:Video generation models as world simulators OpenAI尝试在视频数据上探索生成模型的大规模训练,研究结果表明, 尺度可变视频生成模型是构建物理世界通用模拟器的有希望的途径 。(可变的视频时长、帧分辨率和长宽比) OpenAI从大型语言模型(LLM)中获得灵感,LLM通

    2024年02月20日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包