【译】关于涌现能力的常见论点

这篇具有很好参考价值的文章主要介绍了【译】关于涌现能力的常见论点。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原作:Jason Wei

引言:此博客文章不代表我的雇主OpenAI的立场(过去、现在或未来)。

/Gemini翻译/

 

我将回顾在讨论大型语言模型的涌现能力时出现的一些常见论点。去年,我们撰写了一篇立场文件,将涌现能力定义为“小语言模型中不存在但在大语言模型中存在的能力”。我表明了涌现能力广泛存在,并且它们因以下几个原因而引人注目:

  1. 仅仅通过推断较小模型的缩放曲线,无法预测涌现。

  2. 语言模型的训练者并未明确指定涌现能力(仅限“预测下一个单词”)。

  3. 由于我们尚未测试所有可能的任务,因此我们不知道已经涌现出的能力的全部范围。

  4. 可以预期进一步的扩展将引发更多涌现能力。

自 GPT-4 以来,一些人认为涌现被夸大了,甚至是一种“海市蜃楼”。我认为这些论点并不能令人信服地揭穿涌现现象,但它们值得讨论,而且用怀疑的眼光审视科学现象是件好事。我将尝试以最强有力的形式重述它们,然后解释我对它们的思考。

 

涌现取决于评估指标

论点:涌现能力通常出现在“hard”评估指标中,例如精确匹配或多项完全匹配,这些指标不会对部分正确的答案给予奖励。例如,多步算术要求每一步都正确——即使失败一步也可能导致错误的答案。如果你采用相同的任务,但使用“软”评估指标,例如正确目标的对数概率,你可能会发现随着时间的推移,性能平稳提高,而没有性能上的大幅跃升。

多篇论文对此提供了证据——BIG-Bench 论文表明,目标的对数概率在各个尺度上平稳提高(“突破性行为对任务规范的细节很敏感”中的图 9),并且还表明,在加法或乘法上使用令牌编辑距离之类的度量标准似乎会平稳提高,而不是像在使用完全匹配时看到的那样以涌现方式提高。

Response: 虽然有证据表明,在精确匹配下看起来涌现的一些任务在另一个度量标准下性能平稳提高,但我认为这并不能反驳涌现的重要性,因为精确匹配之类的度量标准是我们最终希望针对许多任务进行优化的。考虑询问 ChatGPT 15 + 23 是多少——您希望答案是 38,而不是其他任何内容。也许 37 比 -2.591 更接近 38,但为该答案分配一些部分分数似乎无助于测试执行该任务的能力,并且如何分配它将是任意的。专注于最能衡量我们关心的行为的指标很重要,因为基准本质上是研究人员的“优化函数”。

然而,值得注意的是,如果找到一个平稳改进的“替代”指标非常重要,因为它提供了更多信息,使我们能够预测更重要的紧急指标。不过,我还没有看到任何实质性证据表明可以使用平滑替代指标来预测完全匹配或多项选择性能。在我们的论文中,我们表明交叉熵损失甚至在小模型规模上也有所改善,其中下游指标接近随机且没有改善,这表明目标序列的对数似然性的改进可能会被此类下游指标掩盖。但此分析并未使我们能够仅使用较小的模型来预测紧急性能。

目前尚不清楚替代指标是否可以预测精确匹配或多项选择等指标的出现。例如,给定一堆小模型的准确性和交叉熵损失,你能否预测大模型的交叉熵损失,然后将其映射到出现的精确匹配性能?人们可能会期望,如果替代指标上存在平滑的缩放曲线,那么最终会出现下游指标的出现,但这种关系在预测出现时间和准确性方面尚未得到充分的研究。

最后,我想强调的是,在某些任务的某些指标上表现出平滑性并不意味着这种情况会发生在所有任务上。本文中的两个示例如下。

此处,修改后的算术的交叉熵损失略微平滑,但对于 IPA 音译,交叉熵损失中仍然存在一个很大的扭结,打破了趋势并且难以预测:

【译】关于涌现能力的常见论点

在这里,我们可以提取 BIG-Bench 中可用的多个指标,这些指标会授予一些部分学分,并且我们看到性能仍然在相同的阈值处急剧增加:

【译】关于涌现能力的常见论点

涌现是缩放曲线图的伪像

参数 (Argument ): 针对出现情况缩放绘图使用对数刻度 x 轴,如果您使用线性 x 轴刻度,绘图的形状将是平滑的。

回复(Response):仍然可以在线性 x 轴刻度上查看涌现。我在下面绘制了我们涌现论文中的图 2A,你仍然会看到从 7B 到 13B 的相同涌现峰值(尽管以不太可读的方式)。

【译】关于涌现能力的常见论点

除了证据表明出现仍然可以在线性范围内查看之外,默认情况下使用对数刻度 x 轴是合理的,因为我们训练的模型以指数方式更大。例如,PaLM 模型大小为 8B → 62B → 540B(8 倍),而 LaMDA 模型大小增加 2 倍。因此,对数刻度适用于传达我们在实践中如何缩放模型(并且这已经在文献中进行了多年的研究)。

 

论点:本文隐含地声称,我们应该能够将线性曲线拟合到具有 log-x 和线性-y 轴的图上。为什么我们不应该拟合指数或其他曲线?

回复:绘制对数 x 和对数 y 缩放曲线也很有意义,对数 y 缩放曲线上的错误率而不是准确度(因为准确度通常为 0,而 log(0) 为负无穷大)。然而,即使你这样做,曲线的形状也保持不变。

【译】关于涌现能力的常见论点

涌现是 x 轴上模型数据点不足的产物

论点 [1]:这种涌现的定义(较大模型的行为无法从较小模型中预测)在某种意义上必须过于强烈——如果你对 x 轴(参数数量)进行足够密集的采样,那么准确性的提高肯定应该是连续的或平滑的?例如,一个拥有 1,000,000 个参数的模型不太可能具有 50%(随机)的准确性,而一个拥有 1,000,001 个参数的模型将具有 90% 的准确性。

回复:虽然从理论上来说这是一个合理的观点,但实际上我们没有如此精细的模型大小。但假设我们确实有,并且如果你足够放大,准确性的提高将是平滑的,我仍然认为有一个显着的现象——对于低于某个特定参数阈值的模型,模型的性能是平坦的,然后在某个阈值以上它开始增加,并且外推平坦点无法使我们预测性能的提高。

请注意,对于大多数任务来说,这个定义对于足够小的 N 来说是无趣的(例如,具有一个或两个参数的模型将具有随机性能),因此正如 Tal Linzen 所建议的,指定一个特定的 N 阈值可能是好的,尽管我认为没有多少人会提出这个异议。总体而言,虽然某些行为非常可预测(例如,可以通过计算量少于 1,000 倍的模型预测 GPT-4 在某些评估中的损失),但其他行为即使计算量减少 2 倍也无法预测。这两种类型行为之间的差异是天壤之别。

 

 最后一点

虽然保持普遍怀疑态度通常是好的,但似乎有大量证据表明新兴能力(对我来说)使其成为一种令人信服的现象和框架。即使某些新兴能力是噪音造成的,许多其他实例也非常可靠。考虑 U 形缩放和 GPT-4 论文中的以下图表:性能实际上会随着多个模型规模的减小而降低,直到突然激增。这是一个很好的涌现示例,我怀疑更改指标或可视化会使它看起来平滑或可预测。

【译】关于涌现能力的常见论点

另一个流行的涌现示例也强调了模型中的定性变化,即思维链提示,对于小模型而言,其性能比直接回答差,但比大模型直接回答好得多。直观地说,这是因为小模型无法产生扩展的推理链,最终会让自己感到困惑,而较大的模型可以以更可靠的方式进行推理。

【译】关于涌现能力的常见论点

总体而言,我很高兴新兴能力的想法正在被更多地讨论,人们正在质疑它。我特别对能够使我们预测新兴行为的工作感到兴奋,因为新兴现象既包括风险,也包括能力。我很乐意在推特上或在下次会议上与您进行更多讨论!

感谢 Tatsunori Hashimoto、Percy Liang 和 Rishi Bommasani 提供有益的讨论(并且针对此博客的任何批评都应针对我,而不是他们)。文章来源地址https://www.toymoban.com/news/detail-843492.html

到了这里,关于【译】关于涌现能力的常见论点的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【小程序】一次关于小程序消息推送能力的分析及实现

            一个简单常见的需求:推送小程序消息通知到用户!         需要解决的问题: 小程序消息推送服务有什么限制? 小程序可支持推送哪些类型消息? 如何实现小程序消息通知推送服务?         小程序支持通过【消息模板】向“订阅消息”的用户推送消

    2024年02月09日
    浏览(29)
  • 汽车网络安全--关于供应商网络安全能力维度的思考

    目录 1.关于CSMS的理解 2.OEM如何评审供应商 2.1 质量评审 2.2 网络安全能力评审 3.小结 最近在和朋友们交流汽车网络安全趋势时,讨论最多的是供应商如何向OEM证明其网络安全能力。 这是很重要的一环,因为随着汽车网络安全相关强制标准的执行,越来越多OEM是需要通过相关认

    2024年02月19日
    浏览(41)
  • 常见矿石材质鉴定VR实训模拟操作平台提高学员的学习效果和实践能力

    随着“元宇宙+”概念的不断发展,在矿山领域中,长期存在传统培训内容不够丰富、教学方式单一、资源消耗大等缺点,无法适应当前矿山企业发展需求的长期难题。元宇宙企业借助VR虚拟现实、web3d开发和计算机技术构建的一个虚拟世界,为用户提供沉浸式的教学体验。 一

    2024年02月11日
    浏览(34)
  • 关于stm32推挽带有上下拉电阻的思考、IO口驱动能力是什么

    1.1、stm32手册 记忆中推挽是不需要上下拉的,没关注过,但是我真的理解上下拉吗,下图来自stm32f4的中文版和英文版的数据手册,没有翻译错,就是“推挽带有上下拉的能力”。 1.2、查找相关信息 搜索到一篇推挽上下拉的文章,实际测试表格如下,从他的数据来看,推挽不

    2024年02月10日
    浏览(36)
  • C++实现蜂群涌现效果(flocking)

    Flocking算法0704_元宇宙中的程序员的博客-CSDN博客 每个个体的位置,通过计算与周围个体的速度、角度、位置,去更新位置。

    2024年02月10日
    浏览(28)
  • [论文阅读] (30)李沐老师视频学习——3.研究的艺术·讲好故事和论点

    《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢。由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学术路上期待与您前行,加油。 前一篇带来李沐老师对论文写作

    2024年02月08日
    浏览(93)
  • IQ测试GPT完胜大学生;AIGC+表情包=?微软将GPT全面集成到Office;原作者对AI有声读物不太满意;GitHub今日热榜 | ShowMeAI资讯日报

    GPT-3 在智商(IQ)测试中的表现如何 ?UCLA(加利福尼亚大学洛杉矶分校)的研究人员发现,在衡量 IQ 的一系列推理测试中,自回归语言模型 GPT-3 的成绩已经明显优于普通大学生了。🌍 论文 作者之一 Taylor Webb 补充说到, GPT-3 在所有问题类型上的表现都优于人类参与者,无

    2024年02月05日
    浏览(38)
  • 关于GpuMall智算云—实例相关常见问题解答

    实例到期后有提醒吗?​ 有的,对于包月包周形式的产品,在用户使用期限到期前3天,系统会每天以短信形式给用户发送即将到期的提醒通知,对于包日形式的产品,系统会在到期前6h以短信形式给用户发送即将到期的提醒通知。 实例计费模式可以变更吗?​ 可以的,控制

    2024年01月22日
    浏览(36)
  • 01.机器学习引言

    1. 数据搜集 其中数据划分,是将数据集分为训练集、验证集和测试集(通常不考虑时间) 2. 数据清洗 3. 特征工程 提取对象:原始数据(特征提取一般在特征选择之前) 提取目的:自动地构建新的特征,将原始数据转换为一组具有明显物理意义(例如,几何特征、纹理特征

    2024年02月12日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包