论文笔记 CoT:提示+推理+大模型=思维链提示

这篇具有很好参考价值的文章主要介绍了论文笔记 CoT:提示+推理+大模型=思维链提示。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models


提示+推理+大模型:CoT 思维链提示

来源 Google Brain

论文:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

一、摘要

本文探讨了生成思想链一系列中间推理步骤如何显著提高大型语言模型执行复杂推理的能力。特别是,我们展示了这种推理能力是如何通过一种称为思维链提示的简单方法在足够大的语言模型中自然出现的,其中提供了一些思维链演示作为提示的示例。

在三个大型语言模型上的实验表明,思维链提示可以提高一系列算术、常识和符号推理任务的性能。经验上的收益可能是惊人的。例如,提示一个只有八个思维链样本的PaLM 540B在GSM8K数学单词问题基准上实现了最先进的准确性,甚至超过了带有验证器的微调GPT-3。

二、介绍

在本文中,我们结合了提示学习,常识推理这两种想法的优势,避免了它们的局限性。具体来说,我们探索了语言模型在给定由三元组组成的提示(〈输入,思想链,输出〉)的情况下,对推理任务执行少量提示的能力。思维链是一系列中间的自然语言推理步骤,这些步骤会导致最终的输出,我们将这种方法称为思维链提示。

cot论文,论文笔记,论文阅读,人工智能,深度学习,语言模型

如图1所示。我们对算术、常识和符号推理基准进行了实证评估,表明思维链提示优于标准提示,有时甚至达到了惊人的程度。

cot论文,论文笔记,论文阅读,人工智能,深度学习,语言模型

图2显示了GSM8K数学单词问题基准测试的一个结果,PaLM 540B的思想链提示大大优于标准提示,并实现了新的最先进性能。仅提示的方法很重要,因为它不需要大型训练数据集,而且单个模型检查点可以执行许多任务而不会失去通用性。这项工作强调了大型语言模型如何通过几个带有任务自然语言数据的例子进行学习。

Target

本文的目标是赋予语言模型生成类似思想链的能力——一系列连贯的中间推理得出问题最终答案的步骤。

Contribution
  1. 首先,原则上,思想链允许模型将多步骤问题分解为中间步骤,这意味着可以将额外的计算分配给需要更多推理步骤的问题。
  2. 其次,思想链为了解模型的行为提供了一个可解释的窗口,表明它可能是如何得出特定答案的,并提供了调试推理路径哪里出错的机会(尽管完全表征支持答案的模型计算仍然是一个悬而未决的问题)。
  3. 第三,思维链推理可以用于数学单词问题、常识推理和符号操作等任务,并且可能(至少在原则上)适用于人类可以通过语言解决的任何任务。
  4. 最后,在足够大的现成语言模型中,只需将思维链序列的例子包括在少镜头提示的例子中,就可以很容易地引发思维链推理。

三、实验

本文为了验证思维链进行提示的方法可以给大模型的推理能力,产生很大的提升,分别在算数推理,常识推理,符号推理上进行实验。

3.1 算数推理

​ 当与540B参数语言模型一起使用时,思想链提示在多个任务上与特定于任务的微调模型的性能相当,甚至在具有挑战性的GSM8K Benchmark 测试上达到了最新水平。

cot论文,论文笔记,论文阅读,人工智能,深度学习,语言模型

3.2 常识推理

​ 尽管思维链特别适用于数学单词问题,但思维链基于语言的性质实际上使其适用于一类广泛的常识性推理问题,这些问题涉及在一般背景知识的假设下对物理和人类互动进行推理。常识推理是与世界互动的关键,目前的自然语言理解系统仍无法进行常识推理。

cot论文,论文笔记,论文阅读,人工智能,深度学习,语言模型

3.3 符号推理

​ 我们的最终实验评估考虑了符号推理,这对人类来说很简单,但对语言模型来说可能很困难。我们发现,思维链提示不仅使语言模型能够执行在标准提示设置中具有挑战性的符号推理任务,而且有助于推理时间输入的长度泛化,比少数镜头示例中看到的更长。

  • 最后一个字母串联。

    此任务要求模型将名称中单词的最后一个字母连接起来(例如,“Amy Brown”→ “yn”)。这是首字母串联的一个更具挑战性的版本,语言模型已经可以在没有思想链的情况下执行。3我们通过从人口普查数据中随机串联前一千个名字中的名字来生成全名。

  • 硬币翻转。

    这项任务要求模型回答在人们翻转或不翻转硬币后,硬币是否仍然朝上(例如,“硬币是朝上的。菲比翻转硬币。奥斯瓦尔多没有翻转硬币。硬币仍然朝上吗?”→ “否”)。

    cot论文,论文笔记,论文阅读,人工智能,深度学习,语言模型

四、讨论

4.1 实验总结

我们已经探索了思维链提示作为一种在大型语言模型中引发多步骤推理行为的简单机制。

我们首先看到,思维链提示在算术推理方面大大提高了性能,产生了比消融更强的改进,并且对不同的注释器、示例和语言模型都很鲁棒。关于常识推理的实验强调了思维链推理的语言性质是如何使其普遍适用的。最后,我们表明,对于符号推理,思想链提示有助于OOD泛化到更长的序列长度。

4.2 局限性
  1. 我们首先证明,尽管思维链模仿了人类推理者的思维过程,但这并不能回答神经网络是否真的在“推理”,这是一个悬而未决的问题。
  2. 尽管在少快照设置中,用思维链手动扩充示例的成本最小,但这种注释成本可能无法进行微调(尽管这可能通过合成数据生成或零样本泛化来克服)。
  3. 无法保证正确的推理路径,这可能导致正确和不正确的答案;改进语言模型的事实生成是未来工作的一个开放方向。
  4. 仅在大模型范围内出现的思维链推理使得在现实世界的应用中服务成本高昂;进一步的研究可以探索如何在较小的模型中诱导推理。

五、总结

​ 我们已经探索了思维链提示作为一种简单且广泛适用的方法来增强语言模型中的推理。通过对算术、符号和常识推理的实验,我们发现思维链推理是模型尺度的一种新兴性质,它允许足够大的语言模型执行具有平坦尺度曲线的推理任务。拓宽语言模型可以执行的推理任务的范围,有望激励人们进一步研究基于语言的推理方法。文章来源地址https://www.toymoban.com/news/detail-777651.html

到了这里,关于论文笔记 CoT:提示+推理+大模型=思维链提示的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 谈谈NLP中 大语言模型LLM的 思维链 Chain-of-Thought(CoT)

    传送门:https://github.com/wzzzd/LLM_Learning_Note/blob/main/Tuning/chain-of-thought-prompting.md 在过去几年的探索中,业界发现了一个现象,在增大模型参数量和训练数据的同时,在多数任务上,模型的表现会越来越好。因而,现有的大模型LLM,最大参数量已经超过了千亿。 然而,增大模型参

    2024年02月12日
    浏览(41)
  • 解密Prompt系列10. 思维链COT原理探究

    前一章思维链基础和进阶玩法我们介绍了如何写Chain-of-thought Prompt来激活生成逐步推理,并提高模型解决复杂问题的能力,这一章我们追本溯源,讨论下COT的哪些元素是提升模型表现的核心? 要进行因果分析,需要把思维链中的不同元素拆解开来,然后通过控制变量实验,来

    2024年02月11日
    浏览(45)
  • COT、COT-SC、TOT 大预言模型思考方式||底层逻辑:prompt设定

    先讲一下具体缩写的意思  COT-chain of thoughts COT-SC (Self-consistency) Tree of thoughts:Deliberate problem solving with LLM     我理解其实不复杂 1. 最简单的是:直接大白话问一次 (IO) 2. 进阶一点是:思维链,让一步步思考(CoT) 3. 再进一步是:思维链问多次,出结果后选举——少数服从

    2024年02月15日
    浏览(44)
  • 《论文阅读》常识推理的生成知识提示

    前言 你是否也对于理解论文存在困惑? 你是否也像我之前搜索论文解读,得到只是中文翻译的解读后感到失望? 小白如何从零读懂论文?和我一起来探索吧! 今天为大家带来的是《Generated Knowledge Prompting for Commonsense Reasoning》

    2024年02月05日
    浏览(42)
  • 使用思维链(Chain-of-thoughts)提示在大型语言模型中引出推理

    语言模型(LM)在NLP领域的发展速度非常快,特别是在大型语言模型(LLM)方面:当语言模型具有大量参数或权重/系数时,它们被称为“大型”。这些“大型”语言模型拥有处理和理解大量自然语言数据的能力。 LLM被用于一系列自然语言任务,如文本摘要、情感分析、主题分类、

    2024年02月05日
    浏览(38)
  • CoT及ReAct解密与实战(二)

    第8章 CoT及ReAct解密与实战 8.3 ReAct技术原理 我们先把ReAct研究得很透彻,然后再看计划及执行代理,首先看一下LangChain官方提供的示例,展示使用代理实现ReAct逻辑,这边有initialize_agent代理,因为它自己有很多代理,然后,导入AgentType。

    2024年02月13日
    浏览(28)
  • COT为平台各项功能,进行TOKEN化赋能

    在数字加密货币的世界里,一共存在两种共识,这两种共识也代表了两种不同的投资心理。 第一种共识是理性共识,第二种是非理性共识。前者的共识币价反映出投资者对于投资回报的理性分析和判断,比如市场需求、商业模式、成本核算等,他们做出的投资决策往往都是可

    2024年02月13日
    浏览(29)
  • [论文笔记] 大模型gpu机器推理测速踩坑 (llama/gpt类)

    cpu没报错,换gpu就报错。以下是一些踩坑: 坑1:要指定gpu,可以在import torch之前指定gpu。 报错: RuntimeError(\\\'Expected all tensors to be on the same device, but found at least two devices, cuda:6 and cuda:0! (when checking argument for argument index in method wrapper_CUDA__index_select)\\\') 坑2:model和input_ids都需要 .

    2024年02月03日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包