大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt

这篇具有很好参考价值的文章主要介绍了大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。

在大型语言模型的研究中,研究者对其有两种不同的期待,也可以理解为是两种不同的路线,具体来说:

  • 期待一:成为专才,解决某类特定任务(翻译、获取摘要)
  • 期待二:成为通才,给定指令(Prompt),即可完成对应任务
    • 最早的该方向研究,认为所有 NLP 任务都可以变成问答任务,由此统一所有任务

在下文中,我们将对这两种不同的期待进行介绍。


专才的期待

专才在单一任务上有机会赢过通才。例如在下述论文中,在各类任务上(数值越大越好),ChatGPT 表现都不错,但依然没办法赢过专才。

大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt
由此对应了「专才」的使用方式,即对最初的领域大模型进行微调,对结构进行一些修改,或微调一些参数:

  • 与 BERT 的训练过程也比较符合,其训练过程为句子填空,因此训出的模型无法生成完整的句子,还需针对具体场景进行微调

大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt
如下所示,四种 BERT 增加 Head 的结构修改方式,使其可以做特定的任务:

大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt
以及对模型的参数做微调(Finetune),即用少量数据对模型参数进行调整,可以调整 LLM 的参数,也可以仅调整新增加结构的参数。

Adapter (Efficient Finetuning) 即对大模型增加一些插件,针对下游任务进行微调时,只需调整 Adapter 上的参数即可。
大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt


通才的期待

符合人类对「人工智能」的想象,且开发新任务非常方便,只要重新设计 Prompt 就可以快速开发新功能,大大提升效率。

对于通才来说,也包含两类任务:

  • 【Instruction Learning】给出题目的叙述,让机器进行回答;
  • 【In-context Learning】给出范例,让机器回答其它问题。

In-context Learning

【核心任务】给一些例子,然后再让机器回答相似问题:

大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt

机器似乎没有对例子进行学习,如下述实验结果所示:

  • 蓝色:没有例子(很差)
  • 黄色:有例子,且例子标记正确(最好)
  • 红色:有例子,且例子标记随机(对比最好,微微下降)

大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt

但这些例子的领域似乎很重要,如下述所示:

  • 多个一个紫色的柱子,其用的例子为与后续问题无关的内容,且标记随机(性能继续下降)

大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt

因此一种猜测是:在 In-context Learning 中,模型并没有在范例中学习,范例的作用是激活模型,告诉它现在的任务是关于什么领域的,因此范例的数量也并没有很重要。

不过后续又出现了新的工作,他们认为对于很大的模型来说,模型可以从上下文的例子中进行学习,如下述实验结果所示:

  • 颜色越深,模型越大
  • 横轴为错误的标签比例,纵轴为指标
  • 可以看到错误的数据越多,对模型的性能影响越大

大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt

Instruction Learning

文字接龙训练得到的模型,还需要做一下 Instruction-tuning,才能根据问题的叙述,切换到相应的任务上。

Instruction-tuning 期望做的事,如下所示:

大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt
做 Instruction-tuning,需要收集各式各样的任务(包含标注),再将这些任务改写为指令,如下所示:

大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt

Chain of Thought (CoT)

之后又有人发现,在 In-context learning 时,给出推导过程,大模型上下文学习的能力会得到加强,进一步地,后来就有人直接在 prompt 里加入「Let’s think step by step」,而这简单一句话,也使模型性能得到了提升。

大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt

如果做 chain of thought,模型生成的答案就会比较 diverse,因此一种 self consistency 的方法也相应提出,即运行多次,对所有出现的答案做一个投票,输出最常出现的答案。

Prompt Engineering

还有让模型自己找 Prompt 的方法:

  • 给出例子,让机器自己来找 Prompt

大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt
完整的方法是,给出上述例子,让机器找,多找几次,对每一个 prompt 打分,然后把分数高的留下来,继续输入给 LLM,让它找相似的,如下所示:

大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt文章来源地址https://www.toymoban.com/news/detail-413405.html


参考资料

  • Hung-yi Lee:大型语言模型的两类使用方式(一)
  • Hung-yi Lee:大型语言模型的两类使用方式(二)
  • Hung-yi Lee:大型语言模型的两类使用方式(三)
  • Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine
  • How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation
  • Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?
  • Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers
  • Larger Language Models Do In-context Learning Differently
  • Multitask Prompted Training Enables Zero-shot Task Generalization
  • Self-consistency Improves Chain of Thought Reasoning in Language Models
  • Large Language Models Are Human-level Prompt Engineers
  • 进击的 BERT:NLP 界的巨人之力与迁移学习

到了这里,关于大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大语言模型(LLM)综述(五):使用大型语言模型的主要方法

    随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中,大型语言模型(LLM)尤为引人注目,它们不仅在自然语言处理(NLP)任务中表现出色,而且在各种跨领域应用中也展示

    2024年02月06日
    浏览(50)
  • 如何解决LLM(大型语言模型)幻觉问题

    LLM幻觉问题是什么? LLM(大型语言模型)幻觉问题指的是当大型语言模型(如我这样的)在处理请求时产生的不准确或虚构的信息。这些幻觉可能是因为模型的训练数据不足、错误或偏见,或者是因为模型在处理某些特定类型的问题时的局限性。具体来说,这些问题可能包括

    2024年02月02日
    浏览(38)
  • 【NLP】如何管理大型语言模型 (LLM)

    LLM 编排是管理和控制大型语言模型 (LLM)的过程,以优化其性能和有效性。这包括以下任务: 提示LLM: 生成有效的提示,为LLMs提供适当的背景和信息以产生所需的输出。 链接LLM:  结合多个LLM的输出以获得更复杂或更细致的结果。 管理LLM资源:  有效分配和管理LLM资源以满

    2024年02月05日
    浏览(56)
  • 【LLM GPT】李宏毅大型语言模型课程

    怎么学习?——给定输入和输出: 但是这样做不现实,因为这样输入-输出需要成对的资料,而chatgpt 成功解决了这一个难题。 chatgpt不需要成对的资料,只需要一段有用的资料,便可以自己学习内容,如下: 初代和第二代gpt 第二代到第三代 gpt3还会写代码 其性能表现 但是

    2024年02月10日
    浏览(45)
  • 【LLM GPT】大型语言模型 理解和实现

    怎么学习?——给定输入和输出: 但是这样做不现实,因为这样输入-输出需要成对的资料,而chatgpt 成功解决了这一个难题。 chatgpt不需要成对的资料,只需要一段有用的资料,便可以自己学习内容,如下: 初代和第二代gpt 第二代到第三代 gpt3还会写代码 其性能表现 但是

    2024年02月09日
    浏览(54)
  • ChatGPT和大型语言模型(LLM)是什么关系?

    什么是语言模型:\\\" 语言模型的本质是一个数学模型,用于捕捉和理解人类语言的结构和规律 。它通过分析大量文本数据中的单词或字符之间的关系,以概率的方式预测在给定上下文情况下下一个可能出现的单词或字符。这种模型允许计算机在生成文本、翻译语言、问答等任

    2024年02月10日
    浏览(45)
  • LangChain大型语言模型(LLM)应用开发(五):评估

    LangChain是一个基于大语言模型(如ChatGPT)用于构建端到端语言模型应用的 Python 框架。它提供了一套工具、组件和接口,可简化创建由大型语言模型 (LLM) 和聊天模型提供支持的应用程序的过程。LangChain 可以轻松管理与语言模型的交互,将多个组件链接在一起,以便在不同的

    2024年02月15日
    浏览(45)
  • 8大伦理考量:大型语言模型(LLM)如GPT-4

    大语言模型(LLM)如ChatGPT、GPT-4、PaLM、LaMDA等,具有生成和分析类人文本的能力。然而,它们也可能会产生有害内容,如仇恨言论、极端主义宣传、种族主义或性别歧视语言等,对特定个人或群体造成伤害。尽管LLM本身并不具有偏见或危害性,但它们所训练的数据可能反映了社

    2024年03月22日
    浏览(45)
  • 我用Streamlit+LLM(大型语言模型)轻松实现Web聊天

    Streamlit是时下比较热门的一个基于Python的Web应用程序框架,它可以在几分钟内将数据转化为可共享的Web应用程序,无需前端开发经验,使用纯Python代码实现,简单且高效。ChatGPT是目前非常火的OpenAI公司开发的聊天机器人模型,它无所不知就像一本大百科全书,它可以帮你做很

    2024年02月16日
    浏览(41)
  • 【人工智能】LLM 大型语言模型和 Transformer 架构简介

    目录 大型语言模型 (LLM) 一、LLM的起源 二、LLM的发展阶段 三、LLM的应用领域

    2024年02月14日
    浏览(63)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包