Prompt本质解密及Evaluation实战(一)

这篇具有很好参考价值的文章主要介绍了Prompt本质解密及Evaluation实战(一)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、基于evaluation的prompt使用解析

基于大模型的应用评估与传统应用程序的评估不太一样,特别是基于GPT系列或者生成式语言模型,因为模型生成的内容与传统意义上所说的内容或者标签不太一样。

       以下是借用了ChatGPT官方的evaluation指南提出的对结果的具体的评估步骤:

       Compare the factual content of the submitted answer with the context. \

I      gnore any differences in style, grammar, or punctuation.

Answer the following questions:

    - Is the Assistant response based only on the context provided? (Y or N)

    - Does the answer include information that is not provided in the context? (Y or N)

    - Is there any disagreement between the response and the context? (Y or N)

    - Count how many questions the user asked. (output a number)

    - For each question that the user asked, is there a corresponding answer to it?

      Question 1: (Y or N)

      Question 2: (Y or N)

      ...

      Question N: (Y or N)

- Of the number of questions asked, how many of these questions were addressed by the answer? (output a number)

所谓的factual content是指显性表达出来的(有明确文字说明的)内容,另外需要忽略掉写作风格,语法,标点符号等带来的差异,因为大多数情况下不同的用户表达同样的意思会有差异,这对于比较模型生成结果和你指定的正确答案来说很重要,否则会失去语言的灵活性。” Answer the following questions”部分说明了评估必须经过的步骤,另外也说明了不能简单地说“Y”或者“N”,而是需要给出一些中间的reasoning process或者说intermediate steps,这样的设计很具有技巧,考验你对业务的理解能力,包括对数据的理解能力以及对模型的理解能力等等。

在下面这个评估方法中,有用户的信息,上下文的信息以及对话机器人返回的信息,其中system_message如下:

You are an assistant that evaluates how well the customer service agent \

answers a user question by looking at the context that the customer service \

agent is using to generate its response.

一般来说,系统级别的信息就是上下文(context),从模型的角度来说,所有输入的东西都是在context的支配下工作的。

Prompt本质解密及Evaluation实战(一),AI,prompt,自然语言处理,人工智能

上面这个方法基于传入的system_message和user_message,调用方法get_completion_from_messages获得返回的response:

Prompt本质解密及Evaluation实战(一),AI,prompt,自然语言处理,人工智能

调用方法并打印response如下:

Prompt本质解密及Evaluation实战(一),AI,prompt,自然语言处理,人工智能

二、关于prompt内部工作机制

       训练GPT系列大模型时,一个基本的能力是预测下一个词(word),那模型为什么能根据我们提供的prompt做出响应?譬如GPT-3,它是根据前面的内容来产出下一个word,前面的内容你都可以认为是prompt。

Prompt本质解密及Evaluation实战(一),AI,prompt,自然语言处理,人工智能

这个问题的本质是GPT-3/GPT-4是如何训练的,在已有的一个基础的大模型(base LLM)的前提条件下,会经历以下几个核心步骤:

-以一问一答的方式提供样例数据给这个base LLM

-由data contractor人工检查LLM的输出(即human-rating操作),看什么是有用的,什么是没用的

-使用RLHF来调整模型对产生更高rating的输出增加概率

经过上述步骤后会导致我们输入一个prompt(譬如上面说到的evalution使用的看起来有点复杂的prompt)后,会产生相应的结果。

Prompt本质解密及Evaluation实战(一),AI,prompt,自然语言处理,人工智能

用户在不断地与对话机器人进行交互时,对话机器人在产出结果时至少要考虑两个层面的东西:一是用户输入的内容,二是系统的设定。

Prompt本质解密及Evaluation实战(一),AI,prompt,自然语言处理,人工智能

Prompt的使用形式有如下几种:

-问答的形式,给一个输入,返回一个输出

-Chain of Thought(CoT)

-Self Consistency with CoT(CoT-SC)

-Tree of Thoughts(ToT),根据用户的输入产生一个树状结构,每一层表示针对上面的节点的prompt或者step产生的结果,譬如第一层针对输入可能会产生不同的结果,然后层层递推,其中存在一个evaluation system,就是判断哪个路径是最相关或者说产出的结果最能够完成用户指定的问题或者任务。

Prompt本质解密及Evaluation实战(一),AI,prompt,自然语言处理,人工智能

三、从一篇论文来剖析prompt

我们需要思考在一个prompt中,有哪些因素能够影响到一个prompt的功能,另外也要考虑如何使一个prompt最小化,因为这涉及到tokens的使用数量,另外如果信息太多也会干扰到模型对信息的“理解”(这里的“理解”指的是一种形式上的理解,本质上来说模型是无法像人类一样真正理解我们提供的信息的)。

下面这篇论文很重要,提出了几个核心的论述:

-在输入的一个prompt中,“factual patterns”的存在对于CoT的成功来说并不重要

-对于模型来说,中间的步骤(intermediate steps)会作为灯塔信号,让模型参照用户输入中的符号(symbols)构成的patterns来产出结果,模型表现出的仅仅是一种形式上的推理论证

-模型在训练时会获得commonsense knowledge and meaning,从而帮助模型在用户输入的文本形式的prompt中找到patterns

-通过试验分析揭示了在text和patterns之间存在类似生物间相互依赖的一种关系,模型会从文本中基于常识获取patterns,patterns反过来会强化模型对任务进行形式上的理解和指导结果信息的生成

-你能够尽量去裁剪prompt,只留下关键的信息,基于常识依旧能够表达patterns,这些patterns能够指导模型“理解”prompt指定的任务来生成结果

-prompt中的符号的具体形式(exact type of symbols)不影响模型的表现

-CoT帮助模型以prompt为例来学习其中的patterns,然后为任务生成正确的tokens

Prompt本质解密及Evaluation实战(一),AI,prompt,自然语言处理,人工智能文章来源地址https://www.toymoban.com/news/detail-668190.html

到了这里,关于Prompt本质解密及Evaluation实战(一)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 掌握AI助手的魔法工具:解密`Prompt`(提示)在AIGC时代的应用(下篇)

    前言:在前面的两篇文章中,我们深入探讨了AI助手中的魔法工具—— Prompt (提示)的基本概念以及在 AIGC(Artificial Intelligence-Generated Content ,人工智能生成内容)时代的应用场景。在本篇中,我们将进一步探索多个领域中 Prompt 的应用,并通过具体的场景举例来加深理解。

    2024年02月07日
    浏览(56)
  • 掌握AI助手的魔法工具:解密Prompt(提示)在AIGC时代的应用「上篇」

    在当今的AIGC时代,我们面临着越来越多的人工智能技术和应用。其中一个引人注目的工具就是Prompt(提示)。它就像是一种魔法,可以让我们与AI助手进行更加互动和有针对性的对话。那么,让我们一起来了解一下Prompt,它是什么,为什么需要它,怎么使用它以及使用它会有

    2024年02月11日
    浏览(51)
  • 解密Prompt系列10. 思维链COT原理探究

    前一章思维链基础和进阶玩法我们介绍了如何写Chain-of-thought Prompt来激活生成逐步推理,并提高模型解决复杂问题的能力,这一章我们追本溯源,讨论下COT的哪些元素是提升模型表现的核心? 要进行因果分析,需要把思维链中的不同元素拆解开来,然后通过控制变量实验,来

    2024年02月11日
    浏览(47)
  • 解密prompt系列26. 人类思考vs模型思考:抽象和发散思维

    在Chain of Thought出来后,出现过许多的优化方案例如Tree of thought, Graph of Thought, Algorithm of Thought等等,不过这些优化的出发点都更加\\\"Machine Like\\\",而非\\\"Human Like\\\", 哈哈不是说机器化不好,仅仅是对AGI的一些个人偏好而已。 所以如果我们从人类思考的角度出发,能否把当前模型的思

    2024年03月10日
    浏览(42)
  • 解密prompt系列27. LLM对齐经验之如何降低通用能力损失

    前面我们已经聊过众多指令微调的方案,这一章我们重点讨论下如何注入某一类任务或能力的同时,尽可能不损失模型原有的通用指令理解能力。因为在下游或垂直领域应用中,我们设计的推理任务风格或形式,往往很难通过prompt来稳定实现。这种情况下就会依赖微调来注入

    2024年04月13日
    浏览(40)
  • 解密Prompt系列9. 模型复杂推理-思维链COT基础和进阶玩法

    终于写了一篇和系列标题沾边的博客,这一篇真的是解密prompt!我们会讨论下思维链(chain-of-Thought)提示词究竟要如何写,如何写的更高级。COT其实是Self-ASK,ReACT等利用大模型进行工具调用方案的底层逻辑,因此在Agent调用章节之前我们会有两章来讲思维链 先打预防针,COT当前

    2024年02月09日
    浏览(37)
  • 解密Prompt系列13. LLM Agent-指令微调方案: Toolformer & Gorilla

    上一章我们介绍了基于Prompt范式的工具调用方案,这一章介绍基于模型微调,支持任意多工具组合调用,复杂调用的方案。多工具调用核心需要解决3个问题,在哪个位置进行工具调用(where), 从众多工具中选择哪一个(Which), 工具的输入是什么(What)。Where + Which + What,我称之为

    2024年02月12日
    浏览(45)
  • 解密Prompt系列18. LLM Agent之只有智能体的世界

    重新回来聊Agent,前四章的LLM Agent,不论是和数据库和模型还是和搜索引擎交互,更多还是大模型和人之间的交互。这一章我们来唠唠只有大模型智能体的世界!分别介绍斯坦福小镇和Chatdev两篇论文。它们的共同特点是使用多个大模型智能体协同完成任务。 多智能相比单一智

    2024年02月08日
    浏览(52)
  • 解密prompt系列25. RLHF改良方案之样本标注:RLAIF & SALMON

    上一章我们主要唠了RLHF训练相关的方案,这一章我们主要针对RLHF的样本构建阶段,引入机器标注来降低人工标注的成本。主要介绍两个方案:RLAIF,和IBM的SALMON。 RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback RLAIF给出的方案是完全使用大模型来进行偏好样本的标注

    2024年03月25日
    浏览(41)
  • ChatGPT中文版Prompt提示工程超详细指南《提示工程简介及示例》Github最新破万星项目Meta AI前工程师解密百万年薪提示工程师GPT-4模型优化利器(一)

    近期,Meta AI前工程师推出的最强辅助——提示工程师指南在Github上引起了极大的反响。 这份全面指南详细列出了提示工程师所需的所有资料,使得他们在开发过程中拥有更多的技巧。这份指南提供的信息十分丰富,覆盖了从提示技巧使用到提示应用等各个方面,甚至还提供

    2024年02月02日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包