只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型

这篇具有很好参考价值的文章主要介绍了只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

夕小瑶科技说 原创
作者 | Python

自从推出以来,ChatGPT这款智能高效的人机对话平台迅速风靡全球。人们开始广泛尝试使用ChatGPT来解决各种问题,无论是医学检测报告的解释,还是公众号文章的取名,甚至是论文修改润色和rebuttal撰写等,ChatGPT等大型模型都活跃其中。其强大的语言生成和理解能力为人们提供了全新的工具和资源,使得各种任务的处理更加高效和便捷。

同时,许多自然语言处理领域的研究人员也感到困惑和苦恼。他们觉得传统的NLP研究方向,如问答、对话、翻译、信息抽取、文本语义与推理、知识图谱等已经失去了原本的意义。因为大型模型的出现,仅仅通过增加模型的规模和参数量,就能在自然语言处理领域中取得惊人的成就,成为解决一些任务的银弹。

诚然,大模型的高计算量必然会抬高自然语言处理的门槛。但就如同CNN/LSTM之于SVM,BERT之于CNN/LSTM一样,是人工智能领域发展的必然趋势。然而,另一方面,大模型真的是多任务通吃么?针对特定任务的模型就没有价值了么?近期的一些研究工作给出的证据表明,大模型并非一劳永逸的解法,像BERT在下游任务上做的各种精调和网络结构设计一样,大模型也需要根据任务特点做调整。

大模型的能力可能被高估

大模型虽然在很多任务中表现很好,但部分超绝的表现可能只是源于其训练数据与任务数据有所重叠造成的数据泄露。

比如[1]分析Codex(ChatGPT的前身之一),得到了如下表的结果。对于一道HackerRank上的编程题,如果把任务描述,或任务目标去掉之后,Codex依然可以取得很好的效果,然而如果仅仅替换任务目标,效果就会差很多。这表明Codex的效果可能依赖于对训练语料的记忆。

只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型

这一点,我们自己试用ChatGPT时也能很容易验证。比如直接问一道leetcode题目的解法,只给题号,ChatGPT也知道题目内容。

最近的一些研究表明,包括中文高考题[2],较难的代码生成在内[3],都难以被ChatGPT、GPT-4解决。

下图为ChatGPT在最近13年全国卷上,各科主/客观题的均分(每科归一化)。可以看到,在主观题,特别是语文和英语以外的科目,ChatGPT的表现并不理想。

只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型

任务特定的训练/精调方式依然有效

就如同BERT在做QA任务时可以用NLI和SQuAD做中间预训练一样。根据任务特点,对大模型做调整,以降低其泛用性为代价,提升某一方面的能力,也是可行的。

例如新加坡国立大学的一篇文章[4]提出,基于7B的LLaMA,用LoRA+24GB显存,结合一个人造数据集精调,就可以在BIG-bench算数任务上取得和GPT-4相当的表现。

只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型

类似地,在7个写作辅助任务上,Writing-Alpaca-7B[5]经过特定的指令精调,也可以取得超越ChatGPT的表现。

只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型

浙江大学提出[6],以Galactica-1.3b为基础,针对自然语言推断(NLI)相关的5个任务,从P3中筛选0.5%的指令精调数据,就可以取得比用全部数据精调高2%的平均表现。

只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型

只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型

大模型研究测试传送门

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可):
https://gpt4test.com

任务特定的prompt方法也有价值

就如同BERT在预训练的基础上结合各种网络结构一样,根据任务特点,在大模型的基础上采取不同的prompt方案,也能取得一定的提升。

今年5月港中文和哈工深的一篇文章[7]提出elicit CoT prompt,在对话生成任务上用一组辅助的prompt让大模型生成一些与用户的personality, emotions, psychology相关的内容,进而辅助对话生成,提升helpfulness等主观指标。

只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型

清华大学和UIUC[8]提出交互式地结合外部工具,可以让ChatGPT更好地解决数学任务。

只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型

谷歌和普林斯顿提出[9],针对需要探索或初始决策很重要的任务,设计Tree of Thoughts以取代CoT,在24点、创意写作、crosswords等任务上取得了明显的提升。

只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型

南京大学提出头脑风暴法[10],在CoT的基础上,通过一个过生成+排序筛选+生成的过程,在APPS和CodeContests上的复杂编程题中取得明显提升。

只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型

西湖大学和港中文提出Chain-of-Symbol方法[11],在给定一个文字表述的和地理位置信息相关的内容,生成回复的任务中,用简练的符号而非自然语言在CoT中阐述位置关系,相较ChatGPT与InstructGPT取得提升。

浙江大学与香侬科技针对文本分类任务,提出了更好的prompt: Clue And
Reasoning Prompting[12] (CARP,下图下半部分)。

浙江大学和阿里提出,通过反刍式思考[13],对反思生成内容,以提高大模型的推理能力。

只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型

阿里达摩院提出通过可执行的代码[14]来解锁InstructGPT与GPT-4回答时序推理相关问题的能力。

只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型

结束语

从上述近期工作可以看出,当前大模型的能力可能被高估,其解决部分任务的能力可能源于训练数据与任务数据有所重叠。在大模型年代,针对任务特点,利用LoRA等低资源手段,可以在单机单卡到单机多卡的配置范围内,对十几亿到几十亿参数的大模型做指令调整,取得超越千亿大模型的表现。针对特定任务设计prompt方法,也可以取得明显的提升。

因此,单一的大而全,可能也并非是解决一切问题的银弹方法。NLPer们不比担心一个或几个大模型把所有问题都解决了而导致失业。任务特定的设计依然是有价值的。即使计算量提升,但如果仅需几十GB显存的单机多卡,国内一流高校的实验室也能够负担得起计算花销的。

之前听有一个老师说得特别好,谷歌搜索早就这么强了,也没听说做IR的都失业呀。作为一个商业产品,谷歌搜索/ChatGPT尽量地大而全地满足所有用户的需求,但在小而精的角度,一定有其尚未解决的问题。我们学术界就是需要发现这些问题,并提出解决方案,从而让工业界有机会将其整合到现有的商业产品中去,(让谷歌搜索/ChatGPT等)取得进一步的提升。

所以,不要过度迷恋大模型,认真观察其缺点,提出改进方案,自然语言处理还是有前途的。文章来源地址https://www.toymoban.com/news/detail-476586.html

参考资料
[1] Experience Grounds Language,https://arxiv.org/abs/2004.10151
[1] Codex Hacks HackerRank: Memorization Issues and a Framework for Code Synthesis Evaluation, https://arxiv.org/pdf/2212.02684.pdf
[2] Evaluating the Performance of Large Language Models on GAOKAO Benchmark, https://arxiv.org/pdf/2305.12474.pdf
[3] Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation, https://arxiv.org/pdf/2305.01210.pdf
[4] Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks, https://arxiv.org/pdf/2305.14201.pdf
[5] Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A Preliminary Study on Writing Assistance, https://arxiv.org/pdf/2305.13225.pdf
[6] MAYBE ONLY 0.5% DATA IS NEEDED: A PRELIMINARY EXPLORATION OF LOW TRAINING DATA INSTRUCTION TUNING, https://arxiv.org/pdf/2305.09246.pdf
[7] Chain-of-thought prompting for responding to in-depth dialogue questions with LLM, https://arxiv.org/pdf/2305.11792.pdf
[8] CREATOR: Disentangling Abstract and Concrete Reasonings of Large Language Models through Tool Creation, https://arxiv.org/pdf/2305.14318.pdf
[9] Tree of Thoughts: Deliberate Problem Solving with Large Language Models, https://arxiv.org/pdf/2305.10601.pdf
[10] Think Outside the Code: Brainstorming Boosts Large Language Models in Code Generation, https://arxiv.org/pdf/2305.10679.pdf
[11] Chain-of-Symbol Prompting Elicits Planning in Large Langauge Models, https://arxiv.org/pdf/2305.10276.pdf
[12] Text Classification via Large Language Models, https://arxiv.org/pdf/2305.08377.pdf
[13] Knowledge Rumination for Pre-trained Language Models, https://arxiv.org/pdf/2305.08732.pdf
[14] Unlocking Temporal Question Answering for Large Language Models Using Code Execution, https://arxiv.org/pdf/2305.15014.pdf

到了这里,关于只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • leetcode解题思路分析(一百四十八)1289 - 1296 题

    下降路径最小和 II 给你一个 n x n 整数矩阵 grid ,请你返回 非零偏移下降路径 数字和的最小值。非零偏移下降路径 定义为:从 grid 数组中的每一行选择一个数字,且按顺序选出来的数字中,相邻数字不在原数组的同一列。 f[i][j] 表示从数组的前i行中的每一行选择一个数字,

    2024年02月09日
    浏览(37)
  • LeetCode --- 1732. Find the Highest Altitude 解题报告

    There is a biker going on a road trip. The road trip consists of  n + 1  points at different altitudes. The biker starts his trip on point  0  with altitude equal  0 . You are given an integer array  gain  of length  n  where  gain[i]  is the  net gain in altitude  between points  i ​​​​​​ and  i + 1  for all ( 0 = i n) . Return 

    2024年02月02日
    浏览(37)
  • GPT Prompt编写的艺术:如何提高AI模型的表现力

    随着AI技术的迅速发展,人工智能模型变得越来越强大,能够协助我们完成各种任务。然而,如何更好地利用AI的能力仍然存在很大的探索空间。在与AI进行交互的过程中,我们主要 依赖于Prompt ,不管是直接与大模型交互,还是基于一些工具开发大模型的应用,都需要涉及到

    2024年02月14日
    浏览(43)
  • LeetCode --- 1710. Maximum Units on a Truck 解题报告

    You are assigned to put some amount of boxes onto  one truck . You are given a 2D array  boxTypes , where  boxTypes[i] = [numberOfBoxesi, numberOfUnitsPerBoxi] : numberOfBoxesi  is the number of boxes of type  i . numberOfUnitsPerBoxi  is the number of units in each box of the type  i . You are also given an integer  truckSize , which is the  maximu

    2023年04月18日
    浏览(42)
  • LeetCode --- 1903. Largest Odd Number in String 解题报告

    You are given a string  num , representing a large integer. Return  the  largest-valued odd  integer (as a string) that is a  non-empty substring  of  num , or an empty string  \\\"\\\"  if no odd integer exists . A  substring  is a contiguous sequence of characters within a string. Example 1: Example 2: Example 3:

    2024年02月10日
    浏览(35)
  • Leetcode 75——1768.交替合并字符串 解题思路与具体代码【C++】

    1768. 交替合并字符串 - 力扣(LeetCode) 给你两个字符串  word1  和  word2  。请你从  word1  开始,通过交替添加字母来合并字符串。如果一个字符串比另一个字符串长,就将多出来的字母追加到合并后字符串的末尾。 返回  合并后的字符串  。 1 = word1.length, word2.length = 100

    2024年02月07日
    浏览(79)
  • 啾咪~萤火AI三小只给您拜年~

    2022年 AI 绘画火爆学术界产业界。幻方 AI 在萤火二号上使用 Google Caption 数据集复现并优化了 Stable Diffusion 的训练,通过幻方自研的 hfai.pl 插件将源代码 Pytorch Lightning 框架与萤火集群的特性轻松整合。「模型传送门」 输入 :a red rabbit paper-cut for chinese new year celebration, spring f

    2024年02月09日
    浏览(32)
  • LeetCode --- 1863. Sum of All Subset XOR Totals 解题报告

    The  XOR total  of an array is defined as the bitwise  XOR  of  all its elements , or  0  if the array is  empty . For example, the  XOR total  of the array  [2,5,6]  is  2 XOR 5 XOR 6 = 1 . Given an array  nums , return  the  sum  of all  XOR totals  for every  subset  of  nums .  Note:  Subsets with the  same  elements should be c

    2024年02月15日
    浏览(57)
  • LeetCode --- 1971. Find if Path Exists in Graph 解题报告

    There is a  bi-directional  graph with  n  vertices, where each vertex is labeled from  0  to  n - 1  ( inclusive ). The edges in the graph are represented as a 2D integer array  edges , where each  edges[i] = [ui, vi]  denotes a bi-directional edge between vertex  ui  and vertex  vi . Every vertex pair is connected by  at most one  edge, and

    2024年02月07日
    浏览(44)
  • LeetCode952三部曲之一:解题思路和初级解法(137ms,超39%)

    这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 难度: 困难 编程语言:Java 给定一个由不同正整数的组成的非空数组 nums ,考虑下面的图: 有 nums.length 个节点,按从 nums[0] 到 nums[nums.length - 1] 标记; 只有当 nums[i] 和 nums[j] 共用一个大于 1 的公因

    2024年02月10日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包