【论文阅读】Language Models are Few-Shot Learners(GPT-3)

这篇具有很好参考价值的文章主要介绍了【论文阅读】Language Models are Few-Shot Learners(GPT-3)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

本文简要介绍了GPT-3的背景,模型架构,训练数据以及训练方式部分。具体训练细节,实验结果很多,可以在用到的时候再看

Intro

本文剖析了pretrain-finetune架构存在的问题:

  • 对于每个新的任务,都需要大量的标注数据
  • 将表达能力更强的模型(预训练阶段要求用大模型)在比较窄的数据(微调阶段是在narrow数据分布上进行的)上训练是不合理的。大模型的效果并不能泛化到OOD数据上
  • 人类在接触一个下游任务时不需要大量的训练样本,只需要对任务的描述或者几个例子就可以。我们希望NLP模型也能有这种多任务之间无缝衔接的能力

解决上述问题可行的方案:

  • meta-learning:模型在预训练阶段就学到了一系列方法,具备一系列能力。在预测阶段,我们利用这种能力来快速适配到下游任务中。

    • 已经有人通过in-context learning这样做过了,但是效果不好

    【论文阅读】Language Models are Few-Shot Learners(GPT-3),论文阅读,语言模型,r语言

  • LLM: Transformer语言模型参数的每一次增大都会让文本理解能力和其他的NLP下游任务的性能得到提升,而且有证据显示,log损失函数,在模型规模增大后,保持平稳趋势。我们认为:in-context learning的能力也会随着模型参数的增大而增强

我们训练了一个175B的模型GPT-3,在3种设定下测试GPT-3的性能:

  • few-shot learning(in-context learning): 允许一些样例(一般10到100个)出现在模型输入中
  • one-shot learning: 只允许一个样例
  • zero-shot learning: 不允许提供样例,只提供一个自然语言形式的指令

下图展示了在移除单词中多余符号任务上,模型的表现

【论文阅读】Language Models are Few-Shot Learners(GPT-3),论文阅读,语言模型,r语言

  • GPT-3在zero-shot和one-shot设置下能取得不错的结果,在few-shot设定下有时能比得上甚至超过微调的SOTA模型
  • zero-shot和one-shot设置的GPT-3能在快速适应和即时推理任务(单词整理、代数运算和利用只出现过一次的单词)中拥有卓越表现。
  • few-shot设定下,GPT-3能生成人类难以区分的新闻稿
  • few-shot设定下,GPT-3在一些自然语言推理任务(ANLI dataset),阅读理解(RACE, QuAC)上的性能有待提高
  • 不同benchmark上的整体表现如下图所示

【论文阅读】Language Models are Few-Shot Learners(GPT-3),论文阅读,语言模型,r语言

我们还训练了一些小模型(从125 million到13 billion),用于与GPT-3对比。对于大多数任务,在3种设定下,模型性能随大小相对平滑地增加。但是随着模型容量增大,few-shot相较于one,zero-shot的领先幅度变得更大,这说明大模型可能更适合作为meta-learners(larger models are more proficient meta-learners)

Approach

本文的预训练方式GPT-2类似,只不过用了更大的模型,数据量,多样性以及训练时长,in-context learning的方式也相似。不过本文系统分析了不同设置对利用上下文学习的影响,这些设置可以看作对任务相关数据的依赖程度。

  • Fine-tuning:本文并没有训练GPT-3的微调版本,因为主要关注的是task-agnostic性能
  • Few-shot:在预测阶段提供一些样本,但并不进行参数更新。样本的数量是10到100(window size内可容纳的样本数目)
  • One-shot:仅提供一个样本
  • Zero-shot:不提供样本,只给一个用于描述任务的自然语言指令

下图是一个将英文翻译成法语任务的不同设定下的输入形式展示

【论文阅读】Language Models are Few-Shot Learners(GPT-3),论文阅读,语言模型,r语言

本文的不同设定并不是为了相互比较,相互替代。而是在特定基准上,提供性能与采样效率之间权衡的不同问题设定。

Model and Architectures

模型结构,初始化方法,预归一化方法,tokenize方法与GPT-2相同,但在transformer中使用与Sparse Transformer中类似的注意力模式,不同模型参数设定如下表所示

【论文阅读】Language Models are Few-Shot Learners(GPT-3),论文阅读,语言模型,r语言

  • 所有模型的上下文窗口大小都是2048个tokens

Training Dataset

Common Crawl dataset包含近万亿单词,遍历一遍数据集就足够训练我们最大的模型。

  • 然而,不进行数据清洗的数据集质量不高,采用以下三步清洗数据
    • 下载数据集的一个版本,根据与一系列高质量参考语料库的相似性过滤了掉部分语料
    • 在文档级别、数据集内部和数据集之间执行了模糊重复数据消除,以防止冗余,并保持我们的作为过拟合的准确度量的验证集的完整性。
    • 将已知的高质量参考语料库添加到训练组合中,以增强Common Crawl并增加其多样性

使用训练数据的比例入下表所示

【论文阅读】Language Models are Few-Shot Learners(GPT-3),论文阅读,语言模型,r语言

  • 训练时数据不是按比列采样的,高质量的数据集会被采样更多次
  • CommonCrawl和Books2采样少于一次,其他数据集被采样2-3次

Training Process

  • 有研究表明,更大的模型通常用更大的batch size,但是需要更小的学习率。本文在训练中评估梯度噪音的大小来选择batch size

  • 利用矩阵乘法与网络不同层的并行性来进行分布式训练

  • 在V100上训练文章来源地址https://www.toymoban.com/news/detail-619907.html

到了这里,关于【论文阅读】Language Models are Few-Shot Learners(GPT-3)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】 Few-shot object detection via Feature Reweighting

    Few-shot object detection的开山之作之一 ~~ 属于Metric-based Methods 特征学习器使用来自具有足够样本的基本类的训练数据来 提取 可推广以检测新对象类的meta features。The reweighting module将新类别中的一些support examples转换为全局向量,该全局向量indicates meta features对于检测相应物体的重

    2023年04月09日
    浏览(32)
  • 【GPT-2】论文解读:Language Models are Unsupervised Multitask Learners

    论文:Language Models are Unsupervised Multitask Learners 作者:Alec Radford, Jeff Wu, Rewon Child, D. Luan, Dario Amodei, I. Sutskever 时间:2019 GPT-2 是一个有15亿参数的模型,GPT-2的想法是转向一个通用的系统,不需要进行数据集的标注就可以执行许多的任务; 因为数据集的创建是很难的,我们很难

    2024年02月22日
    浏览(32)
  • ChatGPT2论文解读《Language Models are Unsupervised Multitask Learners》(2019)

    以下是我阅读完整篇论文做的个人总结,包含了ChatGPT-2文章的主要内容,可以仅看【论文总结】章节。 数据集 自制了一个网页爬虫,被抓取的网页部分来自于社交平台,这些网页由人工进行过滤。最终生成 WebText数据集 ,包含45000000个链接。另一部分来自于新闻网站,数据截

    2024年02月08日
    浏览(33)
  • 论文阅读 - Few-shot Network Anomaly Detection via Cross-network Meta-learning

    论文链接:https://arxiv.org/pdf/2102.11165.pdf   目录 摘要: 引言 问题定义 方法 Graph Deviation Networks Cross-network Meta-learning         网络异常检测旨在找到与绝大多数行为显着不同的网络元素(例如节点、边、子图)。它对从金融、医疗保健到社交网络分析等各种应用产生了深远

    2024年02月14日
    浏览(39)
  • few-shot / one shot / zero shot object counting论文汇总

    code: https://paperswithcode.com/paper/class-agnostic-counting 摘要:几乎所有现有的计数方法都是为一个特定的对象类而设计的。然而,我们的工作旨在创建一个能够计数任何类对象的计数模型。为了实现这一目标,我们将计数表述为一个匹配问题,使我们能够利用对象计数问题中自然存

    2024年02月09日
    浏览(35)
  • Pre-trained Language Models Can be Fully Zero-Shot Learners

    本文是LLM系列文章,针对《Pre-trained Language Models Can be Fully Zero-Shot Learners》的翻译。 在没有标记或额外的未标记数据的情况下,我们如何将预先训练的模型扩展到许多语言理解任务?经过预训练的语言模型(PLM)对于广泛的NLP任务是有效的。然而,现有的方法要么需要对下游

    2024年02月07日
    浏览(33)
  • 论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

    论文地址:https://arxiv.org/pdf/2303.14123.pdf 这是一篇2023年发表在CVPR上的论文,论文题目是Semantic Prompt for Few-Shot Image Recognitio,即用于小样本图像识别的语义提示。 第一,最近几项研究利用 语义信息 来进行小样本学习的研究。 一方面因为通过少量样本去识别新类别很难,就想使

    2024年02月04日
    浏览(38)
  • 【论文精读】CONTAINER: Few-Shot Named Entity Recognition via Contrastive Learning

    一篇来自ACL2022的文章,采用对比学习的方法提高模型的性能,在实现方法上和实验论证部分很值得借鉴,至于和大模型性能的对比,还需要进一步的调研~ 低资源场景NER不可或缺,但现有的方法仅从源域学习特定的语义特征和中间表示,这会影响对目标域的泛化能力,降低性

    2024年02月05日
    浏览(41)
  • 论文笔记|CVPR2023:Supervised Masked Knowledge Distillation for Few-Shot Transformers

    这篇论文的题目是 用于小样本Transformers的监督遮掩知识蒸馏 论文接收: CVPR 2023 论文地址: https://arxiv.org/pdf/2303.15466.pdf 代码链接: https://github.com/HL-hanlin/SMKD 1.ViT在小样本学习(只有少量标记数据的小型数据集)中往往会 过拟合,并且由于缺乏 归纳偏置 而导致性能较差;

    2024年02月06日
    浏览(37)
  • Spectral Adversarial MixUp for Few-Shot Unsupervised Domain Adaptation论文速读

    域偏移是临床应用中的常见问题,其中训练图像(源域)和测试图像(目标域)处于不同的分布下。已经提出了无监督域适应 (UDA) 技术,以使在源域中训练的模型适应目标域。但是,这些方法需要来自目标域的大量图像进行模型训练。 本文提出了一种新的少样本无监督域

    2024年04月28日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包