论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2

这篇具有很好参考价值的文章主要介绍了论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文笔记 | 谷歌 Soft Prompt Learning

ptuning -> Prefix-Tuning -> soft promt -> p tuning v2

"The Power of Scale for Parameter-Efficient Prompt Tuning" EMNLP 2021 Google Brain

人能理解的不一定是模型需要的,所以不如让模型自己训练所需的prompt。

External Links:

  • 论文作者:Brian Lester, Rami Al-Rfou
  • Google Blog: "Guiding Frozen Language Models with Learned Soft Prompts"
  • Github Repo
  • Jeff Dean 的推文

Motivation

As models become larger, storing and serving a tuned copy of the model for each downstream task becomes impractical.
  • 基于prompt的大模型application范式非常有前景,但是hand-craft prompts费时费力,受长度限制,且不一定效果好。
  • 因此提出tunable soft prompts,使用隐式的"learnable vectors"代替显式的"tokens"作为prompts。
  • soft prompts相比于比离散的文本prompt,可以蕴含更质密的信息 (成千上万个examples)

Approach

论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2

Prompts are typically composed of a task description and/or several canonical examples. Prompt tuning only requires storing a small task-specific prompt for each task, and enables mixed-task inference using the original pretrained model

大致流程:

  • 每个任务训练一个prompt vector
  • prompt的初始化是从vocabulary embedding采样
  • 初始化prompt 论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2as a fixed-length sequence of vectors (e.g., 20 tokens long), 然后和输入 论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2拼接,交给模型。根据模型生成的内容 论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2 计算loss,反向传播更新 prompt vectors,而不更新模型的参数。

 

 

 

一些小细节:

  • 对T5的实验进行了特别设计:
    • Span Corruption: T5原本的模型
    • Span Corruption + Sentinel: 在prompt前加入sentinel,以适应T5的预训练模式
    • LM Adaptation: 用语言模型对T5做了二次预训练
  • JAX-based T5X framewok
  • prompt的长度5~100
  • 大学习率(0.3)

和Adapter Learning的区别:

Adapters modify the actual function that acts on the input representation, parameterized by the neural network, by allowing the rewriting of activations at any given layer. Prompt tuning modifies behavior by leaving the function fixed and adding new input representations that can affect how subsequent input is processed.

和前作们的区别:

  • 把Prefix-Tuning的reparametrization去掉了,以及只在encoder的输入前放soft prompts
  • 不使用P-tuning中prompt的穿插放置方式

Results

  • Benchmark:SuperGLUE (8个NLU任务,没有生成类任务)
prompt tuning beats GPT-3 prompt design by a large margin, with prompt tuned T5-Small matching GPT-3 XL (over 16 times larger), and prompt-tuned T5-Large beating GPT-3 175B (over 220 times larger).
论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2

Prompt tuning比hand-craft prompts好,但在小模型上仍不如model tuning

  • 消融实验:prompt长度在20就很好;用vocab sampled embedding初始化就很好;用LM objective预训练的模型更适合prompt learning

论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2

  • 与prompt learning前作们相比,需要训练的参数更少

论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2

  • prompt tuning相比model tuning,更不容易过拟合

论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2

在cross-domain数据集进行训练和zero-shot测试

  • 训练N种prompt表示,就可以做Prompt Ensembling(类似于bag of models),用来提高性能。

论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2文章来源地址https://www.toymoban.com/news/detail-500867.html

  • 通过分析prompt vector在embedding空间的近邻可以发现,学到的prompt和任务/数据集有很强的关联。

延伸阅读

  • Prompt learning前作: Prefix Tuning, WARP, P-Tuning, soft words
  • automatic prompt generation: Jiang et al., 2020; Shin et al., 2020
  • Task Adaptors: Houlsby et al., 2019, MAD-X
  • prompt tuning experiments in FLAN
  • the BigScience T0 model

到了这里,关于论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【LLM微调范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation

    论文标题:Prefix-Tuning: Optimizing Continuous Prompts for Generation 论文作者:Xiang Lisa Li, Percy Liang 论文原文:https://arxiv.org/abs/2101.00190 论文出处:ACL 2021 论文被引:1588(2023/10/14) 论文代码:https://github.com/XiangLi1999/PrefixTuning 传统的预训练+微调范式的问题:下游任务微调时,需要更新

    2024年02月07日
    浏览(44)
  • Prefix-tuning、Adapter、LLaMA-Adapter的流程图与伪代码实现

    流程图: 代码: 流程图: 代码: 流程图: 代码:

    2024年02月11日
    浏览(37)
  • 【提示学习论文六】MaPLe: Multi-modal Prompt Learning论文原理

    这篇文章于2023年发表在CVPR(Conference on Computer Vision and Pattern Recognition),作者是Muhammad Uzair Khattak,Hanoona Rasheed,Muhammad Maaz,Salman Khan,Fahad Shahbaz Khan。 研究发现Clip的问题:在单个分支(语言或视觉)中使用prompt来调整表示是次优的,它不能在下游任务上灵活地动态调整两个

    2024年01月22日
    浏览(40)
  • 论文解读:(UPL)Unsupervised Prompt Learning for Vision-Language Models

    存在的问题 之前的来自目标数据集的标记数据(有监督学习)可能会限制可伸缩性。 动机 通过无监督提示学习(UPL)方法,以避免提示工程,同时提高类clip视觉语言模型的迁移性能。 主张top-k而不是top-p 注:top-k是指挑选概率最大的k个,top-p是指挑选预测概率大于p的那些数据 看

    2024年04月23日
    浏览(56)
  • 提示学习soft prompt浅尝,启发了p-tuing

    在高质量标注数据稀缺的工业界来说,少样本学习或者零样本学习的方法特别受欢迎,后面出现过一些少样本和零样本的方法,例如 对比学习和prompt 等,主流prompt的工作分为 离散型 和连续型模板。离散型主要还是 插入bert特殊的token 为主,连续型则是 插入数字token 。 离散

    2024年02月09日
    浏览(35)
  • 大模型PEFT技术原理(一):BitFit、Prefix Tuning、Prompt Tuning

           随着预训练模型的参数越来越大,尤其是175B参数大小的GPT3发布以来,让很多中小公司和个人研究员对于大模型的 全量微调 望而却步,近年来研究者们提出了各种各样的参数高效迁移学习方法(Parameter-efficient Transfer Learning),即固定住Pretrain Language model(PLM)的大部

    2024年01月25日
    浏览(63)
  • 大模型参数高效微调技术原理综述(二)-BitFit、Prefix Tuning、Prompt Tuning

    随着,ChatGPT 迅速爆火,引发了大模型的时代变革。然而对于普通大众来说,进行大模型的预训练或者全量微调遥不可及。由此,催生了各种参数高效微调技术,让科研人员或者普通开发者有机会尝试微调大模型。 因此,该技术值得我们进行深入分析其背后的机理,本系列大

    2024年02月09日
    浏览(45)
  • 【论文阅读笔记】4篇Disentangled representation learning用于图像分割的论文

    4篇应用解耦表示学习的文章,这里只关注如何解耦,更多细节不关注,简单记录一下。 Chen C, Dou Q, Jin Y, et al. Robust multimodal brain tumor segmentation via feature disentanglement and gated fusion[C]//Medical Image Computing and Computer Assisted Intervention–MICCAI 2019: 22nd International Conference, Shenzhen, China, O

    2024年01月17日
    浏览(45)
  • 【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning)

    论文链接: Continual Learning with Pre-Trained Models: A Survey 代码链接: Github: LAMDA-PILOT 持续学习 (Continual Learning, CL)旨在使模型在学习新知识的同时能够保留原来的知识信息了,然而现实任务中,模型并不能很好地保留原始信息,这也就是常说的 灾害性遗忘 (Catastrophic forgetting)

    2024年04月26日
    浏览(45)
  • 【论文阅读笔记】Contrastive Learning with Stronger Augmentations

    基于提供的摘要,该论文的核心焦点是在对比学习领域提出的一个新框架——利用强数据增强的对比学习(Contrastive Learning with Stronger Augmentations,简称CLSA)。以下是对摘要的解析: 问题陈述: 表征学习(representation learning)已在对比学习方法的推动下得到了显著发展。 当前

    2024年02月19日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包