【提示学习论文七】Visual Prompt Tuning论文原理

这篇具有很好参考价值的文章主要介绍了【提示学习论文七】Visual Prompt Tuning论文原理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Visual Prompt Tuning(VPT)

文章介绍

  • 这篇文章于2022年发表在ECCV(European Conference on Computer Vision),作者是Menglin Jia, Luming Tang,Bor-Chun Chen, Claire Cardie, Serge Belongie,Bharath Hariharan, Ser-Nam Lim。
  • VPT是一种有效的用于大规模Transformer的视觉微调,只需要在输入空间引入少量可训练参数,同时冻结backbone。

Abstract

目前适应预训练模型的操作方法涉及更新所有骨干参数,即全面微调。本文介绍了视觉提示调谐(Visual Prompt Tuning, VPT)作为一种有效的替代方案,在视觉上对大型变压器模型进行全微调。从高效调优大型语言模型的最新进展中获得灵感,VPT在保持模型主干冻结的同时,仅在输入空间中引入少量(不到模型参数的1%)可训练参数。通过对各种下游识别任务的广泛实验,我们表明,与其他参数高效调优协议相比,VPT实现了显着的性能提升。最重要的是,在跨模型容量和训练数据规模的许多情况下,VPT甚至优于完全微调,同时降低了每个任务的存储成本。代码可从github.com/kmnp/vpt获得。

1 Introduction

对于大模型适应下游任务时,通常的策略是进行端到端的全面微调,然而这种策略需要为每个人物存储部署单独的主干参数,代价比较高。【提示学习论文七】Visual Prompt Tuning论文原理,提示学习,学习,prompt

  1. 目前的迁移学习:
  • 全精调(Full fine-tuning)
  • 头部导向(Head-oriented)
  • 骨干导向(Backbone-oriented)
  1. VPT相反,在输入空间中添加了额外的参数
  2. 在一系列基于预训练的ViT-B骨干适应的下游分类任务中,展示了不同方法的性能,包括均值和标准差。VPT在24个案例中的20个表现优于全精调,同时使用不到总模型参数的1%。

2 Related Work

3 Approach

我们提出了视觉提示调优(VPT)来适应大型预训练的视觉transformer模型,VPT在Transformer的输入空间中注入少量的可学习参数,并在下游训练阶段保持骨干的冻结。总体框架如图2所示。我们首先在第3.1节定义符号,然后在第3.2节正式描述VPT。
【提示学习论文七】Visual Prompt Tuning论文原理,提示学习,学习,prompt

3.1 准备工作

3.2 Visual-Prompt Tuning(VPT)

给定一个预训练的Transformer模型,在Embed层之后的输入空间中引入了一组p个连续的维度为d的嵌入,即prompts。VPT有两个变体,即VPT-shallowVPT-deep,取决于涉及的Transformer层数。

  • 红色:更新参数
  • 蓝色:冻结参数

3.2.1 VPT-Shallow

Prompts仅插入到第一个Transformer层L1中:
【提示学习论文七】Visual Prompt Tuning论文原理,提示学习,学习,prompt

  • Z i Z_i Zi:第 i i i个Transformer层计算出的特征
  • x i x_i xi:class token
  • E i E_i Ei:图片的第 i i i个patch
  • [ x ⃗ i , Z ⃗ i , E ⃗ i ] ∈ R ( 1 + p + m ) × d [\vec{x}_i, \vec{Z}_i, \vec{E}_i] \in \mathbb{R}^{(1+p+m) \times d} [x i,Z i,E i]R(1+p+m)×d:ViT的输出

3.2.2 VPT-Deep

Prompts引入到每个Transformer层的输入空间中:

【提示学习论文七】Visual Prompt Tuning论文原理,提示学习,学习,prompt
第( i i i+1)层的输入prompt集合: P i = p k i ∈ R d ∣ k ∈ N , 1 ≤ k ≤ m P_i = {p_{k_i} \in \mathbb{R}^d | k \in \mathbb{N}, 1 \leq k \leq m} Pi=pkiRdkN,1km

3.2.3 Storing Visual Prompts 存储视觉提示

VPT在存在多个下游任务时非常有益,只需存储每个任务学到的prompts和分类头(Head),并重复使用预训练Transformer模型的原始副本,从而大大减少了存储成本。

4 实验

主要结果

给出了在4个不同的下游任务组中平均微调预训练的VPT-b/16的结果

模型设计变体的消融

  • Prompt Location(提示位置):VPT和其他方法之间的一个重要区别是作为Transformer层的输入引入了额外的学习参数
    【提示学习论文七】Visual Prompt Tuning论文原理,提示学习,学习,prompt
  • Prompt Length(提示长度):与完全微调相比,这是VPT调优所需的唯一额外超参数。
    【提示学习论文七】Visual Prompt Tuning论文原理,提示学习,学习,prompt
  • Prompt Depth(提示深度):VPT的表现总体上与提示深度呈正相关,如果我们从上到下插入提示,准确的就会下降,这表明Transformer早期层的提示比后期层的提示更重要
    【提示学习论文七】Visual Prompt Tuning论文原理,提示学习,学习,prompt

5 分析和讨论

6 结论

我们提出了可视化提示调优,这是一种新的参数高效方法,可以利用大型视觉Transformer模型进行广泛的下游任务。VPT在输入空间中引入了特定任务的可学习提示,保持预先训练的主干固定。我们证明VPT可以超越其他微调协议(通常包括完全微调),同时极大地降低存储成本。我们的实验也提出了关于不同预训练目标的视觉transformer的微调动力学,以及如何有效地转移到更广泛的视觉识别任务的有趣问题。文章来源地址https://www.toymoban.com/news/detail-797307.html

到了这里,关于【提示学习论文七】Visual Prompt Tuning论文原理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2

    ptuning - Prefix-Tuning - soft promt - p tuning v2 \\\"The Power of Scale for Parameter-Efficient Prompt Tuning\\\" EMNLP 2021 Google Brain 人能理解的不一定是模型需要的,所以不如让模型自己训练所需的prompt。 论文作者:Brian Lester, Rami Al-Rfou Google Blog: \\\"Guiding Frozen Language Models with Learned Soft Prompts\\\" Github Repo J

    2024年02月11日
    浏览(45)
  • 【论文阅读笔记】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    Fischer M, Bartler A, Yang B. Prompt tuning for parameter-efficient medical image segmentation[J]. Medical Image Analysis, 2024, 91: 103024. 【开源】 【核心思想】 本文的核心思想是提出了一种用于医学图像分割的参数高效的提示调整(Prompt Tuning)方法。这种方法基于预训练的神经网络,通过插入可学习的

    2024年01月17日
    浏览(58)
  • Prompt Tuning 和instruct tuning

    prompt的思想是,把下游任务的输入转化为预训练模型的原始任务。 以bert作为举例,假设任务是文本分类。“今天天气很好。”我们想判断一下这句话的情感是正面还是负面 fine-tune的方法是在bert之后接一个head,然后调整整个模型。 prompt 的方法是把下游任务转化为预训练任务

    2024年02月11日
    浏览(39)
  • Prompt Tuning训练过程

    目录 0. 入门 0.1. NLP发展的四个阶段: Prompt工程如此强大,我们还需要模型训练吗? - 知乎 Prompt learning系列之prompt engineering(二) 离散型prompt自动构建 Prompt learning系列之训练策略篇 - 知乎 ptuning v2 的 chatglm垂直领域训练记录_路人与大师的博客-云服务器哪家好 Pretrain + Fine-tunin

    2024年02月09日
    浏览(43)
  • Prompt-Tuning(一)

     一、预训练语言模型的发展过程 第一阶段的模型主要是基于自监督学习的训练目标,其中常见的目标包括掩码语言模型(MLM)和下一句预测(NSP)。这些模型采用了Transformer架构,并遵循了Pre-training和Fine-tuning的训练范式。通过预训练模型在大规模无标签数据上进行学习,可

    2024年02月07日
    浏览(43)
  • 提示学习Prompt介绍

    为什么要用提示学习? 下游任务的目标与预训练的目标差距过大导致提升效果不明显,微调过程中依赖大量的监督语料 降低语义差异:预训练任务主要以(MLM)为主,而下游任务则重新引入新的训练参数,因此两个阶段的目标通常有较大差异; 避免过拟合:由于再Fine-tuni

    2023年04月22日
    浏览(58)
  • 【LLM】Prompt tuning大模型微调实战

    prompt tuning可看做是prefix tuning的简化版本,在输入层加入prompt tokens,并不需要加入MLP进行调整来解决难训练的问题,作者实验表明随着预训练模型参数量的增加,prompt tuning效果逼近fine tuning效果 之前提到过可以借助 peft 库(Parameter-Efficient Fine-Tuning)进行微调,支持如下tuni

    2024年02月13日
    浏览(51)
  • 大语言模型LLM微调技术:Prompt Tuning

    截止23年3月底,语言模型发展走过了三个阶段: 第一阶段 :设计一系列的自监督训练目标(MLM、NSP等),设计新颖的模型架构(Transformer),遵循Pre-training和Fine-tuning范式。典型代表是BERT、GPT、XLNet等; 第二阶段 :逐步扩大模型参数和训练语料规模,探索不同类型的架构。

    2024年02月03日
    浏览(42)
  • 【AIGC】一起学习prompt提示词(1/4)

    本来是参加CSDN提示词的话题活动,但是觉得一次写不完,于是准备写一个系列。 欢迎批评、点赞和关注我。 为了避免大家使用特殊工具,我以国内大模型典范,百度的文心一言(文心一格)作为范例和模板,来说说prompt提示词。 比如你知道文心一言App——“发现”栏目的

    2024年02月02日
    浏览(61)
  • Multitask Vision-Language Prompt Tuning

    本文是LLM系列文章,针对《Multitask Vision-Language Prompt Tuning》的翻译。 提示调整以任务特定的学习提示向量为条件,已成为一种数据高效和参数高效的方法,用于将大型预训练视觉语言模型适应多个下游任务。然而,现有的方法通常考虑从头开始独立地为每个任务学习提示向量

    2024年02月10日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包