Multitask Vision-Language Prompt Tuning

这篇具有很好参考价值的文章主要介绍了Multitask Vision-Language Prompt Tuning。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列文章,针对《Multitask Vision-Language Prompt Tuning》的翻译。

摘要

提示调整以任务特定的学习提示向量为条件,已成为一种数据高效和参数高效的方法,用于将大型预训练视觉语言模型适应多个下游任务。然而,现有的方法通常考虑从头开始独立地为每个任务学习提示向量,从而无法在不同的视觉语言任务中利用丰富的可共享知识。在本文中,我们提出了多任务视觉语言提示调整(MVLPT),它将跨任务知识纳入视觉语言模型的提示调整中。具体而言,(i)我们证明了从多个源任务学习单个可迁移提示以初始化每个目标任务的提示的有效性;(ii)我们表明,许多目标任务可以通过共享提示向量而相互受益,因此可以通过多任务提示调整来联合学习。我们使用三种有代表性的提示调整方法对所提出的MVLPT进行了基准测试,即文本提示调整、视觉提示调整和统一视觉语言提示调整。在20个视觉任务中的结果表明,所提出的方法优于所有单任务基线提示调整方法,在小样本ELEVATER基准和跨任务泛化基准上树立了最先进的水平。为了了解跨任务知识在哪里最有效,我们还对任务可迁移性进行了大规模研究,对每种提示调整方法的400个组合中的20个视觉任务进行了研究。研究表明,对于每种提示调整方法,性能最好的MVLPT都倾向于不同的任务组合,并且许多任务可以相互受益,这取决于它们的视觉相似性和标签相似性。代码可在https://github.com/sIncerass/MVLPT找到。

1 引言

2 相关工作

3 方法

4 实验

5 讨论

6 结论

在本文中,我们提出了多任务视觉语言提示调整(MVLPT)。我们证明,与基线提示学习方法(CoOp、VPT和UPT)相比,MVLPT表现出较强的可推广性和小样本学习性能。性能最高的MVLPT在ELEVATER基准上树立了最先进的新性能。我们还研究了20项视觉任务的任务可迁移性,并为多任务提示学习提供了指导。我们展示了多任务视觉语言提示调整利用了跨任务知识,并有助于在ELEVATER基准上提高单个任务的性能。我们希望我们的研究将启发未来在视觉语言领域进行大规模多任务学习的研究,以及如何更有效地适应各种下游任务。文章来源地址https://www.toymoban.com/news/detail-685304.html

到了这里,关于Multitask Vision-Language Prompt Tuning的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ----论文阅读

    Vary 的代码和模型均已开源,还给出了供大家试玩的网页 demo。感兴趣的小伙伴可以去试试 主页:https://varybase.github.io/ 部分内容参考:https://mp.weixin.qq.com/s/Sg_yHAVVN-yAYT61SNKvCA 官网:https://openai.com/research/clip (要了解的建议看这个,篇幅少点,论文中大量篇幅是介绍实验的) 论

    2024年02月03日
    浏览(51)
  • 论文精读:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

    Status: Reading Author: Chunrui Han, Haoran Wei, Jianjian Sun, Jinrong Yang, Jinyue Chen, Liang Zhao, Lingyu Kong, Xiangyu Zhang, Zheng Ge Institution: 中国科学院大学, 华中科技大学, 旷视科技(MEGVII Technology) Publisher: arXiv Publishing/Release Date: December 11, 2023 Score /5: ⭐️⭐️⭐️ Type: Paper Link: https://arxiv.org/abs/

    2024年02月01日
    浏览(87)
  • (详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

    Haoran Wei1∗, Lingyu Kong2∗, Jinyue Chen2, Liang Zhao1, Zheng Ge1†, Jinrong Yang3, Jianjian Sun1, Chunrui Han1, Xiangyu Zhang1 1MEGVII Technology 2University of Chinese Academy of Sciences 3Huazhong University of Science and Technology arXiv 2023.12.11 背景: 随着大规模视觉-语言模型(LVLMs)的兴起,它们在多个领域展现出了卓

    2024年02月02日
    浏览(69)
  • VLT:Vision-Language Transformer用于引用的视觉语言转换和查询生成分割

    在这项工作中,我们解决了引用分割的挑战性任务。引用分割中的查询表达式通常通过描述目标对象与其他对象的关系来表示目标对象。因此,为了在图像中的所有实例中找到目标实例,模型必须对整个图像有一个整体的理解。为了实现这一点,我们 将引用分割重新定义为直

    2024年02月14日
    浏览(46)
  • 论文阅读《Vision-Language Pre-Training with Triple Contrastive Learning》

    本文是2022年CVPR上的一篇 多模态 论文,利用对比学习和动量来进行图片与文本信息的上游预训练。 作者提出问题 简单的跨模态比对模型无法确保来自同一模态的相似输入保持相似。(模态内部语义信息损失) 全局互信息最大化的操作没有考虑局部信息和结构信息。 对于上

    2024年04月13日
    浏览(51)
  • 【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS

    提出了一种针对视觉语言模型的新型越狱框架  论文地址:https://arxiv.org/abs/2311.05608 代码地址: GitHub - ThuCCSLab/FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts  1.Motivation VLM可以分为三个模块: 语言模块:是一个预先训练的LLM, 已经安全对齐 。 视觉模块:是

    2024年02月03日
    浏览(45)
  • 【视频异常检测】VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection 论文阅读

    文章信息: 发表于:AAAI(CCF A) 原文链接:https://arxiv.org/abs/2308.11681 源码链接:https://github.com/nwpu-zxr/VadCLIP 最近,对比语言-图像预训练(CLIP)模型在各种图像级任务中取得了巨大成功,展现了学习丰富语义的强大视觉表示能力。一个开放且值得探讨的问题是如何高效地将这样一

    2024年03月19日
    浏览(60)
  • X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

    Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks Code CLIP这一类方法只能进行图片级别的视觉和文本对齐; 也有一些方法利用预训练的目标检测器进行目标级别的视觉和文本对齐,但是只能编码目标内部的特征,无法有效表达多目标上下文关联; 本文致力于进行多粒度(

    2024年02月09日
    浏览(42)
  • 【论文笔记】Language Models are Unsupervised Multitask Learners

    回顾一下第一代 GPT-1 : 设计思路是 “海量无标记文本进行无监督预训练+少量有标签文本有监督微调” 范式; 模型架构是基于 Transformer 的叠加解码器(掩码自注意力机制、残差、Layernorm); 下游各种具体任务的适应是通过在模型架构的输出后增加线性权重 W y W_{y} W y ​ 实

    2024年03月17日
    浏览(47)
  • 【GPT-2】论文解读:Language Models are Unsupervised Multitask Learners

    论文:Language Models are Unsupervised Multitask Learners 作者:Alec Radford, Jeff Wu, Rewon Child, D. Luan, Dario Amodei, I. Sutskever 时间:2019 GPT-2 是一个有15亿参数的模型,GPT-2的想法是转向一个通用的系统,不需要进行数据集的标注就可以执行许多的任务; 因为数据集的创建是很难的,我们很难

    2024年02月22日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包