Not All Features Matter:Enhancing Few-shot CLIP with Adaptive Prior Refinement

这篇具有很好参考价值的文章主要介绍了Not All Features Matter:Enhancing Few-shot CLIP with Adaptive Prior Refinement。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

APE是ICCV2023的一篇文章,也是我在这个领域里接触的第一篇文章,这里主要做一下记录。

论文链接:2304.01195.pdf (arxiv.org)

代码链接:yangyangyang127/APE: [ICCV 2023] Code for "Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement" (github.com)

概述

对于多模态任务而言,大量数据的获得是耗费人力和物力的,因此few-shot的训练方式一直备受关注。目前已经证实了CLIP模型的超强性能,很多研究人员提出了基于CLIP的检测算法,然而多数都是在研究如何更好地利用CLIP提取出的features,本文则从“Not All Features Matter”的角度进行了新的探索,提出了一个Adaptive Prior rEfinement方法,用于处理特征中的冗余信息,除此之外还提出了无需训练的APE和需要训练的APE-T方法。

相关介绍

基于CLIP的few-shot的图像分类工作已经存在很多,大致可以分为两类——Non-prior Methods和Prior-based Methods。Not All Features Matter:Enhancing Few-shot CLIP with Adaptive Prior Refinement,论文,算法,pytorch,机器学习,人工智能

 如上图所示,图(a)就是前者[CLIP-Adapter],这种方法随机初始化无CLIP先验的可学习模块,并在少量训练中进行优化。这种网络只引入了轻量级的可学习参数,但由于没有为附加模块明确考虑预训练的先验知识,因此其精度有限。图(b)为Prior-based Methods,基于先验的方法(Prior-based Methods)通过从少数镜头数据中提取clip提取的特征构建键值缓存模型,能够以不需要训练的方式进行识别,包括Tip-Adapter和Tip-X。他们可以进一步将缓存模型视为执行良好的初始化,并微调缓存键以获得更好的分类精度。这些基于先验的方法明确地将先验知识注入到训练过程中,但由于缓存大小大且可学习参数多,因此比较麻烦。而作者的想法就是将二者结合起来,提出了一个对the test image, the refined cache model, and the textual representations的三角关系进行探究的APE方法。

模型结构

Prior Refinement of CLIP

这个模块主要是通过提出的两个指标对特征进行去冗余操作,实现对不同的下游任务场景提取出重要的特征通道,从而改善特征质量。

Inter-class Similarity

Not All Features Matter:Enhancing Few-shot CLIP with Adaptive Prior Refinement,论文,算法,pytorch,机器学习,人工智能

 如果直接按照上图计算,那么计算成本过大,由于预训练好的CLIP已经能够很好对视觉语言信息进行匹配,因此作者选择使用文本特征替代图像的计算。通过计算得到了特征通道之间的相似度,从而能够选择出相似度较小的一部分特征通道,作为重要信息。

Not All Features Matter:Enhancing Few-shot CLIP with Adaptive Prior Refinement,论文,算法,pytorch,机器学习,人工智能

 Inter-class Variance

除了计算Inter-class Similarity作者还引入了 Inter-class Variance用于提出差异度较大的一部分特征通道。

Not All Features Matter:Enhancing Few-shot CLIP with Adaptive Prior Refinement,论文,算法,pytorch,机器学习,人工智能

 最后通过调节系数对二者进行调整,构成了文章所提出了Prior Refinement of CLIP。其实,可以看出这个操作和通道注意力存在类似的思想,都是在通道维度上进行信息加强,还有很多其他的工作也是基于了类似的思想,可以作为一个idea用于不同领域,值得借鉴。

Training-free APE

Not All Features Matter:Enhancing Few-shot CLIP with Adaptive Prior Refinement,论文,算法,pytorch,机器学习,人工智能

 如上图所示,基于先验优化(PR), APE以无训练的方式探索了视觉语言表征的三边关系。

Not All Features Matter:Enhancing Few-shot CLIP with Adaptive Prior Refinement,论文,算法,pytorch,机器学习,人工智能

 Training-required APE-T

Not All Features Matter:Enhancing Few-shot CLIP with Adaptive Prior Refinement,论文,算法,pytorch,机器学习,人工智能

 Not All Features Matter:Enhancing Few-shot CLIP with Adaptive Prior Refinement,论文,算法,pytorch,机器学习,人工智能

 Not All Features Matter:Enhancing Few-shot CLIP with Adaptive Prior Refinement,论文,算法,pytorch,机器学习,人工智能文章来源地址https://www.toymoban.com/news/detail-639646.html

到了这里,关于Not All Features Matter:Enhancing Few-shot CLIP with Adaptive Prior Refinement的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】 Few-shot object detection via Feature Reweighting

    Few-shot object detection的开山之作之一 ~~ 属于Metric-based Methods 特征学习器使用来自具有足够样本的基本类的训练数据来 提取 可推广以检测新对象类的meta features。The reweighting module将新类别中的一些support examples转换为全局向量,该全局向量indicates meta features对于检测相应物体的重

    2023年04月09日
    浏览(42)
  • 【论文阅读】Language Models are Few-Shot Learners(GPT-3)

    本文简要介绍了GPT-3的背景,模型架构,训练数据以及训练方式部分。具体训练细节,实验结果很多,可以在用到的时候再看 本文剖析了pretrain-finetune架构存在的问题: 对于每个新的任务,都需要大量的标注数据 将表达能力更强的模型(预训练阶段要求用大模型)在比较窄的

    2024年02月14日
    浏览(54)
  • (GPT3)Language Models are Few-Shot Learners论文阅读

    论文地址:https://arxiv.org/pdf/2005.14165v4.pdf         最近的工作表明, 通过对大量文本语料库进行预训练,然后对特定任务进行微调,许多 NLP 任务和基准测试取得了实质性进展 。 虽然在体系结构中通常与任务无关,但此方法仍然需要特定于任务的微调数据集,其中包含数

    2024年02月08日
    浏览(66)
  • 杂记 | Langchain中few-shot提示词模板的使用(给提示词添加示例)

    Langchain是一个集成多个大语言模型的开源框架,可以使用它来快速开发大语言模型应用。 本文的代码使用到的模块: 先来看看普通的提示词模板如何使用,效果如何: 在这个示例中,对大模型的输入为: 大模型的输出为: 可以看到输出并不能很好地满足我们的需求,因为

    2024年02月07日
    浏览(37)
  • 论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

    论文地址:https://arxiv.org/pdf/2303.14123.pdf 这是一篇2023年发表在CVPR上的论文,论文题目是Semantic Prompt for Few-Shot Image Recognitio,即用于小样本图像识别的语义提示。 第一,最近几项研究利用 语义信息 来进行小样本学习的研究。 一方面因为通过少量样本去识别新类别很难,就想使

    2024年02月04日
    浏览(56)
  • 论文阅读---Albert :Few-shot Learning with Retrieval Augmented Language Models

    增强语言模型 Augmented Language Models https://arxiv.org/abs/2208.03299 提前知识: BERT (Bidirectional Encoder Representations from Transformers)是一种预训练语言模型,它通过在大规模文本数据上进行预训练,学习文本的双向表示,并在多种NLP任务中展现出卓越的性能。BERT的双向性意味着它能够

    2024年04月23日
    浏览(42)
  • 【论文精读】CONTAINER: Few-Shot Named Entity Recognition via Contrastive Learning

    一篇来自ACL2022的文章,采用对比学习的方法提高模型的性能,在实现方法上和实验论证部分很值得借鉴,至于和大模型性能的对比,还需要进一步的调研~ 低资源场景NER不可或缺,但现有的方法仅从源域学习特定的语义特征和中间表示,这会影响对目标域的泛化能力,降低性

    2024年02月05日
    浏览(57)
  • 论文笔记|CVPR2023:Supervised Masked Knowledge Distillation for Few-Shot Transformers

    这篇论文的题目是 用于小样本Transformers的监督遮掩知识蒸馏 论文接收: CVPR 2023 论文地址: https://arxiv.org/pdf/2303.15466.pdf 代码链接: https://github.com/HL-hanlin/SMKD 1.ViT在小样本学习(只有少量标记数据的小型数据集)中往往会 过拟合,并且由于缺乏 归纳偏置 而导致性能较差;

    2024年02月06日
    浏览(53)
  • Spectral Adversarial MixUp for Few-Shot Unsupervised Domain Adaptation论文速读

    域偏移是临床应用中的常见问题,其中训练图像(源域)和测试图像(目标域)处于不同的分布下。已经提出了无监督域适应 (UDA) 技术,以使在源域中训练的模型适应目标域。但是,这些方法需要来自目标域的大量图像进行模型训练。 本文提出了一种新的少样本无监督域

    2024年04月28日
    浏览(42)
  • Prompt-“设计提示模板:用更少数据实现预训练模型的卓越表现,助力Few-Shot和Zero-Shot任务”

    通过设计提示(prompt)模板,实现使用更少量的数据在预训练模型(Pretrained Model)上得到更好的效果,多用于:Few-Shot,Zero-Shot 等任务。 prompt 是当前 NLP 中研究小样本学习方向上非常重要的一个方向。举例来讲,今天如果有这样两句评论: 什么苹果啊,都没有苹果味,怪怪

    2024年02月11日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包