论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

这篇具有很好参考价值的文章主要介绍了论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文地址:https://arxiv.org/pdf/2303.14123.pdf

这是一篇2023年发表在CVPR上的论文,论文题目是Semantic Prompt for Few-Shot Image Recognitio,即用于小样本图像识别的语义提示。

1 Motivation

第一,最近几项研究利用 语义信息 来进行小样本学习的研究。 一方面因为通过少量样本去识别新类别很难,就想使用一些其他模态的信息辅助学习,文本特征可能包含新类和已知类之间的语义关系,所以是一个很好的选择。另一方面因为最近一些出现的强大的自然语言处理(NLP)模型能够从类别中提取出丰富且准确的文本信息。

第二,提出来的这些方法效果并不理想,模型仍然会受到从少量支持样本提取出来的 虚假特征的影响。 因为这些方法直接使用文本嵌入作为图像的分类器,比如 直接 从类名推断出文本原型然后与视觉分类器相结合,这忽略了文本特征和视觉特征之间的 信息差距,因此文本特征无法与视觉特征很好地交互,从而无法给新类别提供 具有判别性的视觉特征。
论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition
如图所示,输入一张独轮车的图像,特征提取器很容易受到背景杂波的影响,比如车上的女孩还有行人、瓦片等等,并且很有可能特征提取器无法识别其他环境中的独轮车,即无法学习到新类别的通用图像表示。

2 Idea

因此,本文提出了一种新的语义提示(SP)的方法,利用丰富的语义信息作为 提示自适应 地调整视觉特征提取器。而不是将文本信息与视觉分类器结合来改善分类器。

本文设计了两种互补机制,将语义提示插入到特征提取器中:一种是通过 自注意力空间维度 上实现 语义提示 和 patch嵌入 之间的交互,另一种是通过沿 通道维度 转换后的语义提示来 补充视觉特征。

通过结合这两种机制,特征提取器提取出具有判别性的与类相关(特定类别) 的特征,并仅用几个支持样本就可以获得 更通用的图像表示。

3 Methods

3.1 训练方法

本文提出的方法包括两个训练阶段:
步骤一采用non-episodic training方法,预训练特征提取器 f 通过分类基类中所有的图像。
步骤二采用元训练范式,使用语义提示(SP) 在大量episodes中 微调特征提取器 f ,使 f 能够在新类中提取出通用和与类相关的视觉特征表示。

3.2 预训练

主干网络采用 Visformer 。它用卷积块替换了前七个 Transformer 层,并在每个阶段之间采用池化以减少序列长度,从而降低计算成本。计算成本和序列长度成正比。

损失函数采用 标准交叉熵损失。目的使其最小化。
论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition
其中W表示分类器,b表示偏差。

具体的训练过程:
第一步,输入图像 x ∈ R H × W × C   x ∈ \mathbb{R}^{H \times W \times C\ } xRH×W×C 先被划分为 M 个patches序列 X = { x p 1 x , x p 2 . . . . . . x p M } X = \left\{x_p^1x, x_p^2......x_p^M \right\} X={xp1x,xp2......xpM},其中 x p i ∈ R P × P × C   x_p^i∈ \mathbb{R}^{P \times P \times C\ } xpiRP×P×C 是一个patch,P 是patch大小。
第二步,每个patch被映射到一个嵌入向量中,并添加一个可学习的位置嵌入。经过预处理的图像patches可以写为: Z 0 = [ z 0 1 , z 0 2 . . . . . . , z 0 M ] Z_0= [z_0^1 , z_0^2......,z_0^M ] Z0=[z01,z02......,z0M],其中 z 0 i ∈ R C z z_0^i ∈ \mathbb{R}^{C_z} z0iRCz是第0层Transformer中位置为 i 的patch token, C z C_z Cz是每个token(标记)的通道数。
第三步,Patch 标记被送入 L 个 Transformer 层以提取视觉特征,每一层都由多头自注意力 (MSA)、MLP 块、层规范 (LN) 和残差连接组成。在顶层L,我们 平均 序列中所有的嵌入向量 作为提取的图像特征:
论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition
其中 z L i z_L^i zLi 是第 L 层的第 i 个嵌入向量

3.3 语义提示

首先,使用具有大规模预训练的 NLP 模型从类名中提取文本特征

论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

具体的训练步骤,如图所示:
第一步,在一个训练episode中,给定一个支持图像 x s x^s xs,我们将其类名 y t e x t y^{text} ytext输入预训练语言模型 g ( ⋅ ) g(·) g()以提取语义特征,即 g ( y t e x t ) g(y^{text}) g(ytext)
第二步,特征提取过程: f g   ( x s ) = f ( x s | g ( y t e x t ) ) f_{g\ }\left(x^s\right)=f\left(x^s\middle| g\left(y^{text}\right)\right) fg (xs)=f(xsg(ytext))
第三步,将每个类中的支持特征平均得到 原型 ,设 p i p_i pi表示类别 i 的原型,则:
论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition
其中 x j s x_j^s xjs是第 i 类的第 j t h j^{th} jth支持图像。
第四步,在元训练期间,冻结文本编码器 g(·) 并微调其他参数,通过使用 交叉熵损失 来最大化查询样本与其原型之间的特征相似性 :
论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition
其中 s 表示余弦相似度, p y q p_{y^q} pyq是类 y q y^q yq 的原型,τ 是温度超参数。

3.3.1 空间维度的交互

为了促进空间维度上的交互,本文使用语义提示 扩展 图像patch序列 后再提供给 Transformer 编码器。通过自注意层,语义提示可以使特征提取器注意到与类相关的特征,同时抑制其他不相关特征。

给定语义特征 g ( y t e x t ) g(y^{text}) g(ytext) 和第 l 层的patch嵌入的输入序列 Z l − 1 = [ z l − 1 1 , z l − 1 2 , … , z l − 1 M ] ∈ R M × C z Z_{l-1}=\left[z_{l-1}^1,z_{l-1}^2,\ldots,z_{l-1}^M\right]\in\mathbb{R}^{M\times C_z} Zl1=[zl11,zl12,,zl1M]RM×Cz

使用 投影后的语义特征 扩展   Z l − 1 {\ Z}_{l-1}  Zl1 获得一个新序列 z ^ l − 1 {\hat{z}}_{l-1} z^l1 R ( M + 1 ) × C z \mathbb{R}^{(M+1)\times C_z} R(M+1)×Cz
论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition
其中   z 0 = h s ( g ( ( y t e x t ) )   ∈   R C z {\ z}^0=h_s(g((y^{text}))\ \in\ \mathbb{R}^{C_z}  z0=hs(g((ytext))  RCz 是空间交互的投影语义嵌入, h s ( ⋅ ) h_s(·) hs()是保持语义嵌入维度与patch嵌入相同的投影器。

然后,扩展序列 z ^ l − 1 {\hat{z}}_{l-1} z^l1被送到其他Transformer 层以允许语义提示和patch标记之间沿空间维度的交互。

具体来说:
第一步,MSA将 z ^ l − 1 {\hat{z}}_{l-1} z^l1中的每个标记通过线性投影映射到三个向量 q , k , v ∈ R N h × ( M + 1 ) × C z q, k, v ∈ \mathbb{R}^{N_h\times\left(M+1\right)\times C_z} q,k,vRNh×(M+1)×Cz
论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition
其中 N h N_h Nh是注意头数, C h C_h Ch是每个注意头的通道数。

第二步,计算q 和 k 的内积并沿空间维度执行 softmax 来计算注意力权重 A {A} A R N h × ( M + 1 ) × ( M + 1 ) \mathbb {R}^{N_h \times (M+1) \times (M+1)} RNh×(M+1)×(M+1)
论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition
注意力权重用于选择和聚合来自不同位置的信息。

第三步,通过相加连接所有头的输出并通过线性投影得到最终输出
论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

3.3.2 通道维度的交互

对于通道维度上的交互,本文首先将语义提示与从 所有patches中提取的视觉上下文 连接起来,然后将它们提供给 MLP 模块(多层感知机)。将 提取的特征向量 添加到每个patch标记中,以 逐个通道地 调制和增强视觉特征。

首先获得全局视觉上下文向量 z l − 1 C ∈ R C z z_{l-1}^C ∈ \mathbb{R}^{C_z} zl1CRCz, 通过对所有patch 标记进行平均:
论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition
将视觉上下文 Z l − 1 c Z_{l-1}^c Zl1c 与投影语义向量   z 0 {\ z}^0  z0连接起来,送入 2 层 MLP 模块以获得调制向量 β l − 1 ∈ R C z \beta_{l-1}\in R^{C_z} βl1RCz:
论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition
其中 W 1 、 b 1 、 W 2 、 b 2 W_1、b_1、W_2、b_2 W1b1W2b2是 MLP 模块的参数,σ 是 sigmoid 激活函数, h c h_c hc是通道交互的投影器。

最终将调制向量添加到所有patch 标记,以便它可以调整每个通道的视觉特征。

调制序列 Z ~ l − 1 ∈ R M × C z {\widetilde{Z}}_{l-1} ∈ \mathbb{R}^{M\times C_z} Z l1RM×Cz 可以写成:
论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

4 Results

1-shot上由明显提升,CLIP为文本编码器
论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition
论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

消融实验
论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition文章来源地址https://www.toymoban.com/news/detail-442055.html

到了这里,关于论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】 Few-shot object detection via Feature Reweighting

    Few-shot object detection的开山之作之一 ~~ 属于Metric-based Methods 特征学习器使用来自具有足够样本的基本类的训练数据来 提取 可推广以检测新对象类的meta features。The reweighting module将新类别中的一些support examples转换为全局向量,该全局向量indicates meta features对于检测相应物体的重

    2023年04月09日
    浏览(42)
  • 【论文阅读】Language Models are Few-Shot Learners(GPT-3)

    本文简要介绍了GPT-3的背景,模型架构,训练数据以及训练方式部分。具体训练细节,实验结果很多,可以在用到的时候再看 本文剖析了pretrain-finetune架构存在的问题: 对于每个新的任务,都需要大量的标注数据 将表达能力更强的模型(预训练阶段要求用大模型)在比较窄的

    2024年02月14日
    浏览(53)
  • Prompt-“设计提示模板:用更少数据实现预训练模型的卓越表现,助力Few-Shot和Zero-Shot任务”

    通过设计提示(prompt)模板,实现使用更少量的数据在预训练模型(Pretrained Model)上得到更好的效果,多用于:Few-Shot,Zero-Shot 等任务。 prompt 是当前 NLP 中研究小样本学习方向上非常重要的一个方向。举例来讲,今天如果有这样两句评论: 什么苹果啊,都没有苹果味,怪怪

    2024年02月11日
    浏览(46)
  • few-shot / one shot / zero shot object counting论文汇总

    code: https://paperswithcode.com/paper/class-agnostic-counting 摘要:几乎所有现有的计数方法都是为一个特定的对象类而设计的。然而,我们的工作旨在创建一个能够计数任何类对象的计数模型。为了实现这一目标,我们将计数表述为一个匹配问题,使我们能够利用对象计数问题中自然存

    2024年02月09日
    浏览(46)
  • (GPT3)Language Models are Few-Shot Learners论文阅读

    论文地址:https://arxiv.org/pdf/2005.14165v4.pdf         最近的工作表明, 通过对大量文本语料库进行预训练,然后对特定任务进行微调,许多 NLP 任务和基准测试取得了实质性进展 。 虽然在体系结构中通常与任务无关,但此方法仍然需要特定于任务的微调数据集,其中包含数

    2024年02月08日
    浏览(65)
  • Prompt learning 教学[进阶篇]:简介Prompt框架并给出自然语言处理技术:Few-Shot Prompting、Self-Consistency等;项目实战搭建知识库内容机器人

    看完基础篇的各种场景介绍后,你应该对 Prompt 有较深的理解。之前的章节我们讲的都是所谓的「术」,更多地集中讲如何用,但讲「道」的部分不多。高级篇除了会讲更高级的运用外,还会讲更多「道」的部分。高级篇的开篇,我们来讲一下构成 prompt 的框架。 查阅了非常

    2024年02月04日
    浏览(51)
  • 【论文精读】CONTAINER: Few-Shot Named Entity Recognition via Contrastive Learning

    一篇来自ACL2022的文章,采用对比学习的方法提高模型的性能,在实现方法上和实验论证部分很值得借鉴,至于和大模型性能的对比,还需要进一步的调研~ 低资源场景NER不可或缺,但现有的方法仅从源域学习特定的语义特征和中间表示,这会影响对目标域的泛化能力,降低性

    2024年02月05日
    浏览(57)
  • 论文阅读---Albert :Few-shot Learning with Retrieval Augmented Language Models

    增强语言模型 Augmented Language Models https://arxiv.org/abs/2208.03299 提前知识: BERT (Bidirectional Encoder Representations from Transformers)是一种预训练语言模型,它通过在大规模文本数据上进行预训练,学习文本的双向表示,并在多种NLP任务中展现出卓越的性能。BERT的双向性意味着它能够

    2024年04月23日
    浏览(41)
  • CVPR2023(论文笔记)

    基于抽象的鲁棒图像分类模型高效训练与验证方法: 针对问题: 深度神经网络在面对对抗性攻击时的鲁棒性问题 提出了一种基于抽象的、经过认证的训练方法,用于提高深度神经网络对抗性攻击的鲁棒性;提出黑盒验证方法,该方法与神经网络的大小和架构无关,可扩展到

    2024年02月09日
    浏览(60)
  • An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

    本文是LLM系列文章,针对《An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA》的翻译。 基于知识的视觉问答(VQA)涉及回答需要图像中不存在的外部知识的问题。现有的方法首先从外部资源中检索知识,然后对所选知识、输入图像和问答预测进行推理。然而,这种两步走的方法

    2024年02月09日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包