论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!

这篇具有很好参考价值的文章主要介绍了论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文基本信息

论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!,细粒度跨模态检索,计算机视觉,人工智能,深度学习

论文:Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval
代码:https://github.com/anosorae/IRRA

这是今年CVPR2023的工作,也是目前在语言行人检索领域实现SOTA性能的模型,模型整体并不复杂性能却很好,代码也做了开源,是一个非常好的工作。

下面将对该文章进行简要的梳理与记录,还不太了解该任务的小伙伴可以看一下博主之前的介绍文章:
《基于自然语言描述的行人检索 Text-based Person Retrieval - 常用数据集》

引言

文本行人检索旨在基于给定的文本描述查询识别目标人物,该任务的首要挑战是学习一个视觉和文本模态到共同潜在空间的映射,然后在该映射空间中完成相似图文对的匹配。

那么先前的工作都是怎么做的呢?主流方法都是分别通过两个预训练好的单模态模型来提取图片和文本特征,并且利用先验信息来显示地对齐图像和文本之间的关系,从而做出最终的预测。如果感觉不太好理解可以看一下原论文的图:

论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!,细粒度跨模态检索,计算机视觉,人工智能,深度学习
最简单最直接的方法就是用两个模态的编码器来分别提取图像和文本特征,然后做一个全局匹配,比如分别用ViT和BERT提取图像和文本特征,然后将全局特征向量投影到共同空间中做一个点积,响应高的就视为匹配图文对,这就是(a)图中的方法。

这样的全局匹配显然是缺乏一定细粒度对齐能力的,于是就有了图(b)中这种显示局部对齐的方法。具体来说就是根据行人图像的先验信息,把图片划分为头、上身、下身等等几个部分,然后分别提取这几个区域的特征作为行人图片的局部特征;同样的,对于自然语言描述进行相关的名词抽取、语句分析等,提取住一些关键的名词的特征作为描述语言的局部特征,然后进行一个显示的局部匹配。这种局部匹配策略虽然有利于提升检索性能,但在检索过程中引入了不可避免的噪声和不确定性;此外,该策略需要在推理过程中计算这些表示之间的成对相似性,降低了推理速度。

针对上述问题,该文章就提出了一种跨模态隐式推理和对齐模型(cross-modal Implicit Relation Reasoning and Aligning, IRRA),该框架借助跨模态隐式局部关系学习进行全局对齐,而不需要任何额外的监督和推理代价,如图©所示。具体来说,IRRA设计了一个隐式关系推理模块,通过自注意力和交叉注意力机制有效地构建视觉和文本表示之间的关系,然后利用该融合表示来做语言掩码建模(MLM)任务,实现有效的隐式模态间和模态内细粒度关系学习;其次,为了全局对齐视觉和文本嵌入,提出了相似性分布匹配损失来最小化图像-文本相似性分布与标准化标签匹配分布之间的KL散度。

IRRA在所有三个公开数据集上都取得了最新的结果,与之前的方法相比,Rank-1准确率有大约3%-9%的显著提升。

模型

论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!,细粒度跨模态检索,计算机视觉,人工智能,深度学习
模型的总体架构如上图所示,如果用一段话来描述这段模型的话,可以概括为:

IRRA首先利用预训练好的CLIP模型来分别提取视觉和文本特征,分别得到图像[cls]特征向量和整体特征向量序列、文本[cls]特征向量和整体特征向量序列。随后开始进行全局匹配监督和局部隐式推理监督两个任务,全局匹配就是对图像[cls]特征和文本[cls]特征做点乘得到相似度矩阵,然后与真实的标签分布做KL散度损失;局部隐式推理就是做了一个跨模态的MLM任务,首先对文本描述序列进行随机单词屏蔽,然后使用交叉注意力机制和自注意力机制进行跨模态融合,然后对屏蔽单词进行预测,由此完成模型的细粒度对其学习。

接下来我们详细地介绍一下每个模块的具体架构:

模态编码器

编码器部分就是使用的预训练好的CLIP模型,图像这边使用的是ViT16/32模型,而没有使用ResNet系列的模型;文本这边使用的就是CLIP Text Transformer。

Implicit Relation Reasoning 模块与 MLM 任务

论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!,细粒度跨模态检索,计算机视觉,人工智能,深度学习
隐式推理部分就是借鉴了MLM任务的思想,即按照BERT模型的方式对语言进行随机掩码,然后使用一个跨模态注意力机制交互语言和图像信息,最后预测出相应的掩码单词,以此来提升模型的细粒度对齐能力。

IRRA使用的跨模态注意力机制比较类似于单向跨模态注意力机制,同样是文本做query、图像做key和value进行交互,不同之处在于其只用一个交叉注意力机制然后堆叠了 M M M个自注意力机制和前向网络,如下图所示。
论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!,细粒度跨模态检索,计算机视觉,人工智能,深度学习

Similarity Distribution Matching

全局匹配就是通过常用的点乘方式得到图像和文本之间的相似度矩阵,然后和真实的分布矩阵计算KL散度损失,在这中间还加入了温度系数调节相似度矩阵的峰值,整体上没有太多改进。
论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!,细粒度跨模态检索,计算机视觉,人工智能,深度学习

结果

结果当然是非常好的,IRRA在CUHK-PEDES、ICFG-PEDES和RSTPReid数据集上均实现了SOTA的性能,并且提升幅度是很大的。

论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!,细粒度跨模态检索,计算机视觉,人工智能,深度学习
论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!,细粒度跨模态检索,计算机视觉,人工智能,深度学习
论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!,细粒度跨模态检索,计算机视觉,人工智能,深度学习文章来源地址https://www.toymoban.com/news/detail-542925.html

到了这里,关于论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer

    抛砖引玉了,如有不同意见欢迎讨论。 在超分Transformer中激活更多像素。 澳门大学、中科大、上海人工智能实验室的,董超老师的团队。 CVPR2023。 LAM:一种为SR任务设计的归因方法,能显示模型在进行超分辨率重建的过程中哪些像素起到了作用。一般来说,被利用像素的范围

    2024年02月11日
    浏览(41)
  • CVPR 2023 | EfficientViT:让ViT在多个部署场景实现实时推理

    随着近两年来对视觉Transformer模型(ViT)的深入研究,ViT的表达能力不断提升,并已经在大部分视觉基础任务 (分类,检测,分割等) 上实现了大幅度的性能突破。 然而,很多实际应用场景对模型实时推理的能力要求较高,但大部分轻量化ViT仍无法在多个部署场景 (GPU,CPU,

    2024年02月05日
    浏览(39)
  • 【论文合集】CVPR2023年 部分论文

    参考: CVPR 2023 最全整理:论文分方向汇总 / 代码 / 解读 / 直播 / 项目(更新中)【计算机视觉】-极市开发者社区 (cvmart.net) amusi/CVPR2023-Papers-with-Code: CVPR 2023 论文和开源项目合集 (github.com)   [7]Fine-Grained Face Swapping via Regional GAN Inversion paper [6]Cross-GAN Auditing: Unsupervised Identifica

    2024年02月12日
    浏览(52)
  • 【CVPR 2023】FasterNet论文详解

    论文名称:Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks 论文地址:https://arxiv.org/abs/2303.03667 作者发现由于效率低下的每秒浮点运算,每秒浮点运算的减少并不一定会导致类似水平的延迟减少。提出通过同时减少冗余计算和内存访问有效地提取空间特征。然后基于PConv进

    2023年04月14日
    浏览(45)
  • CVPR2023对抗攻击相关论文

    Feature Separation and Recalibration for Adversarial Robustness 论文链接:http://arxiv.org/abs/2303.13846v1 代码地址:GitHub - wkim97/FSR: Feature Separation and Recalibration (CVPR 2023) 摘要:由于特征层面的扰动积累,深度神经网络容易受到对抗性攻击,许多研究通过停用导致模型错误预测的非鲁棒特征激活

    2024年02月09日
    浏览(42)
  • CVPR 2023 论文和开源项目合集

    向AI转型的程序员都关注了这个号👇👇👇 Backbone CLIP MAE GAN GNN MLP NAS OCR NeRF DETR Diffusion Models(扩散模型) Avatars ReID(重识别) 长尾分布(Long-Tail) Vision Transformer 视觉和语言(Vision-Language) 自监督学习(Self-supervised Learning) 数据增强(Data Augmentation) 目标检测(Object Detection) 目标跟踪(Visual

    2024年02月07日
    浏览(33)
  • CVPR2023论文及代码合集来啦~

    以下内容由马拉AI整理汇总。 下载 :点我跳转。  狂肝200小时的良心制作,529篇最新CVPR2023论文及其Code,汇总成册,制作成《CVPR 2023论文代码检索目录》,包括以下方向: 1、2D目标检测 2、视频目标检测 3、3D目标检测 4、人物交互检测 5、显著性目标检测 6、车道线检测 7、异

    2023年04月26日
    浏览(47)
  • CVPR 2023 医学图像分割论文大盘点

    点击下方 卡片 ,关注“ CVer ”公众号 AI/CV重磅干货,第一时间送达 点击进入— 【医学图像分割】微信交流群 被催了很久,CVer 正式开启 CVPR 2023 论文大盘点系列 ! Amusi 一共搜集了13篇医学图像分割论文 ,这应该是目前各平台上 最新最全面的CVPR 2023 医学图像分割盘点资料

    2024年02月14日
    浏览(40)
  • CVPR2023 | 70+目标检测论文及代码整理

    目标检测是当下应用最广的计算机视觉任务之一。本文整理了CVPR 2023 目标检测相关论文72篇,覆盖包括2D目标检测、3D目标检测、视频目标检测、人物交互检测、异常检测、伪装目标检测、关键点检测、显著性目标检测、车道线检测、边缘检测等10个细分任务。并且每篇论文都

    2024年02月10日
    浏览(36)
  • CVPR 2023 | 美团技术团队精选论文解读

    本文精选了美团技术团队被CVPR 2023收录的8篇论文进行解读。这些论文既有自监督学习、领域自适应、联邦学习等通用学习范式方面的技术迭代,也涉及目标检测、跟踪、分割、Low-level Vision等典型视觉任务的性能,体现了美团在基础通用技术和垂直领域技术上的全方位创新。

    2024年02月09日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包