跨模态检索论文阅读:Learning Semantic Relationship among Instances for Image-Text Matching学习实例之间的语义关系实现图像-文本匹配

这篇具有很好参考价值的文章主要介绍了跨模态检索论文阅读:Learning Semantic Relationship among Instances for Image-Text Matching学习实例之间的语义关系实现图像-文本匹配。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

摘要

图像-文本匹配是连接图像和语言的桥梁,也是一项重要的任务,它一般通过学习跨模态的整体嵌入来实现两种模态之间高质量的语义对齐。然而,以往的研究只关注捕捉特定模态的样本内的片段级关系,例如图像中的突出区域或句子中的文本词,而通常不太关注捕捉样本和模态之间的实例级交互,例如多个图像和文本。 因此,我们提出了一种新颖的分层关系建模框架(HREM),它能明确捕捉片段和实例级关系,以学习具有区分性和鲁棒性的跨模态嵌入。 在Flickr30K和MS-COCO上进行的大量实验表明,我们提出的方法在rSum方面比最先进的方法高出4%-10%。我们的代码可在https://github.com/CrossmodalGroup/HREM。
learning semantic relationship among instances for image-text matching,深度学习,# 跨模态检索,论文阅读,HREM,跨模态检索,深度学习
图 1. 我们的动机说明。样本关系建模改进了跨模态学习的整体表征。颜色和形状分别表示不同的模态和图像-文本对。橙色元素表示有效的交互:(a) 在前人和我们工作的流水线上,我们添加了样本间的跨模态关系交互。(b) 对于 "带冲浪板的冲浪者 "这一相同主题,具体行为存在细微差别,如 "握住/蹲下/骑在冲浪板上 "和 “盯着/冲破/擦出海浪”。我们的方法可将这些硬否定样本与语义模糊样本区分开来。(c ) 对于 "man play a ball "下的相似主题,相应的行为通常语义相似,如 "play the hockey/cricket/polo "都需要用 "stick/bats "来 “击球”。我们的方法可以在这些语义稀缺的不常见样本上改进嵌入学习。

3.提出的方法

图 2 是 HREM 的概览。我们首先在第 3.1 节介绍特征提取,在第 3.2 节介绍片段级关系建模。然后在第 3.3 节中介绍实例级关系建模。最后,我们将在第 3.4 节中介绍优化方法,并在第 3.5 节中进行讨论。
learning semantic relationship among instances for image-text matching,深度学习,# 跨模态检索,论文阅读,HREM,跨模态检索,深度学习
图 2. 分层关系建模框架(HREM)概述。给定 N 对图像-文本(本图中 N = 3),我们首先捕捉片段级关系,并为每张图像或文本独立学习关系增强局部特征,然后通过池化操作聚合局部特征,得到全局嵌入 {vi, ui}N i=1。接下来,我们提出了一种新颖的交叉嵌入关联图,通过识别连接关系和学习样本间的相关性关系来捕捉实例级关系。最后,我们提出了两种跨模态关系交互机制,以获得关系增强嵌入,并计算最终损失函数。

3.1. 特征提取

视觉表征:给定图像 I 后,我们使用自下而上的注意力网络 [1],通过 Faster-RCNN [37] 提取突出区域,并通过预训练的 ResNet-101 [15] 获得区域特征。然后,我们添加一个全连接(FC)层,将每个区域映射为 d 维局部特征。我们将 R = {r1, - - , rnr } 表示为 ∈ Rnr×d 是图像 I 的视觉片段和局部特征,nr 是区域特征的数量。

文本表示:给定一个句子 T,我们使用序列模型、双向门控递归单元(BiGRU)[38] 或预训练 BERT [6] 来提取单词特征集。我们还添加了一个 FC 层,以保持与图像相同的维度。我们将 C = {c1, - - , cnc } 表示为 ∈Rnc×d,它是文本的文本片段和局部特征,nc 是单词特征的个数。

3.2. 片段级关系建模

为了捕捉片段之间的上下文信息并增强 3.1 节介绍的两种模态的局部特征,我们分别针对视觉区域和文本词提出了片段级关系建模。

3.3. 实例级关系建模

为了更好地学习第 3.2 节中获得的跨模态嵌入,我们提出了多图像和文本的实例级关系建模。 给定图像-文本对及其嵌入图{vi,ui}Ni=1,我们提出了一个新的交叉嵌入关联图G(V,E),其中节点是嵌入图V={v1,…,vN,u1…,uN}∈R2N×d,边E是成对的语义关系。

3.3.1 交叉嵌入关联图

关键的挑战在于如何准确地构建成对关联图。 在不失一般性的前提下,我们将关联图分为两部分:关联性和相关性。

我们用矩阵 A∈R2N×2N 来表示连接关系,即节点之间是否存在关联边。 我们用矩阵 S∈R2N×2N 来表示相关性关系,即节点之间的语义关联度。 此外,我们将这些矩阵分为两种模式和四个块:模内关系(图像到图像 I I、文本到文本 T T)和模间关系(图像到文本 I T、文本到图像 T I),每个块的形状等于 RN×N。
learning semantic relationship among instances for image-text matching,深度学习,# 跨模态检索,论文阅读,HREM,跨模态检索,深度学习
图 3 利用片段级匹配构建模态间关系图。对于每一对图像-文本,我们使用相应的模块得到连接关系 aI→T (aT →I )和相关性关系 sI→T (sT →I ),它们是连接矩阵 AI→T (AT →I )和相关性矩阵 SI→T (ST →I )的元素。

3.3.2 关系互动机制

在 3.3.1 节中构建了交叉嵌入关联图之后,我们设计了两种关系交互机制来捕捉图像和文本之间的语义关系,其中嵌入是通过信息交互过程更新的,如图 4 所示。
learning semantic relationship among instances for image-text matching,深度学习,# 跨模态检索,论文阅读,HREM,跨模态检索,深度学习
图 4. 基于如何探索模态间和模态内关系的两种关系交互机制。如公式(12)所示,连接矩阵 A 和相关性矩阵 S 可全部或单独应用于注意力模块。
融合机制:如图 4b 所示,我们将视觉和文本嵌入作为输入。模态间和模态内的关系交互是同步进行的。嵌入信息首先经过多头自注意模块,以实现注意多样性。此外,我们采用多层感知器实现的前馈网络模块进行关系推理[41]。它与 3.2 节中的片段级交互模块类似。我们还在其后添加了残差连接[15]和层归一化[2]。连接矩阵 A 是注意力模块的注意力屏蔽矩阵,其中零位置不允许参加,而非零位置则保持不变 [41]。相关性矩阵 S 是作为显式关系建模的额外注意力权重矩阵,我们使用 λ 来平衡 S 与原始注意力权重矩阵。

Standalone机制
如图 4a 所示,视觉嵌入和文本嵌入被送入两个分支,并获得关系交互。嵌入词首先通过多头交叉注意模块获得模态间关系交互,其中 Q 和 K、V 来自两种模态。然后,它们通过多头自注意模块获得模内关系交互,其中 Q、K、V 来自同一模态。最后,通过前馈网络模块输出增强嵌入。

首先将连接矩阵 A 和相关性矩阵 S 分成预先定义的四块,如式(4)所示,然后将每块应用到相应的模块,如式(12)所示。具体来说,模态间关系部分作用于第一个交叉注意模块,模态内关系部分作用于第二个自注意模块。经过 L 层关系交互机制后,我们最终得到两种模态的关系增强嵌入,即 {v1, …, vN } 和 {u1 …, uN }。

3.4. 优化

邻居批量采样:为了确保 3.3 节中的有效关系互动,我们提出了一种邻居抽样方法,以取代后期训练中的批次随机抽样。我们使用 k-means 聚类[30]对视觉嵌入进行聚类,然后随机选择 P 个聚类,并从每个聚类中选择 K 幅图像,批量大小 N = P × K。
目标函数:我们使用三重损失法[10],相似度得分是视觉嵌入 v 和文本嵌入 u 之间的余弦相似度。我们使用距离加权采样 [31] 来进行硬负挖掘。我们不仅使用关系增强嵌入式来计算匹配损失,如式(13)所示,而且还为匹配损失添加了初始嵌入式,以保持嵌入式的一致性,因为我们需要在推理阶段直接对嵌入式进行编码,而无需样本交互。

3.5. 讨论

推理阶段:由于实际应用中可能没有批量数据,我们的框架可以在推理阶段对跨模态嵌入进行编码,而无需样本交互。实例级关系建模仅用于训练。直观地说,当我们用第 3.4 节中的端到端方式和一致损失一起训练嵌入编码网络和样本交互网络时,编码网络也会在嵌入交互的帮助监督下得到改进。
时间复杂性:在跨模态检索中,两种匹配方法具有不同的时间复杂性。给定 N 对图像-文本,单独编码使得基于嵌入的方法的时间复杂度为 O(2N ),而跨模态交互使得基于分数的方法的时间复杂度为 O(N2)。给定一个查询和要检索的 N 个样本集,基于嵌入的查询检索时间复杂度为 O(1),而基于分数的查询检索时间复杂度为 O(N )。因此,基于分数的方法通常会牺牲检索速度来提高性能。然而,我们的方法可以同时实现高精度和高效率的检索,如图 5 所示。

实验

learning semantic relationship among instances for image-text matching,深度学习,# 跨模态检索,论文阅读,HREM,跨模态检索,深度学习
表 1. MS-COCO 5K 测试集中图像-文本检索的比较。Region 表示图像使用区域特征[1]。BiGRU[38]和 BERT [6]表示文本使用其单词特征。E 和 S 分别表示基于嵌入的方法和基于分数的方法。∗ 表示两个模型的集合结果。
learning semantic relationship among instances for image-text matching,深度学习,# 跨模态检索,论文阅读,HREM,跨模态检索,深度学习
表 2. 在 Flickr30K 和 MS-COCO 1K 测试集上的图像-文本检索性能比较。区域表示使用 FasterRCNN [37] 提取图像的区域特征 [1]。BiGRU [38] 和 BERT [6] 代表使用它们来提取文本的单词特征。我们列出了现有的最先进的基于嵌入的图像-文本匹配方法。∗ 表示两个模型的集合结果。

结论

本文提出了一种用于图像-文本匹配的新型分层关系建模框架(HREM)。HREM 不仅能捕捉单一模态和样本内的片段级关系,还能有效利用不同模态和样本间的实例级关系来学习更好的整体嵌入。基于我们的设计,HREM 在推理阶段无需与样本或模态交互就能对嵌入进行编码,从而实现高效的跨模态检索。在两个基准上的广泛实验表明了我们方法的优越性。文章来源地址https://www.toymoban.com/news/detail-760653.html

到了这里,关于跨模态检索论文阅读:Learning Semantic Relationship among Instances for Image-Text Matching学习实例之间的语义关系实现图像-文本匹配的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 跨模态检索论文阅读:(PTP)Position-guided Text Prompt for Vision-Language Pre-training

    (PTP)Position-guided Text Prompt for Vision-Language Pre-training 视觉语言预训练的位置引导文本提示 视觉语言预训练(VLP)已经显示出将图像和文本对统一起来的能力,促进了各种跨模态的学习任务。 然而,我们注意到,VLP模型往往缺乏视觉基础/定位能力,这对许多下游任务如视觉推理至

    2024年02月11日
    浏览(48)
  • 跨模态检索论文阅读:Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可学习支柱的图像文本检索重排

    图像-文本检索旨在弥合模态鸿沟,根据语义相似性检索跨模态内容。之前的工作通常侧重于成对关系(即一个数据样本是否与另一个样本匹配),但忽略了高阶邻接关系(即多个数据样本之间的匹配结构)。重新排序是一种流行的后处理方法,它揭示了在单模态检索任务中捕

    2024年01月16日
    浏览(41)
  • 论文阅读-AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake(多模态数据集DefakeAVMiT+多模态鉴伪方法AVoiD-DF)

    论文名称:AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake 作者团队:   以前的方法仅侧重单模态的伪造,即使有多模态的数据也只是将音频信号当做监督信号,忽略了音频被伪造的可能。 提出一个新的多模态基准数据集DefakeAVMiT,其包含足够多的视频和音频伪造内容,两个

    2024年02月03日
    浏览(40)
  • 文献阅读:Deep Learning Enabled Semantic Communication Systems

    作者 Huiqiang Xie Zhijin Qin Geoffrey Ye Li Biing-Hwang Juang 发表期刊or会议 《IEEE TRANSACTIONS ON SIGNAL PROCESSING》 发表时间 2021.4 这篇论文由《Deep Learning based Semantic Communications: An Initial Investigation》扩展而来 框架或结构 作用 DeepSC 最大化系统容量、最小化语义误差 设计两个Loss函数 理解语义

    2024年02月10日
    浏览(33)
  • 文献阅读:Deep Learning based Semantic Communications: An Initial Investigation

    作者 Huiqiang Xie Zhijin Qin Geoffrey Ye Liy Biing-Hwang Juangy 发表期刊or会议 《GLOBECOM》 发表时间 2020.12 随着新应用的发展,需要开发新的通信系统以提高通信的准确性和效率,作者通过考虑bit背后的语义来开发智能通信系统 文中对语义通信系统的解释:   所考虑的语义通信系统主

    2024年02月11日
    浏览(41)
  • 【论文笔记】《Learning Deconvolution Network for Semantic Segmentation》

    重要说明: 严格来说,论文所指的反卷积并不是真正的 deconvolution network 。 关于 deconvolution network 的详细介绍,请参考另一篇博客:什么是Deconvolutional Network? Learning Deconvolution Network for Semantic Segmentation deconvolution network 是卷积网络( convolution network ) 的镜像,由反卷积层( dec

    2024年02月20日
    浏览(47)
  • 【论文阅读】Resource Allocation for Text Semantic Communications

    这是一篇关于语义通信中资源分配的论文。全文共5页,篇幅较短。 语义通信在传输可靠性方面有着天然优势,而其中的资源分配更是保证语义传输可靠性和通信效率的关键所在,但目前还没有研究者探索该领域。为了填补这一空白,我们研究了语义领域的频谱效率,并重新

    2024年02月03日
    浏览(49)
  • 论文阅读:LSeg: LANGUAGE-DRIVEN SEMANTIC SEGMENTATION

    可以直接bryanyzhu的讲解:CLIP 改进工作串讲(上)【论文精读·42】_哔哩哔哩_bilibili 这里是详细的翻译工作 原文链接 https://arxiv.org/pdf/2201.03546.pdf ICLR 2022 我们提出了一种新的语言驱动的 语义图像分割模型LSeg 。LSeg使用一个 文本编码器来计算描述性输入标签 (例如,“草”或“

    2024年02月04日
    浏览(51)
  • 论文阅读:SuMa++: Efficient LiDAR-based Semantic SLAM

    来源:IROS 2019 链接:https://ieeexplore.ieee.org/document/8967704 可靠、准确的定位和映射是大多数自动驾驶系统的关键组成部分。除了映射环境的几何信息外,语义在实现智能导航行为方面也起着重要作用。在大多数现实环境中,由于移动对象引起的动态变换,这个任务特别复杂,这

    2024年03月12日
    浏览(77)
  • SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 论文阅读

    题目 :SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 作者 :Ue-Hwan Kim , Se-Ho Kim , and Jong-Hwan Kim , Fellow, IEEE 时间 :2022 来源 : IEEE ROBOTICS AND AUTOMATION LETTERS(RAL) 语义的缺乏和动态对象导致的性能下降阻碍了其在现实场景中的应用。 为了克服这些限制,我们在Simultanero

    2024年02月09日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包