论文阅读记录(1)

这篇具有很好参考价值的文章主要介绍了论文阅读记录(1)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

这一周读了2021cvpr的《Learning to Filter: Siamese Relation Network for Robust Tracking》。这篇文章的创新点:

  1. Relation Detector。关系检测器。关系检测器在本文中以元学习的方式执行,以获得从背景中过滤干扰物的能力。
  2. Refinement Module。x细化模块(RM),RM的目的是将RD模块有效的整合到孪生网络框架中(本文的孪生网络框架是SiamBAN),以产生准确的跟踪结果。
  3. 对比训练策略。

摘要最后提及,本文提出的跟踪器可以在面对背景杂乱、快速运动和遮挡的情况下获得准确的跟踪结果。

本文提出的Relation Detector结构图如下图所示:

论文阅读记录(1)

1、Relation Detector

在本文中提出了一种新型的关系检测器(RD),该检测器配备了自适应非线性比较器,具有很强的判别能力,通过测量与被跟踪目标的相似关系来过滤干扰物。由于训练这样的检测器需要相同序列的目标样本,而这些样本通常是不足的,传统的训练策略不能很好地发挥作用,而少采样学习的方式可以克服这一挑战。因此,本文通过少样本学习来训练网络,使关系检测器能够转移在大量不同的少量任务学习中获得的元知识。Relation Detector的结构图如下图所示:

论文阅读记录(1)

 关系检测器有三种不同的非线性可学习比较器组成,即全局检测器、局部检测器和块检测器。

 2、Contrastive Training Strategy

与传统的学习框架不同,少样本学习任务具有每个类别中缺乏标记样本的特点。它的目的是构造一个分类器,通过一些已知的标记样本作为支持集,为查询集中的每个样本x分配一个标签y。当支持集包含N个不同的类别,每个类别有K个标记样本时,我们将其定义为N -way K-shot。在我们的训练中,我们定义了目标和非目标两个类别,我们的实验是双向的一次性学习。

对比训练样本的生成。仅仅匹配相同实例的对象是不够的,因为区分不同对象的能力也很重要。因此,本文利用训练样本之间的潜在关系,构造训练三元组(sc, qc, sn),其中sc和sn为正支持图像和负支持图像,qc为查询图像。Sc和qc是从同一视频中提取的,sn是从不同视频中提取的。

在每一次学习过程中,不仅对目标类别中的物体进行匹配,还对非目标类别中的干扰物进行区分,并学习测量由输入三元组生成的不同样本组合之间的关系。将正支持的基础真值定义为sp,并使用pp表示sc和qc生成的正建议。类似地,负支持的基真值记为nn,我们用pn表示由sc和qc生成的负建议。然后我们将它们组合成不同的对,如(sp, pp), (sp, pn), (nn, pp/pn),并保持1:2:1的比例。我们采用MSE损失作为损失函数,计算这些形成的对上的匹配损失。

难例挖掘。在训练初期,使用简单样本可以使模型稳定收敛。为了进一步增强模型的判别能力,在训练中后期引入了难例挖掘。详细地说,以两种不同的方式(在线和离线)执行难例挖掘。对于在线方法,首先计算候选区域与ground-truth之间的union (IoU)交集,然后去除IoU值大于0.2的部分提案。然后从剩余的候选区域中选择置信度得分最高的候选区域作为难例样本。对于离线方式,在VID , GOT和LaSOT等大规模数据集的预处理过程中生成一个近似最近邻查询的索引表。然后给定被跟踪对象的图像,使用索引表在嵌入空间中检索被跟踪对象的最近邻,可以找到N个不同的硬负样本。

 3、Refinement Module

分类和回归是基于cnn的跟踪器的两大支柱,它们通常是独立优化的,导致它们之间存在不匹配的问题。具体来说,分类置信度最高的位置对应的方框不是最准确的,甚至不是跟踪的目标。本文设计了一个细化模块,它有效地将建议的RD集成到Siamese框架中。首先,利用RD的输出并将其转换为大小为25 × 25 × 1的匹配分数。接下来,我们将匹配分数与分类分支的互相关特征图进行逐元相乘,通过抑制假阳性位置来过滤背景中的干扰物。然后通过卷积层将精炼的相关特征传递给卷积层,生成精炼的分类置信度分数。

下图提供了获得的置信度图的一些示例。在细化模块中,我们将回归分支和分类分支的信息结合起来,共同操作来预测目标位置,从而缓解了不匹配的问题。

论文阅读记录(1)

 4、损失函数

论文阅读记录(1)

 Lmatching表示的是RD检测器求得得分数与真值标签之间得MSE损失。

5、训练和推理

5.1、训练

我们在大规模数据集上训练我们的暹罗关系网络,包括ImageNet VID、YouTubeBoundingBoxes、COCO、ImageNet DET、GOT10k[18]和LaSOT。训练输入是一个图像三元组,包括从相同序列中提取的模板补丁和搜索补丁,其大小分别为127×127和255×255像素,以及从另一个大小为255×255的序列中提取的负搜索补丁。我们首先从三联体的同一序列中选择两个patch,在其上最多采集16个阳性样本和48个阴性样本,训练分类分支和回归分支[25,24,4]。然后,使用三元组中的负搜索patch来生成我们的关系检测器的训练输入。此外,我们在epoch 5和epoch 15开始使用在线难例挖掘进行离线。我们的整个网络可以端到端进行训练,不需要任何进一步的微调。

5.2、推理

在推理过程中,以第一帧中目标的patch作为模板,并将其送入骨干提取模板特征fz。在跟踪过程中对其进行缓存,避免后续跟踪中重复计算。通过精确的ROI池化得到模板的ROI特征[6]。对于后续帧,我们根据前一帧的跟踪结果裁剪搜索补丁并提取其特征,称为fx。然后在搜索区域进行预测,得到回归图P reg−all w×h×4并生成建议。接下来,建议的特征被裁剪并与ROI z的缓存目标ROI特征连接起来。将得到的特征馈送到RD中,以度量提案与目标之间的关系。我们将此关系转换为匹配分数s匹配w×h×1,并使用分类分支中corr cls的相关图进行逐元素乘法。通过这种方式,我们将回归结果融合到分类分支中,而不是单独计算它们。然后,我们通过改进的相关图f * corr cls生成分类图P cls−all w×h×2。最后,我们可以通过P reg−all w×h×4和P cls−all w×h×2得到预测框。文章来源地址https://www.toymoban.com/news/detail-452012.html

到了这里,关于论文阅读记录(1)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Latent Diffusion(CVPR2022 oral)-论文阅读

    论文: 《High-Resolution Image Synthesis with Latent Diffusion Models》 github: https://github.com/CompVis/latent-diffusion 为了使得DM在有限计算资源下训练,同时保留其生成质量及灵活性,作者将其应用于预训练编解码器的隐空间。基于表征训练扩散模型达到降低计算量及细节保留的最优点。作者

    2024年02月11日
    浏览(45)
  • 【论文阅读】CVPR2023 IGEV-Stereo

    【cvhub导读】【paper】【code_openi】 代码是启智社区的镜像仓库,不需要魔法,点击这里注册 1️⃣现有主流方法 基于代价滤波的方法 和 基于迭代优化的方法 : 基于 代价滤波 的方法可以在cost volume中编码足够的 非局部几何和上下文信息 ,这对于具有挑战性的区域中的视差预

    2024年02月07日
    浏览(39)
  • HumanNeRF(CVPR2022 oral)-人体重建论文阅读

    论文: 《HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video》 github: https://github.com/chungyiweng/humannerf 作者提出HumanNeRF,给出复杂动作人体单视角视频,暂停任一帧渲染出任意视角下该人体,甚至360度视角下该人体; HumanNeRF优化了人在标准T姿势下的表征,与运动场相一致,

    2024年02月15日
    浏览(97)
  • 【论文笔记_对比学习_2021】CONTRASTIVE LEARNING WITH HARD NEGATIVE SAMPLES

    用困难负样本进行对比性学习 如何才能为对比性学习提供好的负面例子?我们认为,就像度量学习一样,表征的对比性学习得益于硬性负面样本(即难以与锚点区分的点)。使用硬阴性样本的关键挑战是,对比性方法必须保持无监督状态,这使得采用现有的使用真实相似性信

    2023年04月08日
    浏览(38)
  • 论文阅读--Conservative Q-Learning for Offline Reinforcement Learning

    摘要 在强化学习( RL )中有效地利用以前收集的大量数据集是大规模实际应用的关键挑战。离线RL算法承诺从先前收集的静态数据集中学习有效的策略,而无需进一步的交互。然而,在实际应用中,离线RL是一个主要的挑战,标准的离线RL方法可能会由于数据集和学习到的策略之

    2024年04月17日
    浏览(60)
  • 【论文阅读笔记】4篇Disentangled representation learning用于图像分割的论文

    4篇应用解耦表示学习的文章,这里只关注如何解耦,更多细节不关注,简单记录一下。 Chen C, Dou Q, Jin Y, et al. Robust multimodal brain tumor segmentation via feature disentanglement and gated fusion[C]//Medical Image Computing and Computer Assisted Intervention–MICCAI 2019: 22nd International Conference, Shenzhen, China, O

    2024年01月17日
    浏览(46)
  • 【论文阅读】Deep Graph Contrastive Representation Learning

    作者:Yanqiao Zhu Yichen Xu 文章链接:Deep Graph Contrastive Representation Learning 代码链接:Deep Graph Contrastive Representation Learning 现实世界中,图的标签数量较少,尽管GNNs蓬勃发展,但是训练模型时标签的可用性问题也越来越受到关心。 传统的无监督图表征学习方法,例如DeepWalk和nod

    2024年01月18日
    浏览(53)
  • 【论文阅读】Self-Paced Curriculum Learning

    论文下载 代码 Supplementary Materials bib: Curriculum learning (CL) or self-paced learning (SPL) represents a recently proposed learning regime inspired by the learning process of humans and animals that gradually proceeds from easy to more complex samples in training. The two methods share a similar conceptual learning paradigm, but differ in specific

    2024年02月03日
    浏览(42)
  • 【论文阅读——Profit Allocation for Federated Learning】

    由于更为严格的数据管理法规,如《通用数据保护条例》(GDPR),传统的机器学习服务生产模式正在转向联邦学习这一范式。联邦学习允许多个数据提供者在其本地保留数据的同时,协作训练一个共享模型。推动联邦学习实际应用的关键在于如何将联合模型产生的利润公平地

    2024年04月13日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包