【目标跟踪】|OSTrack

这篇具有很好参考价值的文章主要介绍了【目标跟踪】|OSTrack。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

ECCV 2022 paper
Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework

【目标跟踪】|OSTrack

之前的跟踪框架都是将特征提取和特征融合分为两步来做的,先分别提取Template和Search的特征,然后在两者之间进行相关,得到的特征用于计算最终的跟踪结果(Two Stream, Two Stage)。这样做存在以下两个缺点:1.特征提取阶段template和search间没有交互,提取到的特征是目标无关的,判别性不足,取决于离线训练的效果(对未见过的类别不鲁棒);2.双流双阶段的框架难以在速度和精度之间达到较好的平衡(performance-speed dilemma)。

作者提出了一种one stream, one stage的跟踪框架,在template和search图像对之间建立了双向的信息流,从而统一了特征提取和特种融合的过程。同时提出了一种基于相似度的early candidate elimination模块,推理过程中逐渐丢弃search中的背景区域,进一步提高了算法的推理速度。

值得注意的是本文中的方法在处理每一个search时,template的图像都会一起输入到model中得到动态的template特征,这里与MixFormer是不同的(MixFormer中为了节省计算量不使用template对search做cross attention,这样每帧就不用重新计算template的特征)。与STARK、TransT等也使用了transformer的tracking方法相比,该框架还有一个好处就是可以使用预训练的transformer权重来初始化网络,从而提高网络的收敛速度。

【目标跟踪】|OSTrack

Template【目标跟踪】|OSTrack
和Search【目标跟踪】|OSTrack
会首先被分别分割为多个P*P大小的patch并展成向量
【目标跟踪】|OSTrack
【目标跟踪】|OSTrack

【目标跟踪】|OSTrack
,这些向量会通过一个全连接层 E被映射到D维
之后可学习的位置编码 Pz Px会被添加到这些patch embedding上,得到token embedding, 最后两者会被拼接到一起得到 作为Transformer的输入。

【目标跟踪】|OSTrack

经过Transformer的处理后,直接将其输出特征中与search对应的部分取出来输入到head中即可得到最终的跟踪结果。

值得注意的是本文中的方法在处理每一个search时,template的图像都会一起输入到model中得到动态的template特征,这里与MixFormer是不同的(MixFormer中为了节省计算量不使用template对search做cross attention,这样每帧就不用重新计算template的特征)。

与STARK、TransT等也使用了transformer的tracking方法相比,该框架还有一个好处就是可以使用预训练的transformer权重来初始化网络,从而提高网络的收敛速度。

候选消除

在Transformer的多层Self-attention操作中,attention map会首先关注于search图像中的前景区域并随着深度的增加逐渐聚焦到目标。基于这一现象,作者提出了early candidate elimination模块鉴别并消除search图像中的背景区域。

具体来说,search图像中的每个patch都可以被看作是一个目标候选区域。在每个候选消除模块中,每个候选区域会被计算一个与template图像的相似度作为其得分,得分最高的k个候选区域会被保留下来,其他的候选区域则会被丢弃。为了避免template中背景区域的影响,在本文中作者并没有使用候选区域与每个template patch计算相似度并取均值,而是直接计算其与template最中心位置的patch之间的相似度作为其得分。可以这样做的原因在于经过self-attention操作之后,中心的template patch已经聚集了足够的目标信息。由于这些背景区域不会对分类和回归操作造成影响,因此在Transformer输出之前,这些中途被丢弃的区域直接做zero-padding即可将特征恢复成原尺寸。

作者也给出了一些候选消除模块的可视化案例,图中灰色区域即为被丢弃的背景区域。

Head和Loss

Head部分的结构也比较简单,包括三个分支,分别预测分类得分 、为了补偿下采样量化误差而预测的偏移值 以及归一化的bounding box尺寸

。每个分支由L个卷积层堆叠而成。取预测得分最高的点作为目标位置,在O S 中取出对应位置的值计算最终的目标包围框。

损失函数方面:对于分类分支,采用了与CornerNet中相同的weighted focal loss,与GT中心距离越远的位置权重越低;对于回归分支,则使用了常用的IoU loss以及L1 loss的组合。

实验结果

作者基于ViT-Base设置了两组不同的输入大小,得到了两组模型,速度都挺快的:

OSTrack-256 --> Template: 128128; Search: 256256; 105.4FPS
OSTrack-384 --> Template: 192192; Search: 384384; 58.1FPS

针对预训练:使用MAE自监督预训练的Module初始化会得到更好的结果,尤其是在测试集中完全为未见类别的GOT-10K上。

Aligned Comparison: 作者还将STARK和Swin-Track的backbone、head、loss都换成了与本文一致的方法,以在Two stream和One stream方法之间进行公平的比较。

【目标跟踪】|OSTrack
我们重新实现的双流跟踪器显示出相当或更强的性能,但仍然落后于OSTrack,这证明了我们的单流结构的有效性。虽然Transformer特征融合模块[29,47]也支持关系建模阶段的特征交互,但特征提取过程中的判别信息损失是不可修复的。我们还观察到,OSTrack在单次基准GOT-10k上显著优于前两个流跟踪器,这进一步证明了我们的单流框架在具有挑战性的场景中的优势。实际上,由于测试集中的对象类与训练集中的对象类完全不同,因此双流框架提取的特征的判别能力是有限的。然而,通过模板特征和搜索区域之间的迭代交互,OSTrack可以通过相互引导来提取更多不相似的特征。与双流SOTA跟踪器不同,OSTrack忽略了超重型关系建模模块,同时保持了关节特征提取和关系建模模块的高度并行性。因此,当采用相同的主干网络时,提出的单流框架比STARK(快40.2 FPS)和SwinTrack(快25.6 FPS)快得多。此外,OSTrack需要更少的训练图像对来收敛。文章来源地址https://www.toymoban.com/news/detail-487463.html

到了这里,关于【目标跟踪】|OSTrack的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [paper reading] Federated Learning With Differential Privacy:Algorithms and Performance Analysis

    1.整篇论文的总结: (1)提出了一种基于差分隐私的联邦学习框架:NbAFL(noising before model aggregation FL),在局部模型聚合成全局模型之前加入噪声(客户端和服务器端都会加噪声)。 (2)对训练的FL模型的损失函数规定了一个 理论上的收敛界限 (就是要求损失函数低于某

    2024年02月11日
    浏览(25)
  • 【机器学习】Feature scaling and Learning Rate (Multi-variable)

    导入所需的库 Size (sqft) Number of Bedrooms Number of floors Age of Home Price (1000s dollars) 952 2 1 65 271.5 1244 3 2 64 232 1947 3 2 17 509.8 … … … … … 利用以上表格中的数据构建一个线性模型,这样我们可以预测房屋的价格(1200 sqft, 3 bedrooms, 1 floor, 40 years old) 绘制每个房子特征与房屋价格之间

    2024年02月14日
    浏览(28)
  • 论文解读:SuperGlue: Learning Feature Matching with Graph Neural Networks

    SuperGlue: Learning Feature Matching with Graph Neural Networks 发表时间:2020 论文地址:https://arxiv.org/abs/1911.11763 项目地址:http://github.com/magicleap/SuperGluePretrainedNetwork。 本文介绍了一种通过联合寻找对应和拒绝非匹配点来匹配两组局部特征的神经网络。通过求解一个可微最优传输问题来估

    2024年02月08日
    浏览(44)
  • 《论文阅读27》SuperGlue: Learning Feature Matching with Graph Neural Networks

    研究领域: 图像特征点匹配 论文:SuperGlue: Learning Feature Matching with Graph Neural Networks CVPR 2020 veido 论文code  [参考] [参考] [参考]    SuperGlue:使用图神经网络学习特征匹配 本文介绍了SuperGlue,一种神经网络,通过 共同寻找对应点和拒绝不匹配点 来匹配两组本地特征。分配估

    2024年02月05日
    浏览(34)
  • 论文阅读-AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake(多模态数据集DefakeAVMiT+多模态鉴伪方法AVoiD-DF)

    论文名称:AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake 作者团队:   以前的方法仅侧重单模态的伪造,即使有多模态的数据也只是将音频信号当做监督信号,忽略了音频被伪造的可能。 提出一个新的多模态基准数据集DefakeAVMiT,其包含足够多的视频和音频伪造内容,两个

    2024年02月03日
    浏览(27)
  • PointNet++:Deep Hierarchical Feature Learning on Point Sets in a Metric Space

    在上一篇文章中,提及了3D点云分类与分割的开山鼻祖——PointNet:https://blog.csdn.net/Alkaid2000/article/details/127253473,但是这篇PointNet是存在有很多不足之处的,在文章的末尾也提及了,它 没有能力捕获局部结构 ,这使得在复杂的场景中也很难进行分析,道理也很简单,这篇文章

    2024年02月05日
    浏览(33)
  • 视频目标检测paper(三)《Temporal ROI Align for Video Object Recognition》

            这篇文章作为2021年的AAAI视频目标检测类文章,可以说是现在视频目标检测的最新技术之一了,并且已经集成到了MMtracking框架之中,可以说是集合了计算机视觉,深度学习,目标检测,视频检测等知识综合性较强的文章,以小编现在的水平很难融汇贯通,所以说作

    2024年02月02日
    浏览(41)
  • 【论文阅读笔记】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling

    Wang H, Chen Y, Ma C, et al. Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 15878-15887. 【论文概述】 本文的核心思想是提出一种名为“共享-特定特征建模(ShaSpec)”的方法,用于处理多模态学习中

    2024年01月19日
    浏览(32)
  • Paper Reading: (ACRST) 基于自适应类再平衡自训练的半监督目标检测

    题目:《Semi-Supervised Object Detection with Adaptive Class-Rebalancing Self-Training》, AAAI’22 , 基于自适应类再平衡自训练的半监督目标检测 日期:2021.7.11(v1),2022.6.28(AAAI’22) 单位:清华大学 论文地址:https://arxiv.org/abs/2107.05031 GitHub:- 作者 王斌,清华大学软件学院副教授,个人主页

    2024年02月04日
    浏览(28)
  • 目标跟踪 | 3D目标跟踪高级入门!

    点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 ADAS巨卷干货,即可获取 点击进入→ 自动驾驶之心【目标跟踪】技术交流群 后台回复 【目标跟踪综述】 获取单目标、多目标、基于学习方法的领域综述! 当我从事自动驾驶工作的时候,曾经接到了一个任务: 指导一组感知实

    2024年02月01日
    浏览(25)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包