【达摩院OpenVI】视频目标渐进式Transformer跟踪器ProContEXT

这篇具有很好参考价值的文章主要介绍了【达摩院OpenVI】视频目标渐进式Transformer跟踪器ProContEXT。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文&代码

  • 论文链接:[arxiv]
  • 代码&应用:
    • 开源代码:[github code]
    • 开源应用:[modelscope]

背景介绍

视频目标跟踪(Video Object Tracking, VOT)任务以一段视频和第一帧中待跟踪目标的位置信息(矩形框)作为输入,在后续视频帧中预测该跟踪目标的精确位置。该任务对跟踪目标的类别没有限制,目的在于跟踪感兴趣的目标实例。该算法在学术界和工业界都是非常重要的一个研究课题,在自动驾驶、人机交互、视频监控领域都有广泛应用。

由于输入视频的多样性,目标跟踪算法需要适应诸如尺度变化、形状变化、光照变化、遮挡等诸多挑战。特别是在待跟踪目标外观变化剧烈、周围存在相似物体干扰的情况下,跟踪算法的精度往往急剧下降,甚至出现跟踪失败的情况。如图1所示,对于一个输入视频,待跟踪跟踪物体(红色虚线圆)会随着时间而产生剧烈变化,相比于初始帧中的目标外观,待跟踪帧中的目标外观会与中间帧的目标外观更相似,因此中间帧的目标外观形态是一个非常好的时域上下文信息。另外,对于跟踪过程中目标物体周围的空域上下文信息对算法鉴别相似物体和干扰背景有很大的帮助。

方法介绍

最近,一些基于Transformer网络的视频目标跟踪算法,比如OSTrack[1], MixFormer[2], STARK[3]等,展现了较高的算法精度,基于之前的研究工作,本文提出了ProContEXT(Progressive Context Encoding Transformer Tracker),把时域上下文信息和空域上下文信息共同引入到Transformer网络中。

ProContEXT的整体结构如图2所示,该方法具有如下的特点:

  1. ProContEXT是一种渐进式上下文感知的Transformer跟踪器,在Transfomer跟踪器中利用了动态的时域信息和多样的空域信息进行特征提取,从而能获得更加鲁邦的跟踪特征。
  2. ProContEXT通过改进ViT主干网络,在输入中增加了多尺度静态模板(static templates)和多尺度动态模板(dynamic templates),并通过上下文感知的自注意力机制模块充分利用视频跟踪过程中目标的时域上下文和空域上下文信息。通过渐进式的模板优化和更新机制,跟踪器能快速适应目标的外观变化。
  3. ProContEXT在多个公开数据集中(TrackingNet和GOT-10k)获得SOTA性能,并且运行效率完全达到实时要求,速度为54.3FPS.

实验结果

本文基于TrackingNet和GOT-10k数据集进行算法实验,完全遵守各数据集的使用准则。

SOTA对比

首先,与目前SOTA方法的对比如下表所示,ProContEXT在TrackingNet数据集和在GOT-10K数据集均超过对比的算法,达到SOTA精度。

消融实验

本文对静态模板数目进行了消融实验,结果如下表所示,当使用2个静态模板时,效果最佳。表中实验数据说明当使用更多静态模板数目时,会引入冗余信息,导致跟踪效果下降。

另外,对动态模板的数目和尺度也进行了消融实验,结果如下表所示,当加入动态模板时,跟踪算法精度均有提升,并且使用两个尺度的动态模板比只使用单个尺度算法精度有进一步提升。

最后,对于算法中使用到的令牌修剪模块中的超参也进行了探索,实验结果如下表所示,当参数为0.7时达到算法精度和效率的最加平衡。

模型传送门

视频跟踪模型:

  • 视频单目标跟踪ProContEXT:https://modelscope.cn/models/damo/cv_vitb_video-single-object-tracking_procontext/summary
  • 视频单目标跟踪OSTrack:https://modelscope.cn/models/damo/cv_vitb_video-single-object-tracking_ostrack/summary
  • 视频多目标跟踪FairMOT:https://modelscope.cn/models/damo/cv_yolov5_video-multi-object-tracking_fairmot/summary

检测相关模型:

  • 实时目标检测模型YOLOX:https://modelscope.cn/models/damo/cv_cspnet_image-object-detection_yolox/summary
  • 高精度目标检测模型DINO:https://modelscope.cn/models/damo/cv_swinl_image-object-detection_dino/summary
  • 实时目标检测模型DAMO-YOLO:https://modelscope.cn/models/damo/cv_tinynas_object-detection_damoyolo/summary
  • 垂直行业目标检测模型:https://modelscope.cn/models?page=1&tasks=vision-detection-tracking%3Adomain-specific-object-detection&type=cv

关键点相关模型:

  • 2D人体关键点检测模型-HRNet: https://modelscope.cn/models/damo/cv_hrnetv2w32_body-2d-keypoints_image/summary
  • 2D人脸关键点检测模型-MobileNet:https://modelscope.cn/models/damo/cv_mobilenet_face-2d-keypoints_alignment/summary
  • 2D手部关键点检测模型-HRNet:https://modelscope.cn/models/damo/cv_hrnetw18_hand-pose-keypoints_coco-wholebody/summary
  • 3D人体关键点检测模型-HDFormer:https://modelscope.cn/models/damo/cv_hdformer_body-3d-keypoints_video/summary
  • 3D人体关键点检测模型-TPNet:https://modelscope.cn/models/damo/cv_canonical_body-3d-keypoints_video/summary

智能通行模型:

  • https://modelscope.cn/models/damo/cv_ddsar_face-detection_iclr23-damofd/summary
  • https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary
  • https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary
  • https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary
  • https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary
  • https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary
  • https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary
  • https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary
  • https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary
  • https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary
  • https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary
  • https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary
  • https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary

更多模型详见 ModelScope 主页。

检测套件开发工具

ModelScope社区视觉检测开发套件AdaDet已发布。文章来源地址https://www.toymoban.com/news/detail-419483.html

参考文献

  • [1] Ye B, Chang H, Ma B, et al., “Joint feature learning and relation modeling for tracking: A one-stream framework”, in ECCV 2022, pp. 341-357.
  • [2] Cui Y, Jiang C, Wang L, et al., “Mixformer: End-to-end tracking with iterative mixed attention”, in CVPR 2022, pp. 13608-13618.
  • [3] Yan B, Peng H, Fu J, et al., “Learning spatio-temporal transformer for visual tracking”, in ICCV 2021, pp. 10448-10457.

到了这里,关于【达摩院OpenVI】视频目标渐进式Transformer跟踪器ProContEXT的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 写点东西《渐进式网络应用入门》

    PWA 是一种渐进式网络应用程序,它结合了应用程序的功能和网络技术。 您可以说它们是使用网络技术构建的应用程序,但感觉和功能都像原生应用程序。 网络应用程序似乎变得有限,因为大多数人更喜欢构建移动应用程序,以便用户可以将它们保存在手机上,而不是构建网

    2024年01月19日
    浏览(45)
  • Vue3 Flask 渐进式入门笔记

    以下均在Windows 10环境下实现。 安装node.js的过程略过。 1、在cmd命令行中执行以下命令: 2、查看vue版本 注意,如果电脑中以前有vue2版本,则需要卸载后重启电脑再重新安装,否则有可能安装失败。 1、执行以下命令以创建项目 第一步需要填写项目名称;后面的除router建议选

    2024年02月09日
    浏览(43)
  • IO/NIO交互模拟及渐进式实现

    2024年02月03日
    浏览(54)
  • 渐进式编程之旅:探寻PHP函数的奇妙世界

    目录 前言 一、函数的定义和调用 1.1 初识函数 1.1.1 函数分类 1.1.2 自定义函数 1.1.3 return 1.2 参数设置 1.2.1 无参函数 1.2.2 按值传递参数 1.2.3 引用传参 1.2.4 设置参数默认值 1.2.5 指定参数类型(弱) 1.3 变量的作用域 1.3.1 变量分类 1.3.2 全局变量的使用 1.3.3 global关键

    2024年02月08日
    浏览(65)
  • 【GitOps系列】如何实施自动化渐进式交付?

    前言 在实施金丝雀发布的过程中,我们通过 Argo Rollout 的金丝雀策略将发布过程分成了 3 个阶段,每个阶段金丝雀的流量比例都不同,经过一段时间之后,金丝雀环境变成了新的生产环境。实际上,这也是一种渐进式的交付方式,它通过延长发布时间来保护生产环境,降低了

    2024年02月14日
    浏览(47)
  • 渐进式web全栈:blazor web app

    本文要说的这种开发模式,这种模式并不是只有blazor支持,js中有一样的方案next.js nuxt.js;blazor还有很多其它内容,本文近关注渐进式开发模式。 是的,前后端是主流,不过以下情况也许前后端分离并不是最好的选择: 小公司,人员不多,利润不高,创业阶段能省则省 个人

    2024年02月05日
    浏览(51)
  • Unity教程||Unity 渐进式光照贴图烘焙详解

    随着各大计算平台的算力稳步增长,特别是GPU技术的不断进化,原先可望而不可及的技术比如实时光线追踪技术开始逐步走入玩家的视野。一些先锋厂商甚至已经超出Demo的范畴,开始正式推出支持实时光追的游戏。 不过目前的实时光追技术还只能在配备了最新Nvidia RTX 20系列

    2024年02月08日
    浏览(53)
  • Vue.js:构建用户界面的渐进式框架

    Vue.js是一种流行的JavaScript前端框架,用于构建用户界面。本文将介绍Vue.js的基本概念、特点、应用场景以及与其他框架的对比。 一、引言 在当今的前端开发领域,Vue.js已经成为了一个备受瞩目的框架。它的简洁、灵活和易于上手的特性使得开发人员能够快速高效地构建用户

    2024年01月23日
    浏览(56)
  • SSE实现消息实时推送,前端渐进式学习、实践,真香

    SSE(Server Sent Event),直译为服务器发送事件,顾名思义,也就是客户端可以获取到服务器发送的事件。我们常见的 http 交互方式是客户端发起请求,服务端响应,然后一次请求完毕;但是在 sse 的场景下,客户端发起请求,连接一直保持,服务端有数据就可以返回数据给客户端

    2024年02月21日
    浏览(43)
  • 2023-06-17:说一说redis中渐进式rehash?

    2023-06-17:说一说redis中渐进式rehash? 答案2023-06-17: 在Redis中,如果哈希表的数组一直保持不变,就会增加哈希冲突的可能性,从而降低检索效率。为了解决这个问题,Redis会对数组进行扩容,通常是将数组大小扩大为原来的两倍。然而,这个扩容过程会引起元素在哈希桶中的

    2024年02月09日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包