【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking

这篇具有很好参考价值的文章主要介绍了【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

因为Hybrid-SORT的baseline是基于OCSORT进行改进的,在这之前建议先了解byteTrack和【】的相关知识

1.介绍

1.1 基本框架

多目标跟踪(MOT)将问题分为两个子任务。第一个任务是检测每个帧中的对象。第二个任务是将它们在不同的框架中联系起来。关联任务主要通过显式或隐式地利用强线索来解决,包括空间和外观信息。

1.2 当前方法的局限性

当两个物体在当前帧中高度重叠时,检测和估计轨迹位置之间的交集(IoU)会变得模糊,两个物体的外观特征都被前景特征所主导。

【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking,人工智能,机器学习,算法

2. Hybrid-SORT

修改了当前最先进的SORT-like算法OCSORT作为我们的强基线。首先,对OC-SORT中的速度方向建模进行修正,即以观测为中心的动量(OCM),将盒中心扩展到四个盒角,将固定的时间间隔扩展到多个时间间隔;其次,我们在ByteTrack之后加入了一个额外的低置信度检测关联阶段。

2.1 弱条件建模

2.1.1 Tracklet 置信度建模

 增加了两个额外的状态:轨迹置信度c及其速度分量

【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking,人工智能,机器学习,算法

如下图所示,Kalman Filter在试图估计置信状态的突然变化时表现出明显的滞后,且置信度状态的变化趋势呈现出明显方向性【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking,人工智能,机器学习,算法

 基于以上特点,因此本文使用基于轨迹历史的简单线性预测来估计轨迹置信度

【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking,人工智能,机器学习,算法

 置信度代价计算为根据式4估计的轨迹置信度与检测置信度之间的绝对差值

2.1.2 Height Modulated IoU(HMIOU)

【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking,人工智能,机器学习,算法

引入height状态有助于提高association :

(1)物体的高度在一定程度上反映了深度信息,使得高度状态成为区分高度重叠对象的有效线索。

(2)其次,高度状态对不同姿态具有较强的鲁棒性,是一种准确估计的状态,是物体的高质量表征。

公式化表述为:

【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking,人工智能,机器学习,算法

HIoU代表高度状态,这是一个弱线索,而IoU代表空间信息,这是一个强线索,我们使用HIoU来调制IoU,实现对遮挡或聚类对象的增强识别

【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking,人工智能,机器学习,算法

2.2 Hybrid-SORT

2.2.1 Robust OCM

2.2.1.1 原始OCM存在的局限性

 原始OCM的建模容易受到固定时间间隔和稀疏状态(即只有目标中心)引起的噪声的影响。

2.2.1.2 Robust OCM
  • 首先,将3帧的固定时间间隔扩展为1 ~ 3的多个时间间隔的叠加;
  • 其次,我们用物体的四个角代替它的中心点来计算速度方向。

【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking,人工智能,机器学习,算法

避免由于姿态的突然变化,轨迹和轨迹到检测中心的速度方向可能完全相反,从而导致匹配错误

 【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking,人工智能,机器学习,算法

2.2.2 外观建模

 首先检测对象,然后将结果裁剪的补丁提供给ReID模型。我们使用指数移动平均(EMA)对轨迹图外观信息建模,并利用余弦距离作为度量来计算轨迹图外观特征与检测外观特征之间的相似度。

2.2.3 算法架构

关联阶段主要包括三个阶段:第一阶段是高置信度对象的关联阶段,第二阶段是低置信度对象的关联阶段(ByteTrack中的BYTE),第三阶段是用最后一次检测恢复丢失的轨迹(OC-SORT中的OCR)。

【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking,人工智能,机器学习,算法

3.代码

3.1 卡尔曼滤波器KalmanBoxTracker建模

3.1.1 引入轨迹置信度c及其速度分量·

【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking,人工智能,机器学习,算法

        if not orig:
          from .kalmanfilter_score_new import KalmanFilterNew_score_new as KalmanFilter_score_new
          self.kf = KalmanFilter_score_new(dim_x=9, dim_z=5)

3.1.2 轨迹置信度的预测

简单线性预测来估计轨迹置信度

【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking,人工智能,机器学习,算法

        if not self.confidence_pre:
            return self.history[-1], np.clip(self.kf.x[3], self.args.track_thresh, 1.0),
                    np.clip(self.confidence, 0.1, self.args.track_thresh)
        else:
            return self.history[-1], np.clip(self.kf.x[3], self.args.track_thresh, 1.0), 
                   np.clip(self.confidence - (self.confidence_pre - self.confidence), 0.1, self.args.track_thresh)

返回值分别是 分别是九位预测量,置信度预测值,置信度的速度分量·

3.2 Robust OCM

3.2.1 四个角代替它的中心点

【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking,人工智能,机器学习,算法

 lt, rt, lb, rb : 代表bbox四个角点的速度

    Y1, X1 = speed_direction_batch_lt(detections, previous_obs)
    Y2, X2 = speed_direction_batch_rt(detections, previous_obs)
    Y3, X3 = speed_direction_batch_lb(detections, previous_obs)
    Y4, X4 = speed_direction_batch_rb(detections, previous_obs)
    cost_lt = cost_vel(Y1, X1, trackers, lt, detections, previous_obs, vdc_weight)
    cost_rt = cost_vel(Y2, X2, trackers, rt, detections, previous_obs, vdc_weight)
    cost_lb = cost_vel(Y3, X3, trackers, lb, detections, previous_obs, vdc_weight)
    cost_rb = cost_vel(Y4, X4, trackers, rb, detections, previous_obs, vdc_weight)

    angle_diff_cost = cost_lt + cost_rt + cost_lb + cost_rb

speed_direction_batch_XX用来计算四个角点的速度

cost_vel 用来计算某个交点速度的cost

3.3 Height Modulated IoU(HMIOU)

【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking,人工智能,机器学习,算法文章来源地址https://www.toymoban.com/news/detail-661705.html

def hmiou(bboxes1, bboxes2):
    """
    Height_Modulated_IoU
    """
    bboxes2 = np.expand_dims(bboxes2, 0)
    bboxes1 = np.expand_dims(bboxes1, 1)

    yy11 = np.maximum(bboxes1[..., 1], bboxes2[..., 1])
    yy12 = np.minimum(bboxes1[..., 3], bboxes2[..., 3])

    yy21 = np.minimum(bboxes1[..., 1], bboxes2[..., 1])
    yy22 = np.maximum(bboxes1[..., 3], bboxes2[..., 3])
    o = (yy12 - yy11) / (yy22 - yy21)

    xx1 = np.maximum(bboxes1[..., 0], bboxes2[..., 0])
    yy1 = np.maximum(bboxes1[..., 1], bboxes2[..., 1])
    xx2 = np.minimum(bboxes1[..., 2], bboxes2[..., 2])
    yy2 = np.minimum(bboxes1[..., 3], bboxes2[..., 3])
    w = np.maximum(0., xx2 - xx1)
    h = np.maximum(0., yy2 - yy1)
    wh = w * h
    o *= wh / ((bboxes1[..., 2] - bboxes1[..., 0]) * (bboxes1[..., 3] - bboxes1[..., 1])
        + (bboxes2[..., 2] - bboxes2[..., 0]) * (bboxes2[..., 3] - bboxes2[..., 1]) - wh)
    return (o)

到了这里,关于【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文解读:(UPL)Unsupervised Prompt Learning for Vision-Language Models

    存在的问题 之前的来自目标数据集的标记数据(有监督学习)可能会限制可伸缩性。 动机 通过无监督提示学习(UPL)方法,以避免提示工程,同时提高类clip视觉语言模型的迁移性能。 主张top-k而不是top-p 注:top-k是指挑选概率最大的k个,top-p是指挑选预测概率大于p的那些数据 看

    2024年04月23日
    浏览(45)
  • FCT: The Fully Convolutional Transformer for Medical Image Segmentation 论文解读

    论文:The Fully Convolutional Transformer for Medical Image Segmentation (thecvf.com) 代码:Thanos-DB/FullyConvolutionalTransformer (github.com) 期刊/会议:WACV 2023 我们提出了一种新的transformer,能够分割不同形态的医学图像。 医学图像分析的细粒度特性所带来的挑战意味着transformer对其分析的适应仍处

    2024年02月10日
    浏览(30)
  • MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection 论文解读

    单目目标检测在自动驾驶领域,一直是一个具有挑战的任务。现在大部分的方式都是沿用基于卷积的2D 检测器,首先检测物体中心,后通过中心附近的特征去预测3D属性。 但是仅仅通过局部的特征去预测3D特征是不高效的,且并没有考虑一些长距离的物体之间的深度关系,丢

    2024年02月09日
    浏览(33)
  • 论文解读( FGSM)《Adversarial training methods for semi-supervised text classification》

    论文标题:Adversarial training methods for semi-supervised text classification 论文作者:Taekyung Kim 论文来源:ICLR 2017 论文地址:download  论文代码:download 视屏讲解:click 通过对输入进行小扰动创建的实例,可显著增加机器学习模型所引起的损失 对抗性实例的存在暴露了机器学习模型的

    2023年04月12日
    浏览(36)
  • 【论文解读】(如何微调BERT?) How to Fine-Tune BERT for Text Classification?

    论文地址:https://arxiv.org/pdf/1905.05583.pdf 论文年份:2019年05月 论文代码: https://github.com/xuyige/BERT4doc-Classification 论文引用量:1191 (截止2023-04-28) 论文阅读前提:熟悉NLP、深度学习、Transformer、BERT、多任务学习等。 现在NLP任务方式大多都是对BERT进行微调。例如:我们要做一个

    2024年02月07日
    浏览(31)
  • 论文解读:Image-Adaptive YOLO for Object Detection in Adverse Weather Conditions

    发布时间:2022.4.4 (2021发布,进过多次修订) 论文地址:https://arxiv.org/pdf/2112.08088.pdf 项目地址:https://github.com/wenyyu/Image-Adaptive-YOLO 虽然基于深度学习的目标检测方法在传统数据集上取得了很好的结果,但从在恶劣天气条件下捕获的低质量图像中定位目标仍然具有挑战性。现有

    2024年02月11日
    浏览(31)
  • Mind2Web: Towards a Generalist Agent for the Web 论文解读

    主页:https://osu-nlp-group.github.io/Mind2Web 训练集:https://huggingface.co/datasets/osunlp/Mind2Web 本文介绍了一个名为MIND2WEB的数据集,用于开发和评估Web通用代理,可以使用自然语言输入指令,使之可以在任何复杂的网站上执行操作。 前人缺陷: 现有的用于Web代理的数据集要么使用 模拟

    2024年02月08日
    浏览(34)
  • BSRN网络——《Blueprint Separable Residual Network for Efficient Image Super-Resolution》论文解读

    目录 摘要: 网络架构: 具体流程: BSConv: ESDB——Efficient Separable Distillation Block:  Blueprint Shallow Residual Block (BSRB): ESA和CCA:  实验: BSRN的实现细节: BSRN-S(比赛)的实现细节: 不同卷积分解的效果: ESA和CCA的有效性:  不同激活函数对比: BSRN的有效性:  和SOTA方法的

    2024年02月05日
    浏览(36)
  • 【Deformable DETR 论文+源码解读】Deformable Transformers for End-to-End Object Detection

    上一篇讲完了DETR相关原理和源码,打算继续再学习DETR相关改进。这次要解读的是21年发表的一篇论文: ICLR 2021:Deformable DETR: Deformable Transformers for End-to-End Object Detection 。 先感谢这位知乎大佬,讲的太细了: Deformable DETR: 基于稀疏空间采样的注意力机制,让DCN与Transformer一起玩

    2023年04月16日
    浏览(36)
  • 【论文解读】PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection

    我们提出了一种新的高性能3D对象检测框架,称为PointVoxel RCNN(PV-RCNN),用于从点云中精确检测3D对象。我们提出的方法深度集成了三维体素卷积神经网络(CNN)和基于PointNet的集合抽象,以学习更具判别力的点云特征。它利用了3D体素CNN的高效学习和高质量建议以及基于Poi

    2024年01月23日
    浏览(62)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包