【论文笔记】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images

这篇具有很好参考价值的文章主要介绍了【论文笔记】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原文链接:https://arxiv.org/abs/2308.05026

I. 引言

目前的轨迹预测方法多基于道路使用者的真实信息,但在实际自动驾驶系统中这些信息是通过检测和跟踪模块得到的,不可避免的存在噪声。本文将感知模块与轨迹预测整合,进行端到端的检测、跟踪和轨迹预测。

本文感知模块使用单目图像输入,以QD-3DT为基础模型,能有效关联运动智能体并估计3D边界框。预测模块则使用感知模块输出的2D位置信息,使用DCENet作为基础模型,利用注意力机制和条件变分自编码器预测智能体的多模态轨迹。此外,本文将DCENet扩展为以智能体的位置、尺寸和姿态作为输入,并使用感知模块的估计结果作为输入,因此被称为DCENet++。【论文笔记】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images,端到端自动驾驶,论文阅读,自动驾驶,深度学习,计算机视觉
本文的方法称为ODTP(在线检测、跟踪、预测),流程如上图所示。

III. 方法

A. 问题表达

本文以单目图像序列为输入,检测模块输出每个时刻的3D边界框集合 S t = { s 1 t , ⋯   , s J t } S^t=\{s_1^t,\cdots,s_J^t\} St={s1t,,sJt}。在多目标跟踪模块进行数据关联和运动细化后,得到光滑轨迹集合 T = { τ 1 , ⋯   , τ N } \mathbb T=\{\tau_1,\cdots,\tau_N\} T={τ1,,τN}(其中 τ i ∈ R T × 2 \tau_i\in\mathbb R^{T\times 2} τiRT×2),以及细化的边界框集合 S t = { s 1 t , ⋯   , s N t } \mathbb S^t=\{s_1^t,\cdots,s_N^t\} St={s1t,,sNt} N < J N<J N<J为跟踪的智能体数量, T ≥ 2 T\geq2 T2为时间范围。随后, T \mathbb T T S \mathbb S S被送入轨迹预测模块,预测可能的未来轨迹集合 { Y ^ i , 1 T + 1 : T ′ , ⋯   , Y ^ i , K T + 1 : T ′ } \{\hat Y_{i,1}^{T+1:T'},\cdots,\hat Y_{i,K}^{T+1:T'}\} {Y^i,1T+1:T,,Y^i,KT+1:T},其中 i ∈ { 1 , ⋯   , N } i\in\{1,\cdots,N\} i{1,,N}为智能体索引, K K K为预测轨迹数量, T ′ − T T'-T TT为预测的时间范围。

B. QD-3DT

QD-3DT以图像和GPS/IMU信息为输入(后者用于定位自车),将各智能体的3D信息变换到自车坐标系下。图像首先会通过主干和RPN得到2D RoI,RoI会进一步输入两个预测头,分别得到相似性特征嵌入和3D布局。为进行跟踪,利用3D信息、运动信息和特征嵌入计算跟踪轨迹之间的多模态相似度指标,并进行运动感知的数据关联和深度排序的匹配技巧以减轻遮挡问题。最后,物体的3D信息会被细化。

C. DCENet++

与DCENet相比,本文使用估计的智能体位置、尺寸和朝向为输入以获取细化的动态地图。如下图所示(从左到右分别为不考虑大小和朝向、仅考虑大小、同时考虑大小和朝向)。注意仅考虑BEV下的2D信息。
【论文笔记】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images,端到端自动驾驶,论文阅读,自动驾驶,深度学习,计算机视觉

D. 联合3D跟踪和预测

得到轨迹 T = { τ 1 1 : T , ⋯   , τ N 1 : T } \mathbb T=\{\tau^{1:T}_1,\cdots,\tau^{1:T}_N\} T={τ11:T,,τN1:T} T T T时刻的边界框 S T = { s 1 T , ⋯   , s N T } \mathbb S^T=\{s_1^T,\cdots,s_N^T\} ST={s1T,,sNT}后,本文将DCENet++的批量大小设置为 N N N,并根据 S T \mathbb S^T ST将各智能体投影到动态地图的网格中,将位置、速度、姿态信息放入不同通道。同时,各智能体的偏移量序列 Δ X i 1 : T − 1 = { Δ x i 1 , ⋯   , Δ x i T − 1 } ∈ R ( T − 1 ) × 2 \Delta X_i^{1:T-1}=\{\Delta x_i^1,\cdots,\Delta x_i^{T-1}\}\in\mathbb R^{(T-1)\times 2} ΔXi1:T1={Δxi1,,ΔxiT1}R(T1)×2会与动态图序列组合,作为预测模块的联合条件,预测多模态轨迹 { Y ^ i , 1 T + 1 : T ′ , ⋯   , Y ^ i , K T + 1 : T ′ } \{\hat Y_{i,1}^{T+1:T'},\cdots,\hat Y_{i,K}^{T+1:T'}\} {Y^i,1T+1:T,,Y^i,KT+1:T}

IV. 实验

B. 评估指标

MOT指标:使用AMOTA(组合FP、FN和IDS指标)和AMOTP(衡量定位精度)。

轨迹预测指标:使用平均位移误差(ADE,预测轨迹和真实轨迹的欧式距离)和最终位移误差(FDE,预测轨迹和真实轨迹最终点的距离)。使用 K K K个预测轨迹的ADE/KDE最小值作为最终预测结果。

C. 实验设置

为减小积累的跟踪误差,本文使用下一步的预测边界框计算轨迹和检测物体状态的亲和度,而非连续预测物体状态。

V. 结果

A. 感知性能

实验表明,本文对QD-3DT做出的改进能提高跟踪性能。

B.轨迹预测性能

实验表明,在动态地图中引入物体的尺寸和朝向能达到最高的性能,但单独使用之一带来的性能提升并不明显(因为缺少信息会导致动态图的次优对齐)。

此外,DCENet++能超过现有方法的性能。

若在MOT得到的轨迹上进行测试,则在真实轨迹上进行训练的模型性能 与 在MOT得到的轨迹上训练的模型 相比会有大幅下降。这说明在真实轨迹上训练的模型泛化能力差,无法处理实际系统中的噪声。若在MOT得到的轨迹上进行训练,在真实轨迹上进行测试,性能仅略低于在真实轨迹上训练和测试的性能。

C. 定性结果

可视化表明,本文方法能在输出轨迹含噪声的情况下预测更光滑的轨迹。

局限性:本文的方法必须分开训练感知模块和轨迹预测模块,且无法共享中间特征图。此外,当感知模块出现漏检时,预测模块不能处理。文章来源地址https://www.toymoban.com/news/detail-860411.html

到了这里,关于【论文笔记】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文笔记】End-to-End Diffusion Latent Optimization Improves Classifier Guidance

    Classifier guidance为图像生成带来了控制,但是需要训练新的噪声感知模型(noise-aware models)来获得准确的梯度,或使用最终生成的一步去噪近似,这会导致梯度错位(misaligned gradients)和次优控制(sub-optimal control)。 梯度错位(misaligned gradients):通过噪声感知模型指导生成模型时,两个

    2024年02月02日
    浏览(52)
  • 《Dense Distinct Query for End-to-End Object Detection》论文笔记(ing)

    作者这里认为传统个目标检测的anchor/anchorpoint其实跟detr中的query作用一样,可以看作query (1)dense query:传统目标检测生成一堆密集anchor,但是one to many需要NMS去除重复框,无法end to end。 (2)spare query 在one2one:egDETR,100个qeury,数量太少造成稀疏监督,收敛慢召回率低。 (

    2024年01月25日
    浏览(46)
  • DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 论文精读笔记

    DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 参考:AI-杂货铺-Transformer跨界CV又一佳作!Deformable DETR:超强的小目标检测算法! 摘要 摘要部分,作者主要说明了如下几点: 为了解决DETR中使用Transformer架构在处理图像特征图时的局限性而导致的收敛速度慢,特征空间

    2024年02月10日
    浏览(39)
  • END-TO-END OPTIMIZED IMAGE COMPRESSION论文阅读

    END-TO-END OPTIMIZED IMAGE COMPRESSION 单词 image compression 图像压缩 quantizer 量化器 rate–distortion performance率失真性能 a variant of 什么什么的一个变体 construct 构造 entropy 熵 discrete value 离散值 摘要: We describe an image compression method, consisting of a nonlinear analysis transformation, a uniform quantizer,

    2024年02月12日
    浏览(54)
  • End-to-End Object Detection with Transformers(论文解析)

    我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测流程,有效地消除了许多手工设计的组件的需求,如显式编码我们关于任务的先验知识的非极大值抑制过程或锚点生成。新框架的主要要素,称为DEtection TRansformer或DETR,包括一个基于集合的全

    2024年02月09日
    浏览(44)
  • 【Deformable DETR 论文+源码解读】Deformable Transformers for End-to-End Object Detection

    上一篇讲完了DETR相关原理和源码,打算继续再学习DETR相关改进。这次要解读的是21年发表的一篇论文: ICLR 2021:Deformable DETR: Deformable Transformers for End-to-End Object Detection 。 先感谢这位知乎大佬,讲的太细了: Deformable DETR: 基于稀疏空间采样的注意力机制,让DCN与Transformer一起玩

    2023年04月16日
    浏览(49)
  • Trajectory-guided Control Prediction for End-to-end Autonomous Driving论文学习

    端到端自动驾驶方法直接将原始传感器数据映射为规划轨迹或控制信号,范式非常简洁,从理论上避免了多模块设计的错误叠加问题和繁琐的人为规则设计。当前的端到端自动驾驶方法主要有两条独立的研究路线,要么基于规划轨迹来运行控制器,要么直接预测控制信号。端

    2024年02月05日
    浏览(55)
  • 【论文阅读】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

    相较于传统的视觉里程计,端到端的方法可以认为是把特征提取、匹配、位姿估计等模块用深度学习模型进行了替代。不同于那种用深度学习模型取代里程计框架一部分的算法,端到端的视觉里程计是直接将整个任务替换为深度学习,输入依然是图像流,结果也依然是位姿,

    2024年03月18日
    浏览(54)
  • 论文解读《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》

    论文:《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》 Code:https://github.com/tjiiv-cprg/epro-pnp (909 star) 作者的视频简单介绍:https://www.bilibili.com/video/BV13T411E7kb 摘要: 解决问题: 对于6D位姿估计,基于几何(PnP)的方法性能要好一些,但以前

    2024年02月03日
    浏览(59)
  • 深度学习中端到端(end-to-end)简要理解

    端到端指的是输入是原始数据,输出是最后的结果。而原来的输入端不是直接的原始数据(raw data),而是在原始数据中提取的特征(features)。这一点在图像问题上尤为突出,因为图像像素数太多,数据维度高,会产生维度灾难,所以原来一个思路是手工提取(hand-crafted f

    2024年02月09日
    浏览(59)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包