【论文笔记】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images-Toy模板网

这篇具有很好参考价值的文章主要介绍了【论文笔记】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

原文链接：https://arxiv.org/abs/2308.05026

I. 引言

目前的轨迹预测方法多基于道路使用者的真实信息，但在实际自动驾驶系统中这些信息是通过检测和跟踪模块得到的，不可避免的存在噪声。本文将感知模块与轨迹预测整合，进行端到端的检测、跟踪和轨迹预测。

本文感知模块使用单目图像输入，以QD-3DT为基础模型，能有效关联运动智能体并估计3D边界框。预测模块则使用感知模块输出的2D位置信息，使用DCENet作为基础模型，利用注意力机制和条件变分自编码器预测智能体的多模态轨迹。此外，本文将DCENet扩展为以智能体的位置、尺寸和姿态作为输入，并使用感知模块的估计结果作为输入，因此被称为DCENet++。【论文笔记】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images,端到端自动驾驶,论文阅读,自动驾驶,深度学习,计算机视觉
本文的方法称为ODTP（在线检测、跟踪、预测），流程如上图所示。

III. 方法

A. 问题表达

本文以单目图像序列为输入，检测模块输出每个时刻的3D边界框集合 $S^t=\{s_1^t,\cdots,s_J^t\}$ 。在多目标跟踪模块进行数据关联和运动细化后，得到光滑轨迹集合 $\mathbb T=\{\tau_1,\cdots,\tau_N\}$ （其中 $\tau_i\in\mathbb R^{T\times 2}$ ），以及细化的边界框集合 $\mathbb S^t=\{s_1^t,\cdots,s_N^t\}$ 。 $N < J$ 为跟踪的智能体数量， $T\geq2$ 为时间范围。随后， $\mathbb T$ 和 $\mathbb S$ 被送入轨迹预测模块，预测可能的未来轨迹集合 $\{\hat Y_{i,1}^{T+1:T'},\cdots,\hat Y_{i,K}^{T+1:T'}\}$ ，其中 $i\in\{1,\cdots,N\}$ 为智能体索引， $K$ 为预测轨迹数量， $T^{'} - T$ 为预测的时间范围。

B. QD-3DT

QD-3DT以图像和GPS/IMU信息为输入（后者用于定位自车），将各智能体的3D信息变换到自车坐标系下。图像首先会通过主干和RPN得到2D RoI，RoI会进一步输入两个预测头，分别得到相似性特征嵌入和3D布局。为进行跟踪，利用3D信息、运动信息和特征嵌入计算跟踪轨迹之间的多模态相似度指标，并进行运动感知的数据关联和深度排序的匹配技巧以减轻遮挡问题。最后，物体的3D信息会被细化。

C. DCENet++

与DCENet相比，本文使用估计的智能体位置、尺寸和朝向为输入以获取细化的动态地图。如下图所示（从左到右分别为不考虑大小和朝向、仅考虑大小、同时考虑大小和朝向）。注意仅考虑BEV下的2D信息。
【论文笔记】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images,端到端自动驾驶,论文阅读,自动驾驶,深度学习,计算机视觉

D. 联合3D跟踪和预测

得到轨迹 $\mathbb T=\{\tau^{1:T}_1,\cdots,\tau^{1:T}_N\}$ 和 $T$ 时刻的边界框 $\mathbb S^T=\{s_1^T,\cdots,s_N^T\}$ 后，本文将DCENet++的批量大小设置为 $N$ ，并根据 $\mathbb S^T$ 将各智能体投影到动态地图的网格中，将位置、速度、姿态信息放入不同通道。同时，各智能体的偏移量序列 $\Delta X_i^{1:T-1}=\{\Delta x_i^1,\cdots,\Delta x_i^{T-1}\}\in\mathbb R^{(T-1)\times 2}$ 会与动态图序列组合，作为预测模块的联合条件，预测多模态轨迹 $\{\hat Y_{i,1}^{T+1:T'},\cdots,\hat Y_{i,K}^{T+1:T'}\}$ 。

IV. 实验

B. 评估指标

MOT指标：使用AMOTA（组合FP、FN和IDS指标）和AMOTP（衡量定位精度）。

轨迹预测指标：使用平均位移误差（ADE，预测轨迹和真实轨迹的欧式距离）和最终位移误差（FDE，预测轨迹和真实轨迹最终点的距离）。使用 $K$ 个预测轨迹的ADE/KDE最小值作为最终预测结果。

C. 实验设置

为减小积累的跟踪误差，本文使用下一步的预测边界框计算轨迹和检测物体状态的亲和度，而非连续预测物体状态。

V. 结果

A. 感知性能

实验表明，本文对QD-3DT做出的改进能提高跟踪性能。

B.轨迹预测性能

实验表明，在动态地图中引入物体的尺寸和朝向能达到最高的性能，但单独使用之一带来的性能提升并不明显（因为缺少信息会导致动态图的次优对齐）。

此外，DCENet++能超过现有方法的性能。

若在MOT得到的轨迹上进行测试，则在真实轨迹上进行训练的模型性能与在MOT得到的轨迹上训练的模型相比会有大幅下降。这说明在真实轨迹上训练的模型泛化能力差，无法处理实际系统中的噪声。若在MOT得到的轨迹上进行训练，在真实轨迹上进行测试，性能仅略低于在真实轨迹上训练和测试的性能。

C. 定性结果

可视化表明，本文方法能在输出轨迹含噪声的情况下预测更光滑的轨迹。

局限性：本文的方法必须分开训练感知模块和轨迹预测模块，且无法共享中间特征图。此外，当感知模块出现漏检时，预测模块不能处理。文章来源地址https://www.toymoban.com/news/detail-860411.html

到了这里，关于【论文笔记】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！