多模态长距离低分辨率传感器条件下的3D物体检测
慕尼黑工业大学计算机、信息与技术学院 - 信息学
随着自动驾驶车辆和智能交通系统的兴起,强大的3D物体检测变得至关重要。这些系统通常面临由于远距离和遮挡的物体,或低分辨率传感器导致的数据稀疏性的挑战,这可能影响性能。本论文主要研究了时间信息对两个来自不同领域的数据集 - 具体而言是TUMTraf-i [Zim+23b]和OSDaR23 [Tag+23]的物体预测准确性的影响。
我们提出了Temporal Fuser(TF),该方法吸收先前帧以在鸟瞰图级别精炼特征,以及Temporal-Aware Ground Truth Paste(TA-GTP)数据增强方法,该方法通过增加具有时间一致性的移动和旋转虚拟对象来增强训练场景。
这些提出的方法已经集成到我们定制的Temporal Pipeline中,该管道建立在BEVFusion [Liu+22]之上,通过在线缓存机制促使快速推断,同时确保所有现有增强方法在训练阶段具有时间一致性。为了确保我们的评估在整个时间上与时间动态相关,我们实现了一种新颖的Temporal Dataset Split Search算法。该算法通过考虑物体的自定义属性找到数据集的最佳分割,确保分割在类别多样性以及与自定义属性(如距离自车位置的距离、边界框内点的数量和遮挡级别)的平衡。
当结合使用时,我们的方法在所有数据集和各种模态的不同组合上均取得了显著的性能改进。我们通过广泛的定量结果展示了它们在不同距离的物体上的有效性,并通过详细的可视化演示了我们的方法如何预测远距离或遮挡的物体。此外,我们还展示了我们的方法在点云数量减少的场景中的性能,进一步模拟低分辨率传感器引起的稀疏性。为了确保每种方法在单独使用时的有效性,我们对Temporal Fuser(TF)、Temporally-Aware Ground Truth Paste(TA-GTP)和Temporal Loading的组成部分进行了彻底的消融研究,从而验证了我们提出的方法。
图2.1:显示了TUMTraf Intersection Dataset(TUMTraf-i)中使用的传感器位置的图像。摘自[Zim+23b]。
图2.2:在TUMTraf Intersection Dataset(TUMTraf-i)中可视化的3D框标签和轨迹。第一行显示了在两个摄像机图像中投影的标签。在两个激光雷达的注册点云下方包含相同场景的3D框标签。摘自[Zim+23b]。
图2.3:显示在Open Sensor Data for Rail 2023(OSDaR23)中使用的传感器位置的图像。摘自[Tag+23]。
图2.4:Open Sensor Data for Rail 2023数据集(OSDaR23)的高分辨率、低分辨率和红外相机图像的代表样本,附带雷达和激光雷达数据。摘自[Tag+23]。
图3.1:单阶段(single-stage)RetinaNet [Lin+18]与双阶段Faster-RCNN [Ren+16]的比较。摘自[Car+21]。
图3.2:[PF20]中引入的LSS处理多视图图像以及它们的对应外部和内部参数,以生成每个图像的锥形点云。这些点云嵌入了计算的深度值,随后被转换为鸟瞰图(BEV)空间,然后通过CNN进行任务处理。摘自[PF20]。
图3.3:体素化如何在点云上工作的示意图[Xu+21]。
图3.4:Late-fusion多模态3D物体检测流程[Zim+23a]。
图3.5:深度融合模型BEVFusion [Liu+22]、TransFusion [Bai+22]和CMT [Yan+23]的比较。摘自[Yan+23]。
图3.6:多帧LiDAR序列的各种时间聚合类型的示意图。摘自[Mao+23]。
图3.7:多模态虚拟点(MVP)生成框架的概述。摘自[YZK21b]。
图4.1:我们的时间数据集分割搜索算法的概述。将原始序列的列表(表示为So)编译并分割成每个Nf帧的伪序列。通过重新排列这些伪序列创建Np排列。使用在4.13中描述的操作D,每个排列被分割成集合:Sptrain,Spval和Sptest。算法检查这些集合是否满足使用T(4.14)描述的约束。当满足约束时,操作C(4.19)确定成本,引导算法选择具有最小成本的最佳分割。
图4.2:BEVFusion,我们的基线模型,从多模态输入中提取特征并使用视图变换高效地将它们转换为共享的俯视图(BEV)空间。它使用全卷积BEV编码器将统一的BEV特征融合,并使用特定于任务的头部支持不同的任务。摘自[Liu+22]。
图4.3:用于训练管道的时间数据加载的可视化。顺序帧,其索引可能存在间隙,按照指定的长度(由Q表示)作为顺序序列加载。各个g值的总和不得超过G。随后,对这些序列应用数据增强方法,其应用方式取决于方法的具体配置,确定效果是否均匀地应用于所有顺序帧。文章来源:https://www.toymoban.com/news/detail-832665.html
图4.4:来自3D图像增强方法的输出示例图像文章来源地址https://www.toymoban.com/news/detail-832665.html
到了这里,关于Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!