Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors

这篇具有很好参考价值的文章主要介绍了Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

多模态长距离低分辨率传感器条件下的3D物体检测

慕尼黑工业大学计算机、信息与技术学院 - 信息学

随着自动驾驶车辆和智能交通系统的兴起,强大的3D物体检测变得至关重要。这些系统通常面临由于远距离和遮挡的物体,或低分辨率传感器导致的数据稀疏性的挑战,这可能影响性能。本论文主要研究了时间信息对两个来自不同领域的数据集 - 具体而言是TUMTraf-i [Zim+23b]和OSDaR23 [Tag+23]的物体预测准确性的影响。

我们提出了Temporal Fuser(TF),该方法吸收先前帧以在鸟瞰图级别精炼特征,以及Temporal-Aware Ground Truth Paste(TA-GTP)数据增强方法,该方法通过增加具有时间一致性的移动和旋转虚拟对象来增强训练场景。

这些提出的方法已经集成到我们定制的Temporal Pipeline中,该管道建立在BEVFusion [Liu+22]之上,通过在线缓存机制促使快速推断,同时确保所有现有增强方法在训练阶段具有时间一致性。为了确保我们的评估在整个时间上与时间动态相关,我们实现了一种新颖的Temporal Dataset Split Search算法。该算法通过考虑物体的自定义属性找到数据集的最佳分割,确保分割在类别多样性以及与自定义属性(如距离自车位置的距离、边界框内点的数量和遮挡级别)的平衡。

当结合使用时,我们的方法在所有数据集和各种模态的不同组合上均取得了显著的性能改进。我们通过广泛的定量结果展示了它们在不同距离的物体上的有效性,并通过详细的可视化演示了我们的方法如何预测远距离或遮挡的物体。此外,我们还展示了我们的方法在点云数量减少的场景中的性能,进一步模拟低分辨率传感器引起的稀疏性。为了确保每种方法在单独使用时的有效性,我们对Temporal Fuser(TF)、Temporally-Aware Ground Truth Paste(TA-GTP)和Temporal Loading的组成部分进行了彻底的消融研究,从而验证了我们提出的方法。

Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors,深度学习,论文阅读,transformer,3d
图2.1:显示了TUMTraf Intersection Dataset(TUMTraf-i)中使用的传感器位置的图像。摘自[Zim+23b]。

Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors,深度学习,论文阅读,transformer,3d
图2.2:在TUMTraf Intersection Dataset(TUMTraf-i)中可视化的3D框标签和轨迹。第一行显示了在两个摄像机图像中投影的标签。在两个激光雷达的注册点云下方包含相同场景的3D框标签。摘自[Zim+23b]。

Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors,深度学习,论文阅读,transformer,3d
图2.3:显示在Open Sensor Data for Rail 2023(OSDaR23)中使用的传感器位置的图像。摘自[Tag+23]。

Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors,深度学习,论文阅读,transformer,3d
图2.4:Open Sensor Data for Rail 2023数据集(OSDaR23)的高分辨率、低分辨率和红外相机图像的代表样本,附带雷达和激光雷达数据。摘自[Tag+23]。

Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors,深度学习,论文阅读,transformer,3d
图3.1:单阶段(single-stage)RetinaNet [Lin+18]与双阶段Faster-RCNN [Ren+16]的比较。摘自[Car+21]。

Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors,深度学习,论文阅读,transformer,3d
图3.2:[PF20]中引入的LSS处理多视图图像以及它们的对应外部和内部参数,以生成每个图像的锥形点云。这些点云嵌入了计算的深度值,随后被转换为鸟瞰图(BEV)空间,然后通过CNN进行任务处理。摘自[PF20]。

Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors,深度学习,论文阅读,transformer,3d
图3.3:体素化如何在点云上工作的示意图[Xu+21]。

Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors,深度学习,论文阅读,transformer,3d
图3.4:Late-fusion多模态3D物体检测流程[Zim+23a]。

Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors,深度学习,论文阅读,transformer,3d
图3.5:深度融合模型BEVFusion [Liu+22]、TransFusion [Bai+22]和CMT [Yan+23]的比较。摘自[Yan+23]。

Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors,深度学习,论文阅读,transformer,3d
图3.6:多帧LiDAR序列的各种时间聚合类型的示意图。摘自[Mao+23]。

Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors,深度学习,论文阅读,transformer,3d
图3.7:多模态虚拟点(MVP)生成框架的概述。摘自[YZK21b]。

Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors,深度学习,论文阅读,transformer,3d
图4.1:我们的时间数据集分割搜索算法的概述。将原始序列的列表(表示为So)编译并分割成每个Nf帧的伪序列。通过重新排列这些伪序列创建Np排列。使用在4.13中描述的操作D,每个排列被分割成集合:Sptrain,Spval和Sptest。算法检查这些集合是否满足使用T(4.14)描述的约束。当满足约束时,操作C(4.19)确定成本,引导算法选择具有最小成本的最佳分割。

Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors,深度学习,论文阅读,transformer,3d
图4.2:BEVFusion,我们的基线模型,从多模态输入中提取特征并使用视图变换高效地将它们转换为共享的俯视图(BEV)空间。它使用全卷积BEV编码器将统一的BEV特征融合,并使用特定于任务的头部支持不同的任务。摘自[Liu+22]。

Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors,深度学习,论文阅读,transformer,3d
图4.3:用于训练管道的时间数据加载的可视化。顺序帧,其索引可能存在间隙,按照指定的长度(由Q表示)作为顺序序列加载。各个g值的总和不得超过G。随后,对这些序列应用数据增强方法,其应用方式取决于方法的具体配置,确定效果是否均匀地应用于所有顺序帧。

Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors,深度学习,论文阅读,transformer,3d
图4.4:来自3D图像增强方法的输出示例图像文章来源地址https://www.toymoban.com/news/detail-832665.html

到了这里,关于Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文精读《BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View》

    背景介绍:二维的目标检测算法启发我们去寻找一个高效可用的三维目标检测算法 自动驾驶通过感知周围环境来做出决定,这是视觉领域中最复杂的场景之一。范式创新在解决二维目标检测中的成功激励着我们去寻找一个简练的、可行的、可扩展的范例,从根本上推动该领域

    2024年01月18日
    浏览(35)
  • 【CV论文精读】【BEV感知】BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

    【CV论文精读】【BEV感知】BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View BEVDet:鸟瞰下的高性能多摄像机三维目标检测 自动驾驶感知周围环境进行决策,这是视觉感知中最复杂的场景之一。范式创新在解决2D目标检测任务中的成功激励我们寻求一种优雅、可行和可

    2024年02月22日
    浏览(35)
  • MaPLe: Multi-modal Prompt Learning

    本文也是LLM系统的文章,主要是面向多模态的大语言模型,针对《MaPLe: Multi-modal Prompt Learning》的翻译。 CLIP等预先训练的视觉语言(V-L)模型对下游任务表现出了出色的泛化能力。但是,它们对输入文本提示的选择很敏感,需要仔细选择提示模板才能执行良好的操作。受自然

    2024年02月09日
    浏览(34)
  • 【提示学习论文六】MaPLe: Multi-modal Prompt Learning论文原理

    这篇文章于2023年发表在CVPR(Conference on Computer Vision and Pattern Recognition),作者是Muhammad Uzair Khattak,Hanoona Rasheed,Muhammad Maaz,Salman Khan,Fahad Shahbaz Khan。 研究发现Clip的问题:在单个分支(语言或视觉)中使用prompt来调整表示是次优的,它不能在下游任务上灵活地动态调整两个

    2024年01月22日
    浏览(31)
  • 论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment

    Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment 这篇文章的主要内容是关于多模态语义理解的研究,特别是通过对比学习进行跨模态特征对齐的方法。文章提出了一种新的CLIP(Contrastive Language-Image Pre-training)引导的对比学习方法,用于多模态特征对齐(CLFA,

    2024年04月11日
    浏览(28)
  • 【论文笔记】Multi-modal Facial Affective Analysis based on Masked Autoencoder

    论文链接:https://arxiv.org/abs/2303.10849 代码:https://github.com/FuxiVirtualHuman/ABAW5 基本自译,没有使用翻译软件进行大段翻译。包含很多意译的部分。 不确定的地方有问号标注。 “问题:\\\"部分是一些前置知识的补充,不是论文内容。 介绍ABAW这个比赛:识别情感表现(高质量、大

    2024年04月26日
    浏览(29)
  • 图像融合论文阅读:MURF: Mutually Reinforcing Multi-Modal Image Registration and Fusion

    @article{xu2023murf, title={MURF: Mutually Reinforcing Multi-modal Image Registration and Fusion}, author={Xu, Han and Yuan, Jiteng and Ma, Jiayi}, journal={IEEE Transactions on Pattern Analysis and Machine Intelligence}, year={2023}, publisher={IEEE} } 论文级别:SCI A1 影响因子:23.6 📖[论文下载地址] 马佳义大佬团队2023年的一篇论文

    2024年02月21日
    浏览(34)
  • PolarFormer:Multi-camera 3D Object Detection with Polar Transformer——论文笔记

    参考代码:PolarFormer 介绍:在仓库RoboBEV中总结了现有的一些bev感知算法在不同输入情况下的鲁棒性,在这些感知算法中PolarFormer拥有较为不错的泛化性能。这个算法的思想是将之前由直角坐标系栅格化构建bev网格,转换到由极坐标构建栅格化bev网格,这样的bev特征构建方法其

    2024年02月11日
    浏览(36)
  • PETR: Position Embedding Transformation for Multi-View 3D Object Detection

    PETR: Position Embedding Transformation for Multi-View 3D Object Detection 旷视 DETR3D 中 2D-3D过程 存在的问题: 预测的参考点坐标可能不准确,在采样图片特征时可能拿不到对应的特征。 只有参考点 投影位置的图像特征被使用,无法学到全局的特征。 采样图像特征的过程过于复杂,难于应用

    2024年02月16日
    浏览(38)
  • 【论文笔记】Towards Generalizable Multi-Camera 3D Object Detection via Perspective Debiasing

    原文链接:https://arxiv.org/abs/2310.11346 最近,多相机3D目标检测(MC3D-Det)多使用BEV方法以进行有效的多相机信息融合,但当测试环境与训练环境有很大不同时,这些方法会有严重的性能下降。 两种减轻域偏移的方向是域泛化(DG)和无监督域自适应(UDA)。DG方法通常解耦并消

    2024年03月14日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包