DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

这篇具有很好参考价值的文章主要介绍了DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

目的

本文提出了一个 仅使用 2D 信息的,3D 目标检测网络,并且比依赖与 密集的深度预测 或者 3D 重建的过程。该网络使用了 和 DETR 相似的 trasformer decoder ,因此也无需 NMS 等后处理操作。

长久以来 3D目标检测是一个挑战,并且 仅使用 2D 的图像信息(RGB图像),相比于 3D 信息(LiDAR)更加困难。

一些经典的方法:

  1. 使用2D 目标检测 pipeline(CenterNet,FCOS等) 预测 3D信息(目标pose,速度),并不考虑 3D场景结构 或 传感器配置。这些方法需要一些后处理来融合多个相机的信息,以及去掉冗余的 boxes。
  2. 作为这些基于2D方法的一些替代方案,一些方法将3D的计算纳入了 pipeline中:通过从图像中生成伪激光雷达,或是场景的距离。然后使用一些 3D 目标检测方法,处理这些数据,就好像我们直接获取了 3D 的数据。这种方法的问题是,对深度估计的不准确,会对3D的目标检测带来负面影响。

本文提出了一个更加优雅的 2D 观察到 3D预测的过渡,用于自动驾驶任务,该方法不依赖于 密集的深度预测模块。

方法

网络结构

DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries,论文笔记,3d,目标检测,目标跟踪

网络结构概述:

  1. 使用一个共享的 ResNet backbone 以及 FPN 提取特征
  2. 一个检测头,以 geometry-aware manner 连接 2D 特征 和 3D bbox 预测。检测头的每一层都 输入 从数据中学到的 目标 query 的稀疏集合。每一个 object query 都编码了 3D 位置信息,这些 object query 都被投影到了 相机平面,并被用来收集图像的特征。
  3. 与 DETR 相同,使用了 多头注意力 refine object queries,这个 layer 将重复多次
  4. 在 decoder 的最后 会使用一个 FFN 给出最后的结果
  5. 最后 使用 set-set loss 训练网络

decoder 每一个 layer 的处理步骤:

  1. 预测一组与对象查询相关的边界框中心;
  2. 使用相机变换矩阵将这些中心投影到所有特征图中;
  3. 通过双线性插值对特征进行采样并将它们合并到对象查询中;
  4. 使用多头注意力描述对象交互。

loss

类似于 DETR 的 set to set 的 loss,在 decoder 的每一个 layer 后面都有 loss 的计算。

相关资料

BEV下的纯视觉目标检测-DETR3D - 清华MARS Lab的文章 - 知乎 https://zhuanlan.zhihu.com/p/499795161文章来源地址https://www.toymoban.com/news/detail-572217.html

到了这里,关于DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • PolarFormer:Multi-camera 3D Object Detection with Polar Transformer——论文笔记

    参考代码:PolarFormer 介绍:在仓库RoboBEV中总结了现有的一些bev感知算法在不同输入情况下的鲁棒性,在这些感知算法中PolarFormer拥有较为不错的泛化性能。这个算法的思想是将之前由直角坐标系栅格化构建bev网格,转换到由极坐标构建栅格化bev网格,这样的bev特征构建方法其

    2024年02月11日
    浏览(53)
  • 【论文笔记】Towards Generalizable Multi-Camera 3D Object Detection via Perspective Debiasing

    原文链接:https://arxiv.org/abs/2310.11346 最近,多相机3D目标检测(MC3D-Det)多使用BEV方法以进行有效的多相机信息融合,但当测试环境与训练环境有很大不同时,这些方法会有严重的性能下降。 两种减轻域偏移的方向是域泛化(DG)和无监督域自适应(UDA)。DG方法通常解耦并消

    2024年03月14日
    浏览(50)
  • CFT:Multi-Camera Calibration Free BEV Representation for 3D Object Detection——论文笔记

    参考代码:暂无 介绍:在相机数据作为输入的BEV感知算法中很多是需要显式或是隐式使用相机内外参数的,但是相机的参数自标定之后并不是一直保持不变的,这就对依赖相机标定参数的算法带来了麻烦。如何提升模型对相机参数鲁棒性,甚至是如何去掉相机参数成为一种趋

    2024年02月01日
    浏览(57)
  • 无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection

    论文url :https://arxiv.org/abs/2305.12457 该论文提出了一种名为Unsupervised Multi-view Pedestrian Detection (UMPD)的新方法,旨在通过多视角视频监控数据准确地定位行人,而无需依赖于人工标注的视频帧和相机视角。 当我第一时间看到这个框架图,顿时感觉头发都掉了好几根,他这个设计

    2024年04月11日
    浏览(42)
  • Monocular 3D Object Detection with Depth from Motion 论文学习

    论文链接:Monocular 3D Object Detection with Depth from Motion 从单目输入感知 3D 目标对于自动驾驶非常重要,因为单目 3D 的成本要比多传感器的方案低许多。但单目方法很难取得令人满意的效果,因为单张图像并没有提供任何关于深度的信息,该方案实现起来非常困难。 Two view 场景

    2024年02月17日
    浏览(41)
  • 论文阅读:Offboard 3D Object Detection from Point Cloud Sequences

    目录 概要 Motivation 整体架构流程 技术细节 3D Auto Labeling Pipeline The static object auto labeling model The dynamic object auto labeling model 小结 论文地址: [2103.05073] Offboard 3D Object Detection from Point Cloud Sequences (arxiv.org)     该论文提出了一种利用点云序列数据进行离线三维物体检测的方法,称

    2024年02月06日
    浏览(48)
  • BMR论文阅读笔记(Bootstrapping Multi-view Representations for Fake News Detection)

    论文标题:Bootstrapping Multi-view Representations for Fake News Detection 论文作者:Qichao Ying, Xiaoxiao Hu, Yangming Zhou, Zhenxing Qian, Dan Zeng, Shiming Ge 论文来源:AAAI 2023,Paper 代码来源:Code 基于深度学习的多模态 虚假新闻检测 (Fake News Detection, FND)一直饱受关注,本文发现以往关于多模态FND的研

    2024年02月05日
    浏览(56)
  • 【论文阅读】多目标跟踪—ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box

    写在前面: ByteTrack作者今年3月的新作品,升级了的V2版本并不是仅仅将ByteTrack扩展到三维场景,而是在二阶段匹配的框架下,结合了JDT和TBD常用的两种基于运动模型进行匹配的方法,提出了一种新的运动匹配模式,思路新颖,在三维MOT数据集nuScence上也达到了state-of-the-art。注

    2024年02月04日
    浏览(52)
  • Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors

    多模态长距离低分辨率传感器条件下的3D物体检测 慕尼黑工业大学计算机、信息与技术学院 - 信息学 随着自动驾驶车辆和智能交通系统的兴起,强大的3D物体检测变得至关重要。这些系统通常面临由于远距离和遮挡的物体,或低分辨率传感器导致的数据稀疏性的挑战,这可能

    2024年02月21日
    浏览(46)
  • 论文精读《BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View》

    背景介绍:二维的目标检测算法启发我们去寻找一个高效可用的三维目标检测算法 自动驾驶通过感知周围环境来做出决定,这是视觉领域中最复杂的场景之一。范式创新在解决二维目标检测中的成功激励着我们去寻找一个简练的、可行的、可扩展的范例,从根本上推动该领域

    2024年01月18日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包