CFT:Multi-Camera Calibration Free BEV Representation for 3D Object Detection——论文笔记

这篇具有很好参考价值的文章主要介绍了CFT:Multi-Camera Calibration Free BEV Representation for 3D Object Detection——论文笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

参考代码:暂无

1. 概述

介绍:在相机数据作为输入的BEV感知算法中很多是需要显式或是隐式使用相机内外参数的,但是相机的参数自标定之后并不是一直保持不变的,这就对依赖相机标定参数的算法带来了麻烦。如何提升模型对相机参数鲁棒性,甚至是如何去掉相机参数成为一种趋势。对应的这篇文章完全去除了相机参数依赖,首先通过PA(position-aware enhancement)实现强大BEV空间位置编码,之后BEV空间位置编码与图像特征做cross attention实现BEV特征提取,这里的cross attention是针对特定区域的VA(view-aware attention),这个区域是通过相机空间布置位置作为先验进行划分的。这样通过上述的两个模块构建了一个高效的BEV空间特征提取网络,并且在内存占用和计算效率上有了较大提升。

对于相机参数的使用可以划分为如下几种使用方法:
CFT:Multi-Camera Calibration Free BEV Representation for 3D Object Detection——论文笔记

  • 1)显式使用:通过内外参数建立3D空间和2D空间中的对应关系,并以此对应关系进行特征索引或提取,带来的好处是直观并且收敛速度快,但对相机参数很敏感。
  • 2)隐式使用:将内外参数隐式编码(embedding)并通过query的形式获取最后的特征表达,好处是对相机参数相对鲁棒。但是做query的维度不能太大(CVT的querysize为25),否则计算量和内存扛不住,太小也导致性能会被削减厉害。
  • 3)完全不使用:这类方法中完全抛弃了相机参数,通过构建attention机制实现BEV特征和图像特征的关联,从而得到BEV表达。但是这需要强大的position/content表达和cross attention算力,实际训练和部署中也会存在对应的问题。但是文章通过提出的PA和view-aware attention给出了一个可行方案。

按照以上三种相机使用方法进行划分,文中对现有的一些方法进行划分:
CFT:Multi-Camera Calibration Free BEV Representation for 3D Object Detection——论文笔记
将文章的方法和其它一些方法对比相机参数鲁棒性:
CFT:Multi-Camera Calibration Free BEV Representation for 3D Object Detection——论文笔记
一条近乎直线的变化,稳得一批。

2. 方法设计

2.1 网络pipeline

文章的网络pipeline见下图所示:
CFT:Multi-Camera Calibration Free BEV Representation for 3D Object Detection——论文笔记
在上图中可以看到文章提出的两点改进PA和VA。其中PA是对位置编码进行强化,其使用了BEV 2D和content编码,并通过PA网络实现特征增强。

2.2 Position-aware Attention

PA的网络结构见下图所示:
CFT:Multi-Camera Calibration Free BEV Representation for 3D Object Detection——论文笔记
对于BEV的2D query表示为 Q p ∈ R H b ∗ W b ∗ C p Q_p\in R^{H_b*W_b*C_p} QpRHbWbCp,这个2Dquery会经过FFN网络和sigmoid激活之后用于表示BEV的高度信息
z r e f = N o r m ( S i g m o i d ( F F N ( Q r e f ) ) ) z_{ref}=Norm(Sigmoid(FFN(Q_{ref}))) zref=Norm(Sigmoid(FFN(Qref)))
自然这个高度信息也是可以添加实际监督约束(如L1 loss)的,不过文中后续实验表明显式添加约束可不需要。之后再经过正弦函数编码与BEV 2D query做融合:
Q e p = a d d ( M ⋅ Q r e f , Q p ) , M = F F N ( Q c ) , Q r e f = S i n u o i d a l ( z r e f ) Q_{ep}=add(M\cdot Q_{ref},Q_p),M=FFN(Q_c),Q_{ref}=Sinuoidal(z_{ref}) Qep=add(M文章来源地址https://www.toymoban.com/news/detail-427553.html

到了这里,关于CFT:Multi-Camera Calibration Free BEV Representation for 3D Object Detection——论文笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文笔记】Towards Generalizable Multi-Camera 3D Object Detection via Perspective Debiasing

    原文链接:https://arxiv.org/abs/2310.11346 最近,多相机3D目标检测(MC3D-Det)多使用BEV方法以进行有效的多相机信息融合,但当测试环境与训练环境有很大不同时,这些方法会有严重的性能下降。 两种减轻域偏移的方向是域泛化(DG)和无监督域自适应(UDA)。DG方法通常解耦并消

    2024年03月14日
    浏览(35)
  • 实时 3D 深度多摄像头跟踪 Real-time 3D Deep Multi-Camera Tracking

    论文url https://arxiv.org/abs/2003.11753 提出了一个名为Deep Multi-Camera Tracking (DMCT)的实时3D多摄像机跟踪系统。该系统旨在解决使用多个RGB摄像机进行3D人群跟踪的挑战性任务。 多个RGB摄像机的实时视频帧,每个视频帧是一个彩色图像,具有高度和宽度的像素矩阵。 基础卷积层(Ba

    2024年04月09日
    浏览(61)
  • PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

    PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images 旷视 本文的目标是 通过扩展 PETR,使其有时序建模和多任务学习的能力 以此建立一个 强有力且统一的框架。 本文主要贡献: 将 位置 embedding 转换到 时序表示学习,时序的对齐 是在 3D PE 上做 姿态变换实现的。提出了

    2024年02月16日
    浏览(29)
  • 【论文阅读】OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural Radiance Fields

    原文链接:https://arxiv.org/abs/2312.09243 3D目标检测任务受到无限类别和长尾问题的影响。3D占用预测则不同,其关注场景的几何重建,但多数方法需要从激光雷达点云获取的3D监督信号。 本文提出OccNeRF,一种自监督多相机占用预测模型。首先使用图像主干提取2D特征。为节省空间

    2024年02月02日
    浏览(33)
  • 【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh

    【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enhancement 原文链接:https://ieeexplore.ieee.org/abstract/document/10363646 本文的3DOPFormer使用空间交叉注意力机制和反卷积恢复3D占用,然后基于激光雷达射线方向特征提出优化3D占用感知模型的新方法。使

    2024年01月25日
    浏览(26)
  • 论文精读《BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View》

    背景介绍:二维的目标检测算法启发我们去寻找一个高效可用的三维目标检测算法 自动驾驶通过感知周围环境来做出决定,这是视觉领域中最复杂的场景之一。范式创新在解决二维目标检测中的成功激励着我们去寻找一个简练的、可行的、可扩展的范例,从根本上推动该领域

    2024年01月18日
    浏览(32)
  • lidar camera calibration

    vel2cam git 本文介绍了一种使用带ArUco标记的立方体的3D-3D对应特征来校准LiDAR和相机的新方法。在LiDAR坐标系中,选择三个表面上的点数据分别拟合平面方程。通过这种方式,可以获得每个平面的顶点坐标和法向量。在相机坐标系中,通过相机的完整6D姿态估计使用ArUco标记可以

    2024年02月05日
    浏览(28)
  • 多激光雷达标定multi_LiDAR_calibration

    对于多激光雷达的标定主要采用ICP、NDT等配准方法进行估计多个激光雷达的外参变换矩阵 T T T 。在这里先介绍一些先前关于多激光雷达外参标定的工作: M-LOAM :采用多个激光雷达固定到一个机器人上进行一起SLAM建图,在线标定得到外参矩阵。 multi_lidar_calibration :代码地址

    2024年02月13日
    浏览(30)
  • 相机标定(Camera calibration)原理及步骤

     这已经是我第三次找资料看关于相机标定的原理和步骤,以及如何用几何模型,我想十分有必要留下这些资料备以后使用。这属于笔记总结。 1.为什么要相机标定?        在图像测量过程以及机器视觉应用中,为确定空间物体表面某点的三维几何位置与其在图像中对应点

    2024年02月09日
    浏览(26)
  • 摄像头标定--camera_calibration

    参考链接:camera_calibration - ROS Wiki 普通相机成像误差的主要来源有两部分,第一是相机感光元件制造产生的误差,比如成 像单元不是正方形、歪斜等;第二是镜头制造和安装产生的误差,镜头一般存在非线性的径 向畸变。 在对相机成像和三维空间中位置关系对应比较严格的

    2024年02月06日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包