多模态融合2022|TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

这篇具有很好参考价值的文章主要介绍了多模态融合2022|TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文题目:TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers
会议:CVPR2022
单位:香港科技大学,华为

1.摘要+intro
作者认为目前的坑是在point-wise级的融合,之前方法存在两个主要问题,第一,它们简单地通过逐个元素相加或拼接来融合LiDAR特征和图像特征,因此对于低质量的图像特征,例如光照条件较差的图像,这样融合的性能会严重下降。第二,稀疏的LiDAR点与密集的图像像素之间的硬关联(硬关联机制是指利用标定矩阵来建立LiDAR点和image像素的关联)不仅浪费了许多语义信息丰富的图像特征,而且严重依赖于两个传感器之间的高质量标定,但作者认为标定的质量是得不到保证的。
所以作者提出了Transfusion网络(使用两个transformer解码层作为检测头)来解决以上问题。为了使目标查询依赖输入和并具有类别的感知,作者设计了全新的query的初始化模块,并利用第一个transformer解码层来生成初始3D边界框。为了能使query自适应地与空间和上下文关系相关联的有用的图像特征融合,作者设计了第二个transformer解码层。最后,为了检测点云中难以检测到的目标,作者在query初始化阶段引入了image guidance来进行优化。

2.method
模型结构:
多模态融合2022|TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers
2.1 Query 初始化
1)输入依赖
作者认为,初始化的query的位置如果与输入数据无关的话会使得模型后续采取额外的解码层来学习向gd目标框移动的过程。受Efficient DETR启发,发现更好的query初始化能使得后续解码器的层数减少。所以作者提出了一种基于中心热力图的query初始使得query依赖于输入,使得网络仅使用一层解码器层即可获得具有竞争力的性能。具体的思路是:首先给定一个LiDAR BEV的特征图FL,维度是X×Y×d,用这个FL预测了类的热力图S,维度是X×Y×K,X和Y是BEV特征图的size,K是类别的数量,对于每个(x,y)选出所有类别置信度中top N的类别作为候选为(2)类别感知服务。为了避免空间上有太密集的queries,作者仿照CenterNet的思想,选择热力图中的局部极大值元素作为queries(这里的这个热力图上的局部最大值指的是大于或等于它的8连通邻域)
2)类别感知
作者认为BEV平面上的对象不同类别的对象之间的比例差异很大,所以可以利用这些特性进行更好的多类别检测。具体思路就是在每个query中嵌入一个类别embedding,具体地说,使用(1)中选定好的的候选类别Si,j,将Si,j的维度投影到d维后,并将对应位置的query特征和这个类别embedding在element-wise级别上相加。

2.2 Transformer Decoder and FFN
该解码器遵循DETR的设计原则,即包括了利用多层感知器(MLP)将query的位置嵌入到d维位置编码中,并与查询特征进行元素级求和。然后前馈网络将N个query独立解码为boxed和class labels。同时采用了辅助解码机制(即在每个解码层后都添加了FFN和监督来计算每一层的损失),作者在后续的LiDAR-Camera Fusion模块中就利用了这种第一层解码器的预测来限制交叉注意力。

2.3 LiDAR-Camera Fusion
1)图像特征提取
由于当一个物体只包含少量LiDAR点时,它只能提取相同数量的图像特征,浪费了高分辨率图像丰富的语义信息。所以作者没有用硬关联的方法提取LiDAR对应的像素特征,而是保留所有的图像特征作为记忆库,用在transformer解码器中用交叉注意力机制采用自适应的特征融合方式,这样能够自适应得选择图像特征。
2)空间调制的交叉注意力(SMCA)用于图像特征融合
首先拿到第一个解码器的输出目标框位置后,利用预测的结果以及标定矩阵来找到query(上一层解码器的输出作为这一层的query)在图像中的定位。然后在query和对应的特征图之间做交叉注意力。但是作者认为由于LiDAR特征和图像特征来自完全不同的域,query可能会关注到与预测的边界框无关的视觉区域,导致网络要准确识别图像上的适当区域需要较长的训练时间。所以作者设计了一个空间调制的交叉注意力模块来解决这个问题。通过一个2D圆形高斯掩模来加权每个query的2D投影中心周围的交叉注意力(即不是在image的全图的做交叉注意力了),将该权重图与所有注意力头部的交叉注意图进行元素级相乘。作者认为这样每个query就只在投影的2D框周围的相关区域进行交叉注意力,这样网络就可以更好、更快地了解到根据输入的LiDAR特征在哪里选择图像特征。在SMCA之后,作者使用另一个FFN利用包含LiDAR和图像信息的对目标query来产生最终的box预测。

2.4 标签分配和损失
和DETR一样用匈牙利算法实现预测和gd的匹配,其余没什么特别之处

2.5 Image-Guided Query Initialization(这里是对2.1提到的query的初始化进行优化,类别热力图的生成方式从原来的只用LiDAR BEV作为输入变成了LiDAR BEV+camera作为输入)
作者认为query的选择仅使用的是LiDAR特征,这可能会导致检测召回的次优目标。所以为了进一步利用高分辨率图像检测小目标的能力,使算法对稀疏的LiDAR点云具有更强的鲁棒性,选择利用LiDAR和camera信息来作为query的初始化。具体思路就是通过与LiDAR Bev特征FL使用交叉注意力将图像特征FC投影到BEV平面上生成新的LiDAR-Camera Bev 特征图FLC(即下图的Fused BEV Features)。具体操作就是作者使用沿高度轴压缩的多视图图像特征作为注意机制的key-value序列。作者说BEV位置和图像列之间的关系可以通过利用相机变换矩阵来建立。因此,沿高度轴压缩可以在不丢失关键信息的情况下显著减少计算量。虽然在这个压缩过程中可能会丢失一些细粒度的图像特征,但它已经满足了特征信息的需要,因为只需要一个关于潜在对象位置的提示。
多模态融合2022|TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

3.结果
多模态融合2022|TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers文章来源地址https://www.toymoban.com/news/detail-404354.html

到了这里,关于多模态融合2022|TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 领域最全!多传感器融合方法综述!(Camera/Lidar/Radar等多源异构数据)

    领域最全!多传感器融合方法综述!(Camera/Lidar/Radar等多源异构数据)

    点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 ADAS巨卷干货,即可获取 点击进入→ 自动驾驶之心技术交流群 后台回复【ECCV2022】获取ECCV2022所有自动驾驶方向论文! 原文:Multi-Sensor Fusion in Automated Driving: A Survey 自动驾驶正成为影响未来行业的关键技术,传感器是自动驾驶

    2023年04月08日
    浏览(10)
  • TransFusion:利用 Transformer 进行鲁棒性融合来进行 3D 目标检测

    TransFusion:利用 Transformer 进行鲁棒性融合来进行 3D 目标检测

    Input-dependent 以往 Query 位置是随机生成或学习作为网络参数的,而与输入数据无关,因此需要额外的阶段(解码器层)来学习模型向真实对象中心移动的过程。 论文提出了一种基于center heatmap 的 input-dependent 初始化策略。(decoder :6 layers — 1 layer) 给定一个 d d d 维的 LiDAR

    2024年02月11日
    浏览(9)
  • lidar camera calibration

    lidar camera calibration

    vel2cam git 本文介绍了一种使用带ArUco标记的立方体的3D-3D对应特征来校准LiDAR和相机的新方法。在LiDAR坐标系中,选择三个表面上的点数据分别拟合平面方程。通过这种方式,可以获得每个平面的顶点坐标和法向量。在相机坐标系中,通过相机的完整6D姿态估计使用ArUco标记可以

    2024年02月05日
    浏览(10)
  • 【论文笔记】CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception

    【论文笔记】CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception

    原文链接:https://arxiv.org/abs/2304.00670   本文提出两阶段融合方法CRN,能使用相机和雷达生成语义丰富且位置精确的BEV特征。具体来说,首先将图像透视特征转换到BEV下,该步骤依赖雷达,称为雷达辅助的视图变换(RVT)。由于转换得到的BEV特征并非完全精确,接下来的多模

    2024年02月03日
    浏览(6)
  • 【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

    【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

    原文链接:https://openaccess.thecvf.com/content/WACV2024/html/Wu_A_Robust_Diffusion_Modeling_Framework_for_Radar_Camera_3D_Object_WACV_2024_paper.html 本文使用概率去噪扩散模型的技术,提出完全可微的雷达-相机框架。使用校准矩阵将雷达点云投影到图像上后,在特征编码器和BEV下的Transformer检测解码器中

    2024年01月18日
    浏览(13)
  • 消除 BEV 空间中的跨模态冲突,实现 LiDAR 相机 3D 目标检测

    消除 BEV 空间中的跨模态冲突,实现 LiDAR 相机 3D 目标检测

    Eliminating Cross-modal Conflicts in BEV Space for LiDAR-Camera 3D Object Detection 近期,3D目标检测器通常利用多传感器数据和在共享的鸟瞰图(BEV)表示空间中统一多模态特征。然而,我们的实证研究发现,以前的方法在生成无跨模态冲突的融合BEV特征方面存在局限性。这些冲突包括由BEV特

    2024年04月15日
    浏览(10)
  • 最新综述!基于相机、LiDAR和IMU的多传感器融合SLAM

    最新综述!基于相机、LiDAR和IMU的多传感器融合SLAM

    作者:萧炎 | 来源:3DCV 在公众号「 3DCV 」后台,回复「原论文」可获取论文pdf和代码链接 近年来,同步定位与建图(SLAM)技术在自动驾驶、智能机器人、增强现实(AR)、虚拟现实(VR)等领域得到广泛应用。使用最流行的三种类型传感器(例如视觉传感器、LiDAR传感器和

    2024年03月26日
    浏览(7)
  • 论文阅读:LIF-Seg: LiDAR and Camera Image Fusion for 3DLiDAR Semantic Segmentation

    论文阅读:LIF-Seg: LiDAR and Camera Image Fusion for 3DLiDAR Semantic Segmentation

    LIF-Seg:用于 3D LiDAR 语义分割的 LiDAR 和相机图像融合 来源:华科 + 商汤 未发表2021 链接:https://arxiv.org/abs/2108.07511 个人觉得有用的和自己理解加粗和()内表示,尽量翻译的比较全,有一些官方话就没有翻译了,一些疑惑的地方欢迎大家探讨。如果对整个领域比较熟悉看一、

    2023年04月25日
    浏览(7)
  • [论文阅读]MVF——基于 LiDAR 点云的 3D 目标检测的端到端多视图融合

    [论文阅读]MVF——基于 LiDAR 点云的 3D 目标检测的端到端多视图融合

    End-to-End Multi-View Fusion for 3D Object Detection in LiDAR Point Clouds 论文网址:MVF 论文代码: 这篇论文提出了一个端到端的多视角融合(Multi-View Fusion, MVF)算法,用于在激光雷达点云中进行3D目标检测。论文的主要贡献有两个: 提出了动态体素化(Dynamic Voxelization)的概念。相比传统的硬体素

    2024年01月23日
    浏览(10)
  • 【论文简述】Cross-Attentional Flow Transformer for Robust Optical Flow(CVPR 2022)

    【论文简述】Cross-Attentional Flow Transformer for Robust Optical Flow(CVPR 2022)

    1. 第一作者: Xiuchao Sui、Shaohua Li 2. 发表年份: 2021 3. 发表期刊: arxiv 4. : 光流、Transformer、自注意力、交叉注意力、相关体 5. 探索动机: 由于卷积的局部性和刚性权重,有限的上下文信息被纳入到像素特征中,并且计算出的相关性具有很高的随机性,以至于大多数

    2024年02月03日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包