3D目标识别|SFD|多模态|CVPR2022

这篇具有很好参考价值的文章主要介绍了3D目标识别|SFD|多模态|CVPR2022。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文标题:Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion
论文链接
Code: 还未开源
**动机:**室外点云+图像的方法没有纯点云的方法效果好,主要有两个原因(1)多模态的数据增广不好做(2)因为现在方法大多是从点云找对应的图像融合特征,但是点云能对应上的像素点比较少,因此没有完全利用好图像的特征。

**解决方法:**对图像上的像素点进行深度补全(深度补全网络:Penet: Towards precise and efficient image guided depth completion,在Kitti上预训练后再训练目标检测网络时不再改变参数),有了深度信息就生成了新的pseudo clouds,点云就变得Dense了,而且每个像素都有了对应的point.然后使用稠密的包含颜色信息的伪点云进行特征提取,和纯点云的特征融合,进行3D目标检测。对于数据增广,在伪点云中做数据增广后投影到图像上会有遮挡的情况出校,因此不是将整个点云投影回去,而是在经过RPN有了ROI之后将ROI投影回去,就不会有遮挡的情况发生了。

**总结:**这篇文章首次将原始点云和基于图像和点云Depth Comopletion生成的伪点云进行融合,提出了3D-GAF和CPFE模块以及同步数据增强在KITTI上取得了sota,实验也表明该方法对Depth Comopletion具有鲁棒性,整个pipeline可以作为一个Frame

Abstract
稀疏点云由于缺乏几何和语义信息造成检测性能下降,为了提高远处和被遮挡的点云的检测质量,本文提出利用深度补全基于稀疏点云和图像生成伪点云与原始点云融合的方式的多模态融合框架SFD,同时提出三个创新点:

1.3D-GAF:这是一种新的RoI特征融合方法,在网格级进行特征融合同时融入注意力机制

2.CPFE:基于图像做空洞近邻搜索,在伪点云中同时融合3D几何特征与2D语义特征

3.SynAugment:在伪点云和原始点云中同步数据增强

Introduction

说明在远处和被遮挡的区域稀疏点云会造成检测困难,同时总结目前多模态融合方法比纯lidar方法性差的主要原因:

1.维度差异: 图像是规则的高分辨率的2维数据,点云是稀疏的3维数据

2.信息损失:根据外参将点云投影到图像上找点云特征会由于点云的稀疏性造成图像的信息的损失

3.数据增强: 由于点云和图像存在对应关系,纯lidar的数据增强方法难以直接应用

Method
1.整体网络结构

3D目标识别|SFD|多模态|CVPR2022
整个网络主要由3部分组成: LiDAR Stream, Pseudo Stream and Sparse Dense Fusion Head

LiDAR Stream:处理原始点云,获取RoI

Pseudo Stream:首先结合点云稀疏投影和原始图像做Depth Completion生成带有颜色的伪点云,然后根据LiDAR Stream:的RoI截取点云特征,通过CPFE模块提取特征,最后voxelize并利用sparse convolution进一步提取特征

Sparse Dense Fusion Head:在3D-GAF中融合原始点云和伪点云RoI特征

最后根据融合特征进行预测,回归损失采用3D GIoU损失,同时增加辅助分支去正则化网络(在inference阶段去除)

2.3D-GAF
3D目标识别|SFD|多模态|CVPR2022

3D-GAF与MMF相比在网格级的细粒度(fine-grained)上进行融合,同时Attention机制,可以避免之前的在2D平面融合因遮挡产生的特征混淆。
3D目标识别|SFD|多模态|CVPR2022
在Attention中通过FC层学习权重,相乘后在拼接。
3.CPFE
3D目标识别|SFD|多模态|CVPR2022
这里受到Voxel RCNN的启发,在图像域(image domain)上进行空洞近邻查找,在提高receptive field的同时,可以在constant time内完成查找,

其次,在image domain上的近邻可以提取图像的2D特征,同时根据伪点云的(u, v)坐标可以容易地找到其在图像上的近邻 (这里在2D图像上进行查找是否考虑存在遮挡问题???)

在查找到每个点的k个近邻后,利用pointnet提取Pseudo Point Features ,同时计算该点与附近点的Position Residuals,利用pointnet提取局部特征作为weight与Pseudo Point Features相乘(类似Attention机制)
这里构成了CPC模块
CPFE模块是CPConvs的多尺度堆叠,融合高低层次特征

4.Synchronized Augmentation
3D目标识别|SFD|多模态|CVPR2022
对点云和伪点云同步数据增强

5.结果
3D目标识别|SFD|多模态|CVPR2022
在遮挡,远距离和前景与背景形状相似的情况下,本方法均有提升

reference
论文阅读 SFD: Toward High Quality 3D Detection With Depth Completion
3D目标检测 |SFD| 室外 | 多模态| CVPR2022文章来源地址https://www.toymoban.com/news/detail-412994.html

到了这里,关于3D目标识别|SFD|多模态|CVPR2022的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [论文阅读]MVX-Net——基于3D目标检测的多模态VoxelNet

    MVX-Net: Multimodal VoxelNet for 3D Object Detection 基于3D目标检测的多模态VoxelNet 论文网址:MVX-Net 这篇论文主要提出了两种多模态融合方法,PointFusion和VoxelFusion,用于将RGB图像特征与点云特征结合,从而提高3D目标检测的性能。论文的主要内容和贡献总结如下: 提出了两种简单有效的多模

    2024年02月07日
    浏览(34)
  • (CVPR 2018) 3D Semantic Segmentation with Submanifold Sparse Convolutional Networks

    卷积网络是分析图像、视频和3D形状等时空数据的事实标准。虽然其中一些数据自然密集(例如照片),但许多其他数据源本质上是稀疏的。示例包括使用LiDAR扫描仪或RGB-D相机获得的3D点云。当应用于此类稀疏数据时,卷积网络的标准“密集”实现非常低效。我们引入了新的

    2023年04月08日
    浏览(35)
  • (CVPR-2023)通过有效的时空特征融合进行多模态步态识别

    paper题目:Multi-modal Gait Recognition via Effective Spatial-Temporal Feature Fusion paper是北航发表在CVPR 2023的工作 paper地址 步态识别是一种生物识别技术,通过步行模式识别人。基于剪影的方法和基于骨架的方法是两种最流行的方法。但是剪影数据容易受到衣服遮挡的影响,骨架数据缺乏

    2024年02月08日
    浏览(38)
  • 【多模态】21、BARON | 通过引入大量 regions 来提升模型开放词汇目标检测能力(CVPR2021)

    论文:Aligning Bag of Regions for Open-Vocabulary Object Detection 代码:https://github.com/wusize/ovdet 出处:CVPR2023 传统目标检测器只能识别特定的类别,开放词汇目标检测由于不受预训练类别的限制,能够检测任意类别的目标,而受到了很多关注 针对 OVD 问题的一个典型解决方案就是基于蒸

    2024年02月15日
    浏览(31)
  • CVPR2023最新论文 (含语义分割、扩散模型、多模态、预训练、MAE等方向)

    2023 年 2 月 28 日凌晨,CVPR 2023 顶会论文接收结果出炉! CVPR 2023 收录的工作中 \\\" 扩散模型、多模态、预训练、MAE \\\" 相关工作的数量会显著增长。 Delivering Arbitrary-Modal Semantic Segmentation 论文/Paper: http://arxiv.org/pdf/2303.01480 代码/Code: None Conflict-Based Cross-View Consistency for Semi-Supervised

    2023年04月08日
    浏览(35)
  • CVPR 2022: 图像分割论文大盘点

    本文盘点了CVPR 2022 目前为止的2D图像分割相关论文,包含语义分割和实例分割,总计22篇论文,值得学习。 (1) ReSTR: Convolution-free Referring Image Segmentation Using Transformers 论文:https://arxiv.org/pdf/2203.16768.pdf 代码:暂无 (2) Bending Reality: Distortion-aware Transformers for Adapting to Panoramic Sema

    2024年02月12日
    浏览(28)
  • ​CVPR2023 | MSMDFusion: 激光雷达-相机融合的3D多模态检测新思路(Nuscenes SOTA!)...

    点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 ADAS巨卷干货,即可获取 点击进入→ 自动驾驶之心【3D目标检测】技术交流群 后台回复 【3D检测综述】 获取最新基于点云/BEV/图像的3D检测综述! 融合激光雷达和相机信息对于在自动驾驶系统中实现准确可靠的3D目标检测至关重

    2023年04月21日
    浏览(34)
  • TPS Motion(CVPR2022)视频生成论文解读

    论文: 《Thin-Plate Spline Motion Model for Image Animation》 github: https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model 问题: 尽管当前有些工作使用无监督方法进可行任意目标姿态迁移,但是当源图与目标图差异大时,对当前无监督方案来说仍然具有挑战。 方法: 本文提出无监督TPS Motio

    2023年04月11日
    浏览(44)
  • Latent Diffusion(CVPR2022 oral)-论文阅读

    论文: 《High-Resolution Image Synthesis with Latent Diffusion Models》 github: https://github.com/CompVis/latent-diffusion 为了使得DM在有限计算资源下训练,同时保留其生成质量及灵活性,作者将其应用于预训练编解码器的隐空间。基于表征训练扩散模型达到降低计算量及细节保留的最优点。作者

    2024年02月11日
    浏览(29)
  • HumanNeRF(CVPR2022 oral)-人体重建论文阅读

    论文: 《HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video》 github: https://github.com/chungyiweng/humannerf 作者提出HumanNeRF,给出复杂动作人体单视角视频,暂停任一帧渲染出任意视角下该人体,甚至360度视角下该人体; HumanNeRF优化了人在标准T姿势下的表征,与运动场相一致,

    2024年02月15日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包