3D 目标检测——IA-SSD

这篇具有很好参考价值的文章主要介绍了3D 目标检测——IA-SSD。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

😸IA-SSD主要贡献:

  1. 指明了现有 point-based 检测器存在的采样问题,并通过引入两种基于学习learning-based)的实例感知instance-aware)下采样策略,提出了一种高效的 point-based 三维检测器
  2. 论文提出的方法 IA-SSDCVPR 2022, Oral)是高效的,且能够使用一个模型在激光雷达点云上检测多类对象。此外,论文还提供了详细的内存占用与推理速度对比分析,以进一步验证所提方法的优越性
  3. 在多个大型数据集上的大量实验表明,该方法具有较高的检测效率和精度

✍️尽管并非所有的点对目标检测任务都同等重要,但为了减少内存占用和计算开销,现有的基于点(point-based)的 pipelines 通常采用任务不可知(task-agnostic)的随机采样或最远点采样来逐步向下采样输入点云。此外,对于目标检测器来说,前景点(foreground points)往往比背景点(background points)更重要。因此,论文提出了一种高效、单阶段(single-stage)且基于点的三维检测器 IA-SSD。该方法的关键是利用两种可学习的、面向任务的(task-oriented)、实例感知的下采样策略,分层级地选择(hierarchically select)属于感兴趣对象(objects of interest)的前景点。此外,论文还引入了上下文质心感知contextual centroid perception)模块来进一步估计精确的实例中心。最后,为了提高效率,论文按照只允许编码器encoder-only)的架构来构建 IA-SSD。由于低内存占用和高并行度,它在 KITTI 数据集上使用单个 RTX2080Ti GPU 实现了每秒 80 帧以上的卓越速度,且在几个大规模检测 benchmarks 上进行的大量实验证明了 IA-SSD 具有较强的竞争力。下图是在 KITTIbenchmark 上比较不同算法的性能:

3D 目标检测——IA-SSD

网络结构

3D 目标检测——IA-SSD

  1. 将点云数据输入到网络中提取逐点特征,再通过实例感知下采样来逐步降低计算成本,并保留前景点信息
  • 实例感知下采样包含类别感知Class-aware)采样和质心感知Centroid-aware)采样这两部分

  • 类别感知采样:这种采样策略旨在学习每个点的语义,从而达到选择性的下采样。为了实现这一点,论文引入了额外的分支来获取潜在特性中的丰富语义。即在编码层( encoding layers)上增加了两个 MLP 层,以进一步估计每个点的语义类别。该采样的损失函数如下

    L c l s − a w a r e = − ∑ c = 1 C ( s i l o g ( s ^ i ) + ( 1 − s i ) l o g ( 1 − s ^ i ) ) L_{cls-aware} = - \sum_{c=1}^C(s_i log(\hat{s}_i) + (1-s_i)log(1-\hat{s}_i)) Lclsaware=c=1C(silog(s^i)+(1si)log(1s^i))

    ✍️其中, C C C 对应检测的类别个数, s i s_i si 对应 one-hot 编码下的真实标签, s ^ i \hat{s}_i s^i 对应预测值

  • 质心感知采样:考虑到实例中心估计是最终目标检测的关键之一,论文提出质心感知下采样策略,使更接近实例质心的点具有更高的权重。具体来说,先定义实例的软点掩码soft point mask),再根据该掩码来得到损失函数

    M a s k i = m i n ( f ∗ , b ∗ ) m a x ( f ∗ , b ∗ ) × m i n ( l ∗ , r ∗ ) m a x ( l ∗ , r ∗ ) × m i n ( u ∗ , d ∗ ) m a x ( u ∗ , d ∗ ) 3 L c t r − a w a r e = − ∑ c = 1 C ( M a s k i ⋅ s i l o g ( s ^ i ) + ( 1 − s i ) l o g ( 1 − s ^ i ) ) Mask_i = \sqrt[3]{\frac{min(f^*, b^*)}{max(f^*, b^*)} \times \frac{min(l^*, r^*)}{max(l^*, r^*)} \times \frac{min(u^*, d^*)}{max(u^*, d^*)}} \\ L_{ctr-aware} = -\sum_{c=1}^C(Mask_i \cdot s_i log(\hat{s}_i) + (1-s_i)log(1-\hat{s}_i)) Maski=3max(f,b)min(f,b)×max(l,r)min(l,r)×max(u,d)min(u,d) Lctraware=c=1C(Maskisilog(s^i)+(1si)log(1s^i))

    ✍️其中, f ∗ f^* f b ∗ b^* b l ∗ l^* l r ∗ r^* r u ∗ u^* u d ∗ d^* d 分别对应点到三维边界框的前、后、左、右、上、下这六个面的距离。由此可知,点越接近边界框的质心,mask 的值越大(最大为 1),当点在边界框的某一面上时,mask 的值为最小值 0。损失函数与类别感知采样类似,只不过将软点掩模与前景点的损失项相乘,使靠近中心的点具有更高的概率

  1. 学习到的潜在特征(前面保留的前景点信息)进一步输入到上下文质心感知模块,以预测实例的中心
  • 上下文质心预测:论文试图利用在边界框周围的上下文线索contextual cues)来进行质心预测,其损失函数如下

L c e n t = 1 ∣ F + ∣ 1 ∣ S + ∣ ∑ i ∑ j ( ∣ Δ c i j ^ − Δ c i j ∣ + ∣ c i j ^ − c i ‾ ∣ ) ⋅ I S ( p i j ) w h e r e c i ‾ = 1 ∣ S + ∣ ∑ j c i j ^ , I S : P → { 0 , 1 } \begin{aligned} &L_{cent} = \frac{1}{|F_{+}|}\frac{1}{|S_{+}|}\sum_i \sum_j (|\Delta_{\hat{c_{ij}}} - \Delta_{c_{ij}}| + |\hat{c_{ij}} - \overline{c_i}|) \cdot I_S(p_{ij}) \\ &where \qquad \overline{c_i} = \frac{1}{|S_{+}|}\sum_{j}\hat{c_{ij}}, \quad I_S : P \rightarrow \{0, 1\} \end{aligned} Lcent=F+1S+1ij(Δcij^Δcij+cij^ci)IS(pij)whereci=S+1jcij^,IS:P{0,1}

✍️其中, ∣ S + ∣ |S_{+}| S+ 是用来预测实例中心的点的数量 Δ c i j ^ \Delta_{\hat{c_{ij}}} Δcij^ 是点 p i j p_{ij} pij 到实例中心偏移量的预测值 Δ c i j \Delta_{c_{ij}} Δcij 是点 p i j p_{ij} pij 到实例中心偏移量的真实值 I S I_S IS 是一个用来判断是否用这个点 p i j p_{ij} pij 来估计实例中心的指示器函数

  • 基于质心的实例聚合:对于位移的代表(质心)点,论文进一步利用 pointnet++ 模块来学习每个实例的潜在表示。具体地说,论文将相邻点转换为局部标准坐标系local canonical coordinate),然后通过共享的 MLP 和对称函数聚合点特征
  1. 通过建议生成头回归 3D 边界框和相应的类别标签
  • 将聚合的质心点特征输入到建议生成头(proposal generation head)中,用来预测三维边界框和相应的类标签。论文将生成的建议编码为具有位置、大小(scale)和方向的多维表示
  • 通过一个使用特定 IoU 阈值的 3D-NMS 后处理来对生成的所有建议进行过滤
损失函数

🙀IA-SSD 可进行端到端end-to-end)的训练,在该框架中,多任务损失被用于联合优化。总损失由四部分组成,分别是下采样策略中的损失 L s a m p l e L_{sample} Lsample,质心预测损失 L c e n t L_{cent} Lcent,分类损失 L c l s L_{cls} Lcls 和边界框损失 L b o x L_{box} Lbox。此外,边界框损失又包含位置、大小、angle-binangle-rescorner 这几部分。即,总的损失函数表达如下:
L t o t a l = L s a m p l e + L c e n t + L c l s + L b o x L b o x = L l o c + L s i z e + L a n g l e − b i n + L a n g l e − r e s + L c o r n e r \begin{aligned} &L_{total} = L_{sample} + L_{cent} + L_{cls} + L_{box} \\ &L_{box} = L_{loc} + L_{size} + L_{angle-bin} + L_{angle-res} + L_{corner} \end{aligned} Ltotal=Lsample+Lcent+Lcls+LboxLbox=Lloc+Lsize+Langlebin+Langleres+Lcorner

😻论文:https://arxiv.org/pdf/2203.11139.pdf

😻代码:https://github.com/yifanzhang713/IA-SSD文章来源地址https://www.toymoban.com/news/detail-402060.html

到了这里,关于3D 目标检测——IA-SSD的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Jetson目标检测SSD-MobileNet应用实例】(四)在Jetson上使用CSI摄像头进行视频推理并输出检测结果

    【Jetson目标检测SSD-MobileNet应用实例】(一)win11中配置SSD-MobileNet网络训练境搭建 【Jetson目标检测SSD-MobileNet应用实例】(二)制作自己的数据集–数据集的采集、标注、预处理 【Jetson目标检测SSD-MobileNet应用实例】(三)训练自己的检测模型和推理测试 关于Jetson nano或者NX上的

    2023年04月10日
    浏览(38)
  • 浅析目标检测入门算法:YOLOv1,SSD,YOLOv2,YOLOv3,CenterNet,EfficientDet,YOLOv4

    本文致力于让读者对以下这些模型的创新点和设计思想有一个大体的认识,从而知晓YOLOv1到YOLOv4的发展源流和历史演进,进而对目标检测技术有更为宏观和深入的认知。本文讲解的模型包括:YOLOv1,SSD,YOLOv2,YOLOv3,CenterNet,EfficientDet,YOLOv4。         候选区域         和R-CNN最

    2024年02月07日
    浏览(46)
  • CVPR2022 3D目标检测(GLENet )增强型3D目标检测网络

    图 1:(a) 给定一个不完整 LiDAR 观测的对象,可能存在多个具有不同大小和形状的潜在合理的真实边界框。 (b) 当注释来自 2D 图像和部分点时,标签过程中的模糊和不准确是不可避免的。在给定的情况下,只有后部的汽车类别的类似点云可以用不同长度的不同真实值框进行注释

    2023年04月08日
    浏览(36)
  • 目标检测C-RNN,Fast C-RNN,Faster C-RNN,SSD,Mask R-CNN 理论简单介绍

    参考: https://zh-v2.d2l.ai/chapter_computer-vision/multiscale-object-detection.html 区域卷积神经网络 region-based CNN R-CNN首先从输入图像中选取若干(例如2000个)提议区域,并标注它们的类别和边界框(如偏移量)。用卷积神经网络对每个提议区域进行前向传播以抽取其特征。 接下来,我们

    2024年03月14日
    浏览(79)
  • 3D 目标检测 SFD 问题记录

    顺着网址手动下载,然后放入相应的目录下 import spconv 要改写成 import spconv.pytorch as spconv pip install scikit-image -i https://pypi.tuna.tsinghua.edu.cn/simple Numpy 版本不对导致, 手动 default 加入 yaml 路径 绝对引用 相对引用 from ..ops.roiaware_poo3d import roiaware_pool3d_utils 把“2”改成“0”,就好了

    2024年02月15日
    浏览(29)
  • 【3D目标检测】Fastpillars-2023论文

    论文:fastpillars.pdf https://arxiv.org/abs/2302.02367 作者:东南大学,美团 代码:https://github.com/StiphyJay/FastPillars (暂未开源) 讲解:https://mp.weixin.qq.com/s/ocNH2QBoD2AeK-rLFK6wEQ PointPillars简单地利用max-pooling操作来聚合所有在支柱中使用点特征,这会大量减少本地细粒度信息,尤其会降低

    2024年02月03日
    浏览(43)
  • 睿智的目标检测——Pytorch搭建YoloV7-3D单目图像目标检测平台

    睿智的目标检测——Pytorch搭建YoloV7-3D单目图像目标检测平台 学习前言 源码下载 YoloV7-3D改进的部分(不完全) YoloV7-3D实现思路 一、整体结构解析 二、网络结构解析 1、主干网络Backbone介绍 2、构建FPN特征金字塔进行加强特征提取 3、利用Yolo Head获得预测结果 三、预测结果的解

    2024年02月16日
    浏览(43)
  • 【3D目标检测】基于伪雷达点云的单目3D目标检测方法研宄

    本文是基于单目图像的3D目标检测方法,是西安电子科技大学的郭鑫宇学长的硕士学位论文。 【2021】【单目图像的3D目标检测方法研究】 研究的问题: 如何提高伪点云的质量 伪点云体系中如何提高基于点云的检测算法的效果 提出的方法: 一种基于置信度的伪点云采样方法

    2024年02月06日
    浏览(56)
  • 【3D目标检测】KITTI数据集介绍

    KITTI数据集很大,包括了很多任务,使用的训练样本7481个,测试样本7518个。但测试样本我们是不可见的,所以一般将将7481个训练样本划分为3712与3769分别作为训练集和测试集。 下载部分参考:OpenPCDet——环境配置和训练测试(升级系统、Nvidia驱动、cuda11.3、cudnn8.2) 具体解释

    2023年04月15日
    浏览(52)
  • KITTI 3D目标检测数据集入门

    数据集官网下载地址: The KITTI Vision Benchmark Suite 3D目标检测数据集由7481个训练图像和7518个测试图像以及相应的点云数据组成,包括总共80256个标记对象。 上图红色框标记的为我们需要的数据,分别是 彩色图像数据(12GB) 、 点云数据(29GB) 、 相机矫正数据(16MB) 、 标签

    2023年04月08日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包