美团最新!FastPillars:基于Pillar的最强3D检测落地方案

这篇具有很好参考价值的文章主要介绍了美团最新!FastPillars:基于Pillar的最强3D检测落地方案。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【3D目标检测】技术交流群

后台回复【FastPillars】获取本文论文和代码!!!

摘要

3D检测器的部署是现实世界自动驾驶场景中的主要挑战之一。现有的基于BEV(即鸟瞰图)的检测器支持稀疏卷积(称为SPConv),以加快训练和推理,这为部署(尤其是在设备上应用)带来了困难。本文解决了从LiDAR点云中高效检测3D目标的问题,并考虑了模型部署。为了减少计算负担,论文从行业角度提出了一种基于Pillar的高性能3D检测器,称为FastPillars。与以前的方法相比,论文引入了一个更有效的Max-and-Attention pillar encoding(MAPE)模块,并以重参数化的方式重新设计了一个功能强大、轻量级的骨干CRVNet,该骨干CRVNet带有Cross Stage Partial网络(CSP),形成了一个紧凑的特征表示框架。大量实验表明,FastPillars在设备速度和性能方面都超过了最先进的3D检测算法。具体而言,FastPillars可以通过TensorRT有效部署,在nuScenes测试集上以64.6 mAP在单个RTX3070Ti GPU上获得实时性能(约24FPS)。

总结来说,本文的主要贡献如下:

  • 论文提出了一种用于工业应用的基于Pillar的一阶段3D检测器,称为FastPillars。FastPillars是部署友好的,并且消除了阻碍设备部署的稀疏卷积的需要。FastPillar-s和FastPillar-m,它们在nuScenes测试集上分别可以以24 FPS的速度实现64.6 mAP和70.1 NDS,以及以16 FPS的速度达到66.0 mAP和71.1 NDS;

  • 还提出了一种简单但有效的Max-and-Attention pillar encoding(MAPE)模块。MAPE几乎无需额外的耗时(仅4ms)就能提高每个pillar特征的表示能力;

  • 论文为3D检测任务设计了一个紧凑的全卷积主干网络CRVNet,它具有竞争性的特征学习能力和推理速度,而不需要稀疏卷积。同时论文还表明,专门为2D图像设计的轻量级网络结构可以很好地处理使用3D点云的任务,并在性能和速度之间实现出色的权衡;

  • 在nuScenes数据集上的大量实验表明,FastPillars具有卓越的效率和准确的检测性能。论文还提供了详细的性能与推理速度对比分析,以进一步验证论文方法的优越性。

相关工作

基于体素的3D探测器:基于体素的3D检测器[5,6,18,19,30,44,47,49]通常将非结构化点云转换为紧凑形状的规则pillar/voxel网格。这进一步允许通过利用成熟的2D/3D卷积神经网络来学习点云特征。VoxelNet[49]是一项开创性的工作,它对输入点云进行密集体素化,然后利用体素特征提取器(VFE)和3D CNN来学习几何表示。其缺点是由于3D卷积的巨大计算负担,推理速度相对较慢。为了节省内存成本,SECOND[44]使用3D稀疏卷积[14]来加速训练和推理。这里,稀疏卷积仅对非空体素进行操作,这大大提高了计算和存储效率。SPConv的一个缺点是它对部署不友好,这使得在嵌入式系统上应用它们很困难。为此,PointPillars[19]被提议将体素进一步简化为pillar(即,在高度上没有体素化),并利用高度优化的2D卷积,这在低耗时的情况下获得了良好的性能。同时,易于部署的优势使PointPillar成为实践中的主流方法。之后,提出了CenterPoint[47],它使用几乎实时且anchor-free的管道,实现了最先进的性能。最近,PillarNet[30]项目指向BEV空间,并使用基于“encoder-neck-head”架构的2D SPConv以实时速度提高3D检测性能。由于SPConv的使用,它不可避免地面临着在工业应用中部署的困难,并随着网络量化而进一步加速。

用于目标检测的行业级轻量级网络结构:多年来,YOLO系列[1,12]一直是轻量级2D检测的事实上的行业标准,其主干设计主要继承了CSPNet的思想[40]。通过在两个单独的分支中处理部分特征以获得更丰富的梯度组合,CSPNet不仅降低了内存和计算成本,而且提高了性能。

最近,RepVGG[8]使用基于重参数化的结构设计重构了著名的plain network VGG[34]。在训练期间,普通的Conv-BN-ReLU被其过度参数化的三分支对应物(即Conv3x3-BN、Conv1x1-BN和Identity-BN)取代,然后是三个分支相加后的ReLU函数。三分支结构实质上有助于网络优化,而重参数化在推理时将三个分支相同地转换为一个分支,提高了推理效率。由于这一优势,这一趋势席卷了2D目标检测器,并在极端速度下表现出高性能,如PPYOLOE[43]、YOLOv6[21]和YOLOv7[39]。尽管取得了成功,但据论文所知,目前还没有看到这些方案在3D检测中的任何应用。

论文方法

本节将介绍FastPillars用于基于pillar的实时一阶段3D检测,这是一种端到端可训练且无SPConv的神经网络。如图1所示,网络架构由四个部分组成:pillar编码模块、用于特征提取的主干、用于特征融合的neck和用于3D box回归的头。美团最新!FastPillars:基于Pillar的最强3D检测落地方案

Max-and-Attention Pillar Encoding

点云voxel/pillar编码对于基于网格的3D检测方法至关重要。开创性的PointPillars[19]积极利用max pooling来聚合每个pillar中的点云特征,以表示相应的pillar。然而,max-pooling操作将导致细粒度信息的丢失,而这些局部几何模式对于基于pillar的目标非常关键,尤其是对于小目标。本文提出了一种简单但高效的pillar编码模块,称为Max-and-Attention Pillar Encoding(MAPE),它以可忽略的计算负担考虑到每个pillar的局部详细几何信息,并有利于BEV中小目标(例如行人等)的性能。同时,MAPE模块的轻量级pillar编码方法使其非常适合实时嵌入式应用。如图2所示,的MAPE模块由三个单元组成:1)点云编码单元;2)max-pooling编码单元;3)attentive-pooling编码单元。美团最新!FastPillars:基于Pillar的最强3D检测落地方案

点云编码:首先将每个pillar中的点云增强为。值得注意的是,在每个pillar中,没有采用任何采样策略来保持每个pillar中的点云数相同,因为这种操作可能会丢失有用的点云并损害原始几何图案。其次,通过MLP层将内的增强逐点云特征映射到高维特征空间。该过程制定为:美团最新!FastPillars:基于Pillar的最强3D检测落地方案

Max-pooling编码:该单元用于将pillar内的所有点云特征聚合为单个特征向量,同时它对每个pillar中的点云排列不变,公式如下:美团最新!FastPillars:基于Pillar的最强3D检测落地方案

Attention-pooling编码:该单元旨在维护局部细粒度信息。Max pooling很难在每个pillar中集成逐点云特征,因为它只需要最大值。然而,丰富的局部细节对于从BEV角度检测较小的目标非常有用。因此,论文转向强大的注意力机制来自动学习重要的局部特征。具体而言,首先使用由共享MLP组成的函数来预测pillar中这些点的云注意力得分。其次学习到的注意力分数可以被视为一个soft mask,它动态地衡量逐点云特征。最后,加权求和特征如下:美团最新!FastPillars:基于Pillar的最强3D检测落地方案

最后将学习到的pillar-wise max-pool和attentive pooling特征通过平均值进行组合。max-pooling操作保留每个pillar中的最大响应特性,而attentive pooling特性保留局部细粒度信息。通过结合这两个特征,可以有效地保留更丰富的信息,以增强pillar表示。尽管是一种简单的方法,但MAPE模块显著影响了小目标的性能,如实验所示。值得注意的是,MAPE模块仅在额外4毫秒耗时的情况下,在nuScenes数据集上提高了约0.6mAP的性能。

CRVNet Backbone

主干网络旨在从投影的2D伪图像或3D体素特征中分层地提取各种级别的语义特征。先前的工作[6,30,44,47]通常使用稀疏卷积[14]来基于ResNet[15]或VGG[34]架构提取体素/逐柱特征。稀疏卷积大大提高了计算效率,因为大多数体素/pillar是空的。例如,在nuScenes数据集上的单个帧点云中,空pillar的比例约为90%。然而直接在稀疏特征图上使用2D卷积将导致过度的计算负担和高耗时,这促使论文设计更紧凑和有效的主干网络。

受RepVGG[8]和CSPNet[40]的启发,论文提出了CRVNet(Cross-Stage-Patrial RepVGG-style Network)。网络的主要组成部分如图3所示。训练阶段的每个模块如图3(a)所示。在推断阶段(图3(b)),每个Rep-Block被转换为具有激活函数的3个卷积层(表示为RepConv)的堆栈。这是因为3x3卷积具有更高的计算密度,并且在大多数设备上效率很高。因此,RepBlock骨干网络以优异的特征表示能力显著降低了推理耗时。此外论文注意到,如果模型容量进一步扩大,单路径平面网络中的计算成本和参数数量将呈指数增长。因此进一步将RepBlock与CSP结构结合起来。如图3(d)所示,CSP结构由三个1x1卷积层和原始网络结构组成。论文在主干网络的每个阶段使用CSP结构,其中每个阶段包含N个RepConv(图3(c))。通过引入CSP结构,整个网络具有更少的参数,并且更加紧凑和高效。值得注意的是,尽管RepBlock和CSP在基于2D图像的任务中被证明是有效的[21,39,43],但它们尚未被充分用于3D点云任务。本文的FastPillars-s和FastPillar-m模型分别建立在VGG和ResNet-34网络上。论文发现,最终性能对后期的容量不敏感,但对早期的容量非常敏感,这与FCOS-LiDAR中的情况一致[36]。因此,论文将FastPillers-s中VGG的四个阶段的块数从(4,6,16,1)更改为(6,16,1,1),将FastPillars-m中ResNet-34的四个级别的块数分别从(3,4,6,3)和(6,6,3,2),同时都删除了第一阶段的第一个2x下采样。美团最新!FastPillars:基于Pillar的最强3D检测落地方案

Neck and Center-based Heads

在Neck中,论文采用了PillarNet[30]中的增强neck设计。neck将特征与来自主干的8x和16x特征图融合,以实现不同空间语义特征的有效交互。论文发现,在这种neck设计中,级联操作之前的卷积层的数量显著影响最终性能。论文将在实验中详细讨论这一点。对于回归头,直接遵循[47]使用其简单但有效的head设计。此外还添加了一个IoU分支来预测预测框和地面真实框之间的3D IoU。然后[17]中的IoU感知校正函数用于弥补分类和回归预测之间的差距。具体而言,非最大抑制(NMS)后处理的校正置信分数C通过以下公式计算:美团最新!FastPillars:基于Pillar的最强3D检测落地方案

最终损失函数如下 :美团最新!FastPillars:基于Pillar的最强3D检测落地方案

实验

论文在nuScenes数据集上展开实验。

整体结果

定量评估

为了公平比较,论文在nuScenes测试集上使用之前发布的仅限LiDAR的非集成方法来评估FastPillars。如表1所示,FastPillars显著优于最先进的(SOTA)方法,同时具有24FPS的实时速度。与最先进的PillarNet方法[30]相比,FastPillars-m实现了几乎相同的性能,并且在没有衰落策略的情况下也超越了几乎所有以前的方法。美团最新!FastPillars:基于Pillar的最强3D检测落地方案

与实时一阶段方法的比较

为了进一步评估论文方法的速度和性能优势,还将FastPillars与nuScenes值集上的实时一阶段3D点云检测器进行了比较。如表2所示,与使用CenterPoint的训练设置的CenterPoint论文中实现的PointPillars[20]相比,FastPillars-s在3D mAP和NDS中的表现也更好,分别高9.74%和7.0%。与最先进的PillarNet方法相比[30],FastPillars-s实现了具有竞争力的性能(mAP和NDS分别仅低0.16%和0.33%),但速度是PillarNet的两倍。实验表明,该方法具有较少的参数、较高的性能和FPS。注意,FLOPs不会强烈反映真实的推理速度(即FPS)。推理速度明显更快是因为PillarNet需要稀疏卷积,因此对部署不友好,而我们的方法是全卷积的,可以通过TensorRT和网络量化有效地部署在资源受限的机载系统中。因此,FastPillars能够在性能和速度之间提供更好的权衡。美团最新!FastPillars:基于Pillar的最强3D检测落地方案

推理时间分析

如表3所示使用10次点云扫描,按照基准测试的惯例来测量FastPillers-s/m在nuScenes测试集上的速度。与CenterPoint相比,FastPillars-s实现了SOTA性能,将CenterPoint提高了2.37 mAP和1.83 NDS,同时在表2中运行速度提高了2倍。CenterPoint的推断时间包括体素编码的1.84ms、网络的69.89ms和后处理的7.40ms。FastPillars-s在单个NVIDIA 3070Ti GPU上实现了24 FPS,包括13.22毫秒用于pillar编码,20.10毫秒用于模型正向传播,8.10毫秒用于后处理。对于具有更大主干的FastPillers-m,在同一设备上实现了16.8 FPS,其中pillar编码为13.40 ms,模型前向传播为34.44 ms,后处理为8.12 ms。美团最新!FastPillars:基于Pillar的最强3D检测落地方案

消融实验

Max-and-Attention Pillar Encoding Module

如表4所示,与max-pooling操作相比,MAPE模块可以提高0.6%的mAP性能,仅需4ms的额外耗时成本。具体而言,由于MAPE模块自行车(BC)、交通锥(TC)和障碍物类别的mAP分别提高了3.64%、1.33%和3.44%。对于行人类别,论文推测其性能在基准上已经饱和,因此MAPE模块显示出微弱改善。实验表明,MAPE模块通过结合注意力池化和最大池化操作,有效地编码了局部细粒度几何图案和最突出的特征(即最大值),提高了BEV视角下小尺寸目标的感知能力。美团最新!FastPillars:基于Pillar的最强3D检测落地方案

CSP比率选择

基于CRVNet主干,使用不同比例的Cross-Stage-Patrial网络进行消融研究,如表5所示。美团最新!FastPillars:基于Pillar的最强3D检测落地方案

轻量级主干结构

如表6所示,论文发现应用于FastPillers-s模型的CSPRepVGG主干具有最小的模型容量和耗时,同时具有59.40mAP的良好性能。CSPRep-Res34是FastPillars-m模型主干,尽管具有最大的参数量和耗时,但它具有最佳的性能。与CSPRepVGG主干相比,CSPRep-Res34主干在nuScenes值集上的表现更好,提升为1.92mAP和0.99NDS。总体而言,论文的方法在速度和准确性之间实现了良好的平衡,尤其是在实时耗时方面具有最先进的性能。美团最新!FastPillars:基于Pillar的最强3D检测落地方案

结论

本文提出了FastPillars,一种基于一阶段pillar的实时3D检测器,以同时提高检测精度和运行效率,同时考虑部署。特别是,论文表明SPConv可以通过重新设计的强大架构安全地绕过。此外还提出了MAPE模块来补偿PointPillars中pillar编码的信息损失。广泛的实验表明,FastPillars在速度和准确性之间实现了更好的权衡,并且可以通过TensorRT对设备上的实时应用进行定量部署。鉴于其有效性和效率,希望我们的方法可以作为当前主流的基于SPConv的实时3D检测器的强大而简单的替代方案。

参考

[1] FastPillars: A Deployment-friendly Pillar-based 3D Detector

国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向;

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称文章来源地址https://www.toymoban.com/news/detail-501613.html

到了这里,关于美团最新!FastPillars:基于Pillar的最强3D检测落地方案的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 美团青龙教程(2023.3.2最新版)附脚本

    这次直接放上leaffish大佬的库地址吧,美团脚本也在里面 (此为最新脚本,脚本日志能看到版本号,有最新版就重新拉库) 以上是单独的脚本,看到很多伙伴拉脚本失败的,可以试一下拉整个库 /* 美团 v3.02 新版美团仅支持青龙等nodejs环境, 不支持圈X 自动领券和完成一些活

    2024年02月11日
    浏览(162)
  • 美团青龙教程(2023.8.10最新版)附脚本

    这次直接放上leaffish大佬的库地址吧,美团脚本也在里面 (此为最新脚本,脚本日志能看到版本号,有最新版就重新拉库) 以上是单独的脚本,看到很多伙伴拉脚本失败的,可以试一下拉整个库 /* 美团 v3.02 新版美团仅支持青龙等nodejs环境, 不支持圈X 自动领券和完成一些活

    2024年02月13日
    浏览(227)
  • 美团青龙教程(2023.8.30最新版)附脚本

    这次直接放上leaffish大佬的库地址吧,美团脚本也在里面 (此为最新脚本,脚本日志能看到版本号,有最新版就重新拉库) 以上是单独的脚本,看到很多伙伴拉脚本失败的,可以试一下拉整个库 /* 美团 v3.02 新版美团仅支持青龙等nodejs环境, 不支持圈X 自动领券和完成一些活

    2024年02月10日
    浏览(206)
  • 基于扩散模型的3D智能创作引擎与内容投放算法最新实践

    3D模型在智能设计领域以其可塑性,可编辑性有着属于自己的独特优势,扩展了2D设计的上限。但是其目前存在的局限性也是显而易见的:建模的效率,模型的数量,以及3D设计的成本。 背景 在商品展示侧,围绕人-货-场的商品展示重要性不言而喻,需要为每个消费者搭建最感

    2024年02月03日
    浏览(65)
  • 基于机器视觉的表面缺陷检测方法研究进展(2022最新)

    参考文献:基于机器视觉的表面缺陷检测方法研究进展-赵朗月 此文章仅为作者阅读学习记录,如有错误欢迎指正交流,如果对你有帮助还望点赞支持,谢谢! 给出了缺陷的定义、分类及缺陷检测的一般步骤,阐述传统方法、机器学习、深度学习,并比较和分析了优缺点。

    2024年02月08日
    浏览(36)
  • YOLO3D 基于图像的3D目标检测算法

    参考文档:https://ruhyadi.github.io/project/computer-vision/yolo3d/ 代码:https://github.com/ruhyadi/yolo3d-lightning 本次分享将会从以下四个方面展开: 物体检测模型中的算法选择 单目摄像头下的物体检测神经网络 训练预测参数的设计 模型训练与距离测算 物体检测(Object Detection)是无人车感

    2024年02月01日
    浏览(40)
  • 基于 Center 的 3D 目标检测和跟踪

    论文地址:https://arxiv.org/abs/2006.11275 论文代码:https://github.com/tianweiy/CenterPoint 3D 目标通常表示为点云中的 3D Boxes。 CenterPoint 在第一阶段,使用关键点检测器检测对象的中心,然后回归到其他属性,包括 3D 大小、3D 方向和速度; 在第二阶段,它使用目标上的附加点特征来细化

    2024年02月06日
    浏览(44)
  • 基于3D点云的小目标检测学习笔记

    一、与图像相比, 基于点云的目标检测 一直面临着一些 挑战 : 1、 非结构化数据 :点云作为场景中点的位置具有稀疏和非结构化的性质,因此它们的密度和数量都随着场景中对象而变化。 2、 不变性排列 :点云本质上是一长串点(nx3矩阵,其中n是点数)。 在几何上,点

    2024年02月12日
    浏览(40)
  • 基于YOLO的3D人脸关键点检测方案

    YOLOLandmark解决了2D的人脸关键点检测问题,但3D任务仍然是个空白。我们能够在该领域继续突破呢? 我们最新的工作已经放到ArXiv: YOLOMT 3D人脸关键点数据调研 3D FLD的评估策略有哪些 当前领先的技术方法达到了什么水平? 我们的方法实现: 数据集转为YOLO格式 修改YOLO8Pose的入

    2024年02月12日
    浏览(40)
  • 基于卷积神经网络的3D动目标检测方法

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 ` 一种基于雷达的多类移动目标检测方法,该方法利用了目标级的专业知识(精确的二维定位、解决相位模糊),以及来自全三维立体雷达数据。包含的雷达数据可以在任何对象聚类之前对单个移动目标

    2024年02月08日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包