BEV学习--Sparse4D Multi-view 3d object detection with Sparse Spatial-Temporal Fusion-Toy模板网

这篇具有很好参考价值的文章主要介绍了BEV学习--Sparse4D Multi-view 3d object detection with Sparse Spatial-Temporal Fusion。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Abstract

BEV方法最近在多视图3D检测任务中取得了很大进展。Sparse4D通过sparsely sampling和fusing spatial-temporal features 对anchor box进行迭代改进：
（1）Sparse 4D Sampling: 对于每个3D anchor，我们分配多个4D关键点，然后将其投影到多视图/尺度/时间戳图像特征，用来采样相应的特征。
（2）Hierarchy Feature Fusion: 分层融合不同视图/尺度，不同时间戳和不同关键点的采样特征，生成高质量的实例特征。
这样一来，sparse 4D就不再依赖dense view transformation 和 global attention。也就可以高效有效的实现3d检测，对边缘设别部署更加有好。
此外，sparse4D引入了一个instance-level depth reweight module来缓解3d到2d投影中的不确定性问题。

Introduction

如果没有明确的深度线索，来自2D图像的3D感知是一个不确定的问题，导致如何正确融合多相机图像是解决3D感知任务的长期挑战。最近的方法主要分为两类主流：基于BEV和基于sparse的方法。
BEV-method：将多视图图像特征转化为统一的BEV空间，实现性能提升。存在的问题是：
（1）图像到BEV的透视比那还需要密集的特征采样或者重新排列，对于低成本的边缘设备部署不友好
（2）最大感知范围受BEV特征图大小的限制，难以在感知范围，效率和精度之间权衡
（3）BEV特征中，高维度特征被压缩，纹理线索丢失。因此BEV无法胜任某些感知任务：标志检测
sparse-method：直接采样系数特征进行3D anchor改进，缓解上述问题。DETR3D，SRNC3D。
sparse 4D 优点：
（1）可以有效的提取每个anchor box内丰富完整的上下文
（2）可以简单的扩展到时间维度作为4D关键点，然后可以有效的对齐时间信息。

基于bev的稠密融合算法,学习,3d,目标检测
对于4D关键点，Sparse4D首先为每个关键点执行多时间戳，多视图和多尺度。然后，这些采样特征通过分层融合模块生成用于3D实例特征。
为了缓解基于相机的3D检测的不确定行问题并提高感知性能，sparse4D添加了一个实例级深度重加权模块，其中实例特征通过从预测中采样的深度置信度进行重加权深度分布。该模块以系数方式进行训练，无需额外的激光雷达点云监督。
总结：
（1）提出一个时间上下文融合的系数多视图3D检测苏纳发，它可以高效且有效地对齐空间和时间视觉线索以实现精确的3D检测
（2）提出了一个可变性的4D聚合模块，可以灵活的完成多维（点，时间戳，视图和尺度）特征的采样和融合。
（3）引入深度重新加权模块来缓解基于图像的3D感知系统中的ill-posed issue

Related work

Sparse Object Detection

早期的目标检测方法，使用密集预测作为输出，然后利用nms来处理这些密集预测。DETR引入一种新的检测范式，利用基于集合的损失和变换器来直接预测系数检测结果。DETR 使用global-cross-attention和全局图像上下文，导致计算成本高且收敛困难。
Deormable Dert修改DERT并提出基于参考点的 local-cross-attention，加速模型收敛并降低了计算的复杂度。sparse RCNN 基于 region proposal的思想提出了另一种系数检测框架。 monodert，dert3D，sparse RCNN3D，SimMOD。

Monocular 3D Object Detection

FCOS3D和SMOKE在单级二维检测网络的基础上经行扩展，使用去那卷集网络直接回归每个对象的深度，将2d图像转化为具有单目深度估计结果的3d伪点云信号。OFT和CaDDN借助视图变换模块将密集的2D图像特征转化为BEV空间，然后将BEV特征发送到检测器以完成3D对象检测。不同的是，OFT利用3D到2D的逆投影关系完成特征空间变换，而CaDNN是基于2D到3D的投影，更像是一种伪LIDAR方法。

Multi-view 3D Object Detection

稠密算法是多视角3D检测的主要研究方向，利用稠密特征向量进行视角变换/特征融合或框预测。目前，基于BEV的方法是密集算法的主要部分。BEVFormer采用deformable attention来完成BEV特征生成和密集时空特征融合。BEVDet使用lift-splat操作来实现视图变换。BEVDepth在BECDet的基础上增加了显式深度监督，显著提高了检测的准确性。BEVStereo和SOLOFusion将时间立体技术引入3D检测中，进一步提高了深度估计效果。PETR利用3D位置编码和全局交叉注意力进行特征融合，但全局交叉注意力的计算量很大。与vanilla DETR一样，PETR不能被视为纯粹的稀疏方法。DETR3D是一个代表稀疏方法的创新工作，它基于稀疏参考点执行特征采样和融合。Graph DETR3D在DETR3D之后引入了图网络以实现更好的空间特征融合，特别是对于多视图重叠区域。

Methodology

框架

基于bev的稠密融合算法,学习,3d,目标检测 Sparse4D符合编码器-解码器结构。图像编码器用于提取具有共享权重的图像特征，其中包含主干（ResNet和VoVNet）和颈部（FPN）。在时间t给定N个视图输入图像，图像编码器提取多视图多尺度特征映射。为了利用时间上下文，我们提取最近T帧的图像特征作为图像特征队列。然后，解码器以迭代细化的方式预测检测结果，其中包含一些列细化模块和一个分类头，用于最终预测最终的分类置信度。每个改进模块以图像特征队列I，3D anchor boxes BR M11和相应的实例特征FR MC作为输入，然后输出具有更新实例特征的改进3D框。M是anchor的数量，C是特征通道数量，anchor的格式是
{x,y,z,ln w,ln h, ln l, sin yaw, cos yaw, vx, vy,vz}
所有3Danchor都设置在统一的3D坐标系中。
在每个改进模块中，我们首先采用self-attention来实现实例之间的交互，前后添加anchor 参数的潜入。然后，我们进行可变形4D聚合以融合多视图，多尺度，多时间戳和多关键点特征。此外，我们引入了深度重新加权模块来缓解基于图像的3D检测中的不确定性问题，最后，使用回归头通过预测ground truth和当前anchor之间的偏移来改进当前anchor。

Deformable 4D Aggregation

实例特征的质量对整个稀疏感知系统具有关键影响。为了解决这个问题，引入了可变性4D聚合模块，以通过稀疏特征采样和层次特征融合获得高质量的实例特征。
（1）对于每个anchor生成多个4D关键点
（2）将4D关键点投射到多时间戳/视图/比例图像特征图并采样相应的特征
（3）将关键点特征与预测权重分层融合以生成融合实例特征
基于bev的稠密融合算法,学习,3d,目标检测 ## Depth Reweight Model

基于bev的稠密融合算法,学习,3d,目标检测 3D到2D的转化具有一定的歧义性，即不同的3D点可能对应于相同的2D坐标。对于不同的3D anchors，可能会采样得到相同的特征。这就增加了神经网络拟合的难度。为了缓解这个问题，我们结合了一个显式深度估计模块Ddeoth，它由多个具有生于连接的MLP组成。对于每个聚合特征Fm，估计一个李三的深度分布，并使用3d anchor box中心点的深度来采样相应的执行度Cm，并用于重新加权实例特征

对于3D中心点在深度方向上远离ground truth的实例，即使2d图像坐标飞行行接近ground truth，对应的深度置信度也趋近于0.结合显式深度估计模块可以帮助视觉感知系统进一步提高感知精度。因此，深度估计模块可以作为单独的部分进行设计和优化。文章来源地址https://www.toymoban.com/news/detail-849668.html

到了这里，关于BEV学习--Sparse4D Multi-view 3d object detection with Sparse Spatial-Temporal Fusion的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！