Abstract
BEV方法最近在多视图3D检测任务中取得了很大进展。Sparse4D通过sparsely sampling和fusing spatial-temporal features 对anchor box进行迭代改进:
(1)Sparse 4D Sampling: 对于每个3D anchor,我们分配多个4D关键点,然后将其投影到多视图/尺度/时间戳图像特征,用来采样相应的特征。
(2)Hierarchy Feature Fusion: 分层融合不同视图/尺度,不同时间戳和不同关键点的采样特征,生成高质量的实例特征。
这样一来,sparse 4D就不再依赖dense view transformation 和 global attention。也就可以高效有效的实现3d检测,对边缘设别部署更加有好。
此外,sparse4D引入了一个instance-level depth reweight module来缓解3d到2d投影中的不确定性问题。
Introduction
如果没有明确的深度线索,来自2D图像的3D感知是一个不确定的问题,导致如何正确融合多相机图像是解决3D感知任务的长期挑战。最近的方法主要分为两类主流:基于BEV和基于sparse的方法。
BEV-method:将多视图图像特征转化为统一的BEV空间,实现性能提升。存在的问题是:
(1)图像到BEV的透视比那还需要密集的特征采样或者重新排列,对于低成本的边缘设备部署不友好
(2)最大感知范围受BEV特征图大小的限制,难以在感知范围,效率和精度之间权衡
(3)BEV特征中,高维度特征被压缩,纹理线索丢失。因此BEV无法胜任某些感知任务:标志检测
sparse-method:直接采样系数特征进行3D anchor改进,缓解上述问题。DETR3D,SRNC3D。
sparse 4D 优点:
(1)可以有效的提取每个anchor box内丰富完整的上下文
(2)可以简单的扩展到时间维度作为4D关键点,然后可以有效的对齐时间信息。
对于4D关键点,Sparse4D首先为每个关键点执行多时间戳,多视图和多尺度。然后,这些采样特征通过分层融合模块生成用于3D实例特征。
为了缓解基于相机的3D检测的不确定行问题并提高感知性能,sparse4D添加了一个实例级深度重加权模块,其中实例特征通过从预测中采样的深度置信度进行重加权深度分布。该模块以系数方式进行训练,无需额外的激光雷达点云监督。
总结:
(1)提出一个时间上下文融合的系数多视图3D检测苏纳发,它可以高效且有效地对齐空间和时间视觉线索以实现精确的3D检测
(2)提出了一个可变性的4D聚合模块,可以灵活的完成多维(点,时间戳,视图和尺度)特征的采样和融合。
(3)引入深度重新加权模块来缓解基于图像的3D感知系统中的ill-posed issue
Related work
Sparse Object Detection
早期的目标检测方法,使用密集预测作为输出,然后利用nms来处理这些密集预测。DETR引入一种新的检测范式,利用基于集合的损失和变换器来直接预测系数检测结果。DETR 使用global-cross-attention和全局图像上下文,导致计算成本高且收敛困难。
Deormable Dert修改DERT并提出基于参考点的 local-cross-attention,加速模型收敛并降低了计算的复杂度。sparse RCNN 基于 region proposal的思想提出了另一种系数检测框架。 monodert,dert3D,sparse RCNN3D,SimMOD。
Monocular 3D Object Detection
FCOS3D和SMOKE在单级二维检测网络的基础上经行扩展,使用去那卷集网络直接回归每个对象的深度,将2d图像转化为具有单目深度估计结果的3d伪点云信号。OFT和CaDDN借助视图变换模块将密集的2D图像特征转化为BEV空间,然后将BEV特征发送到检测器以完成3D对象检测。不同的是,OFT利用3D到2D的逆投影关系完成特征空间变换,而CaDNN是基于2D到3D的投影,更像是一种伪LIDAR方法。
Multi-view 3D Object Detection
稠密算法是多视角3D检测的主要研究方向,利用稠密特征向量进行视角变换/特征融合或框预测。目前,基于BEV的方法是密集算法的主要部分。BEVFormer采用deformable attention来完成BEV特征生成和密集时空特征融合。BEVDet使用lift-splat操作来实现视图变换。BEVDepth在BECDet的基础上增加了显式深度监督,显著提高了检测的准确性。BEVStereo和SOLOFusion将时间立体技术引入3D检测中,进一步提高了深度估计效果。PETR利用3D位置编码和全局交叉注意力进行特征融合,但全局交叉注意力的计算量很大。与vanilla DETR一样,PETR不能被视为纯粹的稀疏方法。DETR3D是一个代表稀疏方法的创新工作,它基于稀疏参考点执行特征采样和融合。Graph DETR3D在DETR3D之后引入了图网络以实现更好的空间特征融合,特别是对于多视图重叠区域。
Methodology
框架
Sparse4D符合编码器-解码器结构。图像编码器用于提取具有共享权重的图像特征,其中包含主干(ResNet和VoVNet)和颈部(FPN)。在时间t给定N个视图输入图像,图像编码器提取多视图多尺度特征映射。为了利用时间上下文,我们提取最近T帧的图像特征作为图像特征队列。然后,解码器以迭代细化的方式预测检测结果,其中包含一些列细化模块和一个分类头,用于最终预测最终的分类置信度。每个改进模块以图像特征队列I,3D anchor boxes BR M11和相应的实例特征FR MC作为输入,然后输出具有更新实例特征的改进3D框。M是anchor的数量,C是特征通道数量,anchor的格式是
{x,y,z,ln w,ln h, ln l, sin yaw, cos yaw, vx, vy,vz}
所有3Danchor都设置在统一的3D坐标系中。
在每个改进模块中,我们首先采用self-attention来实现实例之间的交互,前后添加anchor 参数的潜入。然后,我们进行可变形4D聚合以融合多视图,多尺度,多时间戳和多关键点特征。此外,我们引入了深度重新加权模块来缓解基于图像的3D检测中的不确定性问题,最后,使用回归头通过预测ground truth和当前anchor之间的偏移来改进当前anchor。
Deformable 4D Aggregation
实例特征的质量对整个稀疏感知系统具有关键影响。为了解决这个问题,引入了可变性4D聚合模块,以通过稀疏特征采样和层次特征融合获得高质量的实例特征。
(1)对于每个anchor生成多个4D关键点
(2)将4D关键点投射到多时间戳/视图/比例图像特征图并采样相应的特征
(3)将关键点特征与预测权重分层融合以生成融合实例特征
## Depth Reweight Model
3D到2D的转化具有一定的歧义性,即不同的3D点可能对应于相同的2D坐标。对于不同的3D anchors,可能会采样得到相同的特征。这就增加了神经网络拟合的难度。为了缓解这个问题,我们结合了一个显式深度估计模块Ddeoth,它由多个具有生于连接的MLP组成。对于每个聚合特征Fm,估计一个李三的深度分布,并使用3d anchor box中心点的深度来采样相应的执行度Cm,并用于重新加权实例特征文章来源:https://www.toymoban.com/news/detail-849668.html
对于3D中心点在深度方向上远离ground truth的实例,即使2d图像坐标飞行行接近ground truth,对应的深度置信度也趋近于0.结合显式深度估计模块可以帮助视觉感知系统进一步提高感知精度。因此,深度估计模块可以作为单独的部分进行设计和优化。文章来源地址https://www.toymoban.com/news/detail-849668.html
到了这里,关于BEV学习--Sparse4D Multi-view 3d object detection with Sparse Spatial-Temporal Fusion的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!