【论文笔记】UniVision: A Unified Framework for Vision-Centric 3D Perception

这篇具有很好参考价值的文章主要介绍了【论文笔记】UniVision: A Unified Framework for Vision-Centric 3D Perception。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

原文链接：https://arxiv.org/pdf/2401.06994.pdf

1. 引言

目前，同时处理基于图像的3D检测任务和占用预测任务还未得到充分探索。3D占用预测需要细粒度信息，多使用体素表达；而3D检测多使用BEV表达，因其更加高效。

本文提出UniVision，同时处理3D检测与占用预测任务的统一网络。网络结构为合-分-合，先使用共享的网络提取多视图图像特征，并使用新的视图变换模块，组合了基于深度的提升和基于查询的采样方法，以进行2D-3D视图变换。然后，网络分为两个分支，分别进行体素和BEV特征提取。然后，使用自适应特征交互使特征彼此增强，并输入任务头。此外，还提出联合的占用-检测数据增广方式，以及多任务高效训练策略。

3. 方法

3.1 整体结构

【论文笔记】UniVision: A Unified Framework for Vision-Centric 3D Perception,自动驾驶中的3D占用预测,论文阅读,自动驾驶,深度学习,计算机视觉,目标检测
如上图所示为本文模型总体结构。给定 $N$ 视图图像 $\{I^i|I^i\in\mathbb{R}^{W_I\times H_I\times 3}\},i\in\{1,\cdots,N\}$ ，首先使用特征提取网络提取特征 $F_{img}$ 。然后，通过显式-隐式（Ex-Im）视图变换模块，联合使用深度指导的显式特征提升以及查询指导的隐式特征采样，将图像特征转化为体素特征 $F_{voxel}$ 。然后，输入局部-全局特征提取和融合模块提取局部上下文感知的体素特征和全局上下文感知的BEV特征，并使用跨表达特征交互模块进行体素特征与BEV特征的信息交换，输入到不同的任务头中。训练中，还会使用联合占用-检测（Occ-Det）数据增广和渐进损失权重调整策略，以高效训练UniVision。

3.2 Ex-Im视图变换

深度指导的显式特征提升：根据LSS，使用基于像素深度分布 $D_{depth}\in\mathbb{R}^{D\times H\times W}$ 与图像特征 $F_{img}\in\mathbb{R}^{C\times H\times W}$ 的体素池化操作：
$F_{voxel}^{ex}=\text{VoxelPooling}(D_{depth},F_{img})$

其中 $F_{voxel}^{ex}$ 称为显式体素特征。

查询指导的隐式特征采样：由于显式体素特征的精度与深度分布的估计精度高度相关，且LSS生成的点云是不均匀的，本文进一步使用查询指导的特征采样来补偿。定义可学习体素查询 $q_{voxel}\in\mathbb{R}^{C\times X\times Y\times Z}$ ，使用3D Transformer从图像采样特征。对每个体素查询，通过校准矩阵 $P$ 将其中心 $c$ 投影到图像平面得到参考点 $p$ ，后接 $N$ 个由可变形交叉注意力（DCA）、3D卷积（Conv）和前馈网络（FFN）组成的Transformer块：
$p=P\times c\\ q^{i+1}=FFN(Conv(DCA(q^i,p,F_{img})))\\ F_{voxel}^{im}=q^N$

体素查询在3D空间中均匀分布，且学习到了所有训练样本的统计信息，这与LSS的深度先验信息独立。因此显式体素特征和隐式体素特征互补，拼接后作为视图变换模块的输出。
$F_{voxel}=F_{voxel}^{ex}||F_{voxel}^{im}$

Ex-Im视图变换模块如下图所示。
【论文笔记】UniVision: A Unified Framework for Vision-Centric 3D Perception,自动驾驶中的3D占用预测,论文阅读,自动驾驶,深度学习,计算机视觉,目标检测

3.3 局部-全局特征提取和融合

给定体素特征 $F_{voxel}\in\mathbb{R}^{C\times X\times Y\times Z}$ 输入，首先堆叠 $Z$ 轴特征并使用卷积减小通道数，得到BEV特征 $F_{bev}\in\mathbb{R}^{C\times X\times Y}$ ：
$F_{bev}=Conv(Stack(F_{voxel},dim=Z))$

然后，模型分为两个并行分支，进行特征提取和加强。

局部特征提取：对 $F_{voxel}$ ，使用由3D卷积组成的局部特征提取分支提取各空间位置的局部特征。将ResNet扩展为ResNet3D，以提取多尺度体素特征 $\{F^i_{voxel}|F^i_{voxel}\in\mathbb{R}^{(2^iC)\times \frac X {2^i} \times \frac Y {2^i}\times \frac Z {2^i}}\}$ ，然后使用SECOND中的FPN结构，将多尺度体素特征融合为 $F_{voxel}^{local}\in\mathbb{R}^{C\times X\times Y\times Z}$

全局特征提取：BEV特征 $F_{bev}$ 保留了物体级别的信息，计算高效。本文提出带全局感受野的全局特征提取分支，使用由可变形卷积v3（DCNv3）组成的网络动态聚合全局信息，得到多尺度BEV特征 $\{F_{bev}^i|F_{bev}^i\in\mathbb{R}^{(2^iC)\times \frac X {2^i} \times \frac Y {2^i}}\}$ 。同样输入SECOND FPN结构，得到融合的BEV特征 $F_{bev}^{global}\in\mathbb{R}^{C\times X\times Y}$ 。

跨表达特征交互：进行两表达的自适应信息交换，以进一步加强特征。首先，通过 $Z$ 轴复制将BEV特征转化为体素特征，通过求和将体素特征转化为BEV特征：
$F_{voxel}^{global}=repeat(F_{bev}^{global},dim=Z)\\ F_{bev}^{local}=add(F_{voxel}^{local},dim=Z)$

对于体素表达，将 $F_{voxel}^{local}$ 作为查询， $F_{voxel}^{global}$ 作为键与值。将自注意力中的邻域注意力Transformer扩展为交叉注意力，以进行局部感受野 $\Delta p$ 内的信息聚合。对BEV特征，使用相似的方式：
$F_{voxel}^{fusion}=Attn(q=F_{voxel}^{local},k\&v=F_{voxel}^{global},\Delta p)\\ F_{bev}^{fusion}=Attn(q=F_{bev}^{global},k\&v=F_{bev}^{local},\Delta p)$

其中 $\Delta p=3\times3$ 或 $3\times3\times3$ 。

3.4 头部与损失

对于占用任务，使用两层MLP将特征通道数转化为占用类别数；损失与OpenOccupancy相同（ $L_{occ}$ ），包含交叉熵损失、lovasz softmax损失、几何亲和性损失与语义亲和性损失。

对于检测任务，使用基于中心的头部和损失函数（ $L_{det}$ ），后者包含分类损失与回归损失。

此外，还加入了与BEVDepth相同的深度损失（ $L_{img}$ ）。

渐进损失权重调整策略：直接结合上述损失会导致训练失败，网络不能收敛。
【论文笔记】UniVision: A Unified Framework for Vision-Centric 3D Perception,自动驾驶中的3D占用预测,论文阅读,自动驾驶,深度学习,计算机视觉,目标检测
为解决这一问题，本文为占用损失和检测损失添加控制参数 $\delta$ ，以调整损失权重。一开始， $\delta=V_{\min}$ 很小，然后在 $N$ 个epoch内逐渐增大到 $V_{\max}$ ，如上图所示：
$L=L_{img}+\delta L_{det}+\delta L_{occ}\\ \delta=\max(V_{\min},\min(V_{\max},\frac i N\cdot V_{\max}))$

其中 $i$ 表示当前的训练epoch数。这样，优化过程在早期关注图像级别的信息（深度）以生成合理的体素表达，然后关注后续的感知任务。

3.5 联合Occ-Det空间数据增广

3D检测任务中，空间层面的数据增广作为图像级别数据增广的补充，在提高模型性能方面同样有效。但对占用任务来说，使用空间层面的增广较为困难，如对离散占用标签进行随机缩放与旋转会导致难以确定结果的标签。因此，目前的方法仅使用简单的空间层面增广方式，如随机翻转。

本文提出联合Occ-Det空间数据增广，可同时对两个任务进行。本文按照BEVDet的增广方式，并通过插值与采样转化体素特征，进行体素数据增广。

具体来说，首先采样空间数据增广并计算相应的3D变换矩阵 $M_{aug}$ 。对于占用标签 $G_{occ}\in\mathbb{R}^{X\times Y\times Z}$ 和其体素索引 $I_{org}\in\mathbb{R}^{X\times Y\times Z\times3}$ ，计算3D坐标 $C_{org}\in\mathbb{R}^{X\times Y\times Z\times3}$ ，并进一步得到增广体素索引 $I_{aug}$ ：
$C_{org}=P_{i-c}\times I_{org}\\ I_{aug}=P_{c-i}\times M_{aug}\times C_{org}$

其中 $P_{i-c}$ 和 $P_{c-i}$ 为体素索引与空间坐标的变换矩阵。然后，使用体素索引 $I_{aug}$ 对体素特征 $F_{aug}$ 采样：
$F_{org}=S(F_{aug},I_{org})$

其中 $S$ 表示采样， $F_{org}$ 为采样的体素特征，与原始占用标签 $G_{occ}$ 对应，可以进行损失计算。对于采样时位于范围外的位置，使用二值掩膜 $M_{occ}\in\{0,1\}^{X\times Y\times Z}$ 忽视之：
$L_{occ}=f(G_{occ},F_{org})\times M_{occ}$