TransFusion：利用 Transformer 进行鲁棒性融合来进行 3D 目标检测-Toy模板网

这篇具有很好参考价值的文章主要介绍了TransFusion：利用 Transformer 进行鲁棒性融合来进行 3D 目标检测。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Query 初始化

Input-dependent

以往 Query 位置是随机生成或学习作为网络参数的，而与输入数据无关，因此需要额外的阶段（解码器层）来学习模型向真实对象中心移动的过程。
论文提出了一种基于center heatmap 的 input-dependent 初始化策略。（decoder ：6 layers —> 1 layer）

给定一个 $d$ 维的 LiDAR BEV 特征图 $F_L\in \R^{X \times Y \times d}$ ，首先预测一个 class-specific heatmap $\hat S \in \R^{X\times Y \times K}$ ， $\times Y$ 表示 BEV 特征图的大小， $K$ 是类别数量。
然后，将 heatMap 看作 $X \times Y \times K$ 个候选对象，并选择所有类别的前 $N$ 个候选对象作为初始对象 Queries。
选择局部最大值元素作为对象Queries：避免空间上过于封闭的Queries。这些元素的值大于或等于它们的 8连通 neighbors。
所选候选对象的位置和特征用于初始化Queries位置和Queries特征。
初始对象Queries将位于或接近潜在的对象中心，消除了需要多个解码器层来细化位置。

Category-aware

BEV平面上的物体都是绝对尺度的，同一类别之间的尺度差异很小。通过为每个 Query 配备 category embedding 来使对象 Queries 具有 Category-aware (类别感知性)。

使用每个选定的候选对象的类别，也就是说 $\hat S_{i,j,k}$ 属于第 $k$ 个类别。通过线性映射 one-hot category 向量到一个 $R^d$ 向量，来将 Query 特征和 category embedding 进行元素求和。

category embedding：
1.在对自我注意模块中的对象-对象关系和交叉注意模块中的对象-上下文关系进行建模中作为有用的辅助信息。
2.在预测时，可以传递有价值的对象先验知识，使网络关注类别内的方差，从而有利于属性预测。

Transformer Decoder 和 FFN

TransFusion：利用 Transformer 进行鲁棒性融合来进行 3D 目标检测
上图：左-用于初始边界框预测的 transformer decoder 层的架构。右-用于图像融合的 transformer decoder 层的体系结构。

在对象 Queries 与特征映射（点云或图像）的交叉注意力将相关的上下文信息，聚集到候选对象上，而对象 Queries 之间的自我注意则导致不同候选对象之间的成对关系。
将 Query 位置嵌入到 MLP 的 $D$ 维位置编码中，并与 Query 特征进行元素求和。这使得网络能够联合推理上下文和位置。
然后，通过前馈网络（FFN）将包含丰富实例信息的 $N$ 个对象 Queries 独立的解码为边界框和类标签。
通过并行地将每个对象 Query 译码为预测，得到一组预测值 $\{\hat b_t,\hat p_t\}_t^N$ 作为输出，其中 $\hat b_t$ 是第 $i$ 个 Query 的预测边界框， $\hat p \in [0,1]^K$ 为 $K$ 个语义类 pre-class 概率。
采用了辅助译码机制，在每个decoder层后加入 FFN 和监督。因此，可以从第一个decoder层得到初始边界框。

LiDAR-Camera 融合

图像特征提取

点级融合融合质量在很大程度上受到激光雷达点稀疏性的限制。当一个物体只包含少量的激光雷达点时，它只能获取相同数量的图像特征，浪费了高分辨率图像丰富的语义信息。

论文不提取基于激光雷达点和图像像素之间的硬关联的多视图图像特征。保留所有图像特征 $F_C\in R^{N_v×H×W×d}$ 作为 memory bank，并利用 transformer decoder 中的交叉注意机制，以稀疏到密集的自适应方式进行特征融合。
TransFusion：利用 Transformer 进行鲁棒性融合来进行 3D 目标检测在给定来自 convolutional backbones 的一个 LiDAR BEV 特征图和一个图像特征图的基础上，我们的基于 transformer 的检测头首先利用 LiDAR 信息将目标 queriers 解码为初始边界框预测，然后通过将目标 queries 与有用的图像特征集中融合，进行 LiDAR-camera 融合。

用于图像特征融合的SMCA（空间调制交叉注意）

为了降低带来的传感器标定敏感性和图像劣质特征对硬关联策略的影响，利用交叉关注机制建立了激光雷达与图像之间的软关联，使网络能够自适应地确定从图像中获取信息的位置和内容。

首先使用先前的预测和校准矩阵来识别对象 Queries 所在的特定图像，然后在对象 Queries 和相应的图像特征映射之间进行交叉注意。

然而，由于激光雷达特征和图像特征来自完全不同的领域，目标 Queries 可能涉及到与待预测边界框无关的视觉区域，导致网络需要很长的训练时间来准确识别图像上的正确区域。

SCMA：通过围绕每个 Query 的投影2D中心的2D圆形高斯 mask 来加权交叉注意。这个2D高斯权重 mask 与 Center-Net 的生成方式类似， $M_{i,j}=\exp (-\frac{(i-c_x)^2+(j-c_y)^2}{\sigma r^2})$ ，其中 $(i, j)$ 是权重 mask M 的空间索引， $c_x,c_y)$ 是通过投影 Query 预测在图像平面的2D中心， $r$ 是3D边界框的投影角点的最小外接圆半径， $σ$ 是调制高斯分布带宽的超参数。。然后，这个权重图与所有注意力头之间的交叉注意力图进行基本相乘。这样，每个对象 Query 只关注投影二维框周围的相关区域，从而使网络能够更好更快地根据输入的激光雷达特征学习在哪里选择图像特征。
TransFusion：利用 Transformer 进行鲁棒性融合来进行 3D 目标检测上图：第一行显示输入图像和投影在图像上的对象 Query 预测，第二行显示交叉注意图。
该网络通常倾向于关注靠近目标中心的前景像素，而忽略不相关的像素，为目标分类和边界框回归提供有价值的语义信息。

在SMCA之后，使用另一个FFN使用包含激光雷达和图像信息的对象 Queries 来产生最终的边界框预测。

图像引导 Query 初始化

recall也叫召回率,记做R,表示你预测的结果中有多少正样本被正确检测出来,当R=100%的时候,表示没有漏检

仅使用激光雷达特征进行选择对象 Query ，可能导致在检测召回率方面存在亚优性。

为了进一步利用高分辨率图像检测小目标的能力，并使算法对稀疏的激光雷达点云更具鲁棒性，利用激光雷达和相机信息选择对象 Query 。

通过与激光雷达BEV特征 $F_{L}$ 交叉关注，将图像特征 $F_C$ 投影到BEV平面上，生成一个激光雷达-相机BEV特征 $F_{LC}$ 。
TransFusion：利用 Transformer 进行鲁棒性融合来进行 3D 目标检测
使用沿高度轴折叠的 multiView 图像特征作为注意力机制的 key-value 序列。折叠操作基于观察到BEV位置与图像列之间的关系可以很容易地利用摄像机几何来建立，通常每个图像列上最多有一个物体。
因此，沿高度轴折叠可以在不丢失关键信息的情况下显著减少计算量。虽然在这个过程中可能会丢失一些细粒度的图像特征，但它已经满足了需要：因为它只需要对潜在的目标位置进行提示。使用 $F_{LC}$ 来预测 heatmap，并用仅有激光雷达的 heatmap $\hat S$ 进行平均，作为最终的 heatmap $\hat S_{LC}$ 。利用 $\hat S_{LC}$ 选择和初始化目标 Query ，模型就能够检测出激光雷达点云中难以检测的目标。文章来源地址https://www.toymoban.com/news/detail-503202.html