LoGoNet：基于局部到全局跨模态融合的精确 3D 目标检测

这篇具有很好参考价值的文章主要介绍了LoGoNet：基于局部到全局跨模态融合的精确 3D 目标检测。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

论文地址：https://arxiv.org/abs/2303.03595
论文代码：https://github.com/sankin97/LoGoNet

论文背景

激光雷达传感器点云通常是稀疏的，无法提供足够的上下文来区分远处的区域，从而造成性能次优。

激光雷达-摄像机融合方法在三维目标检测中表现出了良好的性能。目前先进的多模态方法主要进行全局融合，即在整个场景中融合图像特征和点云特征。这样的实践缺乏细粒度的区域级信息，从而产生了次优的融合性能。
LoGoNet：基于局部到全局跨模态融合的精确 3D 目标检测,自动驾驶,神经网络,自动驾驶,3d,目标检测,算法
为了解决上述问题，论文提出了一种新的局部到全局的融合网络，称为 LoGoNet，它在全局和局部两个层次上进行激光雷达-相机的融合。
LoGoNet：基于局部到全局跨模态融合的精确 3D 目标检测,自动驾驶,神经网络,自动驾驶,3d,目标检测,算法
LoGoNet 由全局融合(GoF)、局部融合(LoF)和特征动态聚合(FDA)三个新的组件组成。

论文框架

LoGoNet：基于局部到全局跨模态融合的精确 3D 目标检测,自动驾驶,神经网络,自动驾驶,3d,目标检测,算法 LogoNet 的输入点云和多相机图像分别为为 $P=\{ (x_i,y_i,z_i) | f_i \}_{i=1}^{N}$ 和来自 $T$ 个相机的 $\{I_j \in \R^{H_I \times W_I \times 3}\}_{j=1}^T$ 。其中 $x_i,y_i,z_i)$ 是第 $i$ 个点的空间坐标， $f_i \in \R^{C_p}$ 是包含每个点的强度或延伸的附加特征， $N$ 是点云中的点数， $H_I$ 和 $W_I$ 是输入图像的高度和宽度。对于点云分支，在给定输入点云的情况下，使用基于3D体素的 backbone 生成 $1 \times, 2 \times, 4 \times$ 和 $8 \times$ 下采样体素特征 $F_V∈\R^{X×Y×Z×C_V}$ ，其中 $C_V$ 为每个体素特征的通道数， $(X, Y, Z)$ 为每个体素层的网格大小。然后，从提取的分层体素特征中使用一个区域提议网络（RPN）来产生初始的 bounding box proposal $B = \{ B_1,B_2,...,B_n \}$ 。对于图像分支，利用二维检测器对原始多摄像机图像进行处理，得到稠密语义图像特征 $F_I∈\R^{\frac{H_I}{4}×\frac{W_I}{4}×C_I}$ ，其中 $C_I$ 为图像特征的通道数。最后，将局部到全局的交叉模态融合应用到两阶段 refinement 中，其中多级体素特征 $F_V$ 、图像特征 $F_I$ 和从原始点云中提取的局部位置信息自适应融合。LogoNet(local-to-global)融合方法主要包括全局融合(GoF)、局部融合(LoF)和特征动态聚合模块(FDA)。

全局融合模块

以往的全局融合方法通常使用体素中心来表示每个体素特征的位置。然而，这样的做法不可避免地忽略了每个体素内点的实际分布。如 KPConv 和 PDV 所观察到的，体素点中心更接近物体的扫描表面。它们更有效地为大尺度点云提供原始几何形状信息和尺度。因此，论文设计了质心动态融合（CDF）模块，以在全局体素特征空间中自适应地融合点云特征和图像特征。利用这些体素点质心来表示非空体素特征的空间位置。这些体素特征及其相关的图像特征通过可变形交叉注意力模块自适应融合，如图所示。 LoGoNet：基于局部到全局跨模态融合的精确 3D 目标检测,自动驾驶,神经网络,自动驾驶,3d,目标检测,算法给定非空体素特征集合 $F_V =\{V_i,f_{V_i}\}^{N_V}_{i=1}$ 和图像特征 $F_I$ ，其中 $V_i$ 为体素索引， $f_{Vi}∈\R^{C_V}$ 为非空体素特征向量， $N_V$ 为非空体素的数量。通过在同一体素 $V_i$ 中对所有点的空间位置求平均，得到每个体素特征 $f_{V_i}$ 的点质心 $c_i$ ： $\tag1 c_i = \frac{1}{|\mathcal P(V_i)|} \sum_{p_i \in \mathcal P(V_i)}p_i,$ 其中 $p_i =(x_i,y_i,z_i)$ 是空间坐标， $|\mathcal P(V_i)|$ 是体素 $V_i$ 内的点数。接下来，为每个计算的体素点质心分配一个体素网格索引，并通过哈希表匹配相关的体素特征。然后，利用摄像机投影矩阵 $\mathcal M$ ，从每个计算的体素点质心 $c_i$ 计算出图像平面上的参考点 $\boldsymbol {p_i}$ ： $\tag 2 \boldsymbol {p_i} = \mathcal M \cdot c_i,$ 式中 $\mathcal M$ 为相机内参矩阵与外参矩阵的乘积，运算 $\cdot$ 为矩阵乘法。在参考点的基础上，对参考点周围的一组图像特征 $F^k_I$ 进行加权，生成聚合图像特征 $\hat F_{I}^i$ ，该集合将学习到的偏移量应用于图像特征 $F_I$ 。将每个体素特征表示为查询 $Q_i$ ，将采样特征 $\hat F_I^i$ 表示为键 $K$ 和值 $V$ 。整个质心动态融合过程表述为： $\tag3 F_I^k = F_I(\boldsymbol p_i + \Delta \boldsymbol p_{mik}),\\\text{CDF}(Q_i,\hat F_I^i) = \sum_{m=1}^{M} W_M [\sum_{k=1}^{K}A_{mik}\cdot (W_m^{'}F_I^k)],$ 其中， $W_m$ 和 $W_m^{'}$ 为可学习权值， $M$ 为自注意头的个数， $K$ 为总采样点数。 $\Delta p_{mik}$ 和 $A_{mik}$ 分别表示第 $m$ 个注意头中第 $k$ 个采样点的采样偏移量和注意权重。它们都是通过在查询特征 $Q_i$ 上的线性投影得到的。将图像增强后的体素特征与原始体素特征进行级联，得到融合体素特征 $\hat F^*_V∈\R^{N×2C_V}$ 。然后，在 $\hat F^*_V$ 上采用一个 FFN 来减少通道的数量，并从CDF模块获得最终的融合特征 $\hat F^*_V∈\R^{N×C_V}$ ，其中FFN表示一个前馈网络。最后，在 $\hat F^*_V$ 上执行 ROI pooling，以生成 proposal 特征 $F^g_B$ 用于后续的 proposal refinement。

局部融合模块

LoGoNet：基于局部到全局跨模态融合的精确 3D 目标检测,自动驾驶,神经网络,自动驾驶,3d,目标检测,算法为了在多模态融合过程中提供更多的局部和细粒度几何信息，提出了网格点动态融合(GDF)局部融合(LOF)模块，在 proposal 层动态融合点云特征和图像特征。给定每个 bounding box proposal $B_i$ ，将其划分为 $u \times u \times u$ 的规则体素网格 $G_j$ ，其中 $j$ 索引体素网格。取中心点 $z_j$ 作为对应体素网格 $G_j$ 的网格点。首先，使用位置信息编码器(PIE)对相关的位置信息进行编码，并为每个 bounding box proposal 生成每个网格特征 $F^j_G$ 。对每个 proposal 的网格进行 PIE 处理，得到局部网格感兴趣区域特征 $F^p_B =\{F^1_G,F^1_G,...,F^{u^3}_G\}$ 。每个网格特征 $F^j_G$ 的 PIE计算如下： $\tag4 F^j_G = \text{MLP}(\gamma,c_B,\log(|N_{G_j}|+\tau))$ 其中 $γ=z_j-c_B$ 是每个网格与 bounding box proposla 质心 $c_B$ 的相对位置， $N_{G_j}|$ 是每个体素网格 $G_j$ 中的点数， $τ$ 是一个恒定的偏移量。每个网格中的这些信息为在 region proposals 中构建细粒度跨模态融合提供了基础。除了利用原始点云在每个体素网格中的位置信息外，论文还提出了网格动态融合(GDF)模块，使模型能够利用这些编码的局部ROI 网格特征 $F^p_B$ 自适应地吸收相关的图像特征到局部 proposals 中。然后，将网格点 $G$ 的每个中心点 $z_j$ 投影到类似于 GoF 模块的多视点图像平面上，并为每个 box proposal 获得若干个参考点 $O∈\R^{u^3}$ ，对图像特征进行局部多模态特征融合。利用交叉注意将局部采样图像特征与编码后的局部 ROI 网格特征 $F_B^p$ 融合，查询特征 $Q$ 是由 ROI 网格特征 $F_B^p$ 与编码后的局部原始点云位置信息生成的、key 和 value 特征 K、V 是由参考点采样的图像特征 $F_I$ 及其动态偏移量生成的，其操作与公式（3）相同。然后，将图像增强后的局部网格特征与原始的局部网格特征进行拼接，得到融合的网格特征 $\hat F^l_B$ 。最后，在 $\hat F^l_B$ 上采用FFN算法减少通道数，得到融合后的ROI网格特征 $F^l_B$ 。

特征动态聚合模块

LoGoNet：基于局部到全局跨模态融合的精确 3D 目标检测,自动驾驶,神经网络,自动驾驶,3d,目标检测,算法在LOF、GOF和PIE模之后，得到了三种特征，即 $F^p_B$ 、 $F^l_ B$ 和 $F^g_B$ 。这些特征是独立产生的，信息交互性和聚合性较差。因此，论文提出了特征动态聚合(FDA)模块，该模块引入了自注意来自适应地建立不同网格点之间的关系。首先得到每个 bounding box proposal 中所有编码网格点的聚合特征 $F_S$ 为： $\tag5 F_S=F_B^p+F_B^l+F_B^g$ 然后，引入自注意模块，构建非空网格点特征与标准 transformer 编码器层和残差连接块(RCB)之间的交互。

训练的 Loss 函数

在LoGoNet中，图像分支的权值被冻结，只训练LiDAR分支。总体训练损失 $\mathcal L$ 包括RPN损失 $\mathcal L_{RPN}$ 、置信度预测损失 $\mathcal L_{conf}$ 和 box 回归损失 $\mathcal L_{reg}$ ： $\tag6 \mathcal L = \mathcal L_{RPN}+\mathcal L_{conf}+ \alpha \mathcal L_{reg}$ 其中 $α$ 是平衡不同损耗的超参数，在论文的实验中设为1。我们遵循 voxel r-cnn 中的训练设置来优化整个网络。

论文总结

论文提出了一种新颖的多模态网络LoGoNet，通过局部到全局的跨模态特征融合，将点云特征与图像特征深度融合，为准确检测提供了更丰富的信息。在 WOD 和 KITTI 数据集上进行了大量实验，LoGoNet 超过了以前的方法，并在 Waymo 3D 检测排行榜上获得了第一名。结果表明，该框架具有很强的有效性和通用性。文章来源地址https://www.toymoban.com/news/detail-709487.html

到了这里，关于LoGoNet：基于局部到全局跨模态融合的精确 3D 目标检测的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！