【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

这篇具有很好参考价值的文章主要介绍了【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

原文链接：https://openaccess.thecvf.com/content/WACV2024/html/Wu_A_Robust_Diffusion_Modeling_Framework_for_Radar_Camera_3D_Object_WACV_2024_paper.html

1. 引言

本文使用概率去噪扩散模型的技术，提出完全可微的雷达-相机框架。使用校准矩阵将雷达点云投影到图像上后，在特征编码器和BEV下的Transformer检测解码器中引入信息去噪。

在雷达-图像编码器中，首先使用去噪扩散模型（DDM）作用于对齐的雷达特征，然后查询高级语义特征进行特征关联。通过语义特征嵌入，DDM可以利用前景指导。逐点添加关联的雷达特征和图像特征，输入到Transformer解码器中。在Transformer解码器中，也在2D与深度层面引入了查询去噪。

3. 方法

【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection,扩散模型与目标检测,论文阅读,目标检测,自动驾驶,深度学习,计算机视觉
本文的框架分为两个部分：（1）雷达-图像特征编码器：首先对齐雷达与图像输入，并通过全局注意力和带语义嵌入的去噪扩散模型进行完全可微的雷达-图像关联；（2）BEV解码器：引入额外查询，对物体的定位信息进行去噪，解码融合的BEV特征。

3.1 雷达-图像关联

图像通过主干得到图像特征 $I_F\in\mathbb{R}^{N\times C\times H\times W}$ 。由于雷达缺少高度测量，使用CenterFusion中的柱体扩张技术，沿 $z$ 轴扩张雷达点云。然后进行多雷达和自车运动补偿的多帧积累，并投影到图像上得到 $R_F$ 。

3.2 使用DDM进行全局感知的关联

【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection,扩散模型与目标检测,论文阅读,目标检测,自动驾驶,深度学习,计算机视觉
带语义嵌入的DDM：结构如上图所示。首先建立从投影的扩展雷达特征到噪声特征图的扩散过程，然后训练模型进行逆过程。去噪模型 $\epsilon_\theta$ 为两块轻量级残差块（2D卷积 + ReLU + BN）。来自图像的语义嵌入被添加到雷达特征上，并优化马尔科夫链的负对数似然，即对下式进行梯度下降：
$\nabla_\theta\|\epsilon-\epsilon_\theta(\sqrt{\bar{\alpha}_t}R_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t,\phi_e(I_F))\|^2$

其中 $\bar\alpha_t=\prod_{i=1}^t,\alpha_t=1-\beta_t$ ， $\beta_t$ 为前向扩散过程第 $t$ 步的方差。 $\phi_e$ 为语义特征的嵌入过程：首先对图像特征进行最大池化、clip到 $(0, 1)$ ，然后将特征分配到均匀离散化的 $K$ 个区间中并嵌入字典。

此外，由于本文是对含噪的雷达特征进行去噪，因此不遵循传统扩散过程。DDM的推断就是在语义嵌入的指导下，从雷达特征 $R_F$ 到去噪特征 $R_{df}$ 的采样过程：
$R_{t-1}=\frac{1}{\sqrt{\alpha_t}}(R_t-\frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}}\epsilon_\theta(R_t,t,\phi_e(I_F))+\sigma_t z)$

其中 $\sigma_t$ 为与步长相关的、无需训练的常数； $t > 1$ 时， $z\sim N(0,I)$ ， $t = 1$ 时 $z = 0$ 。

通过语义查询关联：将图像语义特征作为查询与键，去噪雷达特征作为值，输入注意力模块：
$X=\psi^a_{att}(P_q^a(I_F),P^a_k(I_F),P_v^a(R_{df}))$

其中 $\psi^a_{att}$ 表示注意力机制 + 输出变形， $P^a_{q,k,v}$ 表示拉直 + 投影。

然后，对 $X$ 使用空间注意力 $\psi^b_{att}$ （作用于 $H\times W$ 维度）和通道注意力 $\psi^c_{att}$ （作用于 $N\times C$ 维度），得到 $X_S$ 与 $X_C$ 。
$X_S=\psi^b_{att}(P_q^b(X),P^b_k(X),P_v^b(X)^T)\\ X_C^T=\psi^c_{att}(P_q^c(X)^T,P^c_k(X)^T,P_v^c(X))$

其中 $X,X_S,X_C\in\mathbb{R}^{N\times C\times H\times W}$ 。最后将 $X,X_S,X_C,I_F$ 相加得到融合特征 $X_{fu}$ ：
$X_{fu}=X+\gamma_SX_S+\gamma_CX_C+I_F$

3.3 带定位去噪的BEV解码器

对于使用Transformer解码器的模型，引入3D边界框中心回归的查询去噪。

使用从带高斯噪声的物体标签采样得到的 $D$ 组去噪查询，为每组分配 $N_D$ 个查询（足够大），类似DN-DETR，为去噪查询训练参数掩蔽的注意力操作，仅使用常规可学习查询进行3D边界框的解码。设初始化物体查询为 $Q_0$ ，噪声定位查询 $Q_0^{xyz}$ ，Transformer的第 $i$ 层为 $\phi_i$ ，则
$Q_{i+1}=\phi_i(\psi_{enc}(X_{fu}),Q_i,Q_i^{xyz})$

其中 $\psi_{enc}$ 为特征投影。

DN-DETR的Transformer解码器结构如下图所示，其输入查询包括去噪组查询和可学习查询。其中去噪组查询是来自加噪的真值，在计算注意力时只能看到可学习查询和本组去噪查询；可学习查询则只能看到可学习查询。更新后的去噪组查询用于恢复真值，计算重建损失；更新后的可学习查询用于预测3D边界框，损失计算与传统的Transformer解码器相同。

3.4 去噪框架的损失函数

去噪查询组与常规可学习查询一样，和融合特征交互，但不进行匈牙利匹配，因为它们是在去噪准备阶段通过一对一匹配初始化得到的。总损失为：
$\mathcal{L}=\gamma_1\mathcal{L}_{DDM}+\gamma_2\mathcal{L}_{reg}+\gamma_3\mathcal{L}_{cls}+\gamma_4\mathcal{L}_{xyz}$

其中分类损失为focal损失，回归损失为L1损失，xyz损失为DN-DETR中的重建损失。

4. 实验与结果

4.3 与基准方案比较

在BEVDet、PETR与BEVFormer（均为图像单一模态方法）的基础上添加本文的去噪方法，性能均有提升，特别是在速度估计精度上。

4.4 与SotA比较

与不使用激光雷达数据作为监督的方法（相机单一模态方法或雷达相机融合方法）相比，本文的方法能在NDS指标上位列第一，且能大幅超过两阶段雷达相机融合方法CenterFusion和CRAFT。

4.5 网络分析

去噪雷达-相机框架的分析：实验表明，在PETR的基础上逐步添加雷达关联、DDM、语义嵌入、2D查询去噪、3D查询去噪，能逐步提高性能。

带语义嵌入的DDM分析：若将DDM的输入从原始雷达特征改为加噪雷达特征，性能会有所下降。这表明雷达传感器自身具有的模糊特性。

雷达特征的分析：使用雷达的距离信息、速度信息对3D检测有利，但进一步添加RCS信息对性能没有提升。文章来源地址https://www.toymoban.com/news/detail-801231.html

到了这里，关于【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！