【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

这篇具有很好参考价值的文章主要介绍了【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原文链接:https://openaccess.thecvf.com/content/WACV2024/html/Wu_A_Robust_Diffusion_Modeling_Framework_for_Radar_Camera_3D_Object_WACV_2024_paper.html

1. 引言

本文使用概率去噪扩散模型的技术,提出完全可微的雷达-相机框架。使用校准矩阵将雷达点云投影到图像上后,在特征编码器和BEV下的Transformer检测解码器中引入信息去噪。

在雷达-图像编码器中,首先使用去噪扩散模型(DDM)作用于对齐的雷达特征,然后查询高级语义特征进行特征关联。通过语义特征嵌入,DDM可以利用前景指导。逐点添加关联的雷达特征和图像特征,输入到Transformer解码器中。在Transformer解码器中,也在2D与深度层面引入了查询去噪。

3. 方法

【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection,扩散模型与目标检测,论文阅读,目标检测,自动驾驶,深度学习,计算机视觉
本文的框架分为两个部分:(1)雷达-图像特征编码器:首先对齐雷达与图像输入,并通过全局注意力和带语义嵌入的去噪扩散模型进行完全可微的雷达-图像关联;(2)BEV解码器:引入额外查询,对物体的定位信息进行去噪,解码融合的BEV特征。

3.1 雷达-图像关联

图像通过主干得到图像特征 I F ∈ R N × C × H × W I_F\in\mathbb{R}^{N\times C\times H\times W} IFRN×C×H×W。由于雷达缺少高度测量,使用CenterFusion中的柱体扩张技术,沿 z z z轴扩张雷达点云。然后进行多雷达和自车运动补偿的多帧积累,并投影到图像上得到 R F R_F RF

3.2 使用DDM进行全局感知的关联

【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection,扩散模型与目标检测,论文阅读,目标检测,自动驾驶,深度学习,计算机视觉
带语义嵌入的DDM:结构如上图所示。首先建立 从投影的扩展雷达特征 到噪声特征图 的扩散过程,然后训练模型进行逆过程。去噪模型 ϵ θ \epsilon_\theta ϵθ为两块轻量级残差块(2D卷积 + ReLU + BN)。来自图像的语义嵌入被添加到雷达特征上,并优化马尔科夫链的负对数似然,即对下式进行梯度下降:
∇ θ ∥ ϵ − ϵ θ ( α ˉ t R 0 + 1 − α ˉ t ϵ , t , ϕ e ( I F ) ) ∥ 2 \nabla_\theta\|\epsilon-\epsilon_\theta(\sqrt{\bar{\alpha}_t}R_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t,\phi_e(I_F))\|^2 θϵϵθ(αˉt R0+1αˉt ϵ,t,ϕe(IF))2

其中 α ˉ t = ∏ i = 1 t , α t = 1 − β t \bar\alpha_t=\prod_{i=1}^t,\alpha_t=1-\beta_t αˉt=i=1t,αt=1βt β t \beta_t βt为前向扩散过程第 t t t步的方差。 ϕ e \phi_e ϕe为语义特征的嵌入过程:首先对图像特征进行最大池化、clip到 ( 0 , 1 ) (0,1) (0,1),然后将特征分配到均匀离散化的 K K K个区间中并嵌入字典。

此外,由于本文是对含噪的雷达特征进行去噪,因此不遵循传统扩散过程。DDM的推断就是在语义嵌入的指导下,从雷达特征 R F R_F RF到去噪特征 R d f R_{df} Rdf的采样过程:
R t − 1 = 1 α t ( R t − 1 − α t 1 − α ˉ t ϵ θ ( R t , t , ϕ e ( I F ) ) + σ t z ) R_{t-1}=\frac{1}{\sqrt{\alpha_t}}(R_t-\frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}}\epsilon_\theta(R_t,t,\phi_e(I_F))+\sigma_t z) Rt1=αt 1(Rt1αˉt 1αtϵθ(Rt,t,ϕe(IF))+σtz)

其中 σ t \sigma_t σt为与步长相关的、无需训练的常数; t > 1 t>1 t>1时, z ∼ N ( 0 , I ) z\sim N(0,I) zN(0,I) t = 1 t=1 t=1 z = 0 z=0 z=0

通过语义查询关联:将图像语义特征作为查询与键,去噪雷达特征作为值,输入注意力模块:
X = ψ a t t a ( P q a ( I F ) , P k a ( I F ) , P v a ( R d f ) ) X=\psi^a_{att}(P_q^a(I_F),P^a_k(I_F),P_v^a(R_{df})) X=ψatta(Pqa(IF),Pka(IF),Pva(Rdf))

其中 ψ a t t a \psi^a_{att} ψatta表示注意力机制 + 输出变形, P q , k , v a P^a_{q,k,v} Pq,k,va表示拉直 + 投影。

然后,对 X X X使用空间注意力 ψ a t t b \psi^b_{att} ψattb(作用于 H × W H\times W H×W维度)和通道注意力 ψ a t t c \psi^c_{att} ψattc(作用于 N × C N\times C N×C维度),得到 X S X_S XS X C X_C XC
X S = ψ a t t b ( P q b ( X ) , P k b ( X ) , P v b ( X ) T ) X C T = ψ a t t c ( P q c ( X ) T , P k c ( X ) T , P v c ( X ) ) X_S=\psi^b_{att}(P_q^b(X),P^b_k(X),P_v^b(X)^T)\\ X_C^T=\psi^c_{att}(P_q^c(X)^T,P^c_k(X)^T,P_v^c(X)) XS=ψattb(Pqb(X),Pkb(X),Pvb(X)T)XCT=ψattc(Pqc(X)T,Pkc(X)T,Pvc(X))

其中 X , X S , X C ∈ R N × C × H × W X,X_S,X_C\in\mathbb{R}^{N\times C\times H\times W} X,XS,XCRN×C×H×W。最后将 X , X S , X C , I F X,X_S,X_C,I_F X,XS,XC,IF相加得到融合特征 X f u X_{fu} Xfu
X f u = X + γ S X S + γ C X C + I F X_{fu}=X+\gamma_SX_S+\gamma_CX_C+I_F Xfu=X+γSXS+γCXC+IF

3.3 带定位去噪的BEV解码器

对于使用Transformer解码器的模型,引入3D边界框中心回归的查询去噪。

使用 从带高斯噪声的物体标签 采样得到的 D D D组去噪查询,为每组分配 N D N_D ND个查询(足够大),类似DN-DETR,为去噪查询训练参数掩蔽的注意力操作,仅使用常规可学习查询进行3D边界框的解码。设初始化物体查询为 Q 0 Q_0 Q0,噪声定位查询 Q 0 x y z Q_0^{xyz} Q0xyz,Transformer的第 i i i层为 ϕ i \phi_i ϕi,则
Q i + 1 = ϕ i ( ψ e n c ( X f u ) , Q i , Q i x y z ) Q_{i+1}=\phi_i(\psi_{enc}(X_{fu}),Q_i,Q_i^{xyz}) Qi+1=ϕi(ψenc(Xfu),Qi,Qixyz)

其中 ψ e n c \psi_{enc} ψenc为特征投影。

DN-DETR的Transformer解码器结构如下图所示,其输入查询包括去噪组查询和可学习查询。其中去噪组查询是来自加噪的真值,在计算注意力时只能看到可学习查询和本组去噪查询;可学习查询则只能看到可学习查询。更新后的去噪组查询用于恢复真值,计算重建损失;更新后的可学习查询用于预测3D边界框,损失计算与传统的Transformer解码器相同。
【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection,扩散模型与目标检测,论文阅读,目标检测,自动驾驶,深度学习,计算机视觉

3.4 去噪框架的损失函数

去噪查询组与常规可学习查询一样,和融合特征交互,但不进行匈牙利匹配,因为它们是在去噪准备阶段通过一对一匹配初始化得到的。总损失为:
L = γ 1 L D D M + γ 2 L r e g + γ 3 L c l s + γ 4 L x y z \mathcal{L}=\gamma_1\mathcal{L}_{DDM}+\gamma_2\mathcal{L}_{reg}+\gamma_3\mathcal{L}_{cls}+\gamma_4\mathcal{L}_{xyz} L=γ1LDDM+γ2Lreg+γ3Lcls+γ4Lxyz

其中分类损失为focal损失,回归损失为L1损失,xyz损失为DN-DETR中的重建损失。

4. 实验与结果

4.3 与基准方案比较

在BEVDet、PETR与BEVFormer(均为图像单一模态方法)的基础上添加本文的去噪方法,性能均有提升,特别是在速度估计精度上。

4.4 与SotA比较

与不使用激光雷达数据作为监督的方法(相机单一模态方法或雷达相机融合方法)相比,本文的方法能在NDS指标上位列第一,且能大幅超过两阶段雷达相机融合方法CenterFusion和CRAFT。

4.5 网络分析

去噪雷达-相机框架的分析:实验表明,在PETR的基础上逐步添加雷达关联、DDM、语义嵌入、2D查询去噪、3D查询去噪,能逐步提高性能。

带语义嵌入的DDM分析:若将DDM的输入从原始雷达特征改为加噪雷达特征,性能会有所下降。这表明雷达传感器自身具有的模糊特性。

雷达特征的分析:使用雷达的距离信息、速度信息对3D检测有利,但进一步添加RCS信息对性能没有提升。文章来源地址https://www.toymoban.com/news/detail-801231.html

到了这里,关于【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文笔记】Scene Reconstruction From 4D Radar Data with GAN and Diffusion

    原文链接:https://kth.diva-portal.org/smash/get/diva2:1799731/FULLTEXT01.pdf 本文使用深度生成模型(DGM)实现以4D雷达为条件的图像生成,以提供雷达数据的另一可视化方法并增强可解释性。 实验中的雷达和RGB相机固定在路面上方并经过时空同步。雷达和图像的数据对会作为网络的训练数

    2024年02月03日
    浏览(35)
  • Cross-Drone Transformer Network for Robust Single Object Tracking论文阅读笔记

    无人机在各种应用中得到了广泛使用,例如航拍和军事安全,这得益于它们与固定摄像机相比的高机动性和广阔视野。多 无人机追踪系统可以通过从不同视角收集互补的视频片段 ,为目标提供丰富的信息,特别是当目标在某些视角中被遮挡或消失时。然而,在多无人机视觉

    2024年01月25日
    浏览(46)
  • MapTR:Structured Modeling and Learning for Online Vectorized HD Map Construction——论文笔记

    参考代码:MapTR 介绍:这篇文章提出了一种向量化高清地图(vectorized HD map)构建的方法,该方法将高清地图中的元素(线条状或是多边形的)构建为由一组点和带方向边的组合。由于点和方向边在起始点未知的情况下其实是能对同一地图元素够成很多种表达的,对此文章对

    2024年02月15日
    浏览(31)
  • [论文阅读笔记20]MotionTrack: Learning Robust Short-term and Long-term Motions for Multi-Object Tracking

    论文地址: https://arxiv.org/pdf/2303.10404.pdf 代码: 未开源 目前是MOT20的第二名 这篇文章着力于解决 长时 跟踪的问题. 当前大多数方法只能依靠Re-ID特征来进行长时跟踪, 也就是轨迹长期丢失后的再识别. 然而, Re-ID特征并不总是有效的. 尤其是在拥挤和极度遮挡的情况下. 为此, 这篇

    2024年02月16日
    浏览(34)
  • 【论文阅读】以及部署BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework

    BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework BEVFusion:一个简单而强大的LiDAR-相机融合框架 NeurIPS 2022 多模态传感器融合意味着信息互补、稳定,是自动驾驶感知的重要一环,本文注重工业落地,实际应用 融合方案: 前融合(数据级融合)指通过空间对齐直接融合不同模态的

    2024年02月04日
    浏览(34)
  • 【论文笔记】UniVision: A Unified Framework for Vision-Centric 3D Perception

    原文链接:https://arxiv.org/pdf/2401.06994.pdf 目前,同时处理基于图像的3D检测任务和占用预测任务还未得到充分探索。3D占用预测需要细粒度信息,多使用体素表达;而3D检测多使用BEV表达,因其更加高效。 本文提出UniVision,同时处理3D检测与占用预测任务的统一网络。网络结构为

    2024年02月19日
    浏览(33)
  • 论文笔记--OpenPrompt: An Open-source Framework for Prompt-learning

    标题:OpenPrompt: An Open-source Framework for Prompt-learning 作者:Ning Ding, Shengding Hu, Weilin Zhao, Yulin Chen, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun 日期:2022 期刊:ACL   文章介绍了一种开源的工具OpenPrompt,该工具将prompt-learning的一些操作进行封装处理,设计成为一种用户友好的开源三方库,使

    2024年02月17日
    浏览(34)
  • 【论文笔记】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)

    原文链接:https://arxiv.org/abs/2303.10076 本文提出基于环视图像进行3D占用估计的简单框架,探索了网络设计、优化和评估。网络设计方面,虽然输出形式与单目深度估计和立体匹配不同,但网络结构与立体匹配网络相似(如下图所示),可以使用立体匹配的经验设计网络。优化

    2024年02月02日
    浏览(41)
  • 论文笔记--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

    标题:ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 作者:Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang 日期:2020 期刊:AAAI   文章给出了一种新的NLP预训练模型的训练方法,并提出了ERNIE2.0(Enhanced Representation through kNowledge IntErgration)。ERNIE2.0在ERNIE

    2024年02月09日
    浏览(40)
  • Benchmarking Augmentation Methods for Learning Robust Navigation Agents 论文阅读

    题目 :Benchmarking Augmentation Methods for Learning Robust Navigation Agents: the Winning Entry of the 2021 iGibson Challenge 作者 :Naoki Yokoyama, Qian Luo 来源 :arXiv 时间 :2022 深度强化学习和可扩展的真实感模拟的最新进展使得用于各种视觉任务(包括导航)的具体人工智能日益成熟。然而,虽然在

    2024年02月14日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包