【论文笔记】UniVision: A Unified Framework for Vision-Centric 3D Perception

这篇具有很好参考价值的文章主要介绍了【论文笔记】UniVision: A Unified Framework for Vision-Centric 3D Perception。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原文链接:https://arxiv.org/pdf/2401.06994.pdf

1. 引言

目前,同时处理基于图像的3D检测任务和占用预测任务还未得到充分探索。3D占用预测需要细粒度信息,多使用体素表达;而3D检测多使用BEV表达,因其更加高效。

本文提出UniVision,同时处理3D检测与占用预测任务的统一网络。网络结构为合-分-合,先使用共享的网络提取多视图图像特征,并使用新的视图变换模块,组合了基于深度的提升和基于查询的采样方法,以进行2D-3D视图变换。然后,网络分为两个分支,分别进行体素和BEV特征提取。然后,使用自适应特征交互使特征彼此增强,并输入任务头。此外,还提出联合的占用-检测数据增广方式,以及多任务高效训练策略。

3. 方法

3.1 整体结构

【论文笔记】UniVision: A Unified Framework for Vision-Centric 3D Perception,自动驾驶中的3D占用预测,论文阅读,自动驾驶,深度学习,计算机视觉,目标检测
如上图所示为本文模型总体结构。给定 N N N视图图像 { I i ∣ I i ∈ R W I × H I × 3 } , i ∈ { 1 , ⋯   , N } \{I^i|I^i\in\mathbb{R}^{W_I\times H_I\times 3}\},i\in\{1,\cdots,N\} {IiIiRWI×HI×3},i{1,,N},首先使用特征提取网络提取特征 F i m g F_{img} Fimg。然后,通过显式-隐式(Ex-Im)视图变换模块,联合使用深度指导的显式特征提升以及查询指导的隐式特征采样,将图像特征转化为体素特征 F v o x e l F_{voxel} Fvoxel。然后,输入局部-全局特征提取和融合模块提取局部上下文感知的体素特征和全局上下文感知的BEV特征,并使用跨表达特征交互模块进行体素特征与BEV特征的信息交换,输入到不同的任务头中。训练中,还会使用联合占用-检测(Occ-Det)数据增广和渐进损失权重调整策略,以高效训练UniVision。

3.2 Ex-Im视图变换

深度指导的显式特征提升:根据LSS,使用基于像素深度分布 D d e p t h ∈ R D × H × W D_{depth}\in\mathbb{R}^{D\times H\times W} DdepthRD×H×W与图像特征 F i m g ∈ R C × H × W F_{img}\in\mathbb{R}^{C\times H\times W} FimgRC×H×W的体素池化操作:
F v o x e l e x = VoxelPooling ( D d e p t h , F i m g ) F_{voxel}^{ex}=\text{VoxelPooling}(D_{depth},F_{img}) Fvoxelex=VoxelPooling(Ddepth,Fimg)

其中 F v o x e l e x F_{voxel}^{ex} Fvoxelex称为显式体素特征。

查询指导的隐式特征采样:由于显式体素特征的精度与深度分布的估计精度高度相关,且LSS生成的点云是不均匀的,本文进一步使用查询指导的特征采样来补偿。定义可学习体素查询 q v o x e l ∈ R C × X × Y × Z q_{voxel}\in\mathbb{R}^{C\times X\times Y\times Z} qvoxelRC×X×Y×Z,使用3D Transformer从图像采样特征。对每个体素查询,通过校准矩阵 P P P将其中心 c c c投影到图像平面得到参考点 p p p,后接 N N N个由可变形交叉注意力(DCA)、3D卷积(Conv)和前馈网络(FFN)组成的Transformer块:
p = P × c q i + 1 = F F N ( C o n v ( D C A ( q i , p , F i m g ) ) ) F v o x e l i m = q N p=P\times c\\ q^{i+1}=FFN(Conv(DCA(q^i,p,F_{img})))\\ F_{voxel}^{im}=q^N p=P×cqi+1=FFN(Conv(DCA(qi,p,Fimg)))Fvoxelim=qN

体素查询在3D空间中均匀分布,且学习到了所有训练样本的统计信息,这与LSS的深度先验信息独立。因此显式体素特征和隐式体素特征互补,拼接后作为视图变换模块的输出。
F v o x e l = F v o x e l e x ∣ ∣ F v o x e l i m F_{voxel}=F_{voxel}^{ex}||F_{voxel}^{im} Fvoxel=Fvoxelex∣∣Fvoxelim

Ex-Im视图变换模块如下图所示。
【论文笔记】UniVision: A Unified Framework for Vision-Centric 3D Perception,自动驾驶中的3D占用预测,论文阅读,自动驾驶,深度学习,计算机视觉,目标检测

3.3 局部-全局特征提取和融合

给定体素特征 F v o x e l ∈ R C × X × Y × Z F_{voxel}\in\mathbb{R}^{C\times X\times Y\times Z} FvoxelRC×X×Y×Z输入,首先堆叠 Z Z Z轴特征并使用卷积减小通道数,得到BEV特征 F b e v ∈ R C × X × Y F_{bev}\in\mathbb{R}^{C\times X\times Y} FbevRC×X×Y
F b e v = C o n v ( S t a c k ( F v o x e l , d i m = Z ) ) F_{bev}=Conv(Stack(F_{voxel},dim=Z)) Fbev=Conv(Stack(Fvoxel,dim=Z))

然后,模型分为两个并行分支,进行特征提取和加强。

局部特征提取:对 F v o x e l F_{voxel} Fvoxel,使用由3D卷积组成的局部特征提取分支提取各空间位置的局部特征。将ResNet扩展为ResNet3D,以提取多尺度体素特征 { F v o x e l i ∣ F v o x e l i ∈ R ( 2 i C ) × X 2 i × Y 2 i × Z 2 i } \{F^i_{voxel}|F^i_{voxel}\in\mathbb{R}^{(2^iC)\times \frac X {2^i} \times \frac Y {2^i}\times \frac Z {2^i}}\} {FvoxeliFvoxeliR(2iC)×2iX×2iY×2iZ},然后使用SECOND中的FPN结构,将多尺度体素特征融合为 F v o x e l l o c a l ∈ R C × X × Y × Z F_{voxel}^{local}\in\mathbb{R}^{C\times X\times Y\times Z} FvoxellocalRC×X×Y×Z

全局特征提取:BEV特征 F b e v F_{bev} Fbev保留了物体级别的信息,计算高效。本文提出带全局感受野的全局特征提取分支,使用由可变形卷积v3(DCNv3)组成的网络动态聚合全局信息,得到多尺度BEV特征 { F b e v i ∣ F b e v i ∈ R ( 2 i C ) × X 2 i × Y 2 i } \{F_{bev}^i|F_{bev}^i\in\mathbb{R}^{(2^iC)\times \frac X {2^i} \times \frac Y {2^i}}\} {FbeviFbeviR(2iC)×2iX×2iY}。同样输入SECOND FPN结构,得到融合的BEV特征 F b e v g l o b a l ∈ R C × X × Y F_{bev}^{global}\in\mathbb{R}^{C\times X\times Y} FbevglobalRC×X×Y

跨表达特征交互:进行两表达的自适应信息交换,以进一步加强特征。首先,通过 Z Z Z轴复制将BEV特征转化为体素特征,通过求和将体素特征转化为BEV特征:
F v o x e l g l o b a l = r e p e a t ( F b e v g l o b a l , d i m = Z ) F b e v l o c a l = a d d ( F v o x e l l o c a l , d i m = Z ) F_{voxel}^{global}=repeat(F_{bev}^{global},dim=Z)\\ F_{bev}^{local}=add(F_{voxel}^{local},dim=Z) Fvoxelglobal=repeat(Fbevglobal,dim=Z)Fbevlocal=add(Fvoxellocal,dim=Z)

对于体素表达,将 F v o x e l l o c a l F_{voxel}^{local} Fvoxellocal作为查询, F v o x e l g l o b a l F_{voxel}^{global} Fvoxelglobal作为键与值。将自注意力中的邻域注意力Transformer扩展为交叉注意力,以进行局部感受野 Δ p \Delta p Δp内的信息聚合。对BEV特征,使用相似的方式:
F v o x e l f u s i o n = A t t n ( q = F v o x e l l o c a l , k & v = F v o x e l g l o b a l , Δ p ) F b e v f u s i o n = A t t n ( q = F b e v g l o b a l , k & v = F b e v l o c a l , Δ p ) F_{voxel}^{fusion}=Attn(q=F_{voxel}^{local},k\&v=F_{voxel}^{global},\Delta p)\\ F_{bev}^{fusion}=Attn(q=F_{bev}^{global},k\&v=F_{bev}^{local},\Delta p) Fvoxelfusion=Attn(q=Fvoxellocal,k&v=Fvoxelglobal,Δp)Fbevfusion=Attn(q=Fbevglobal,k&v=Fbevlocal,Δp)

其中 Δ p = 3 × 3 \Delta p=3\times3 Δp=3×3 3 × 3 × 3 3\times3\times3 3×3×3

3.4 头部与损失

对于占用任务,使用两层MLP将特征通道数转化为占用类别数;损失与OpenOccupancy相同( L o c c L_{occ} Locc),包含交叉熵损失、lovasz softmax损失、几何亲和性损失与语义亲和性损失。

对于检测任务,使用基于中心的头部和损失函数( L d e t L_{det} Ldet),后者包含分类损失与回归损失。

此外,还加入了与BEVDepth相同的深度损失( L i m g L_{img} Limg)。

渐进损失权重调整策略:直接结合上述损失会导致训练失败,网络不能收敛。
【论文笔记】UniVision: A Unified Framework for Vision-Centric 3D Perception,自动驾驶中的3D占用预测,论文阅读,自动驾驶,深度学习,计算机视觉,目标检测
为解决这一问题,本文为占用损失和检测损失添加控制参数 δ \delta δ,以调整损失权重。一开始, δ = V min ⁡ \delta=V_{\min} δ=Vmin很小,然后在 N N N个epoch内逐渐增大到 V max ⁡ V_{\max} Vmax,如上图所示:
L = L i m g + δ L d e t + δ L o c c δ = max ⁡ ( V min ⁡ , min ⁡ ( V max ⁡ , i N ⋅ V max ⁡ ) ) L=L_{img}+\delta L_{det}+\delta L_{occ}\\ \delta=\max(V_{\min},\min(V_{\max},\frac i N\cdot V_{\max})) L=Limg+δLdet+δLoccδ=max(Vmin,min(Vmax,NiVmax))

其中 i i i表示当前的训练epoch数。这样,优化过程在早期关注图像级别的信息(深度)以生成合理的体素表达,然后关注后续的感知任务。

3.5 联合Occ-Det空间数据增广

3D检测任务中,空间层面的数据增广作为图像级别数据增广的补充,在提高模型性能方面同样有效。但对占用任务来说,使用空间层面的增广较为困难,如对离散占用标签进行随机缩放与旋转会导致难以确定结果的标签。因此,目前的方法仅使用简单的空间层面增广方式,如随机翻转。

本文提出联合Occ-Det空间数据增广,可同时对两个任务进行。本文按照BEVDet的增广方式,并通过插值与采样转化体素特征,进行体素数据增广。

具体来说,首先采样空间数据增广并计算相应的3D变换矩阵 M a u g M_{aug} Maug。对于占用标签 G o c c ∈ R X × Y × Z G_{occ}\in\mathbb{R}^{X\times Y\times Z} GoccRX×Y×Z和其体素索引 I o r g ∈ R X × Y × Z × 3 I_{org}\in\mathbb{R}^{X\times Y\times Z\times3} IorgRX×Y×Z×3,计算3D坐标 C o r g ∈ R X × Y × Z × 3 C_{org}\in\mathbb{R}^{X\times Y\times Z\times3} CorgRX×Y×Z×3,并进一步得到增广体素索引 I a u g I_{aug} Iaug
C o r g = P i − c × I o r g I a u g = P c − i × M a u g × C o r g C_{org}=P_{i-c}\times I_{org}\\ I_{aug}=P_{c-i}\times M_{aug}\times C_{org} Corg=Pic×IorgIaug=Pci×Maug×Corg

其中 P i − c P_{i-c} Pic P c − i P_{c-i} Pci为体素索引与空间坐标的变换矩阵。然后,使用体素索引 I a u g I_{aug} Iaug对体素特征 F a u g F_{aug} Faug采样:
F o r g = S ( F a u g , I o r g ) F_{org}=S(F_{aug},I_{org}) Forg=S(Faug,Iorg)

其中 S S S表示采样, F o r g F_{org} Forg为采样的体素特征,与原始占用标签 G o c c G_{occ} Gocc对应,可以进行损失计算。对于采样时位于范围外的位置,使用二值掩膜 M o c c ∈ { 0 , 1 } X × Y × Z M_{occ}\in\{0,1\}^{X\times Y\times Z} Mocc{0,1}X×Y×Z忽视之:
L o c c = f ( G o c c , F o r g ) × M o c c L_{occ}=f(G_{occ},F_{org})\times M_{occ} Locc=f(Gocc,Forg)×Mocc

其中 f f f为损失函数。Occ-Det增广如下所示。
【论文笔记】UniVision: A Unified Framework for Vision-Centric 3D Perception,自动驾驶中的3D占用预测,论文阅读,自动驾驶,深度学习,计算机视觉,目标检测

4. 实验与讨论

4.2 实验设置

OpenOccupancy:由于GT占用标签分辨率高,非常占用空间,本文在训练时下采样到一半分辨率;测试时将输出上采样到原始分辨率。

4.3 结果

nuScenes激光雷达分割:UniVision大幅超过视觉SOTA方法OccFormer和一些激光雷达方法。

nuScenes 3D目标检测:UniVision能超过其余方法的性能;扩大模型后并使用时序输入后,能在输入分辨率低和不使用CBGS的情况下,大幅超过多帧SOTA检测器。

OpenOccupancy:UniVision能超过基于视觉的占用方法,以及一些基于激光雷达的方法。

Occ3D:UniVision能在不使用预训练权重和多帧输入的情况下达到比其余方法更高的性能。

4.4 消融研究

检测任务中组件的有效性:加入基于BEV的全局特征提取分支、基于体素的占用任务作为辅助任务、以及跨表达交互后,检测性能均有提升。

占用任务中组件的有效性:加入基于体素的局部特征提取分支、基于BEV的检测任务作为辅助任务、以及跨表达交互后,占用性能均匀提升。

**检测任务与占用任务如何互相影响?**对检测任务,占用监督能提高mAP与mATE指标,这表明逐体素语义学习能提高检测器对物体几何(中心和尺度)的感知。对占用任务,检测监督能极大提高前景物体处的性能。

联合Occ-Det增广、Ex-Im视图变换和渐进损失权重调整的有效性:实验表明,空间增广和视图变换模块对两个任务均有性能提升;去掉损失权重调整策略,网络不能收敛,性能很低。文章来源地址https://www.toymoban.com/news/detail-827340.html

到了这里,关于【论文笔记】UniVision: A Unified Framework for Vision-Centric 3D Perception的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 论文阅读笔记

    写在前面   又是一周周末,可惜今天运气不咋好,上午被小汽车撞自行车后座上了,手臂皮外伤,所幸人没事。下午继续淦论文吧。 论文地址:Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation 代码地址:原论文未提供 预计投稿于:CVPR 2

    2024年02月03日
    浏览(50)
  • 论文笔记--OpenPrompt: An Open-source Framework for Prompt-learning

    标题:OpenPrompt: An Open-source Framework for Prompt-learning 作者:Ning Ding, Shengding Hu, Weilin Zhao, Yulin Chen, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun 日期:2022 期刊:ACL   文章介绍了一种开源的工具OpenPrompt,该工具将prompt-learning的一些操作进行封装处理,设计成为一种用户友好的开源三方库,使

    2024年02月17日
    浏览(46)
  • 【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

    原文链接:https://openaccess.thecvf.com/content/WACV2024/html/Wu_A_Robust_Diffusion_Modeling_Framework_for_Radar_Camera_3D_Object_WACV_2024_paper.html 本文使用概率去噪扩散模型的技术,提出完全可微的雷达-相机框架。使用校准矩阵将雷达点云投影到图像上后,在特征编码器和BEV下的Transformer检测解码器中

    2024年01月18日
    浏览(59)
  • 【论文笔记】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)

    原文链接:https://arxiv.org/abs/2303.10076 本文提出基于环视图像进行3D占用估计的简单框架,探索了网络设计、优化和评估。网络设计方面,虽然输出形式与单目深度估计和立体匹配不同,但网络结构与立体匹配网络相似(如下图所示),可以使用立体匹配的经验设计网络。优化

    2024年02月02日
    浏览(58)
  • 论文笔记--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

    标题:ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 作者:Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang 日期:2020 期刊:AAAI   文章给出了一种新的NLP预训练模型的训练方法,并提出了ERNIE2.0(Enhanced Representation through kNowledge IntErgration)。ERNIE2.0在ERNIE

    2024年02月09日
    浏览(75)
  • SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning论文阅读笔记

    SAFEFL,这是一个利用安全多方计算 (MPC) 来评估联邦学习 (FL) 技术在防止隐私推断和中毒攻击方面的有效性和性能的框架。 传统机器学习(ML):集中收集数据-隐私保护问题 privacy-preserving ML (PPML)采用的隐私保护技术:安全多方计算,同态加密(运算成本高) 联邦学习(FL):

    2024年04月22日
    浏览(53)
  • X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

    Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks Code CLIP这一类方法只能进行图片级别的视觉和文本对齐; 也有一些方法利用预训练的目标检测器进行目标级别的视觉和文本对齐,但是只能编码目标内部的特征,无法有效表达多目标上下文关联; 本文致力于进行多粒度(

    2024年02月09日
    浏览(43)
  • 【论文笔记】SimMTM: A Simple Pre-Training Framework for Masked Time-Series Modeling

    论文地址:https://arxiv.org/abs/2302.00861 时间序列分析被广泛应用于各个领域。近年来,为了降低标签费用,使各种任务受益, 自我监督式预训练 引起了人们的极大兴趣。一种主流范式是 masked 建模,它通过学习基于未 masked 部分 重构 masked 内容来成功地预训练深度模型。然而,

    2024年01月21日
    浏览(64)
  • 论文笔记:Large Language Models as Urban Residents:An LLM Agent Framework for Personal Mobility Generati

    使用LMM生成活动轨迹的开创性工作 理解活动模式(mobility pattern)——能够灵活模拟城市移动性 尽管个体活动轨迹数据由于通信技术的进步而丰富,但其实际使用往往受到隐私顾虑的限制 ——生成的数据可以提供一种可行的替代方案,提供了效用和隐私之间的平衡 之前有很

    2024年03月11日
    浏览(66)
  • A Framework for Accelerating Transformer-Based Language Model on ReRAM-Based Architecture(论文笔记)

    (发现问题): 在基于RRAM的加速器中,自注意力层在收集输入序列信息的过程中,需要所有输入序列词的前一层结果,由于输入实例在不同的时间步上被串行处理。 因此,自注意层一直保持停滞,直到上一层计算的结束。这就是数据危险,增加了在基于RRAM加速器上处理基于

    2024年03月25日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包