【论文笔记】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)

这篇具有很好参考价值的文章主要介绍了【论文笔记】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原文链接:https://arxiv.org/abs/2303.10076

1. 引言

本文提出基于环视图像进行3D占用估计的简单框架,探索了网络设计、优化和评估。网络设计方面,虽然输出形式与单目深度估计和立体匹配不同,但网络结构与立体匹配网络相似(如下图所示),可以使用立体匹配的经验设计网络。优化方面,可以基于渲染深度图和点级分类标签,使用监督学习或自监督学习。评估方面,受体积渲染启发,引入基于距离的占用评估指标,这比其余指标更加公平;此外该指标只需要点云作为真值。
【论文笔记】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy),自动驾驶中的3D占用预测,论文阅读,计算机视觉,自动驾驶,深度学习

3. 方法

3.1 准备知识

本节介绍了NeRF的体积渲染公式,见神经辐射场的简单介绍。

3.2 模型设计

【论文笔记】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy),自动驾驶中的3D占用预测,论文阅读,计算机视觉,自动驾驶,深度学习
如上图所示为本文的端到端占用预测网络 Q : ( I 1 , I 2 , ⋯   , I n ) → V X × Y × Z Q: (I^1,I^2,\cdots,I^n)\rightarrow V^{X\times Y\times Z} Q:(I1,I2,,In)VX×Y×Z

编码器:使用预训练ResNet。

图像特征到3D体素:使用Simple-BEV的方法,即定义3D点并投影回图像,通过双线性插值采样特征。对于出现在多个视图中的点使用采样特征的均值。

3D体素空间学习:由于上述无参数变换导致沿图像射线的点特征相同,需要进行进一步处理。使用基于沙漏结构的3D CNN,但仅取单一尺度输出,因为多尺度输出需要更多计算资源,且不会带来性能提升。

占用概率:使用体素特征预测密度 σ \sigma σ后,通过Sigmoid函数得到占用概率。

有符号距离函数:之前的工作发现,体积渲染的密度不是可靠的几何表达,本文使用有符号距离函数(SDF),将SDF值 s s s转化为密度 σ \sigma σ用于体积渲染:
σ β ( s ) = { 1 2 β exp ⁡ ( s β ) s ≤ 0 1 β ( 1 − 1 2 exp ⁡ ( − s β ) ) s > 0 \sigma_\beta(s)=\left\{\begin{matrix}\frac{1}{2\beta}\exp(\frac{s}{\beta})&s\leq 0\\\frac{1}{\beta}(1-\frac{1}{2}\exp(-\frac{s}{\beta}))&s>0\end{matrix}\right. σβ(s)={2β1exp(βs)β1(121exp(βs))s0s>0

其中 β \beta β为可学习的参数。

网络的输出可以是密度、占用概率或SDF。使用SDF输出时,训练时将其转化为密度后进行体积渲染。测试时,占用概率接近1的/SDF值接近0的位置表示被占用,需要设置具体的阈值决定。

3.3 模型评估

本文使用现有的数据集,以类似深度估计的方式进行3D占用估计,但需要注意:

  1. 使用点云作为真值标签是稀疏的;
  2. 只能确定激光雷达中心到点云之间的空间;
  3. 3D占用是离散表达,不可避免存在量化误差。

本文使用两种评估指标:分类指标和离散深度指标,且两种指标与两种监督训练方式相关。

占用标签生成:使用分层抽样策略得到空空间的标签:在各激光雷达射线均匀采样固定数量的点。占用空间通过体素化点云得到。
【论文笔记】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy),自动驾驶中的3D占用预测,论文阅读,计算机视觉,自动驾驶,深度学习

激光雷达点云生成的占用标签和激光雷达投影得到的稀疏深度图会作为不同的监督。

分类指标:使用二元分类指标进行评估,但该指标只能评估已知区域。如下图所示,情况2比情况1的估计更准确,但分类指标表示出情况1的性能更好。
【论文笔记】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy),自动驾驶中的3D占用预测,论文阅读,计算机视觉,自动驾驶,深度学习
离散深度指标:若一条射线上所有点都预测为空,则设置最后一个点作为第一个预测占用点。离散深度误差即为第一个占用预测点到激光雷达点的距离。类似深度估计评估,可以使用Abs Rel、Sq Rel、RMSE、RMSE log和 δ < t \delta<t δ<t精度指标。

3.4 模型优化

3.4.1 监督学习

两种不同的训练方式:一种使用深度损失,即使用体渲染得到的深度图受真实深度图监督;另一种直接计算已知空间内的二元分类损失,包括交叉熵损失和L1损失。

深度图损失:使用尺度不变对数(SILog)损失:
L d e p t h = α 1 M ∑ i Δ d i 2 − λ M 2 ( ∑ i Δ d i ) 2 \mathcal{L}_{depth}=\alpha\sqrt{\frac{1}{M}\sum_i\Delta d^2_i-\frac{\lambda}{M^2}(\sum_i\Delta d_i)^2} Ldepth=αM1iΔdi2M2λ(iΔdi)2

其中 Δ d i = log ⁡ d ^ i − log ⁡ d i ∗ \Delta d_i=\log \hat{d}_i-\log d_i^* Δdi=logd^ilogdi M M M为有效像素数量; α \alpha α λ \lambda λ为超参数。

分类损失:除二元交叉熵外,对采样点使用L1损失:
L L 1 = 1 N ∑ i = 1 N L 1 ( 1 − p i ) + 1 K ω ∑ j = 1 K L 1 ( 0 − p j ) \mathcal{L}_{L1}=\frac{1}{N}\sum_{i=1}^NL_1(1-p_i)+\frac{1}{K}\omega\sum_{j=1}^KL_1(0-p_j) LL1=N1i=1NL1(1pi)+K1ωj=1KL1(0pj)

其中 p i p_i pi为点云位置的预测概率, p j p_j pj为空空间采样点位置的预测概率; N N N为有效点数, K K K为空空间的采样点数; ω \omega ω为超参数。

3.4.2 自监督学习

对渲染合成图像使用光度一致性损失:
L s e l f ( I t , I ^ t ) = β 1 − SSIM ( I t , I ^ t ) 2 + ( 1 − β ) ∥ I t − I ^ t ∥ \mathcal{L}_{self}(I_t,\hat{I}_t)=\beta\frac{1-\text{SSIM}(I_t,\hat{I}_t)}{2}+(1-\beta)\|I_t-\hat{I}_t\| Lself(It,I^t)=β21SSIM(It,I^t)+(1β)ItI^t

注意此处需要相机内参和外参。

4. 实验

4.3 有监督损失和网络结构的消融研究

有监督损失函数分析:实验表明,深度损失与离散深度损失均优于分类损失。分类损失容易在天空区域产生漂浮物,因为损失无法处理未知区域(无点云区域)。而深度损失能防止这一现象,因为渲染会从整条射线采样,从而隐式地优化这些区域。深度损失会在前景与背景的交界处产生长尾假阳性预测。联合使用深度损失和分类损失不如仅使用深度损失。

网络设计:实验表明,使用更大的图像编码器和预训练均能提高性能。对于反投影方法,改为使用LSS或基于查询(交叉注意力)的方法,性能会降低。

4.4 自监督学习和3D重建

自监督学习与监督学习之间有较大的差距。SDF表达在离散距离指标下性能更优,但在深度指标下略低。这是由于概率与密度表达优化更灵活,而有符号距离值的优化更困难。但这种灵活性可能不利于网孔提取。对3D重建而言,SDF表达是更优的。

4.5 深度估计基准

与监督和自监督单目/环视深度估计网络相比,本文的方法有相当的性能。对自监督学习,本文的方法在误差指标上更优而在精度指标上更差,这可能是由于体积渲染和编码器-解码器结构的差异。

本文方法的缺点是比单目深度估计方法需要更长的推断时间,主要在3D特征提取和渲染上。但对于占用估计任务来说,无需渲染。

4.6 语义3D占用估计的讨论

本文框架下的SurroundOcc:使用与SurroundOcc相同的损失和相似的训练策略。实验表明,本文方法在性能和速度上均更优。此外在自监督下,SurroundOcc优化困难,性能较差。

SurroundOcc的预训练策略:本文使用点级训练策略,而现有方法使用体素级训练策略。点级训练能产生更细粒度的预测。为证明这一点,使用本文方法进行预训练,即使用本文的采样方法生成点级语义标签,并使用体素级语义标签微调。实验表明这样做能有效提高性能。可视化表明,使用稀疏点级标签训练的模型除了在天空区域会错误分类为植被或人造物以外,场景其余部分的估计都很合理。这说明这种方法可以作为后续微调的有效初始化。

5. 局限性和未来工作

引入序列数据;更细的分辨率;使用MLP回归最终几何并引入额外正则化损失(如eikonal损失)。文章来源地址https://www.toymoban.com/news/detail-784307.html

到了这里,关于【论文笔记】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文笔记】UniVision: A Unified Framework for Vision-Centric 3D Perception

    原文链接:https://arxiv.org/pdf/2401.06994.pdf 目前,同时处理基于图像的3D检测任务和占用预测任务还未得到充分探索。3D占用预测需要细粒度信息,多使用体素表达;而3D检测多使用BEV表达,因其更加高效。 本文提出UniVision,同时处理3D检测与占用预测任务的统一网络。网络结构为

    2024年02月19日
    浏览(34)
  • 【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

    原文链接:https://openaccess.thecvf.com/content/WACV2024/html/Wu_A_Robust_Diffusion_Modeling_Framework_for_Radar_Camera_3D_Object_WACV_2024_paper.html 本文使用概率去噪扩散模型的技术,提出完全可微的雷达-相机框架。使用校准矩阵将雷达点云投影到图像上后,在特征编码器和BEV下的Transformer检测解码器中

    2024年01月18日
    浏览(32)
  • 【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh

    【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enhancement 原文链接:https://ieeexplore.ieee.org/abstract/document/10363646 本文的3DOPFormer使用空间交叉注意力机制和反卷积恢复3D占用,然后基于激光雷达射线方向特征提出优化3D占用感知模型的新方法。使

    2024年01月25日
    浏览(29)
  • 论文笔记:A Simple and Effective Pruning Approach for Large Language Models

    iclr 2024 reviewer 评分 5668 大模型网络剪枝的paper 在努力保持性能的同时,舍弃网络权重的一个子集 现有方法 要么需要重新训练 这对于十亿级别的LLMs来说往往不现实 要么需要解决依赖于二阶信息的权重重建问题 这同样可能带来高昂的计算成本 ——引入了一种新颖、简单且有

    2024年04月17日
    浏览(31)
  • 论文笔记 Spatial-Temporal Identity: A Simple yet Effective Baseline for Multivariate Time Series Forecas

    CIKM 2022 多维时间序列(Multivariate Time Series, MTS) 最关键的、区别于其他数据的特点是,这些 时间序列之间存在着明显的依赖关系 MTS 预测的关键是:对 MTS 的第 i 条时间序列进行预测的时候,不仅要考虑这第 i 条时间序列的历史信息,也要考虑其他时间序列的历史信息】

    2024年02月02日
    浏览(33)
  • 论文笔记--OpenPrompt: An Open-source Framework for Prompt-learning

    标题:OpenPrompt: An Open-source Framework for Prompt-learning 作者:Ning Ding, Shengding Hu, Weilin Zhao, Yulin Chen, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun 日期:2022 期刊:ACL   文章介绍了一种开源的工具OpenPrompt,该工具将prompt-learning的一些操作进行封装处理,设计成为一种用户友好的开源三方库,使

    2024年02月17日
    浏览(35)
  • 论文笔记--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

    标题:ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 作者:Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang 日期:2020 期刊:AAAI   文章给出了一种新的NLP预训练模型的训练方法,并提出了ERNIE2.0(Enhanced Representation through kNowledge IntErgration)。ERNIE2.0在ERNIE

    2024年02月09日
    浏览(41)
  • SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning论文阅读笔记

    SAFEFL,这是一个利用安全多方计算 (MPC) 来评估联邦学习 (FL) 技术在防止隐私推断和中毒攻击方面的有效性和性能的框架。 传统机器学习(ML):集中收集数据-隐私保护问题 privacy-preserving ML (PPML)采用的隐私保护技术:安全多方计算,同态加密(运算成本高) 联邦学习(FL):

    2024年04月22日
    浏览(38)
  • 【原文链接】Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

    原文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Huang_Tri-Perspective_View_for_Vision-Based_3D_Semantic_Occupancy_Prediction_CVPR_2023_paper.pdf 体素表达需要较大的计算量和特别的技巧(如稀疏卷积),BEV表达难以使用平面特征编码所有3D结构。 本文提出三视图(TPV)表达3D场景。为得到空间

    2024年01月23日
    浏览(39)
  • 【论文阅读】以及部署BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework

    BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework BEVFusion:一个简单而强大的LiDAR-相机融合框架 NeurIPS 2022 多模态传感器融合意味着信息互补、稳定,是自动驾驶感知的重要一环,本文注重工业落地,实际应用 融合方案: 前融合(数据级融合)指通过空间对齐直接融合不同模态的

    2024年02月04日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包