Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D(LSS)

这篇具有很好参考价值的文章主要介绍了Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D(LSS)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D 论文笔记

原文链接:https://arxiv.org/abs/2008.05711

本文的关键是将图像特征转化为BEV特征。

虽然本文仅进行了BEV物体分割、地图分割和运动规划任务的实验,但理论上应该也适用于其余可基于BEV表达的任务,如目标检测。

1 引言

        将单目检测扩展到多视图图像检测的方法可以是分别检测各视图物体后使用相机内外参旋转平移到自车坐标系。特点:

        (1)平移不变性:物体像素坐标移位导致输出结果相同移位。卷积网络大致具有这一属性。

        (2)排列不变性:最终结果与各视图的排列顺序无关。

        (3)自我坐标系的平移/旋转不变性:若图像内容不变,则无论相机相对于自车姿态是什么,图像内的物体均会被检测到。即自车坐标系平移/旋转,输出结果相应平移/旋转。

        但缺点是无法利用跨图像信息。

        本文提出Lift-Splat网络,保留了上述3个特点,且是端到端可微的方法。首先通过生成棱台形状的上下文特征点云,将图像“提升(lift)”到3D,然后将这些棱台“splat(可理解为投影)”到参考平面,以便于进行运动规划的下游任务。此外,还提出“shoot(也可理解为投影)”提案轨迹到参考平面的方法来进行可解释的端到端运动规划。实验表明本文方法能够学习到从可能的输入分布中融合信息的有效机制。

3 方法

3.1 Lift:潜在的深度分布

        本文方法的第一阶段独立地处理每个相机图像。该阶段的目的是将2D图像提升到所有视图共享的3D空间。

        由于深度信息是转换过程中必要的,而图像存在深度模糊性,故本文方法为每个像素在所有可能的深度处都生成表达。将深度空间离散化为段,则可生成的点云(对应一个棱台状空间)。

        具体而言,网络对每个像素预测一个上下文向量(即常规的卷积特征)和深度分布。则点云处的上下文特征为,如下图所示。

Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D(LSS)

若网络估计为独热向量,则该方法与伪激光雷达方法相同;若网络估计深度均匀分布,则该方法与OFT(见此文的4.3.1节第一个方法)相同。因此本文方法可以灵活地在两者范围内选择。

3.2 Splat:柱体池化

        使用PointPillars方法处理点云,即将每个点分配到其最近的柱体,然后使用求和池化得到的BEV特征图,再使用2D CNN处理即可。

        Lift-Splat框架如下图所示。

Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D(LSS)

        此外,在处理每个柱体时,本文未使用填充操作,而是使用了一个累加和小技巧(见4.2节)来加速求和池化,且该操作有解析的梯度,从而加速训练。

3.3 Shoot:运动规划

        测试阶段若使用推断的代价图进行规划,可以通过将不同轨迹投影到BEV平面,评估代价后选择代价最小的轨迹。

        本文将“规划”视为预测给定传感器观测下自车个模板轨迹的分布,即,定义为

其中是给定观测时预测的代价图在处的值,因此可以通过优化专家轨迹的对数概率来进行端到端训练。该定义可以使得模型学习到可解释的空间代价函数。

        对于给定真实轨迹,寻找中最近邻模板轨迹,然后使用交叉熵损失训练。

        实际应用中,模板轨迹集是通过数据集中专家轨迹的均值聚类得到的。

4 实施

4.2 棱台池化累积和技巧

        该技巧是基于本文方法用图像产生的点云形状是固定的,因此每个点可以预先分配一个区间(即BEV网格)索引,用于指示其属于哪一个区间。按照索引排序后,按下列方法操作:

Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D(LSS)

        可以通过计算该算法的解析梯度,而非使用自动梯度计算以加快训练。该方法被称为“棱台池化”。

5 实验与结果

5.3 鲁棒性

        由于BEV CNN能学习融合不同相机信息的方法,可以使其对简单噪声模型(如外参误差或摄像机损坏)具有鲁棒性。

        例如训练时随机丢弃部分摄像机图像,在测试时面对这一问题的性能会更优。实验表明,若在训练时随机丢弃一张图像,则不丢弃图像测试时,相应的性能会达到最优。这可能是由于丢弃图像使得模型能学习到不同相机之间的相关性,类似于dropout的效果。

        此外如果在训练时使用含噪声的外参,在测试时外参噪声较大的情况下会有更好的性能,且性能对测试时外参噪声不敏感;但在测试时外参噪声较少时,使用不含噪声的外参训练的模型性能最优。

        此外,本文还比较了各个视图的“重要性”,该重要性与丢弃某视图带来的性能下降程度相关。实验表明视野范围更广的相机丢失时带来的性能下降最大。

5.4 泛化性

        若训练时仅使用固定的一部分相机,则测试时使用额外相机能带来性能提升。

        此外,如果在nuScenes上训练,在Lyft上测试(二者的相机完全不同),与其余模型相比,本文的模型能够达到最优性能。

5.6 运动规划

        通过训练Lift-Splat模型的输出为代价函数,可以评估运动规划的性能。但相比基于激光雷达的PointPillars而言还是有较大的性能差距。文章来源地址https://www.toymoban.com/news/detail-425013.html

到了这里,关于Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D(LSS)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • LATR:3D Lane Detection from Monocular Images with Transformer

    参考代码:LATR 动机与主要工作: 之前的3D车道线检测算法使用诸如IPM投影、3D anchor加NMS后处理等操作处理车道线检测,但这些操作或多或少会存在一些负面效应。IPM投影对深度估计和相机内外参数精度有要求,anchor的方式需要一些如NMS的后处理辅助。这篇文章主要的贡献有

    2024年02月04日
    浏览(32)
  • 【3D目标检测】3D Object Detection from Images for Autonomous Driving: A Survey

    这是一篇22年的综述,介绍了3D目标检测中基于图像的检测算法。 背景: 基于图像的3D目标检测是一个病态的问题,因为我们要做的是从2D的输入中得到一个3D的结果。 相关性: 基于图像的3D目标检测通常会与很多任务,如2D目标检测、深度估计、立体匹配和基于点云的3D目标

    2024年02月08日
    浏览(35)
  • 【自监督论文阅读笔记】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

    2023         本文展示了一种 学习高度语义图像表示 的方法,而 不依赖于手工制作的数据增强 。本文介绍了 基于图像的联合嵌入预测架构 (I-JEPA) ,这是一种用于从图像进行自监督学习的 非生成方法 。 I-JEPA 背后的想法很简单: 从单个上下文块,预测同一图像中各种目

    2024年02月09日
    浏览(32)
  • DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

    DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries 本文提出了一个 仅使用 2D 信息的,3D 目标检测网络,并且比依赖与 密集的深度预测 或者 3D 重建的过程。该网络使用了 和 DETR 相似的 trasformer decoder ,因此也无需 NMS 等后处理操作。 长久以来 3D目标检测是一个挑战,并

    2024年02月16日
    浏览(34)
  • 【论文笔记】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images

    原文链接:https://arxiv.org/abs/2308.05026 目前的轨迹预测方法多基于道路使用者的真实信息,但在实际自动驾驶系统中这些信息是通过检测和跟踪模块得到的,不可避免的存在噪声。本文将感知模块与轨迹预测整合,进行端到端的检测、跟踪和轨迹预测。 本文感知模块使用单目图

    2024年04月28日
    浏览(28)
  • [配环境]GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images (docker方法)

    代码地址:https://github.com/nv-tlabs/GET3D 本文使用了官方提供的docker镜像。 克隆项目 Build Docker image 过程如下: Start an interactive docker container: 个人修改如下: docker run --privileged --gpus device=all --shm-size 125G -p XXXX:6006 -p XXXX:22 -it -d -v /home/yuqiao/docker_home:/home/yuqiao -w /home/yuqiao --name get

    2024年02月02日
    浏览(32)
  • 什么是Lift and Shift(直接迁移/提升和转移/直接上云)?

    最近在某GCP认证架构考试中看到一个,非常好奇,于是顺便科普一下。 by zhengkai.blog.csdn.net 在决定将应用迁移到公有云之前,必须确定迁移方法。常见的两个迁移选项是 lift-and-shift (直接迁移) 和re-architect(重新架构)。 根据Pluralsight最近的云状态报告, 75% 的I

    2024年02月03日
    浏览(18)
  • 【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching

    任意风格迁移(Arbitrary style transfer)具有广阔的应用前景和重要的研究价值,是计算机视觉领域的研究热点。许多研究表明,任意风格迁移取得了显着的成功。 然而,现有的方法可能会产生伪影(artifacts),有时会导致内容结构的失真(distortion)。 为此,本文提出一种新颖

    2024年02月03日
    浏览(32)
  • 论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》

    SplaTAM算法是 首个 开源的基于 RGB-D数据 ,生成高质量密集3D重建的SLAM技术。 通过结合 3DGS技术 和 SLAM框架 ,在保持高效性的同时,提供 精确的相机定位和场景重建 。 代码仓库: spla-tam/SplaTAM: SplaTAM: Splat, Track Map 3D Gaussians for Dense RGB-D SLAM (CVPR 2024) (github.com) https://github.com/s

    2024年04月27日
    浏览(31)
  • 【Love2d从青铜到王者】第十三篇:Love2d之游戏:射击敌人(Game: Shoot the enemy)

    让我们用目前所学的一切来创建一个简单的游戏。你可以随心所欲地阅读关于编程和制作游戏的书籍,但要真正学会,你必须亲自动手。 一个游戏本质上是一堆你必须解决的问题。当你让一个有经验的程序员做PONG的时候,他不会去查a如何制作乒乓球。他们可以将PONG分成不同

    2024年01月19日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包