经典文献阅读之--PCAccumulation(动态三维场景构建)

这篇具有很好参考价值的文章主要介绍了经典文献阅读之--PCAccumulation(动态三维场景构建)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

0. 简介

多波束激光雷达传感器,常用于自动驾驶汽车和移动机器人,获取三维范围扫描序列(“帧”)。由于角度扫描分辨率有限和遮挡,每帧只稀疏地覆盖场景。稀疏性限制了下游过程的性能,如语义分割或表面重建。幸运的是,当传感器移动时,从不同的视点捕获帧。这提供了补充信息,并在公共场景坐标系中累积时,产生了更密集的采样和对基础三维场景的更全面覆盖。然而,扫描的场景通常包含移动的物体。仅通过补偿扫描仪的运动无法正确对齐这些移动物体上的点。为此文章《Dynamic 3D Scene Analysis by Point Cloud Accumulation》提供了多帧点云积累作为 3D 扫描序列的中间表示,并开发了一种利用户外街景几何布局和刚性物体的归纳偏差的方法。该文代码也在Github中完成了开源。

Dynamic 3D Scene Analysis by Point Cloud Accumulation

1. 文章贡献

  1. 提出了一种新颖的,可学习的模型,用于在多帧中时间累积三维点云序列,将背景与动态前景物体分开。通过将场景分解为随时间移动的固体物体,我们的模型能够学习多帧运动,并在更长时间序列中以上下文的方式推理车辆运动。
  2. 该方法允许低延迟处理,因为它对原始点云进行操作,仅需要它们的序列顺序作为进一步的输入。因此,适用于在线场景。
  3. 相比于之前的工作,本文着重对移动物体和静止场景相对于移动中的 LiDAR 传感器运动建模,而不是对每一个点独立地估计运动流。这样的方式可以充分利用刚体运动的假设,从而提升运动流估计的准确性。

经典文献阅读之--PCAccumulation(动态三维场景构建)

2. 详细内容

多任务模型的网络架构在图2中示意描述。为了随着时间累积点,我们利用了场景可以分解为移动为刚体的代理[19]的归纳偏见。我们首先提取每个单独帧的潜在基础特征(§3.1),然后将其作为输入到任务特定的头部。为了估计自我运动,我们使用可微分的配准模块(§3.2)。我们不仅使用自我运动来对齐静态场景部分,还使用它来对齐基础特征,这些基础特征在后续阶段中被重复使用。为了解释动态前景的运动,我们利用对齐的基础特征并进行运动分割(§3.3)以及动态前景对象的时空关联(§3.4)。最后,我们从每个前景对象的时空特征解码出它的刚体运动(§3.5)。我们端对端地训练整个模型,使用由五个项组成的损失L:
经典文献阅读之--PCAccumulation(动态三维场景构建)
在下面,我们对每个模块进行高层次的描述。详细的网络架构。

2.1 问题设定

考虑有序点云序列 X = X t t = 1 T X={X^t}^T_{t=1} X=Xtt=1T,其由变量大小的 T T T 帧组成,每帧 X t = [ x 1 t , . . . , x i t , . . . , x t n t ] ∈ R 3 × n t X^t=[x^t_1 ,...,x^t_i ,...,x^t{n_t} ]∈R^{3×n_t} Xt=[x1t,...,xit,...,xtnt]R3×nt 是由移动的车辆在恒定时间间隔 ∆ t ∆t t内捕获。每一帧点云进行前景与背景分割。背景点被用来估计传感器的自我运动,而前景点则继续被分类为移动或静止的前景。我们将第一帧 X 1 X^1 X1 称为目标帧,而其余帧 { X t ∣ t > 1 } \{X^t | t>1\} {Xtt>1} 称为原始帧。文中的目标是估计将每个原始帧对齐到目标帧的流向量 { V t ∈ R 3 × n t ∣ t > 1 } \{V^t∈\mathbb{R}^{3×n_t} | t>1\} {VtR3×ntt>1},从而累积点云。每个帧可以分解为静态部分 X s t a t i c t X^t_{static} Xstatict K t K_t Kt 刚性移动动态部分 X d y n a m i c t = { X k t } k = 1 K t X^t_{dynamic}=\{X^t_k \}^{K_t}_{k=1} Xdynamict={Xkt}k=1Kt 。具体如下所示:
经典文献阅读之--PCAccumulation(动态三维场景构建)
其中 T ◦ X ( T ◦ x ) T◦X(T ◦ x) TX(Tx)表示将变换应用于点集 X X X(或点 x x x)。
经典文献阅读之--PCAccumulation(动态三维场景构建)

2.2 骨干网络

骨干网络将单帧的 3D 点云转换为俯视图(BEV)潜在特征图像。具体来说,我们使用点级 MLP 将点坐标提升到更高维潜在空间,然后将它们散射到与重力轴对齐的 H × W H×W H×W 特征网格中。使用最大池化聚合每个网格单元(“柱”)的特征,然后通过 2D UNet [37] 扩大其感受野并加强局部上下文。骨干网络的输出是每个 T T T帧的 2D 潜在基础特征图 F b a s e t F^t_{base} Fbaset

经典文献阅读之--PCAccumulation(动态三维场景构建)

2.3 传感器运动估计

我们使用基于对应关系的配准模块单独为每个源帧估计本体运动 T e g o t T^t_{ego} Tegot。属于动态对象的点可以偏离本体运动的估计,特别是在使用基于对应关系的方法时,应该被舍弃。然而,在流水线的早期阶段,需要考虑场景动态性是很困难的,因此我们采用保守的方法并将点分类为背景和前景,其中前景包含所有可移动的对象(例如,汽车和行人),而不考虑实际的动态性[19]。预测的前景蒙版后来用于在§3.3中指导运动分割。

我们首先使用两个专用的头部从每个 F b a s e t F^t_{base} Fbaset中提取本体运动特征 F e t g o F^t_ego Fetgo和前景得分 s F G t s^t_{FG} sFGt,每个都包含两个卷积层,由ReLU激活和批量标准化隔开。然后,我们随机抽样 s F G t < τ s^t_{FG} < τ sFGt<τ的Nego背景柱,并计算柱心坐标 P t = p l t P_t = {p^t_l} Pt=plt。本体运动 T e g o t T^t_{ego} Tegot被估计为:
经典文献阅读之--PCAccumulation(动态三维场景构建)
在这里, ϕ ( p l t , P 1 ) ϕ(p^t_l , P^1) ϕ(plt,P1) 找到了 p l t p^t_l plt P 1 P^1 P1中的软对应,而 w l t w^t_l wlt是对应对 ( p l t , ϕ ( p l t , P 1 ) ) (p^t_l, ϕ(p^t_l , P^1)) (plt,ϕ(plt,P1)) 之间的权重。 ϕ ( p l t , P 1 ) ϕ(p^t_l , P^1) ϕ(plt,P1) w l t w^t_l wlt 都是使用带有熵正则化的 Sinkhorn 算法从 F e g o t F^t_{ego} Fegot估计出来的,其中 F e g o t F^t_{ego} Fegot有一些松弛行/列填充[11,66],并且 T e g o t T^t_{ego} Tegot的最优值是通过可微分的Kabsch算法[27]计算出来的。简要来说,其中 p p p为 Pillar 中心的坐标, ɸ ɸ ɸ 为 帧 t t t 中Pillar p p p在帧1中的软映射, w w w为相应的映射权重。

2.4 移动物体分割

执行动作分割,重新使用每帧基础功能 { F b a s e t } \{F^t_{base}\} {Fbaset}。具体来说,我们应用可微分的特征扭曲方案[49],使用预测的自我运动 T e g o t T^t_{ego} Tegot扭曲每个 F b a s e t F^t_{base} Fbaset,并通过沿通道维度堆叠扭曲的特征图来获得大小为 C × T × H × W C×T×H×W C×T×H×W的时空3D特征张量。然后将这个特征张量通过一系列3D卷积层,再经过沿时间维度 T T T的最大池化。最后,我们应用一个小的2D UNet来获得2D运动特征图F motion。为了减少离散误差,我们将网格运动特征双线性插值到每帧中所有前景点上。计算 x i t x^t_i xit的点级运动特征如下:文章来源地址https://www.toymoban.com/news/detail-437342.html

…详情请参照古月居

到了这里,关于经典文献阅读之--PCAccumulation(动态三维场景构建)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 经典文献阅读之--PL-SLAM(点线SLAM)

    之前作者基本都在围绕着特征点提取的路径在学习,最近看到了最近点云PCL推送的《Structure PLP-SLAM: Efficient Sparse Mapping and Localization using Point, Line and Plane for Monocular, RGB-D and Stereo Cameras》。这个工作是基于OpenVSLAM架构的,但是由于OpenVSLAM被认为侵权,所以作者想从PL-SLAM开始,学

    2024年02月11日
    浏览(29)
  • 经典文献阅读之--Gaussian Splatting SLAM(单目3D高斯溅射重建)

    3D GS在NeRF领域已经掀起了一股浪潮,然后又很快席卷到了SLAM领域,最近已经看到很多3D GS和SLAM结合的开源工作了。将为大家分享帝国理工学院戴森机器人实验最新开源的方案《Gaussian Splatting SLAM》,这也是第一个将3D GS应用到增量3D重建的工作,速度为3 FPS。要想实时从摄像头

    2024年03月10日
    浏览(41)
  • 经典文献阅读之--Orbeez-SLAM(单目稠密点云建图)

    对于现在的VSLAM而言,现在越来越多的工作开始聚焦于如何将深度学习结合到VSLAM当中,而最近的这个工作就给出了一个比较合适的方法。《Orbeez-SLAM: A Real-time Monocular Visual SLAM with ORB Features and NeRF-realized Mapping》这篇文章,可以轻松适应新的场景,而不需要预先训练,并实时为

    2024年02月13日
    浏览(30)
  • 经典文献阅读之--OccNeRF(基于神经辐射场的自监督多相机占用预测)

    作为基于视觉感知的基本任务,3D占据预测重建了周围环境的3D结构。它为自动驾驶规划和导航提供了详细信息。然而,大多数现有方法严重依赖于激光雷达点云来生成占据地面真实性,而这在基于视觉的系统中是不可用的。之前我们介绍了《经典文献阅读之–RenderOcc(使用2

    2024年02月03日
    浏览(29)
  • 经典文献阅读之--Point-LIO(鲁棒高带宽激光惯性里程计)

    在我们之前接触的算法中,基本上都是要处理帧间雷达畸变的,类似于VSLAM系统,频率固定(例如10Hz), 而实际上,激光雷达点是按照不同的时间瞬间顺序采样的,将这些点累积到帧中会引入人工运动畸变,并且会对地图结果和里程计精度产生负面影响。低帧率还会增加里程计

    2024年02月04日
    浏览(27)
  • 经典文献阅读之--Calib Anything(使用SAM的无训练标定雷达相机外参)

    Camera与LiDAR之间的外部标定研究正朝着更精确、更自动、更通用的方向发展,由于很多方法在标定中采用了深度学习,因此大大减少了对场景的限制。然而,数据驱动方法具有传输能力低的缺点。除非进行额外的训练,否则它无法适应数据集的变化。随着基础模型的出现,这

    2024年02月02日
    浏览(30)
  • 经典文献阅读之--Evaluation of Lidar-based 3D SLAM algorithms (激光SLAM性能比较)

    我们在日常使用激光SLAM算法的时候,常常会发现现有的算法只会和一些比较经典或者前作去进行比较,很多时候我们更希望对主流的激光SLAM方法进行性能比较。之前作者转载过一篇文章《常见不同3D激光SLAM方案对比》。但是对比的算法有限。现在瑞典Lule科技大学评估9种最常

    2024年02月02日
    浏览(28)
  • Threejs进阶之一:基于vite+vue3+threejs构建三维场景

    前面的章节我们都是通过HTML+JS的方式创建三维场景,从这一章节开始,我们后面将使用vite+vue3+threejs来构建三维场景。 打开vscode的终端管理器,输入如下命令 在弹出的选择框架提醒中,按上下键盘键,选择Vue,然后回车 选择JavaScript,回车 提示项目创建完成, 输入cd vue3-t

    2024年02月12日
    浏览(33)
  • 经典动态规划问题详解以及其主要应用场景

    ** 动态规划(英语:Dynamic programming,简称 DP),是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划常常适用于有重叠子问题和最优子结构性质的问题。。 动态规划最核心的思

    2024年02月10日
    浏览(30)
  • 文献学习-37-动态场景中任意形状针的单目 3D 位姿估计:一种高效的视觉学习和几何建模方法

    Authors: Bin Li,† , Student Member, IEEE, Bo Lu,† , Member, IEEE, Hongbin Lin, Yaxiang Wang, Fangxun Zhong, Member, IEEE, Qi Dou, Member, IEEE and Yun-Hui Liu, Fellow, IEEE Source: IEEE TRANSACTIONS ON MEDICAL ROBOTICS AND BIONICS Keywords: Surgical Robotics, Pose Estimation, Geometry Modeling, Vision-based Manipulation Abstract: 导向图像的针具姿

    2024年04月17日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包