经典文献阅读之--Orbeez-SLAM(单目稠密点云建图)

这篇具有很好参考价值的文章主要介绍了经典文献阅读之--Orbeez-SLAM(单目稠密点云建图)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

0. 简介

对于现在的VSLAM而言,现在越来越多的工作开始聚焦于如何将深度学习结合到VSLAM当中,而最近的这个工作就给出了一个比较合适的方法。《Orbeez-SLAM: A Real-time Monocular Visual SLAM with ORB Features and NeRF-realized Mapping》这篇文章,可以轻松适应新的场景,而不需要预先训练,并实时为下游任务生成密集的地图。它成功地与隐式神经表示法(NERF)和视觉里程法相结合,实现了只需要RGB输入即可完成通过视觉信号执行复杂任务并与人类合作的空间人工智能。

1. 主要贡献

本文试图开发一种单目视觉SLAM,它无需预训练,并实现实时推理,以供实际应用。为此,我们提出了Orbeez-SLAM,结合了基于特征的SLAM(例如,ORB-SLAM2[1])和基于instant-ngp框架[7]的NeRF。与[5]、[6]不同的是,我们强调VO(在ORB-SLAM2中)即使在训练的早期阶段也可以提供更好的摄像机姿态估计,这使得orbez - slam可以在单目摄像机上工作,即无需深度监督。此外,我们同时通过VO估计相机姿态并更新NeRF网络。值得注意的是,训练过程是在线实时的,不需要预先训练,如图1所示。因此,OrbeezSLAM可以渲染密集的信息,如场景的深度和颜色。此外,在各种室内场景中进行了验证,并在速度、摄像机跟踪和重建方面优于NeRF-SLAM基线。综上所述,我们的贡献有三:

  1. 我们提出了Orbeez-SLAM,这是第一个实时单目视觉SLAM,它无需预训练,提供密集的地图,专为空间人工智能应用而定制。
  2. 通过结合视觉里程计和快速NERF框架,我们的方法实现了实时推理,并生成了密集的地图。
  3. 我们广泛验证Orbeez-SLAM在挑战性基准方面具有最先进水平(SOTA)的基线,显示出卓越的定量和定性结果。

2. 详细内容

为了计算密集地图,最近一种基于学习的可视化SLAM, Tandem[3],利用截断符号距离函数(TSDF)融合来提供密集的3D地图。如[3]中所述,Tandem实现了实时推断,并可以与单目摄像机一起工作。但是,TSDF融合中涉及深度估计,而Tandem中的深度估计模块在推理前需要进行预训练,这限制了其对与预训练场景有明显不同的新场景的适应性。

神经辐射场(Neural Radiance Field, NeRF)[4]是另一种隐式神经表示,在训练过程中不需要深度监督,可以在目标场景从头开始训练。基于这一特性,在可视化SLAM中使用NeRF作为映射是一个潜在的方向。两个最新的NeRF-SLAM[5],[6]呼应了我们的动机。其中,iMAP[5]是第一个在SLAM中让NeRF作为地图表示的作品。同时,它通过NeRF光度损失的反向传播来优化相机姿态。然后,NICE-SLAM[6]对iMAP进行了扩展,开发了分层特征网格模块。该模块允许NICE-SLAM针对大型场景进行扩展,而不会出现灾难性的遗忘。然而,上述NeRF-SLAM需要RGB-D输入,因为它们纯粹通过神经网络优化相机姿态,而没有视觉里程计(VO),导致初始定位不佳。换句话说,他们仍然需要深度信息来指导三维几何。此外,NeRF的一个显著缺点是收敛速度较慢。具体来说,在进程中有大量的渲染,这使得实时训练NeRF举步维艰。通过观察这一点,instant-ngp[7]补偿了训练速度问题。在多分辨率哈希编码和CUDA框架[8]的帮助下,instant-ngp可以在几秒钟内训练nerf。

与之前需要深度信息来更好地感知几何形状的nerf - slam[5]和[6]不同,本文的Orbeez-SLAM利用VO进行精确的姿态估计,用单目摄像机生成密集地图。实现了预训练自适应和实时推理。

2.1 整个系统结构

单目稠密建图,经典文献,计算机视觉,人工智能,深度学习
图3显示了我们的系统管道。跟踪过程从输入图像流I中提取图像特征,并通过视觉测程估计相机姿态。映射系统通过三角测量生成地图点,并通过束调整(重投影误差)优化相机姿势和地图点。这些地图点代表稀疏点云。然后我们利用更新的相机姿势和地图来训练NeRF。由于这个过程是可微的,我们仍然可以从NeRF光度损失中优化相机姿态。最后,NeRF可以为下游任务生成密集映射。此外,这个管道应该适用于任何提供稀疏点云的SLAM。

2.2 后端估计优化

以下目标用于优化OrbeezSLAM: ( a ) (a) (a)位姿估计, ( b ) (b) (b)束调整, ( c ) (c) (c) NeRF回归。其中 ( a ) (a) (a)在跟踪过程中, ( b ) (b) (b) ( c ) (c) (c)在映射过程中进行。

  1. 位姿估计:重投影误差[28]在基于特征的SLAM中被广泛用于位姿估计[1],[21],[22],其公式如下:
    单目稠密建图,经典文献,计算机视觉,人工智能,深度学习
    其中 u i j u_{ij} uij为图像上的像素位置,由第 j j j台摄像机 C j \mathcal{C}_j Cj观测到,由第 i i i个3D点投影。 π ( C j , P i ) π(\mathcal{C}_j, P_i) π(Cj,Pi)通过 1 Z K j ( R j P i + t j ) \frac{1}{Z} K_j (R_jP_i + t_j) Z1Kj(RjPi+tj)将三维地图点Pi投影到像素坐标,其中 P i = [ X , Y , Z ] T P_i = [X, Y, Z]^T Pi=[X,Y,Z]T K j K_j Kj [ R ∣ T ] j [R| T]_j [RT]j C j \mathcal{C}_j Cj描述的内在和外在(世界到相机)。我们通过最小化重投影误差来优化相机姿态 { [ R ∣ t ] j } \{[R|t]_j\} {[Rt]j}:

单目稠密建图,经典文献,计算机视觉,人工智能,深度学习

Bundle adjustment::在VO的三角测量步骤之后,新的地图点被添加到本地地图中。束调整目标也最小化了地图点位置和相机姿势的重投影误差:

单目稠密建图,经典文献,计算机视觉,人工智能,深度学习文章来源地址https://www.toymoban.com/news/detail-646489.html

…详情请参照古月居

到了这里,关于经典文献阅读之--Orbeez-SLAM(单目稠密点云建图)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 工程(十)——github代码ubuntu20.04在ROS环境运行单目和RGBD相机ORB-SLAM3稠密

    博主创建了一个科研互助群Q:772356582,欢迎大家加入讨论交流一起学习。 加稠密建图:git@github.com:huashu996/ORB_SLAM3_Dense_YOLO.git 纯净版:git@github.com:huashu996/ORB_SLAM3.git orb-slam3的整个环境配置还是比较麻烦的,先将一些坑写在前面,供大家参考和避开这些坑。 orb-slam3的配置要求

    2024年01月25日
    浏览(53)
  • 高翔ORB-SLAM2稠密建图编译(添加实时彩色点云地图+保存点云地图)

    本文写于2022年5月18日。 Ubuntu18.04 + ROS melodic ORBSLAM2_with_pointcloud_map 是基于 ORB_SLAM2 改动的, ORB_SLAM2 编译前一些库的安装以及编译时的报错参考此篇博客 ORBSLAM2_with_pointcloud_map源码地址 将源码下载到 ~/catkin_ws/src 目录下面 如果没有安装 Ros Melodic ,参考Ubuntu18.04安装Ros Melodic 以及

    2024年01月23日
    浏览(75)
  • 三维重建(单目、双目、多目、点云、SFM、SLAM)

    三维重建定义 在计算机视觉中, 三维重建是指根据单视图或者多视图的图像重建三维信息的过程. 由于单视频的信息不完全,因此三维重建需要利用经验知识. 而多视图的三维重建(类似人的双目定位)相对比较容易, 其方法是先对摄像机进行标定, 即计算出摄像机的图象坐标系与

    2024年02月03日
    浏览(39)
  • ORB-SLAM稠密点云地图构建(黑白+彩色)+ pcd文件以八叉树形式表示

    pcl1.8.1 VTK 7.1.1 版本一定要对好,如果安装了不符的版本如我之前安的pcl1.1.3和VTK8.2 一定要卸载干净不然会一直报错 ,不同版本的pcl和vtk是无法共存的,并且光把包删除是不够的,要去/usr下面使用命令行(先搜索再一起删掉) 使用高翔老师的源码ORB-SLAM2-modified 运行前要先把

    2024年02月07日
    浏览(68)
  • 经典文献阅读之--PCAccumulation(动态三维场景构建)

    多波束激光雷达传感器,常用于自动驾驶汽车和移动机器人,获取三维范围扫描序列(“帧”)。由于角度扫描分辨率有限和遮挡,每帧只稀疏地覆盖场景。稀疏性限制了下游过程的性能,如语义分割或表面重建。幸运的是,当传感器移动时,从不同的视点捕获帧。这提供了

    2024年02月03日
    浏览(41)
  • 经典文献阅读之--VoxelMap(体素激光里程计)

    作为激光里程计,常用的方法一般是特征点法或者体素法,最近Mars实验室发表了一篇文章《Efficient and Probabilistic Adaptive Voxel Mapping for Accurate Online LiDAR Odometry》,同时还开源了代码在Github上。文中为雷达里程计提出了一种高效的概率自适应体素建图方法。地图是体素的集合,

    2024年02月16日
    浏览(40)
  • 经典文献阅读之--VoxFormer(基于Transformer的3D语义场景补全)

    之前了解了很多BEV的相关操作,但是基本上要么是激光和视觉结合,要么是纯视觉完成的2D激光投影这两种,而那种3D Occupancy方法可以利用栅格的方法完成纯视觉占据栅格的生成。《VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion》就是这种方法对于被遮挡的物

    2024年01月23日
    浏览(52)
  • 经典文献阅读之--Dynamic-VINS(动态点滤除VINS)

    现在的SLAM算法在静态环境中表现良好,但在动态环境中很容易失败。最近的工作将基于深度学习的语义信息引入到SLAM系统以减轻动态对象的影响。然而,在资源受限的机器人的动态环境中应用鲁棒定位仍然具有挑战性。所以《RGB-D Inertial Odometry for a Resource-Restricted Robot in Dy

    2024年02月09日
    浏览(57)
  • 经典文献阅读之--OccNeRF(基于神经辐射场的自监督多相机占用预测)

    作为基于视觉感知的基本任务,3D占据预测重建了周围环境的3D结构。它为自动驾驶规划和导航提供了详细信息。然而,大多数现有方法严重依赖于激光雷达点云来生成占据地面真实性,而这在基于视觉的系统中是不可用的。之前我们介绍了《经典文献阅读之–RenderOcc(使用2

    2024年02月03日
    浏览(44)
  • 经典文献阅读之--Point-LIO(鲁棒高带宽激光惯性里程计)

    在我们之前接触的算法中,基本上都是要处理帧间雷达畸变的,类似于VSLAM系统,频率固定(例如10Hz), 而实际上,激光雷达点是按照不同的时间瞬间顺序采样的,将这些点累积到帧中会引入人工运动畸变,并且会对地图结果和里程计精度产生负面影响。低帧率还会增加里程计

    2024年02月04日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包