论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》

这篇具有很好参考价值的文章主要介绍了论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

SplaTAM算法是首个开源的基于RGB-D数据,生成高质量密集3D重建的SLAM技术。

通过结合3DGS技术SLAM框架,在保持高效性的同时,提供精确的相机定位和场景重建

代码仓库:spla-tam/SplaTAM: SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM (CVPR 2024) (github.com)https://github.com/spla-tam/SplaTAM

论文地址2312.02126.pdf (arxiv.org)

一、实验环境

1.1  电脑环境

Ubuntu18.04,python3.10,cuda11.6,pytorch1.12.1

1.2  配置须知

根据作者给的代码仓库,本人按照README文件进行配置,需要注意如下几点

1、pip install -r requirements.txt这块git的下载可能会很慢,可以注释掉然后再重新下载

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

在项目目录下运行下面指令即可: 

git clone https://github.com/JonathonLuiten/diff-gaussian-rasterization-w-depth

2、然后配置的时候,需要在终端bash的环境变量里面加入cuda的位置,修改.bashrc

3、编译器gcc版本需要降低到10,运行指令:

conda install gxx_linux-64=10

4、然后在下载的这个目录运行pip install .(注意有一个点 . )即可安装好diff-gaussian-rasterization-w-depth这个库(可微高斯光栅化的库)。

1.3  下载数据集(运行下载脚本即可)

代码提供给了几种数据集,有IPhone设备收集(可以在线和捕获照片后离线), 也有经典的数据集Replica、TUM-RGBD、ScanNet、ScanNet++、ReplicaV2 随后作者给出了上述数据集的基准测试的运行指令。

二、配置过程

由于本人在Ubuntu系统下运行,因此配置的过程也是使用的基于Linux的:

2.1  环境搭建

(conda安装+Python3.10的虚拟环境+cuda+pytorch+requirements.txt对应功能包)

conda create -n splatam python=3.10
conda activate splatam
conda install -c "nvidia/label/cuda-11.6.0" cuda-toolkit
conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.6 -c pytorch -c conda-forge
pip install -r requirements.txt

2.2  下载数据集

由于没有IPhone手机和相关设备,因此只能离线下载数据集进行渲染,本人选择的是TUM-RGBD数据集,因为Replica数据集太大了,下载时间太长。

bash bash_scripts/download_tum.sh

2.3  训练SplaTAM(渲染过程)

首先先把 configs/tum/splatam.py 文件里的 use_wandb = True 改成了 False

然后在终端运行即可开始训练:

python scripts/splatam.py configs/tum/splatam.py

训练过程如图所示:

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

使用的GTX4070显卡,训练了大概四五十分钟。 

三、复现结果

训练完成之后,我们运行下面的指令即可得到渲染的最终结果和渲染过程视频。

3.1  最终结果展示

在终端输入指令

python viz_scripts/final_recon.py configs/tum/splatam.py

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

在config/tum/splatam.py中修改参数,重新再训练得到对比如下:

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

3.2  渲染过程视频

在终端输入指令

python viz_scripts/online_recon.py configs/tum/splatam.py

视频放不上去,大家可以运行这个指令自我尝试一下。

四、算法解读

4.1  算法对比

【数据集】

在四个数据集ScanNet++ 、Replica、TUM-RGBD、ScanNet进行评估

【评价指标】

为了测量RGB渲染性能使用了PSNR、SSIM和LPIPS

【损失函数】

对于深度渲染性能使用深度L1损失

对于摄像机姿态估计跟踪使用平均绝对轨迹误差(ATE RMSE)

【Baselines】

比较的主要基线方法是Point-SLAM。

  • 完成了四个数据集上在线相机位姿实验;
  • 高斯图重建与摄像机pose的可视化;
  • 渲染质量比较评估;
  • 颜色和深度损失消融。

4.1  各向同性的3DGS

SplaTAM公式:

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

3DGS公式:

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

4.2  基于Splatting的可微分渲染

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

4.3  SplaTAM的缺点

尽管 SplaTAM 实现了最先进的性能,但该方法对运动模糊、大深度噪声和激进旋转表现出一定的敏感性。

五、代码解读

5.1  代码整体框架

对于项目代码的分析框架如下所示:

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

5.2  配置文件:configs/tum/splatam.py

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

  • 一、场景选择 (scene_name): 通过索引选择一个场景进行处理,共五个场景 map_every: 每多少帧进行一次映射(Map)操作。 keyframe_every: 每多少帧选择一个关键帧。 mapping_window_size: 映射窗口的大小。
  • 二、跟踪迭代和映射迭代 (tracking_iters, mapping_iters): tracking_iters: 跟踪(Tracking)阶段每帧的迭代次数。 mapping_iters: 映射(Mapping)阶段的迭代次数。 scene_radius_depth_ratio :用于在剪枝(Pruning)和致密化(Densification)过程中设置深度和场景半径的比例。
  • 三、跟踪配置 (tracking 字典): 包含了是否使用真实位姿(Ground Truth Poses)、是否前向传播姿态、是否使用轮廓(Silhouette)作为损失函数的一部分等设置。 映射配置 (mapping 字典):包含了映射迭代次数、是否添加新的高斯点、轮廓阈值、是否使用L1损失等。 prune_gaussians: 是否在映射过程中剪枝高斯点。 pruning_dict: 剪枝相关的参数,如开始剪枝的迭代后、移除大高斯点后的迭代数等。 use_gaussian_splatting_densification: 是否使用基于高斯溅射的致密化方法。 densify_dict: 致密化相关的参数,如开始致密化的迭代后、移除大高斯点后的迭代数等。
  • 四、可视化配置 (viz 字典): 包含了渲染模式、是否显示轮廓、可视化相机和轨迹、可视化窗口大小、视野深度等。

5.3  核心算法文件:scripts/splatam.py

其中的rgbd_slam函数是核心算法的实现

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

1、打印配置信息、创建输出目录、初始化WandB、加载设备和数据集等操作;

2、迭代处理RGB-D帧,进行跟踪(Tracking)和建图(Mapping)。

3、保存关键帧信息和参数。

4、最后,评估最终的SLAM参数。

 其他的重要函数见本人所制作的PPT,如下所示:

5.3.1  初始化阶段

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

 5.3.2  Tracking阶段

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

5.3.3  Mapping阶段

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉
论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉
5.3.4  可视化阶段

可视化阶段: 可以使用生成的3D模型和相机轨迹来可视化场景。 将3D点云渲染成2D图像,并展示相机在场景中的运动轨迹。 可视化有助于理解算法的性能和重建的质量,还可以用于调试和优化算法参数。

 5.3.5  迭代优化

在整个SplaTAM算法中,跟踪和建图阶段是交替进行的。 每次迭代都会根据新的观测数据更新相机轨迹和场景模型,直到满足停止条件,例如达到预设的迭代次数或者误差收敛到一个可接受的范围。

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

5.3.6  反向传播 

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》,机器人快速入门,三维重建,计算机图形学,SLAM,人工智能,计算机视觉

5.4  其他算法文件

5.4.1utils/keyframe_selection.py
5.4.2utils/slam_external.py
5.4.3utils/slam_helper.py

这部分的内容,还请读者们自行阅读代码,代码量较少,阅读难度较低。

5.5  光栅化

3DGS的渲染过程是利用了光栅化(rasterization) 而光栅化的过程需要在GPU上运行。

from diff_gaussian_rasterization import GaussianRasterizationSettings GaussianRasterizer

这部分的源码用cuda写的 GaussianRasterizationSettings与GaussianRasterizer对应的代码 在submodules/diff-gaussian-rasterization/diff_gaussian_rasterization/__init__.py 光栅化的源码主要的运行及计算的工程是forward(采用前向渲染)

该函数使用了CUDA并行计算,通过调用名为 preprocessCUDA 的 CUDA 核函数来执行高斯光栅化的前处理。CUDA 核函数的执行由函数参数确定。在 CUDA 核函数中,每个线程块由多个线程组成,负责处理其中的一部分数据,从而加速高斯光栅化的计算。

参考链接如下:https://github.com/JonathonLuiten/diff-gaussian-rasterization-w-depth

总结

本人从配置运行SplaTAM,到进行算法解读和代码讲解,细致入微地对基于3D-GS的SLAM算法经典之作,进行了一个总结回顾。文章来源地址https://www.toymoban.com/news/detail-859838.html

到了这里,关于论文复现《SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM》的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《Dense Distinct Query for End-to-End Object Detection》论文笔记(ing)

    作者这里认为传统个目标检测的anchor/anchorpoint其实跟detr中的query作用一样,可以看作query (1)dense query:传统目标检测生成一堆密集anchor,但是one to many需要NMS去除重复框,无法end to end。 (2)spare query 在one2one:egDETR,100个qeury,数量太少造成稀疏监督,收敛慢召回率低。 (

    2024年01月25日
    浏览(47)
  • 论文阅读:Dense Depth Priors for Neural Radiance Fields from Sparse Input Views

    CVPR2022 首先我们由一组室内的RGB图像 { I i } i = 0 N − 1 , I i ∈ [ 0 , 1 ] H × W × 3 {I_i}^{N-1}_{i=0}, I_i in [0,1]^{H times W times 3} { I i ​ } i = 0 N − 1 ​ , I i ​ ∈ [ 0 , 1 ] H × W × 3 。 通过SFM的方法,我们可以获得相机位姿 p i ∈ R 6 p_i in mathbb{R}^6 p i ​ ∈ R 6 , 内参矩阵 K i ∈ R 3 ×

    2024年02月09日
    浏览(46)
  • 【单目3D目标检测】SMOKE论文解析与代码复现

    在正篇之前,有必要先了解一下yacs库,因为SMOKE源码的参数配置文件,都是基于yacs库建立起来的,不学看不懂啊!!!! yacs是一个用于定义和管理参数配置的库(例如用于训练模型的超参数或可配置模型超参数等)。yacs使用yaml文件来配置参数。另外,yacs是在py-fast -rcnn和

    2024年02月09日
    浏览(53)
  • 【单目3D目标检测】FCOS3D + PGD论文解析与代码复现

    本文对OpenMMLab在Monocular 3D detection领域做的两项工作FCOS3D和PGD(也被称作FCOS3D++)进行介绍。 在此之前,建议大家通过这篇博客:“3Dfy” A General 2D Detector: 纯视觉 3D 检测再思考,来回顾单目3D目标检测的更多细节。   Wang, T, Zhu, X, Pang, J, et al. Fcos3d: Fully convolutional one-stage mono

    2024年02月02日
    浏览(42)
  • Efficient Global 2D-3D Matching for Camera Localization in a Large-Scale 3D Map

    由于paper并没有给出源码,我们找到了相似的源码:https://github.com/nadiawangberg/structure-based-visual-localization。 这是一个相机内部参数的文本文件,其中包含了一个内部参数矩阵K。该矩阵的元素用于将3D世界坐标系中的点转换为2D图像坐标系中的点。这个文件中的矩阵表示相机的内

    2024年02月10日
    浏览(37)
  • 【车间调度】论文阅读复现——effective neighbourhood functions for the flexible job shop problem

    在复现另一篇文献An effective hybrid genetic algorithm and tabu search for flexible job shop scheduling problem的算法时,发现其中的局部搜索使用了k-insertion的邻域动作,于是找到出处:effective neighbourhood functions for the flexible job shop problem。这篇文章主要是对k-insertion的一些性质的解释与证明,我

    2024年02月03日
    浏览(58)
  • 论文复现--lightweight-human-pose-estimation-3d-demo.pytorch(单视角多人3D实时动作捕捉DEMO)

    分类:动作捕捉 github地址:https://github.com/Daniil-Osokin/lightweight-human-pose-estimation-3d-demo.pytorch 所需环境: Windows10,conda 4.13.0; 安装成功 将这tensorRT的三个文件夹复制到CUDA下( 记得复制之前CUDA的原始三个文件夹做好副本 注意路径 ) 很奇怪 我的convert_to_trt.py没法找到上级目录中

    2024年02月10日
    浏览(49)
  • 【MLP-BEV(2)】LSS,2D->3D,Lift-Splat-Shoot:通过隐式反投影到3D空间实现对任意相机图像编码

    Lift-Splat-Shoot 很巧妙的利用 attention 的方式端到端地学了一个深度,但是因为没有显式的深度作为监督. 当前在BEV下进行感知方法大致分为两类,一类是以Transformer 为主体的隐式深度(Depth)信息进行转换的架构,另一类则是基于显示的深度估计投影到BEV下的方法,也就是本文

    2024年02月10日
    浏览(47)
  • 论文阅读《Spherical Space Feature Decomposition for Guided Depth Map Super-Resolution》

    论文地址:https://openaccess.thecvf.com/content/ICCV2023/papers/Zhao_Spherical_Space_Feature_Decomposition_for_Guided_Depth_Map_Super-Resolution_ICCV_2023_paper.pdf 源码地址: https://github.com/Zhaozixiang1228/GDSR-SSDNet   GDSR是一种多模态图像处理的热门话题,它的目的是利用同一场景中的高分辨率(HR)RGB图像中

    2024年01月16日
    浏览(43)
  • MapTR:Structured Modeling and Learning for Online Vectorized HD Map Construction——论文笔记

    参考代码:MapTR 介绍:这篇文章提出了一种向量化高清地图(vectorized HD map)构建的方法,该方法将高清地图中的元素(线条状或是多边形的)构建为由一组点和带方向边的组合。由于点和方向边在起始点未知的情况下其实是能对同一地图元素够成很多种表达的,对此文章对

    2024年02月15日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包