三维重建方法3D gaussian splatting与NeRF的区别和异同

这篇具有很好参考价值的文章主要介绍了三维重建方法3D gaussian splatting与NeRF的区别和异同。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

最近学习了一些三维重建相关的内容，目前比较主要的重建流派就是3DGS以及NeRF，NeRF作为2020年发布的文章轰动一时，影响深远，有很多NeRF based的相关工作在这些年涌现。3DGS作为2023年的new talk of the town，其在保证合成质量的情况下能够以数倍乃至数十倍的速度碾压许多NeRF based的方法，因此得到了广泛关注。这篇文章从几个角度比较了NeRF（最初的版本）和3D gaussian splatting的异同，道行尚浅，若有错误，欢迎大家讨论、批评、指正。

（原文中有一些词汇很难找到很恰当的中文翻译，为了不产生歧义在文中就直接使用了）

1.数据输入（INPUT）

NeRF：Nerf的输入是一张图像+该图像对应的相机位姿5D输入（xyz和θ与φ）

3DGS：3DGS的输入是由一张图像+经过SFM方法后生成的稀疏点云

比较：两者的差距在于一个是注重于相机的位姿（观测者的姿态）一个是注重于图像中各点的位置（2D图像转换为3D点云 观测内容的姿态）

需要注意的是，Nerf的5D位姿会进行一个正弦编码才会输入到MLP网络中进行运算，这个编码过程让网络能够学习到更多的高频数据，从而提升了网络对于图像细节的重建能力，如果把这个过程看作input数据的初始化，那么与之对比，3DGS的输入在得到稀疏点云之后同样进行了初始化，将稀疏点云建模为了3D高斯，才进行后续的处理，因此两者在初始化阶段也有一些不同。

但是两者都可以由colmap等sfm方法从视频中恢复对应的位姿和位置，这一点是类似的，所以在3DGS中描述它的INPUT用了“NeRF-liked”

2.数据输出（output）

NeRF：NeRF的输出是经由神经网络之后直接输出对应camera ray上各个采样点的RGB值和体密度(volume density)，随后经过体渲染(volume rendering)得到最终的重建图像。

3DGS：3DGS的输出，从下面这一张pipeline能够看出来，作者直接将最终重建得到的图像作为了整个方法的最终输出。

摄影测量、nerf、3d gaussian splatting对比,3d,计算机视觉,人工智能,深度学习,机器学习 比较：两者的最终输出都是重建图像，但是获得重建图像的过程中存在差异，即两者的渲染方式不同。NeRF的渲染方式是体渲染，神经网络输出camera ray上不同采样点的RGB和体密度后，对该camera ray进行一个accumulate，最终得到2D图像。3DGS在会在过程中将建模好的3D高斯进行光栅化处理，将其投影到2D图像中，这个过程可以理解为向一个平地抛雪球，这个雪球被染上了不同的颜色，雪球落地之后会溅开，产生不同颜色的痕迹，多个雪球（3D高斯）丢到平地上之后，把不同的颜色痕迹按照深度等进行混合，就得到了最终的图像，这个渲染过程就叫做splatting，这里的渲染技术是a-blending，放一段GPT老师的解释：