【NeRF】背景、改进、应用与发展

这篇具有很好参考价值的文章主要介绍了【NeRF】背景、改进、应用与发展。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

推荐阅读:

  1. Neural Fields in Visual Computing and Beyond[1]
  2. State of the art on neural rendering[2]
  3. NeRF Explosion 2020
  4. awesome-NeRF

主要参考文献:https://zhuanlan.zhihu.com/p/512538748
GIRAFFE[12]再次凭借隐式表示中的物体编辑和组合获得CVPR2021年的best paper 。

1 背景

3D场景表征可分别为:

  • 显式 (explicit representaion)
    • Mesh
    • Point Cloud
    • Voxel
    • Volume
  • 隐式(implicit representation)
    • 使用函数来对场景集合进行描述。

显式 vs 隐式

  1. 显式是对场景的直观建模,从而易于合成照片级的虚拟视角。
  2. 隐式使用MLP模拟函数,对输入的3D空间坐标输出其对应的几何和外观信息。
  3. 显式是离散的表达,不能精细化,导致重叠等伪影,耗费内存,限制了在高分辨率场景的应用。
  4. 隐式是连续的表达,能够适用于大分辨率的场景,而且不需要3D信号进行监督。 在NeRF之前,它的缺点是无法生成照片集的虚拟视角。eg:occupancy field、signed distance function(SDF)

2 NeRF

NeRF首次利用隐式表示实现了照片级的视角合成效果,与之前方法不同的是,它选择了Volume作为中间表示,尝试重建一个隐式的Volume。

NeRF的主要贡献:

  • 提出了一种5D的神经辐射场来作为复杂场景的隐式表示。
  • 基于经典的volume rendering技术提出了一种可微渲染的过程。
  • 提出了位置编码(positional encoding)将5D输入映射到高维空间。

2.1 神经场(Neural field)

推荐阅读: Neural Fields in Visual Computing and Beyond[1]
简单来说:场(field)是为所有(连续)空间和/或时间坐标定义的量(标量),如电磁场,重力场等。此当我们在讨论场时,我们在讨论一个连续的概念,而且他是将一个高维的向量映射到一个标量。

神经场表示用神经网络进行全部或者部分参数化的场。 我们可以理解为,神经场是以空间坐标或者其他维度(时间、相机位姿等)作为输入,通过一个MLP网络模拟目标函数,生成一个目标标量(颜色、深度等)的过程。

2.2 体绘制(volume rendering)

推荐阅读:State of the art on neural rendering[2]
简而言之,是个从3D的表达到2D图片的过程。
体数据的渲染主要是指通过追踪光线进入场景并对光线长度进行某种积分来生成图像或视频,具体实现的方法包括:Ray Casting,Ray Marching,Ray Tracing。

3 NeRF的改进

NeRF存在的问题

  • 计算速度慢
  • 只针对静态场景
  • 泛化性差
  • 需要大量视角

3.1 针对速度慢的问题

NeRF方法生产生图像时,每个像素都需要近200次MLP深度模型的前向预测。尽管单次计算规模不大,但逐像素计算完成整幅图像渲染的计算量还是很可观的。其次,NeRF针对每个场景需要进行训练的时间也很慢。

针对这个问题的研究工作有:

  • AutoInt[3]
  • FastNeRF[20]
  • Depth-supervised NeRF[4]

3.2 只适用于静态场景的问题

NeRF方法只考虑了静态场景,无法拓展到动态场景。这一问题主要和单目视频做结合,从单目视频中学习场景的隐式表示。
针对这个问题的研究工作有:

  • Neural Scene Flow Fields[5]

3.3 针对泛化性差的问题

NeRF方法针对一个新的场景需要重新训练,无法直接扩展到没有见过的场景,这显然与人们追求泛化性的目标相违背。
针对这个问题的研究工作有:

  • GRF[6]
  • IBRnet、
  • pixelNeRF

3.4 针对需要大量视角数量的问题

尽管NeRF方法能够实现出色的视角合成效果,但是它需要大量的(数百张)视角来进行训练,这限制了它在现实中的应用。
针对这个问题的研究工作有:

  • pixelNeRF[7]
  • Urban-NeRF
  • Block-NeRF

4 NeRF的应用

4.1 逆渲染

从真实数据中估计不同模型参数(相机、几何体、材质、灯光参数)的过程称为反向渲染(逆渲染),其目的是生成新视图、编辑材质或照明,或创建新动画[2]。

主要任务有:

  • 几何与代理几何:NerfingMVS[9]用SfM估计的稀疏深度来监督单目深度估计网络,调整其尺度,然后再输入NeRF网络中实现视角一致性。ICCV2021 oral
  • 照明:NeRV[10]以一组由无约束已知光照照亮的场景图像作为输入,并生成一个可以在任意光照条件下从新视点渲染的三维表示。
  • 相机(位姿估计):Self-Calibrating[11]在没有任何校准对象的情况下,共同学习场景的几何结构和精确的相机参数,提出了一张适用于具有任意非线性畸变的普通摄像机的摄像机自标定算法

4.2 可控编辑

虽然NeRF提供了对场景合理的表示,但是它并不允许人们对形状、外观进行编辑。对场景表示进行可控的编辑,是NeRF发展的一个重要方向。
编辑的方向主要包括:形状、外观、场景组合。
相关工作有:

  • EidtNeRF[21]
  • GRAF[22]
  • GIRAFFE (CVPR2021 Best Paper)
    这些方法主要通过GAN和NeRF结合,实现了可控的编辑。

4.3 数字化人体

数字化人体是立体视觉中的一个重要领域。NeRF跟其他3D场景表征一样,也被应用于对人体进行建模。数字化人体主要包括:

  • 脸部建模: 4D Facial Avatar[14]将3DMM和NeRF结合,实现了一个动态神经辐射场。输入一个单目视频,该方法能够实现人脸的位姿、表情编辑。
  • 人体建模: Animatable[15]引入神经混合权重场来产生变形场,实现了人体建模。需要输入多视角视频。这个领域目前主要向SMPL靠近,就是给定一个规范空间,或者说template,然后从不同观测空间估计规范空间。
  • 手部建模。

4.4 多模态

目前基于NeRF的扩展工作,大部分使用的是图像、单目视频作为输入。探索其他模态如文字、音频等与图像的结合,能够催生惊艳的应用效果。
相关工作有:

  • CLIP-NeRF[16]将CLIP和NeRF结合,实现了通过文字和图像编辑场景。目前还局限在椅子、汽车等简单模型中。进一步探索鸟、花等简单场景可能是一个方向。

4.5 图像处理

NeRF作为一种隐式表示,为传统的图像处理方法提供了一种新思路,即从隐式神经表示,或者神经场的角度来处理图像。这里的图像处理方法包括:压缩、去噪、超分、inpainting等。
相关工作有:

  • Neural Knitworks[17]提出了一种用于自然图像神经隐式表示学习的体系结构,它通过以对抗的方式优化图像补丁的分布,并通过增强补丁预测之间的一致性来实现图像合成

4.6 视频处理

使用神经场的方法来进行视频压缩、视频编辑。这些方法证明了单目视频与NeRF或者神经场方法结合会是一个重要方向。
相关工作有:

  • Layered Neural Atlases[18]提出了一种将输入视频分解并“展开”为一组分层2D地图集的方法,每个地图集都提供了视频上对象(或背景)外观的统一表示。该文章能够用一组参数来存储视频,能够实现令人惊艳的编辑效果。

4.7 特征领域

特殊领域包括:

  • 机器人
  • 医疗成像;
    在医疗成像中,如CT和MRI,传感器探测的数据是人不可读的,需要经过离散采样并重建成体数据(3D)或者切片(2D)供人类观看。如果能够减少采样率,则可以减少CT和MRI的时间。NeRP[19]提出一种在稀疏采样下进行神经场重建的框架,并证明可以推广到医疗图像中。
  • 偏微分方程求解

5 NeRF的未来

  • NeRF和神经场与单目视频的结合。这种结合已经催生了非常多高质量的工作和惊艳的效果,不管是Video for NeRF还是NeRF for Video,都是非常具有实用价值的。
  • 多模态。图像与图像,文本与图像,视频与图像等。针对NeRF多模态的研究目前还比较少,CLIP-NeRF为我们研究提供了基础,这表明这个方向是可以继续发掘的,比如更加复杂的场景的多模态控制或者编辑。
  • 在低级语义上的探索并没有特别完备,如去噪,图像恢复等。这一部分工作目前还没有成型的工作,是一片蓝海,如果能够基于隐式表示对这种视觉的Inverse Problem提出一个解决框架,是非常有意义的。
  • 数字化人体,尤其是人脸建模。人**脸永远是应用最快最广泛的技术,这部分的工作也刚刚开始,**值得关注。
  • 可控编辑。正如3D MM催生了很多基于3D表示解耦的方法,隐式表示如何提取可控量,实现可控编辑,是未来的一个重要方向。
  • 从另一个角度来看:NeRF存在的问题与实际应用可以进行组合,也可以催生新的方法。

参考文献
1、Xie Y, Takikawa T, Saito S, et al. Neural Fields in Visual Computing and Beyond[J]. arXiv preprint arXiv:2111.11426, 2021.

2、Tewari A, Fried O, Thies J, et al. State of the art on neural rendering[C]//Computer Graphics Forum. 2020, 39(2): 701-727.

3、Lindell D B, Martel J N P, Wetzstein G. Autoint: Automatic integration for fast neural volume rendering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14556-14565.

4、Deng K, Liu A, Zhu J Y, et al. Depth-supervised nerf: Fewer views and faster training for free[J]. arXiv preprint arXiv:2107.02791, 2021.

5、Li Z, Niklaus S, Snavely N, et al. Neural scene flow fields for space-time view synthesis of dynamic scenes[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 6498-6508.

6、Trevithick A, Yang B. Grf: Learning a general radiance field for 3d representation and rendering[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 15182-15192.

7、Yu A, Ye V, Tancik M, et al. pixelnerf: Neural radiance fields from one or few images[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 4578-4587.

8、Barron J T, Mildenhall B, Tancik M, et al. Mip-nerf: A multiscale representation for anti-aliasing neural radiance fields[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 5855-5864.

9、Wei Y, Liu S, Rao Y, et al. Nerfingmvs: Guided optimization of neural radiance fields for indoor multi-view stereo[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 5610-5619.

10、Srinivasan P P, Deng B, Zhang X, et al. Nerv: Neural reflectance and visibility fields for relighting and view synthesis[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7495-7504.

11、Jeong Y, Ahn S, Choy C, et al. Self-calibrating neural radiance fields[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 5846-5854.

12、Niemeyer M, Geiger A. Giraffe: Representing scenes as compositional generative neural feature fields[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 11453-11464.

13、Gafni G, Thies J, Zollhofer M, et al. Dynamic neural radiance fields for monocular 4d facial avatar reconstruction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 8649-8658.

14、Gafni G, Thies J, Zollhofer M, et al. Dynamic neural radiance fields for monocular 4d facial avatar reconstruction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 8649-8658.

15、Peng S, Dong J, Wang Q, et al. Animatable neural radiance fields for modeling dynamic human bodies[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 14314-14323.

16、Wang C, Chai M, He M, et al. CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields[J]. arXiv preprint arXiv:2112.05139, 2021.

17、Czerkawski M, Cardona J, Atkinson R, et al. Neural Knitworks: Patched Neural Implicit Representation Networks[J]. arXiv preprint arXiv:2109.14406, 2021.

18、Kasten Y, Ofri D, Wang O, et al. Layered neural atlases for consistent video editing[J]. ACM Transactions on Graphics (TOG), 2021, 40(6): 1-12.

19、Shen L, Pauly J, Xing L. NeRP: Implicit Neural Representation Learning with Prior Embedding for Sparsely Sampled Image Reconstruction[J]. arXiv preprint arXiv:2108.10991, 2021.

20、Garbin S J, Kowalski M, Johnson M, et al. Fastnerf: High-fidelity neural rendering at 200fps[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 14346-14355.

21、Liu S, Zhang X, Zhang Z, et al. Editing conditional radiance fields[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 5773-5783.

22、Schwarz K, Liao Y, Niemeyer M, et al. Graf: Generative radiance fields for 3d-aware image synthesis[J]. Advances in Neural Information Processing Systems, 2020, 33: 20154-20166.文章来源地址https://www.toymoban.com/news/detail-447165.html

到了这里,关于【NeRF】背景、改进、应用与发展的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • PC-NeRF: Parent-Child Neural Radiance Fields Using Sparse LiDAR Frames in Autonomous

    第二个工作,大家有时间可以去github点个小星星啦,and 希望大家不要喷啦,感谢感谢 Large-scale 3D scene reconstruction and novel view synthesis are vital for autonomous vehicles, especially utilizing temporally sparse LiDAR frames. However, conventional explicit representations remain a significant bottleneck towards representin

    2024年04月11日
    浏览(21)
  • One-4-All: Neural Potential Fields for Embodied Navigation 论文阅读

    题目 :One-4-All: Neural Potential Fields for Embodied Navigation 作者 :Sacha Morin, Miguel Saavedra-Ruiz 来源 :arXiv 时间 :2023 现实世界的导航可能需要使用高维 RGB 图像进行长视野规划,这对基于端到端学习的方法提出了巨大的挑战。 目前的半参数方法通过将学习的模块与环境的拓扑记忆相

    2024年02月14日
    浏览(28)
  • 论文阅读:Dense Depth Priors for Neural Radiance Fields from Sparse Input Views

    CVPR2022 首先我们由一组室内的RGB图像 { I i } i = 0 N − 1 , I i ∈ [ 0 , 1 ] H × W × 3 {I_i}^{N-1}_{i=0}, I_i in [0,1]^{H times W times 3} { I i ​ } i = 0 N − 1 ​ , I i ​ ∈ [ 0 , 1 ] H × W × 3 。 通过SFM的方法,我们可以获得相机位姿 p i ∈ R 6 p_i in mathbb{R}^6 p i ​ ∈ R 6 , 内参矩阵 K i ∈ R 3 ×

    2024年02月09日
    浏览(33)
  • Nerf论文阅读笔记Neuralangelo: High-Fidelity Neural Surface Reconstruction

    公众号:AI知识物语;B站暂定;知乎同名 视频入门介绍可以参考 B站——CVPR 2023最新工作!Neuralangelo:高保真Nerf表面重建 https://www.bilibili.com/video/BV1Ju411W7FL/spm_id_from=333.337.searchcard.all.clickvd_source=03387e75fde3d924cb207c0c18ffa567 图1所示。本文提出Neuralangelo,一种用神经体渲染从RGB图像

    2024年02月08日
    浏览(31)
  • 【论文阅读】OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural Radiance Fields

    原文链接:https://arxiv.org/abs/2312.09243 3D目标检测任务受到无限类别和长尾问题的影响。3D占用预测则不同,其关注场景的几何重建,但多数方法需要从激光雷达点云获取的3D监督信号。 本文提出OccNeRF,一种自监督多相机占用预测模型。首先使用图像主干提取2D特征。为节省空间

    2024年02月02日
    浏览(37)
  • 论文阅读《Block-NeRF: Scalable Large Scene Neural View Synthesis》

    论文地址:https://arxiv.org/pdf/2202.05263.pdf 复现源码:https://github.com/dvlab-research/BlockNeRFPytorch   Block-NeRF是一种能够表示大规模环境的神经辐射场(Neural Radiance Fields)的变体,将 NeRF 扩展到渲染跨越多个街区的城市规模场景。该方法将场景分解为单独训练的 NeRF,使渲染时间与

    2024年02月03日
    浏览(32)
  • 神经辐射场(Neural Radiance Field,NeRF)的简单介绍

    参考文章:https://arxiv.org/abs/2210.00379    神经场 是一种神经网络,其输入为坐标,输出为坐标对应点的某个属性。    神经辐射场 (NeRF)模型是一种新视图合成方法,它使用体积网格渲染,通过MLP进行隐式神经场景表达,以学习3D场景的几何和照明。    应用 :照片编

    2024年02月07日
    浏览(34)
  • 基于神经辐射场(Neural Radiance Fileds, NeRF)的三维重建- 简介

       Nerf(neural Radiance Fileds) 为2020年ICCV上提出的一个基于隐式表达的三维重建方法,使用2D的 Posed Imageds 来生成(表达)复杂的三维场景。现在越来越多的研究人员开始关注这个潜力巨大的领域,也有方方面面关于 Nerf 的工作在不断被提出。   Nerf 为输入为稀疏的、多角

    2024年02月09日
    浏览(35)
  • 【论文阅读】GNN在推荐系统中的应用

    参考Graph Neural Networks for Recommender Systems: Challenges, Methods, and Directions 1、本文结构 推荐系统可分成4类:阶段,场景,目标和应用 图神经网络可分成2类:谱模型和空间模型 讨论GNN应用在推荐系统中的动机,主要包括高阶连接,结构化数据,增强监督信号 分析了关于图的构造,

    2024年02月05日
    浏览(33)
  • NeRF+SLAM论文阅读笔记

    input: RGB-D contribution: 1.场景表示:多分辨率哈希网格(加速保留高频特征) 2.编码方式:one-blob(提升未观察到区域的补全能力和一致性)编码方式根据场景表示(hash网格)制定 3.改进关键帧:支持在所有关键帧上执行BA Related Work iMap:由于实时性的要求,iMap使用系数采样

    2024年02月09日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包