1.目标:
对动态场景进行渲染,完成动态前景与背景分离、背景inpainting、动态前景编辑和新视角生成。
2.动机:
之前的方法如nerf只能够渲染静态场景(利用的是静态场景在多视角下的一致性),如将整张图像场景中的所有物体编码进单个神经网络中,缺乏表征动态物体和将这些物体分解为单个物体的能力。
3.贡献:
1、提出了一种新的神经渲染方法,将动态的多目标场景分解为一个具有,经过解耦的目标运动与场景表征,的场景图。
2、直接从一个序列的视频帧与对应的跟踪数据中学习每个场景中节点(物体)的表征。并对一类实例(如卡车,汽车)使用共享的体积表征。
3、能够给完全不可见的动态物体渲染新视图,例如在一个场景中加入该场景中不存在的动态物体。
4、能够通过逆渲染方式完成3D目标检测。
4.方法:
1.场景图定义:
定义了一个场景图S:
其中W代表世界节点,C代表相机节点,F代表物体类别,包含了静态背景与每个类别的动态目标,L代表每个具体物体的表征latent,,E代表不同节点之间的仿射变换,如局部和全局坐标系之间的变换。
由于同一个类别共享一种外形,所以对于每个具体个体需要计算一个尺寸变换参数S0,用于表达每个具体物体的外形尺寸。
2.网络结构:
使用单个nerf模型对静态背景进行统一的建模表达;对动态物体进行类别级nerf建模表达,即每个类别的物体对应一个独立的模型;对每个具体的动态个体,加入表征个体信息的隐变量L与P。L可以理解为该物体的具体外形shape,P可以理解为该物体的具体外观appearance。
动态物体局部的3D坐标(修正并与物体的姿态对齐)可由全局坐标经过变换得到:
其中T是变换矩阵,S0是尺寸变换参数,采用的是每个物体bounding box的尺寸的倒数。这样可以使得网络能够学习到不依赖于尺寸的相似性。
渲染的pipline和流程:
1.用场景图对场景进行建模。
2.采样光线的路径上对点进行采样,落在动态物体bounding box内的为动态前景采样点,其它的为静态背景采样点。
3.对每个采样点使用对应的nerf模型进行体密度和RGB预测,并经过体渲染获得每条光线的最终RGB值。
静态背景:
初始(t=0)相机坐标系下,near clip 和 far clip 之间定义与图像平面平行的N个等距平面,对于任意一条光线,背景节点采样点是光线与逐个平面的交点。
动态物体:
首先把光线变到物体的local坐标系,然后计算每条射线方向和所有动态物体的bbox交点的起点与终点,然后在起点与终点之间采样Nd个点即为采样点。
3.结果:
能够实现动态物体的旋转平移,并尽量保证光照和阴影的保持与变换。
能够实现场景的编辑,如动态车辆的加入,移除,排列等。
文章来源:https://www.toymoban.com/news/detail-795118.html
在定性结果和定量指标中,均能获得sota效果。文章来源地址https://www.toymoban.com/news/detail-795118.html
到了这里,关于论文笔记: NSG: Neural Scene Graphs for Dynamic Scenes的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!