HumanNeRF（CVPR2022 oral）-人体重建论文阅读-Toy模板网

这篇具有很好参考价值的文章主要介绍了HumanNeRF（CVPR2022 oral）-人体重建论文阅读。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

论文: 《HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video》
github: https://github.com/chungyiweng/humannerf

解决问题

作者提出HumanNeRF，给出复杂动作人体单视角视频，暂停任一帧渲染出任意视角下该人体，甚至360度视角下该人体；
HumanNeRF优化了人在标准T姿势下的表征，与运动场相一致，该运动场通过向后扭曲将估计的规范表征映射到视频的每一帧；运动场解耦为骨骼刚性及非刚性运动；

算法

人体表征为神经场

HumanNeRF框架如图2，
HumanNeRF（CVPR2022 oral）-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
作者扭曲标准空间 $F_c$ 至可见空间 $F_o$ ，如式1,

$F_c$ 映射标准空间位置x至颜色c及密度σ， $T$ 表示运动场将可见点映射至标准空间，其中位置 $p = (J, Ω)$ ，J包括K个标准3D关键点位置， $Ω = \{ωi\}$ 为局部关键点角向量；
为了处理复杂人体运动，作者将运动场 $T$ 解耦为骨骼驱动变形 $T_{skel}$ 及位置偏移 $T_{NR}$ ，如式2，
HumanNeRF（CVPR2022 oral）-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
根据 $T_{skel}$ 结果生成偏移，用于补充非刚性变形，比如衣服变形；由于现成的3D姿态估计不够准确，作者通过姿态纠正函数Ppose解决；将式2中 $T_{skel}(x, p)$ 替换为 $T_{skel}(x, P_{pose}(p))$ 。

Canonical volume

$F_c$ 表示一个连续场，根据任一点x可输出颜色c及密度σ，如式3，其中γ表示正弦位置编码；
HumanNeRF（CVPR2022 oral）-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF

Skeletal motion

$T_{skel}$ 为blend skin将可见空间中的点映射至标准空间，如式4，
HumanNeRF（CVPR2022 oral）-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
其中 $w^i_o$ 表示第i个关节蒙皮权重，计算公式如式5， $R_i$ ， $t_i$ 分别表示可见空间到标准空间关键旋转及平移量，其可依据p进行计算；在标准空间求解蒙皮权重而不是在N张图可见空间求解，可避免过拟合；
HumanNeRF（CVPR2022 oral）-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
作者没有使用MLP进行编码 $W_c(x)=\{w^i_c(x)\}$ ，而是使用显示表示，一方面由于需要K个MLP，优化不灵活；另一方面，对于小分辨率通过三线性插值提供平滑度，便于后续优化；作者利用随机编码z，通过CNN生成 $W_c$ ，如式6
HumanNeRF（CVPR2022 oral）-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF

Non-rigid motion

$T_{NR}$ 生成位置偏移， $x(x, p) = T_{NR}(T_{skel}(x, p), p))$ ，为捕获更多细节，作者使用MLP表示 $T_{NR}$ ，如式7，
HumanNeRF（CVPR2022 oral）-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF

Pose correction

根据图片进行人体姿势估计通常不准确，因此姿态纠正模块通过固定关键点学习偏移角，姿态估计如式8，
HumanNeRF（CVPR2022 oral）-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
姿态偏移如式9所示，作者通过MLP模块实现，

因此可见空间到标准空间由式2重构为式10

HumanNeRF优化

优化函数如式11
HumanNeRF（CVPR2022 oral）-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF

体渲染

颜色渲染如式12，作者没有使用NeRF中分层级采样，而是在目标框内进行采样
HumanNeRF（CVPR2022 oral）-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
当前景概率f(x)比较低时，进一步定义αi如式13，

非刚性运动场延迟优化

由于骨架驱动与非刚性运动未解耦，目标骨骼运动一部分由非刚性运动建模所得，而非刚性运动过拟合到输入图片，因此渲染不可见区域时质量不高；
为解决此问题，作者对非刚性运动MLP θNR，将截断的Hann window应用于位置编码频率带，防止数据过拟合，作者定于位置编码频率带j的权重如式14，
HumanNeRF（CVPR2022 oral）-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
τ 定义如式15，通过设置τ = 0可关闭非刚性场优化；

损失函数及ray sampling Loss

作者使用MSE进行像素级匹配，感知损失LPIPS改进细节一致性，对轻微错位及阴影变换比较鲁棒；
HumanNeRF（CVPR2022 oral）-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
作者采样G个patch，每个patch为HH，训练时每个batch渲染GH*H个射线，渲染结果与输入图相同位置进行比较；

实验

对于无标注视频，作者使用SPIN获取近似相机参数、人体姿态，自动分割目标前景，并手动矫正分割结果；
与其他方法比较如表2，
HumanNeRF（CVPR2022 oral）-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
量化结果如表1，HumanNeRF超越Neural Body

图3展示可视化结果，HumanNeRF优于Neural Body，即使未见过视角，也可生成与真值相似结果；

图5展示在YouTube视频上高质量结果；
HumanNeRF（CVPR2022 oral）-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF