PIFuHD 笔记(单视图人体重建)
《PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization》
主页:https://shunsukesaito.github.io/PIFuHD/
论文:https://arxiv.org/abs/2004.00452
这里有一篇解读
【三维重建】PIFuHD:Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization_Swocky的博客-CSDN博客
差不多就是翻译了一下,感觉还有点机翻,有些地方他自己也没读太懂,不用太仔细看
感觉原文也写的不咋样,同一个东西非要换好几种名字来表述,表述不清晰,逻辑不清晰,重要线索分散在文章各处,看得难受。
目标是 单视角图片 重建三维人体。
看起来这个方法只生成三维网格,不能渲染出材质,(不过想做材质估计也不难)
相机视角永远保持正面,不管是训练还是推理。这感觉有点像是 PIFu 只是一个深度场
先用 pix2pixHD 产生正面和背面的法线图,然后输入 pixel-aligned 的深度预测器。(具体看图)
感觉完全是靠 pixel-aligned特征 来推测三维结构的(不过也确实,毕竟是单视角输入,感觉上也没别的特征能用了)
隐式函数输入的时候没有做位置编码,是直接把 z 输到网络里的。不过即使要编码,也就 z 需要编码,xy都用来提 pixel-aligned特征了,MLP 压根不知道 xy 是多少。
摘要
当前很多模型在重建细节时效果都不好,我们认为这来源于两种冲突的需求:
正确的预测需要较大的上下文,精确的预测需要高分辨率。
由于内存限制,先前的工作都使用了低分辨率的图像,所以生成的3D模型分辨率不高。
我们提出了一种端到端的多层次的可学习架构。
coarse层次观察到低分辨率的完整图像,并专注于整体的结果。coarse层次为 fine层次提供上下文。fine层次观察到高分辨率的图像,并预测非常细节的几何。
我们的方法通过充分利用1k分辨率的图像,在单视角人体形状重建上取得了 SOTA (2020年4月)
相关工作
单视图 的 三维人体 数字化
单视图的三维人体数字化是一个病态问题。为了克服这一点,参数化模型 [5, 27, 18, 33] 经常被用于将估计限制到少量的一组参数,将求解空间限制到一个特定的参数化人体模型 [7, 22, 20, 46, 33, 47] 。然而,由于模型都是不带衣服的,这限制了模型的表达能力。虽然可以用一个单独的参数化模型来缓解有限的形状变化 [6] ,但是大的形变和拓扑变化还是处理不了。
也有研究者提出了不用参数化人体模型的方法。有一些算法用 体积表征 [42] 。与该方法特别相关的还有 DeepHuman [51] ,在该方法中,网络以越来越高的分辨率和细节产生 离散体积表征。额外的细节使用 表面法线 在最后一个层次贴上去。尽管这个方法产生了令人印象深刻的结果,但是 离散体素表征 使用的立方级的内存,使得其无法通过简单的增加输入图片的分辨率来达到更高的分辨率。
PIFu [35] 回归了一个函数来确定任意位置的占用率。与 使用全局特征向量 [29, 32, 10] 的 隐式表面表征 不同,PIFu 使用 全卷积图像特征 ,保留了输入图像中存在的局部细节。
纹理空间 中的 高分辨率合成
最近许多方法利用 纹理图的表征 [48,41,23] 来重建高质量的三维纹理和几何图形,然后在此基础上估计几何细节和色彩细节。
特别的,Tex2Shape [3] 通过在 展开的UV空间 中对 位移 进行回归,来重建高质量的3D几何。然而,这种方法最终受限于 模板网格的拓扑结构(在表示不同的拓扑时会出现问题,比如不同的发型风格和裙子)和 参数化UV时选择的拓扑结构(例如,纹理接缝周围的可见接缝伪影)。最近的方法利用神经网络模型来预测 中间纹理 或 深度表征,然后用来重建最终的三维几何输出 [36, 49]。
方法
用了两个图像特征提取器,一个输入 512512 输出 128128 ,一个输入 10241024 输出 512512 。
为了提升质量和可信度,先在 图像空间 预测 正面和背面 的 法线图,然后把 法线图 作为网络的额外输入。
Pixel-aligned 隐式函数(PIFu)
PIFu 的目标是建立一个函数 f ( X ) f(X) f(X) 对三维相机空间中的任意一个点 X = ( X x , X y , X z ) ∈ R 3 X=(X_x,X_y,X_z)\in \mathbb{R}^3 X=(Xx,Xy,Xz)∈R3 ,实现以下功能:
f ( X , I ) = { 1 若 X 在网格内部 0 otherwise f(\mathbf{X}, \mathbf{I})= \left\{\begin{array}{ll} 1 & \text { 若 } \mathbf{X} \text { 在网格内部 } \\ 0 & \text { otherwise } \end{array}\right. f(X,I)={ 10 若 X 在网格内部 otherwise
其中 I I I 是单张 RGB 图像。
PIFu 使用神经网络对 f f f 进行建模,使用端到端的方式训练。
定义投影函数 π ( X ) = x ∈ R 2 \pi(\mathbf{X})=\mathbf{x} \in\mathbb{R}^{2} π(X)=x∈R2 ,使用正交投影 x = π ( X ) = ( X x , X y ) \mathbf{x}=\pi(\mathbf{X})=\left(\mathbf{X}{x}, \mathbf{X}{y}\right) x=π(X)=(Xx,Xy) 。文章来源:https://www.toymoban.com/news/detail-442260.html
定义图像特征提取函数 文章来源地址https://www.toymoban.com/news/detail-442260.html
到了这里,关于PIFuHD 笔记(单视图人体重建)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!