PIFuHD 笔记（单视图人体重建）-Toy模板网

这篇具有很好参考价值的文章主要介绍了PIFuHD 笔记（单视图人体重建）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

PIFuHD 笔记（单视图人体重建）

《PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization》

主页：https://shunsukesaito.github.io/PIFuHD/

论文：https://arxiv.org/abs/2004.00452

这里有一篇解读

【三维重建】PIFuHD:Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization_Swocky的博客-CSDN博客

差不多就是翻译了一下，感觉还有点机翻，有些地方他自己也没读太懂，不用太仔细看

感觉原文也写的不咋样，同一个东西非要换好几种名字来表述，表述不清晰，逻辑不清晰，重要线索分散在文章各处，看得难受。

目标是单视角图片重建三维人体。

看起来这个方法只生成三维网格，不能渲染出材质，（不过想做材质估计也不难）

相机视角永远保持正面，不管是训练还是推理。这感觉有点像是 PIFu 只是一个深度场

先用 pix2pixHD 产生正面和背面的法线图，然后输入 pixel-aligned 的深度预测器。（具体看图）

感觉完全是靠 pixel-aligned特征来推测三维结构的（不过也确实，毕竟是单视角输入，感觉上也没别的特征能用了）

隐式函数输入的时候没有做位置编码，是直接把 z 输到网络里的。不过即使要编码，也就 z 需要编码，xy都用来提 pixel-aligned特征了，MLP 压根不知道 xy 是多少。

摘要

当前很多模型在重建细节时效果都不好，我们认为这来源于两种冲突的需求：

正确的预测需要较大的上下文，精确的预测需要高分辨率。

由于内存限制，先前的工作都使用了低分辨率的图像，所以生成的3D模型分辨率不高。

我们提出了一种端到端的多层次的可学习架构。

coarse层次观察到低分辨率的完整图像，并专注于整体的结果。coarse层次为 fine层次提供上下文。fine层次观察到高分辨率的图像，并预测非常细节的几何。

我们的方法通过充分利用1k分辨率的图像，在单视角人体形状重建上取得了 SOTA （2020年4月）

方法

用了两个图像特征提取器，一个输入 512512 输出 128128 ，一个输入 10241024 输出 512512 。

为了提升质量和可信度，先在图像空间预测正面和背面的法线图，然后把法线图作为网络的额外输入。
PIFuHD 笔记（单视图人体重建）

Pixel-aligned 隐式函数（PIFu）

PIFu 的目标是建立一个函数 $f (X)$ 对三维相机空间中的任意一个点 $X=(X_x,X_y,X_z)\in \mathbb{R}^3$ ，实现以下功能：

$f(\mathbf{X}, \mathbf{I})= \left\{\begin{array}{ll} 1 & \text { 若 } \mathbf{X} \text { 在网格内部 } \\ 0 & \text { otherwise } \end{array}\right.$

其中 $I$ 是单张 RGB 图像。

PIFu 使用神经网络对 $f$ 进行建模，使用端到端的方式训练。

定义投影函数 $\pi(\mathbf{X})=\mathbf{x} \in\mathbb{R}^{2}$ ，使用正交投影 $\mathbf{x}=\pi(\mathbf{X})=\left(\mathbf{X}{x}, \mathbf{X}{y}\right)$ 。

定义图像特征提取函数文章来源地址https://www.toymoban.com/news/detail-442260.html

到了这里，关于PIFuHD 笔记（单视图人体重建）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

PIFuHD 笔记（单视图人体重建）