PIFuHD 笔记(单视图人体重建)

这篇具有很好参考价值的文章主要介绍了PIFuHD 笔记(单视图人体重建)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

PIFuHD 笔记(单视图人体重建)

PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization》

主页:https://shunsukesaito.github.io/PIFuHD/

论文:https://arxiv.org/abs/2004.00452

这里有一篇解读

【三维重建】PIFuHD:Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization_Swocky的博客-CSDN博客

差不多就是翻译了一下,感觉还有点机翻,有些地方他自己也没读太懂,不用太仔细看

感觉原文也写的不咋样,同一个东西非要换好几种名字来表述,表述不清晰,逻辑不清晰,重要线索分散在文章各处,看得难受。

目标是 单视角图片 重建三维人体。

看起来这个方法只生成三维网格,不能渲染出材质,(不过想做材质估计也不难)

相机视角永远保持正面,不管是训练还是推理。这感觉有点像是 PIFu 只是一个深度场

先用 pix2pixHD 产生正面和背面的法线图,然后输入 pixel-aligned 的深度预测器。(具体看图)

感觉完全是靠 pixel-aligned特征 来推测三维结构的(不过也确实,毕竟是单视角输入,感觉上也没别的特征能用了)

隐式函数输入的时候没有做位置编码,是直接把 z 输到网络里的。不过即使要编码,也就 z 需要编码,xy都用来提 pixel-aligned特征了,MLP 压根不知道 xy 是多少。

摘要

当前很多模型在重建细节时效果都不好,我们认为这来源于两种冲突的需求:

正确的预测需要较大的上下文,精确的预测需要高分辨率。

由于内存限制,先前的工作都使用了低分辨率的图像,所以生成的3D模型分辨率不高。

我们提出了一种端到端的多层次的可学习架构。

coarse层次观察到低分辨率的完整图像,并专注于整体的结果。coarse层次为 fine层次提供上下文。fine层次观察到高分辨率的图像,并预测非常细节的几何。

我们的方法通过充分利用1k分辨率的图像,在单视角人体形状重建上取得了 SOTA (2020年4月)

相关工作

单视图 的 三维人体 数字化

单视图的三维人体数字化是一个病态问题。为了克服这一点,参数化模型 [5, 27, 18, 33] 经常被用于将估计限制到少量的一组参数,将求解空间限制到一个特定的参数化人体模型 [7, 22, 20, 46, 33, 47] 。然而,由于模型都是不带衣服的,这限制了模型的表达能力。虽然可以用一个单独的参数化模型来缓解有限的形状变化 [6] ,但是大的形变和拓扑变化还是处理不了。

也有研究者提出了不用参数化人体模型的方法。有一些算法用 体积表征 [42] 。与该方法特别相关的还有 DeepHuman [51] ,在该方法中,网络以越来越高的分辨率和细节产生 离散体积表征。额外的细节使用 表面法线 在最后一个层次贴上去。尽管这个方法产生了令人印象深刻的结果,但是 离散体素表征 使用的立方级的内存,使得其无法通过简单的增加输入图片的分辨率来达到更高的分辨率。

PIFu [35] 回归了一个函数来确定任意位置的占用率。与 使用全局特征向量 [29, 32, 10] 的 隐式表面表征 不同,PIFu 使用 全卷积图像特征 ,保留了输入图像中存在的局部细节。

纹理空间 中的 高分辨率合成

最近许多方法利用 纹理图的表征 [48,41,23] 来重建高质量的三维纹理和几何图形,然后在此基础上估计几何细节和色彩细节。

特别的,Tex2Shape [3] 通过在 展开的UV空间 中对 位移 进行回归,来重建高质量的3D几何。然而,这种方法最终受限于 模板网格的拓扑结构(在表示不同的拓扑时会出现问题,比如不同的发型风格和裙子)和 参数化UV时选择的拓扑结构(例如,纹理接缝周围的可见接缝伪影)。最近的方法利用神经网络模型来预测 中间纹理 或 深度表征,然后用来重建最终的三维几何输出 [36, 49]。

方法

用了两个图像特征提取器,一个输入 512512 输出 128128 ,一个输入 10241024 输出 512512 。

为了提升质量和可信度,先在 图像空间 预测 正面和背面 的 法线图,然后把 法线图 作为网络的额外输入。
PIFuHD 笔记(单视图人体重建)

Pixel-aligned 隐式函数(PIFu)

PIFu 的目标是建立一个函数 f ( X ) f(X) f(X) 对三维相机空间中的任意一个点 X = ( X x , X y , X z ) ∈ R 3 X=(X_x,X_y,X_z)\in \mathbb{R}^3 X=(Xx,Xy,Xz)R3 ,实现以下功能:

f ( X , I ) = { 1  若  X  在网格内部  0  otherwise  f(\mathbf{X}, \mathbf{I})= \left\{\begin{array}{ll} 1 & \text { 若 } \mathbf{X} \text { 在网格内部 } \\ 0 & \text { otherwise } \end{array}\right. f(X,I)={ 10  X 在网格内部  otherwise 

其中 I I I 是单张 RGB 图像。

PIFu 使用神经网络对 f f f 进行建模,使用端到端的方式训练。

定义投影函数 π ( X ) = x ∈ R 2 \pi(\mathbf{X})=\mathbf{x} \in\mathbb{R}^{2} π(X)=xR2 ,使用正交投影 x = π ( X ) = ( X x , X y ) \mathbf{x}=\pi(\mathbf{X})=\left(\mathbf{X}{x}, \mathbf{X}{y}\right) x=π(X)=(Xx,Xy)

定义图像特征提取函数 文章来源地址https://www.toymoban.com/news/detail-442260.html

到了这里,关于PIFuHD 笔记(单视图人体重建)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 三维重建 PyQt Python MRP 四视图(横断面,冠状面,矢状面,3D)

    本文实现了 Python MPR 的 四视图,横断面,冠状面,矢状面,3D MPR(multi-planner reformation)也称多平面重建,多重面重建是将扫描范围内所有的轴位图像叠加起来再对某些标线标定的重组线所指定的组织进行冠状、矢状位、任意角度斜位图像重组。 主要功能: 1:实现了 所有切面与

    2024年02月12日
    浏览(28)
  • Qt designer设计UI实例:双视图立体匹配与重建的可视化UI

    PyQt5和Qt designer的详细安装教程 :https://blog.csdn.net/qq_43811536/article/details/135185233?spm=1001.2014.3001.5501 Qt designer界面和所有组件功能的详细介绍 :https://blog.csdn.net/qq_43811536/article/details/135186862?spm=1001.2014.3001.5501 输入 :一对左右眼视图的图像。 任务 :对输入的一对带相机参数的左

    2024年02月04日
    浏览(30)
  • 《人体地图》笔记

    坂井建雄 著 孙浩 译 腹部与大腿的分界点是大腿根部,即是腹股沟。 腹壁肌肉连结在腹股沟韧带上,腹壁肌肉包括三层,分别为腹外斜肌、腹内斜肌和腹横肌,每块肌肉都有一个张开的小孔,每个孔的位置错开,三层肌肉倾斜地穿过腹部和腹股沟,如同一个隧道,这个隧道

    2023年04月15日
    浏览(24)
  • mediapipe——人体姿势关节点检测(pose模块) 学习笔记(全)

    官方文档:https://google.github.io/mediapipe/ 1.1 解决方案的API,参数 API/参数 说明 STATIC_IMAGE_MOD 默认为 False ,将输入图像视为视频流。它将尝试在第一张图像中检测最突出的人,并在成功检测后进一步定位姿势地标。在随后的图像中,它只是简单地跟踪那些地标,而不会调用另一

    2024年02月05日
    浏览(35)
  • 基于MVS的三维重建算法学习笔记(一)— MVS三维重建概述与OpenMVS开源框架配置

    本人书写本系列博客目的是为了记录我学习三维重建领域相关知识的过程和心得,不涉及任何商业意图,欢迎互相交流,批评指正。 MVS(多视点立体视觉,Multi-view stereo)能够单独从图像中构造出高度细节化的3D模型,采集一个庞大的图像数据集,用其来构建出一个用来解析

    2024年01月15日
    浏览(34)
  • 【图像超分辨率重建】——GRL论文精读笔记

    作者: Yawei Li1 Yuchen Fan2 Xiaoyu Xiang2 Denis Demandolx2 Rakesh Ranjan2 Radu Timofte1;3 Luc Van Gool1;4 期刊: CVPR 引用: * 摘要: 本文的目的是提出一种机制,在全局、区域和局部范围内有效和明确地建立图像层次模型,用于图像修复。为了实现这一目标,我们首先分析了自然图像的两个重要

    2024年02月09日
    浏览(40)
  • 【图像超分辨率重建】——HAT论文精读笔记

    作者: Xiangyu Chen, Xintao Wang, Jiantao Zhou, and Chao Dong 期刊: 引用: 摘要: 基于 Transformer 的方法在图像超分辨率等低级视觉任务中表现出令人印象深刻的性能。然而,我们发现这些网络只能通过归因分析利用有限空间范围的输入信息。这意味着 Transformer 的潜力在现有网络中仍未

    2024年02月08日
    浏览(47)
  • 科研笔记-无线感知第1篇(基于WIFI CSI进行人体行为识别调查)

    目录 基于WIFI CSI进行人体行为识别调查 人体姿态识别研究现状: 无线感知相关知识点: WIFI系统的局限性: 基于 Wi-Fi CSI 的行为识别: 基于直方图的技术: CSI 去噪: 特征提取: 用于分类的机器学习: 多用户活动识别: 人体姿态识别研究现状:       1,在现有的系统中,个人

    2024年02月05日
    浏览(36)
  • 文献阅读笔记系列一:事件相机3D重建的方法探究

    一.问题的描述 1.1 事件相机 事件相机是一种仿生传感器,与传统相机不同,它异步测量每像素的亮度变化,并输出编码这些变化的时间、位置和符号的事件流[1]。事件相机具有高时间分辨率、高动态范围、低功耗和高像素带宽等特性,使其在机器人和计算机视觉领域具有巨大

    2024年01月17日
    浏览(34)
  • 基于MVS的三维重建算法学习笔记(三)— 立体匹配概述

    本人书写本系列博客目的是为了记录我学习三维重建领域相关知识的过程和心得,不涉及任何商业意图,欢迎互相交流,批评指正。 在之前的博客中简单介绍过立体匹配,它是MVS稠密重建中的重要环节,而在这篇博客中,将详细的介绍立体匹配的相关概念,其中详细的过程和

    2024年02月11日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包