人体3D重建-ICON论文解读

这篇具有很好参考价值的文章主要介绍了人体3D重建-ICON论文解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


论文: 《ICON : Implicit Clothed humans Obtained from Normals》
github: https://github.com/yuliangxiu/icon

创新点

现有方法需要3D扫描或者具有精心控制的2D图像进行3D重建,作者提出ICON,可通过不受约束的2D图像建模,结合所有建模结果生成动画;
现有方法对各种姿势人体3D建模不够鲁棒,由于使用全局特征进行编码,对全局姿势比较敏感;为解决这个问题,ICON使用局部特征。
在AGORA和CAPE数据集上,即使训练数据有限,ICON获得SOTA,而且在非同分步数据集上也比较鲁棒。

算法

mesh-based方法具有很好的正则化,而深层隐式函数具有更强的表现力;ICON将两者结合。ICON输入穿衣的人体RGB图及SMPL人体估计,输出穿衣的像素级3D重构结果;
人体3D重建-ICON论文解读
ICON结构如图3,主要包括两个模块:Body-guided normal预测、基于局部特征隐式三维重建。

Body-guided normal prediction

Body-guided normal预测流程:
1、使用PyMAF从图像 I I I估计SMPL mesh, M ( β , θ ) ∈ R N × 3 M(\beta,\theta)\in R^{N\times 3} M(β,θ)RN×3
2、使用PyTorch3D中可微渲染器DR,从前后两面渲染M得到SMPL-body normal N b = { N f r o n t b , N b a c k b } N^b=\{N^b_{front}, N^b_{back}\} Nb={Nfrontb,Nbackb},如式1;
3、将 N b N^b Nb与原图 I I I concat后,通过网络 G N = { G f r o n t N , G b a c k N } G^N=\{G^N_{front}, G^N_{back}\} GN={GfrontN,GbackN}得到预测clothed-body normal maps, N ^ c = { N ^ f r o n t c , N ^ b a c k c } \hat N^c=\{\hat N^c_{front}, \hat N^c_{back}\} N^c={N^frontc,N^backc},如式2;
人体3D重建-ICON论文解读
4、训练 G N G^N GN的损失函数如式3,
人体3D重建-ICON论文解读
其中, L p i x e l = ∣ N v c − N ^ v c ∣ , v = { f r o n t , b a c k } , L V G G L_{pixel}=|N^c_v - \hat N^c_v|,v=\{front,back\},L_{VGG} Lpixel=NvcN^vc,v={front,back},LVGG为感知损失,有助于恢复细节。
精细化SMPL
准确的SMPL body有助于生成质量更佳的clothed-body normals,但是实际中不会生成像素级对齐的SMPL fit;因此,在推理时,SMPL fit依靠SMPL-body normal maps N b N^b Nb和预测的clothed-body normal maps N c N^c Nc之间的差异进行优化,如图4;
人体3D重建-ICON论文解读

SMPL的参数优化损失函数如式4、5
人体3D重建-ICON论文解读
其中, L N _ d i f f L_{N_{\_diff}} LN_diff为normal map的L1损失, L S _ d i f f L_{S_{\_diff}} LS_diff为SMPL body normal-map轮廓 S b S^b Sb与人体mask S ^ c \hat S^c S^c之间L1损失。
ICON在推理时,交替进行a.使用预测的clothed-body normal N ^ c \hat N^c N^c优化SMPL mesh;b.使用精细化SMPL mesh预测 N ^ c \hat N^c N^c;

Local-feature based implicit 3D reconstruction

给定预测的clothed-body normal maps N ^ c \hat N^c N^c及SMPL-body mesh M M M,基于局部特征 F P F_P FP回归3D surface, F P F_P FP如式6,
人体3D重建-ICON论文解读
其中, F s F_s Fs为point P到最近body point P b ∈ M P^b\in M PbM的有符号距离; F n b F^b_n Fnb P b P^b Pb的barycentric surface normal; F n c F^c_n Fnc为从 N ^ c = { N ^ f r o n t c , N ^ b a c k c } \hat N^c=\{\hat N^c_{front}, \hat N^c_{back}\} N^c={N^frontc,N^backc}提取的normal向量;
F P F_P FP经过隐函数 I F ( M L P 网 络 ) IF(MLP网络) IF(MLP),估计点P的occupancy o ^ ( P ) \hat o(P) o^(P),通过MSE损失训练 I F IF IF

实验

评估方式

作者使用三种评估方式:
Chamfer距离: 计算真值scan与重构mesh之间距离;这种评该评估方法捕获了较大的几何差异,但遗漏了较小的几何细节。
人体3D重建-ICON论文解读
P2S距离: CAPE数据集scan包含大的空洞,为了排除孔洞影响,我们记录scan点到最近重构表面点之间距离,为Chamfer距离的单向版本;
Normal difference: 表示使用重构的及真值surface分别进行渲染normal图片,计算两者之间L2距离,用于捕获高频几何细节误差。

实验结果

实验结果如表2,
人体3D重建-ICON论文解读
实验结果表明:
1、如表2-A,ICON超过所有原始SOTA方法,ICON泛化性强,;
2、如表2-B,没有SMPL-X-body引导,误差变大,使用body引导,可有效改善遮挡部位重建,如图5.
人体3D重建-ICON论文解读
3、表2-C,作者评估局部特征 F P F_P FP的重要性,作者将局部特征 F P F_P FP替换为使用2D卷积提取全局特征,应用于image及clothed-body normal map及仅应用于clothed-body normal maps,结果表明在非同分布数据集CAPE-NFP上,重建表现比较差。
如图6,作者对不同方法使用不同量级数据进行训练,结果表明,ICON始终优于其他方法,同时仅使用少量数据即可达到SOTA性能,作何归因于使用局部特征,使得泛化性增强.
人体3D重建-ICON论文解读
4、表2-D,SMPL-X从图像估计结果可能无法于图中身体像素点完全对齐。ICON需要对SMPL-X shape及pose不同噪声级别都比较鲁棒,ICON+BR使用噪声性能与PaMIR*使用真值性能相当。

应用

动画生成。
作者将视频帧进行3D重建,重建结果输入SCANimate,得到动画输出,如图8b。
人体3D重建-ICON论文解读

结论

作者提出的ICON可以从图片鲁棒地生成3D clothed-body person,其准确性和真实性超越了现有方法。这有两个关键:
1、使用3D body model,同时迭代优化body model;
2、使用局部特征消除与全局姿态相关性;
问题:
如图7,对于宽松衣服重建效果不佳,因为body是在正交视角下训练的,无法产生透视效果,因此产生不对称的四肢或解剖学上不可能的形状。
人体3D重建-ICON论文解读文章来源地址https://www.toymoban.com/news/detail-415027.html

到了这里,关于人体3D重建-ICON论文解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 收藏丨OpenDataLab 8个新上架的超大数据集资源分享,涵盖高保真3D人体重建、3D车道线数据集等

    OpenDataLab平台自上线以来,数据集覆盖规模已经超过4500个,任务类型超1200个,吸引了业界朋友的广泛关注。 本文汇总了OpenDataLab平台上架的多个领域超大规模数据集,内含来自智能数字内容、智能交通等研究团队发布的动态4D人脸数据集、高保真合成人体数据集、多模态人体

    2023年04月08日
    浏览(33)
  • 三维重建——商汤NeuralRecon算法详解与论文解读

    论文地址:https://arxiv.org/abs/2104.00681 代码链接见文末 代码详解: https://blog.csdn.net/qq_52053775/article/details/128880856         三维重建,就是将2D的图片信息重建为3D的信息。应用领域广泛。可以应用于原型设计、虚拟现实等。 (1) 相机成像         相机成像一般是小孔成像的原

    2024年02月13日
    浏览(25)
  • Neural Geometric Level of Detail: Real-time Rendering with Implicit 3D Shapes 论文笔记&环境配置

    发布于 CVPR 2021 论文介绍了一种具有神经SDF的复杂几何实时渲染方法。 论文提出了一种神经SDF表示,可以有效地捕获多个LOD,并以最先进的质量重建3D几何图形。 论文中的架构可以以比传统方法具有更高视觉保真度的压缩格式表示 3D 形状,并且即使在单个学习示例中也能跨不

    2024年01月24日
    浏览(29)
  • CVPR 2018 | Spotlight论文:单摄像头数秒构建3D人体模型

    想把自己的身体形象投射进电子游戏里?现在已经是很容易的事了。人工智能算法此前已被广泛应用于虚拟现实头像、监视、服装试穿或电影等多种任务的人体建模上,但大多数方法需要特殊的照相设备来检测景深,或从多个角度探查人体。近日,来自德国布伦瑞克工业大学

    2024年02月06日
    浏览(28)
  • 【论文阅读】PSDF Fusion:用于动态 3D 数据融合和场景重建的概率符号距离函数

    PSDF Fusion: Probabilistic Signed Distance Function for On-the-fly 3D Data Fusion and Scene Reconstruction We propose a novel 3D spatial representation for data fusion and scene reconstruction. Probabilistic Signed Distance Function (Probabilistic SDF, PSDF) is proposed to depict uncertainties in the 3D space. It is modeled by a joint distribution describing

    2024年02月03日
    浏览(36)
  • 论文阅读 TripoSR: Fast 3D Object Reconstruction from a Single Image 单张图片快速完成3D重建

    本文为记录自己在NeRF学习道路的一些笔记,包括对论文以及其代码的思考内容。公众号: AI知识物语 B站讲解:出门吃三碗饭 论文地址: https://arxiv.org/abs/2403.02151 代码: https://github.com/VAST-AI-Research/Tr ipoSR 先来看下演示效果 TripoSR可以在0.5秒内从单张图片重建高质量3D模型,并

    2024年04月14日
    浏览(34)
  • PIFuHD 笔记(单视图人体重建)

    《 PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization》 主页:https://shunsukesaito.github.io/PIFuHD/ 论文:https://arxiv.org/abs/2004.00452 这里有一篇解读 【三维重建】PIFuHD:Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization_Swocky的博客-CSDN博客 差不多就

    2024年02月04日
    浏览(21)
  • 3D目标检测--PointPillars论文和OpenPCDet代码解读

    解决传统基于栅格化的3D目标检测方法在面对高密度点云数据时的性能瓶颈; 栅格化方法需要将点云数据映射到规则的网格中,但是对于高密度点云,栅格化操作会导致严重的信息损失和运算效率低下; 因此,该论文提出了一种新的基于点云的3D目标检测方法——PointPillars,

    2023年04月22日
    浏览(66)
  • 论文解读 | 用于3D对象检测的PV-RCNN网络

    原创 | 文 BFT机器人  01 背景 本文的背景涉及到3D物体检测,这是一个在自动驾驶和机器人等领域应用广泛的重要问题。在这些领域,LiDAR传感器被广泛用于捕捉3D场景信息,生成不规则且稀疏的点云数据。这些点云数据提供了理解和感知3D场景的关键信息。然而,由于点云数据

    2024年02月09日
    浏览(29)
  • 3D目标检测概要及VoxelNet论文和代码解读(1)--Pillar VFE

    点云和图像都是自动驾驶中常用的传感器数据类型,它们各自有不同的优缺点。点云目标检测在自动驾驶领域中有着不可替代的优势,尤其是在需要精准定位和避障的场景下,点云目标检测可以为自动驾驶车辆提供更为准确和可靠的感知能力,点云的主要优势为: 三维信息丰

    2024年02月06日
    浏览(25)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包