HumanNeRF(CVPR2022 oral)-人体重建论文阅读

这篇具有很好参考价值的文章主要介绍了HumanNeRF(CVPR2022 oral)-人体重建论文阅读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


论文: 《HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video》
github: https://github.com/chungyiweng/humannerf

解决问题

作者提出HumanNeRF,给出复杂动作人体单视角视频,暂停任一帧渲染出任意视角下该人体,甚至360度视角下该人体;
HumanNeRF优化了人在标准T姿势下的表征,与运动场相一致,该运动场通过向后扭曲将估计的规范表征映射到视频的每一帧;运动场解耦为骨骼刚性及非刚性运动;

算法

人体表征为神经场

HumanNeRF框架如图2,
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
作者扭曲标准空间 F c F_c Fc至可见空间 F o F_o Fo,如式1,
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
F c F_c Fc映射标准空间位置x至颜色c及密度σ, T T T表示运动场将可见点映射至标准空间,其中位置 p = ( J , Ω ) p=(J, Ω) p=(J,),J包括K个标准3D关键点位置, Ω = { ω i } Ω = \{ωi\} ={ωi}为局部关键点角向量;
为了处理复杂人体运动,作者将运动场 T T T解耦为骨骼驱动变形 T s k e l T_{skel} Tskel及位置偏移 T N R T_{NR} TNR,如式2,
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
根据 T s k e l T_{skel} Tskel结果生成偏移,用于补充非刚性变形,比如衣服变形;由于现成的3D姿态估计不够准确,作者通过姿态纠正函数Ppose解决;将式2中 T s k e l ( x , p ) T_{skel}(x, p) Tskel(x,p) 替换为 T s k e l ( x , P p o s e ( p ) ) T_{skel}(x, P_{pose}(p)) Tskel(x,Ppose(p))

Canonical volume

F c F_c Fc表示一个连续场,根据任一点x可输出颜色c及密度σ,如式3,其中γ表示正弦位置编码;
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF

Skeletal motion

T s k e l T_{skel} Tskel为blend skin将可见空间中的点映射至标准空间,如式4,
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
其中 w o i w^i_o woi表示第i个关节蒙皮权重,计算公式如式5, R i R_i Ri t i t_i ti分别表示可见空间到标准空间关键旋转及平移量,其可依据p进行计算;在标准空间求解蒙皮权重而不是在N张图可见空间求解,可避免过拟合;
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
作者没有使用MLP进行编码 W c ( x ) = { w c i ( x ) } W_c(x)=\{w^i_c(x)\} Wc(x)={wci(x)},而是使用显示表示,一方面由于需要K个MLP,优化不灵活;另一方面,对于小分辨率通过三线性插值提供平滑度,便于后续优化;作者利用随机编码z,通过CNN生成 W c W_c Wc,如式6
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF

Non-rigid motion

T N R T_{NR} TNR生成位置偏移, ∆ x ( x , p ) = T N R ( T s k e l ( x , p ) , p ) ) ∆x(x, p) = T_{NR}(T_{skel}(x, p), p)) x(x,p)=TNR(Tskel(x,p),p)),为捕获更多细节,作者使用MLP表示 T N R T_{NR} TNR,如式7,
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF

Pose correction

根据图片进行人体姿势估计通常不准确,因此姿态纠正模块通过固定关键点学习偏移角,姿态估计如式8,
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
姿态偏移如式9所示,作者通过MLP模块实现,
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
因此可见空间到标准空间由式2重构为式10
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF

HumanNeRF优化

优化函数如式11
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF

体渲染

颜色渲染如式12,作者没有使用NeRF中分层级采样,而是在目标框内进行采样
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
当前景概率f(x)比较低时,进一步定义αi如式13,
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF

非刚性运动场延迟优化

由于骨架驱动与非刚性运动未解耦,目标骨骼运动一部分由非刚性运动建模所得,而非刚性运动过拟合到输入图片,因此渲染不可见区域时质量不高;
为解决此问题,作者对非刚性运动MLP θNR,将截断的Hann window应用于位置编码频率带,防止数据过拟合,作者定于位置编码频率带j的权重如式14,
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
τ 定义如式15,通过设置τ = 0可关闭非刚性场优化;
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF

损失函数及ray sampling Loss

作者使用MSE进行像素级匹配,感知损失LPIPS改进细节一致性,对轻微错位及阴影变换比较鲁棒;
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
作者采样G个patch,每个patch为HH,训练时每个batch渲染GH*H个射线,渲染结果与输入图相同位置进行比较;

实验

对于无标注视频,作者使用SPIN获取近似相机参数、人体姿态,自动分割目标前景,并手动矫正分割结果;
与其他方法比较如表2,
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
量化结果如表1,HumanNeRF超越Neural Body
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
图3展示可视化结果,HumanNeRF优于Neural Body,即使未见过视角,也可生成与真值相似结果;
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
图5展示在YouTube视频上高质量结果;
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF

消融实验

表3展示增加非刚性变形,带来进一步收益;
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF
图6展示非刚性场及姿态纠正对不可见视角渲染重要性
HumanNeRF(CVPR2022 oral)-人体重建论文阅读,论文详解,3D重建,论文阅读,计算机视觉,NeRF

讨论

当视频中身体一部分不可见时,仍会产生噪点;姿态就剩改进图像对齐,但若开始姿态估计不准确就剩模块将失效;作者假设非刚性场时姿态相关的,但是并不总是正确,比如风将衣服移动;对于公开视频数据需要人工矫正分割结果;

结论

HumanNeRF从单目视频中移动人体自由视角渲染取得SOTA结果;作者通过仔细建模人体姿态、人体运动及正则项优化实现。文章来源地址https://www.toymoban.com/news/detail-610839.html

到了这里,关于HumanNeRF(CVPR2022 oral)-人体重建论文阅读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • TPS Motion(CVPR2022)视频生成论文解读

    论文: 《Thin-Plate Spline Motion Model for Image Animation》 github: https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model 问题: 尽管当前有些工作使用无监督方法进可行任意目标姿态迁移,但是当源图与目标图差异大时,对当前无监督方案来说仍然具有挑战。 方法: 本文提出无监督TPS Motio

    2023年04月11日
    浏览(44)
  • 【论文阅读】CVPR2023 IGEV-Stereo

    【cvhub导读】【paper】【code_openi】 代码是启智社区的镜像仓库,不需要魔法,点击这里注册 1️⃣现有主流方法 基于代价滤波的方法 和 基于迭代优化的方法 : 基于 代价滤波 的方法可以在cost volume中编码足够的 非局部几何和上下文信息 ,这对于具有挑战性的区域中的视差预

    2024年02月07日
    浏览(25)
  • 【论文阅读】Neuralangelo:高保真神经表面重建

    paper project 神经表面重建已被证明对于通过基于图像的神经渲染恢复密集的 3D 表面非常有效。然而,当前的方法难以恢复真实场景的详细结构。为了解决这个问题,我们提出了 Neuralangelo,它将多分辨率 3D 哈希网格的表示能力与神经表面渲染相结合。两个关键因素使我们的方

    2024年02月11日
    浏览(22)
  • 【通过改变压缩视频的分辨率实现高效的视频语义分割】CVPR2022论文精度

    Title: Efficient Semantic Segmentation by Altering Resolutions for Compressed Videos (通过改变压缩视频的分辨率实现高效的语义分割) Authors: Yubin Hu, Yuze He, Yanghao Li, Jisheng Li, Yuxing Han, Jiangtao Wen, Yong-Jin Liu (胡宇斌, 何宇泽, 李洋浩, 李继升, 韩宇星, 温江涛, 刘永金) Affiliation: Department of Computer Sci

    2024年02月15日
    浏览(27)
  • 【论文简述】Cross-Attentional Flow Transformer for Robust Optical Flow(CVPR 2022)

    1. 第一作者: Xiuchao Sui、Shaohua Li 2. 发表年份: 2021 3. 发表期刊: arxiv 4. : 光流、Transformer、自注意力、交叉注意力、相关体 5. 探索动机: 由于卷积的局部性和刚性权重,有限的上下文信息被纳入到像素特征中,并且计算出的相关性具有很高的随机性,以至于大多数

    2024年02月03日
    浏览(33)
  • 《Masked Image Training for Generalizable Deep Image Denoising》——CVPR23论文阅读笔记

    Project page: https://github.com/haoyuc/MaskedDenoising 前提:在捕获和存储图像时,设备不可避免地会引入噪声。减少这种噪声是一项关键任务,称为图像去噪。深度学习已经成为图像去噪的事实方法,尤其是随着基于Transformer的模型的出现,这些模型在各种图像任务上都取得了显著的最

    2024年03月15日
    浏览(50)
  • 论文阅读: (CVPR2023 SDT )基于书写者风格和字符风格解耦的手写文字生成及源码对应

    引言 许久不认真看论文了,这不赶紧捡起来。这也是自己看的第一篇用到Transformer结构的CV论文。 之所以选择这篇文章来看,是考虑到之前做过手写字体生成的项目。这个工作可以用来合成一些手写体数据集,用来辅助手写体识别模型的训练。 本篇文章将从论文与代码一一对

    2024年02月12日
    浏览(49)
  • 【论文阅读】PSDF Fusion:用于动态 3D 数据融合和场景重建的概率符号距离函数

    PSDF Fusion: Probabilistic Signed Distance Function for On-the-fly 3D Data Fusion and Scene Reconstruction We propose a novel 3D spatial representation for data fusion and scene reconstruction. Probabilistic Signed Distance Function (Probabilistic SDF, PSDF) is proposed to depict uncertainties in the 3D space. It is modeled by a joint distribution describing

    2024年02月03日
    浏览(36)
  • 【论文阅读】通过3D和2D网络的交叉示教实现稀疏标注的3D医学图像分割(CVPR2023)

    论文:3D Medical Image Segmentation with Sparse Annotation via Cross-Teaching between 3D and 2D Networks 代码:https://github.com/hengcai-nju/3d2dct 问题1 :医学图像分割通常需要大量且精确标注的数据集。但是获取像素级标注是一项劳动密集型的任务,需要领域专家付出巨大的努力,这使得在实际临床场

    2024年02月05日
    浏览(38)
  • 图像融合论文阅读:ReFusion:通过元学习的从可学习损失重建中学习图像融合

    @article{bai2023refusion, title={ ReFusion: Learning Image Fusion from Reconstruction with Learnable Loss via Meta-Learning }, author={Bai, Haowen and Zhao, Zixiang and Zhang, Jiangshe and Wu, Yichen and Deng, Lilun and Cui, Yukun and Xu, Shuang and Jiang, Baisong}, journal={arXiv preprint arXiv:2312.07943}, year={2023} } 论文级别:arXiv 影响因子:

    2024年01月25日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包