[CVPR‘22] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

这篇具有很好参考价值的文章主要介绍了[CVPR‘22] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

  • paper: https://nvlabs.github.io/eg3d/media/eg3d.pdf
  • project: EG3D: Efficient Geometry-aware 3D GANs
  • code: GitHub - NVlabs/eg3d

总结

  • 本文提出一种hybrid explicit-implicit 3D representation: tri-plane hybrid 3D representation,该方法不仅有更强的表达能力,速度更快,内存开销更小。
  • 同时,为解决多视角不一致问题,引入相机参数矩阵作为StyleGANv2生成器、超分模型、Volume Rendering的控制条件。
  • 最后,为解决超分模型导致的信息丢失问题,本文提出dual discrimination strategy,使得超分前后图像保持一致。

skirt the cimputational constraints

inherit their efficiency and expressiveness

xx has started to gain momentum as well

目录

摘要

引言

贡献

近期工作

Neural scene representation and rendering. 

Generative 3D-aware image synthesis. 

Tri-plane hybrid 3D representation

3D GAN framework

CNN generator backbone and rendering 

Dual discrimination

Modeling pose-correlated attributes

Experiments and results

Ablation study

Application


摘要

  • 研究如何基于单视角2D图片,通过无监督方法,生成高质量、多视角一致的3D形状
  • 现有3D GAN存在问题:1)计算开销大;2)不具有3D一致性(3D-consistent);
  • 本文提出:1)expressive hybrid explicit-implicit network architecture:提速、减小计算开销;2)decoupling feature generation and neural rendering:可以借助sota 2D GAN,例如:StyleGAN2。
  • 在FFHQ和AFHQ Cats的3D-aware synthesis任务上达到sota。

引言

  • 现有2D GAN无法显式地建模潜在的3D场景;
  • 近期3D GAN,开始解决:1)多视角一致的图片生成;2)无需多视角图片和几何监督,提取3D形状。但是3D GAN生成的图片质量和分辨率仍然远逊于2D GAN。还有一个问题是,目前3D GAN和Neural Rendering方法计算开销大。
  • 3D GAN通常由两部分组成:1)生成网络中的3D结构化归纳偏置;2)neural rendering engine提供视角一致性结果。其中,归纳偏置可以被建模为:显式的体素网格或隐式的神经表达。但受限于计算开销,这两种表达方式都不适用于训练高分辨率的3D GAN。目前常用的方法是超分,但超分又会牺牲视觉连续性和3D形状的质量。
  • 本文提出:1)hybrid explicit-implicit 3D representation由于提速、减小计算开销;2)dual discrimination strategy由于保留输出和neural rendering的一致性;3)对生成器引入pose-based conditioning,解耦pose相关属性,例如人脸表情系数;4)本文框架将特征生成从neural rendering中解耦出来,使得框架可以受益于sota 2D GAN,例如:StyleGAN2。

贡献

  • 提出一种tri-plane-based 3D GAN框架。在保持效果的情况下,提速明显;
  • 提出一种3D GAN训练策略dual discrimination,用于保持多视角一致性;
  • 提出generator pose conditioning,建模pose相关的属性,例如:表情。
  • 在FFHQ和AFHQ Cats的3D-aware图片生成中取得sota结果。

近期工作

Neural scene representation and rendering. 

  • 显示表达(图b),例如:discrete voxel grids。优点是fast to evaluate,缺点是需要大量的内存开销大;
  • 隐式表达(图a):例如:neural rendering。优点是内存使用高效,缺点是slow to evaluate。
  • 局部隐式表达和混合显-隐式表达,则兼具了两者优点。
  • 受此启发,本文设计了hybrid explicit-implicit 3D-aware network(图c):用tri-plane representation去显示存储沿坐标轴对齐的特征,而特征则是被通过特征解码器隐式的渲染为体素。

[CVPR‘22] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

Generative 3D-aware image synthesis. 

  • Mesh-based approaches;Voxel-based GANs,内存开销大,通常需要使用超分,但超分会导致视角不一致;Block-based sparse volume representations:泛化性不好。Fully implicit representation networks,但测试很慢。
  • 和StyleGAN2-based 2.5D GAN的区别:他们生成图片和深度图,而我们不需要;
  • 和3D GAN,例如StyleNeRF和CIPS-3D的区别:他们在3D形状上表现不佳。

Tri-plane hybrid 3D representation

  • 建立xyz三个相互垂直的特征平面,每个特征平面为N x N x C,其中N为平面分辨率,C为特征维度。对于任意一个3D位置,通过双线性插值,可索引到3个特征向量(F_xy, F_xz, F_yz),最终特征F为3个特征向量之和。
  • 通过一个轻量级MLP解码网络,将特征F映射为颜色和强度,最后通过neural volume rendering将他们渲染为RGB图片。下图和下表显示,所提出的Tri-plane在具有更强表现能力的同时,内存开销更小,计算速度更快。

[CVPR‘22] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks[CVPR‘22] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

 文章来源地址https://www.toymoban.com/news/detail-426927.html

3D GAN framework

对每张训练图片,本文使用离线pose检测器计算其相机内外参数。算法整体pipeline如下: [CVPR‘22] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

训练方法1:随机初始化,使用non-saturating GAN loss with R1 regularization,训练方法跟随StyleGAN2;训练方法2:两阶段训练策略,先训64 x 64的neural rendering,然后接128 x 128的fine-tune。实验显示,正则化有助于减少3D形状的失真。

CNN generator backbone and rendering 

  • decoder:MLP,每层包含64个神经元和softplus activation functions。MLP的输入可以是连续坐标,输出是scalar density和32维的特征
  • Volume rendering:输入feature images,而不是RGB图片。因为,feature images包含更多可在超分中使用的信息。

Dual discrimination

  • 鉴别器输入为6通道。本文认为feature image I_F的前三个通道是低分辨率RGB图片I_RGB。dual discrimination首先要求I_RGB和超分图片I_RGB^+保持一致(?),这一步通过双线性上采样得到。然后将超分超分图片和上采样图片拼接在一起送入鉴别器。对于真实图片,则是将真实图片和经过blur处理的真实图片拼接在一起送入鉴别器。
  • 将相机内外参数送入鉴别器,作为条件标签。

Modeling pose-correlated attributes

  • 大多数现实世界数据集包含偏置,例如在FFHQ中,人脸表情和相机位置相关,通常来说,当相机正对人脸时,人是在笑的。本文提出generator pose conditioning,用于解耦训练图片中位姿和其他属性(可以理解为想要去除什么bias,就以bias为条件作为输入?)。
  • 为增强模型对输入位姿的鲁棒性,在训练中,会以50%概率将相机参数矩阵P中的位姿替换为随机位姿。
  • 消融实验发现,在训练时加入位姿作为条件很重要。未来的工作会考虑去除它。

[CVPR‘22] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

 

Experiments and results

  • Datasets:FFHQ真实人脸数据集,AFHQv2 Cats,真实猫脸数据集。
  • Baselines:3个3D-aware image synthesis领域的sota方法:pi-GAN、GIRAFFE和Lifting StyleGAN。
  • Qualitative results:

[CVPR‘22] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

  • Quantitative evaluations:

[CVPR‘22] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks 

  • Runtime:

[CVPR‘22] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

 

Ablation study

[CVPR‘22] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

 

Application

  • Style mixing:

[CVPR‘22] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

  •  Single-view 3D reconstruction:使用pivotal tuning inversion (PTI)

[CVPR‘22] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

 

 

到了这里,关于[CVPR‘22] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • CVPR2023新作:3D人体姿态估计

    Title: 3D Human Pose Estimation via Intuitive Physics Affiliation: Max Planck Institute for Intelligent Systems, Tübingen, Germany Authors: Shashank Tripathi, Lea Müller, Chun-Hao P. Huang, Omid Taheri, Michael J. Black, Dimitrios Tzionas Keywords: 3D human pose estimation, physics engine, intuitive-physics terms, pressure heatmap, stable configuration. Su

    2024年02月16日
    浏览(27)
  • CVPR2023新作:3D视频物体检测

    Title: 3D Video Object Detection With Learnable Object-Centric Global Optimization Affiliation: 中国科学院自动化研究所 (Institute of Automation, Chinese Academy of Sciences),中国科学院大学人工智能学院 (School of Artificial Intelligence, University of Chinese Academy of Sciences),香港中文大学人工智能与机器人中心 (Ce

    2024年02月15日
    浏览(24)
  • CVPR2022 3D目标检测(GLENet )增强型3D目标检测网络

    图 1:(a) 给定一个不完整 LiDAR 观测的对象,可能存在多个具有不同大小和形状的潜在合理的真实边界框。 (b) 当注释来自 2D 图像和部分点时,标签过程中的模糊和不准确是不可避免的。在给定的情况下,只有后部的汽车类别的类似点云可以用不同长度的不同真实值框进行注释

    2023年04月08日
    浏览(26)
  • 3D目标识别|SFD|多模态|CVPR2022

    论文标题:Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion 论文链接 Code: 还未开源 **动机:**室外点云+图像的方法没有纯点云的方法效果好,主要有两个原因(1)多模态的数据增广不好做(2)因为现在方法大多是从点云找对应的图像融合特征,但是点云能对应上的

    2023年04月14日
    浏览(31)
  • DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation解读

    太卷啦,太卷啦,视觉太卷啦,赶紧跑路吧~_~ 介绍DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation论文方法,解释原理,本文不是机械翻译,而是尝试讲解方法原理 论文地址:https://arxiv.org/abs/2309.16653 github地址:https://github.com/dreamgaussian/dreamgaussian?tab=readme-ov-fil

    2024年04月09日
    浏览(33)
  • CVPR2023新作:3D点云配准--3D Registration with Maximal Cliques

    Title: 3D Registration with Maximal Cliques Affiliation: School of Computer Science, Northwestern Polytechnical University, China Authors: Xiyu Zhang, Jiaqi Yang, Shikun Zhang, Yanning Zhang Keywords: 3D point cloud registration, maximal cliques, graph theory, SVD algorithm, deep learning Summary: (1): 本文主要解决3D点云配准的问题,并针对现有

    2024年02月15日
    浏览(28)
  • Efficient Global 2D-3D Matching for Camera Localization in a Large-Scale 3D Map

    由于paper并没有给出源码,我们找到了相似的源码:https://github.com/nadiawangberg/structure-based-visual-localization。 这是一个相机内部参数的文本文件,其中包含了一个内部参数矩阵K。该矩阵的元素用于将3D世界坐标系中的点转换为2D图像坐标系中的点。这个文件中的矩阵表示相机的内

    2024年02月10日
    浏览(25)
  • 51-31 CVPR’24 | VastGaussian,3D高斯大型场景重建

    2024 年 2 月,清华大学、华为和中科院联合发布的 VastGaussian 模型,实现了基于 3D Gaussian Splatting 进行大型场景高保真重建和实时渲染。 现有基于NeRF大型场景重建方法,往往在视觉质量和渲染速度方面存在局限性。虽然最近 3D Gaussians Spltting 在小规模和以对象为中心的场景中

    2024年04月12日
    浏览(24)
  • CVPR2023新作:3D感知的AI换脸算法

    Title: 3D-Aware Face Swapping (3D感知的人脸交换) Affiliation: 上海交通大学人工智能研究所 Authors: Yixuan Li, Chao Ma, Yichao Yan, Wenhan Zhu, Xiaokang Yang Keywords: Face swapping, 3D human faces, Generative Adversarial Network, geometry Summary: (1): 该论文研究内容为人脸交换,是计算机视觉领域的一个重要研究课题

    2024年02月15日
    浏览(27)
  • 【论文笔记】CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception

    原文链接:https://arxiv.org/abs/2304.00670   本文提出两阶段融合方法CRN,能使用相机和雷达生成语义丰富且位置精确的BEV特征。具体来说,首先将图像透视特征转换到BEV下,该步骤依赖雷达,称为雷达辅助的视图变换(RVT)。由于转换得到的BEV特征并非完全精确,接下来的多模

    2024年02月03日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包