GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

这篇具有很好参考价值的文章主要介绍了GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

Abstract

虽然二维生成对抗网络能够实现高分辨率的图像合成,它们在很大程度上缺乏对三维世界和图像形成过程的理解。因此,它们不能提供对相机视点或物体姿态的精确控制为了解决这个问题,最近的几种方法利用基于中间体素的表示可微渲染相结合。然而,现有的方法要么产生较低的图像分辨率,要么在分离相机和场景属性方面出现不足,例如,物体的身份可能随视点而变化在本文中,我们提出了一个辐射场的生成模型,该模型最近被证明是成功地用于单个场景的新视图合成。基于体素的表示相比,辐射场并不局限于三维空间的粗糙离散化,但允许解开摄像机和场景属性,同时在存在重建模糊性的情况下优雅地退化。通过引入一个多尺度的基于补丁的鉴别器,我们演示了高分辨率图像的合成,同时仅从未曝光的二维图像训练我们的模型。我们系统地分析了我们的方法在几个具有挑战性的合成和真实世界的数据集。我们的实验表明,辐射场是生成图像合成的一个强大的表示,导致三维一致的模型渲染高保真。

3 Method

我们考虑了三维感知图像合成的问题,生成高保真图像的任务,同时提供对相机旋转和平移的显式控制。我们主张用它的辐射场来表示一个场景,这样一个连续的表示尺度很好。图像分辨率和内存消耗,同时允许基于物理和无参数的投影映射。在下面,我们首先简要回顾了神经辐射场(NeRF)[36],它构成了所提出的生成辐射场(GRAF)模型的基础。

3.1 Neural Radiance Fields

3.2 Generative Radiance Fields

在这项工作中,我们感兴趣的是辐射场作为三维感知图像合成表示。与[36]相比,我们不假设单个场景有大量的摆姿势的图像。相反,我们的目标是学习一个模型,通过未曝光图像的训练来合成新的场景。更具体地说,我们利用一个对抗性框架来训练辐射场的生成模型(GRAF)。

GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

 

图2显示了对我们的模型的概述。生成器Gθ相机矩阵K相机姿态ξ二维采样模式ν形状/外观代码zs∈Rm/za∈Rn作为输入,并预测图像补丁P鉴别器Dφ合成的补丁P与从真实图像i提取的补丁P进行比较。在推断时,我们预测每个图像像素的一个颜色值。然而,在训练时,这是太贵了。因此,我们预测一个固定大小的K×K像素的补丁,它被随机缩放和旋转,以为整个辐射场提供梯度

GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

 

3.2.1 Generator

我们从姿态分布pξ中采样相机姿态ξ=[R|t]。在我们的实验中,我们使用在上半球均匀分布的相机位置,相机面向坐标系的原点。根据数据集的不同,我们也会均匀地改变相机到原点的距离。我们选择K,使主点在图像的中心。

GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

 

ν=(u,s)决定了我们要生成的虚拟K×K补丁P(u,s)的中心u=(u,v)∈R2和尺度s∈R+。这使我们能够使用一个独立于图像分辨率的卷积鉴别器。我们从图像域Ω的均匀分布中随机抽取补丁中心u∼U(Ω)从均匀分布的s∼U([1,S])中随机抽取补丁尺寸s,其中S=min(W,H)/K,W和H表示目标图像的宽度和高度。此外,我们确保整个补丁都在图像域Ω内。形状和外观变量zsza分别来自形状和外观分布zspszaps绘制。在我们的实验中,我们对ps和pa都使用了一个标准的高斯分布

GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

 

它描述了patch在图像域Ω中的每个像素的位置,如图3所示。请注意,这些坐标是实数,而不是离散的整数,这允许我们连续地计算辐射场。相应的3D射线P(u,s)相机姿态ξ内在K唯一确定。我们用r表示像素/射线索引,用dr表示归一化的三维射线射线数R表示,其中在训练中R=K2,在推理中R=WH

GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

 

GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

 

GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

 

GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

 

GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

 

条件辐射场gθ的网络结构如图4所示。我们首先从x的位置编码形状编码zs中计算一个形状编码h密度头σθ将该编码转换为体积密度σ。为了预测3D位置x处的颜色c,我们将h与d的位置编码和外观代码za连接起来,并将得到的向量传递给一个颜色头cθ。我们独立于视点d和外观代码za来计算σ,以鼓励多视图的一致性同时分离形状和外观。这鼓励网络分别使用潜在代码zs和za来建模形状和外观,并允许在推理过程中分别操作它们。更正式地说,我们有:

GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

 

所有的映射(hθ、cθ和σθ)都是使用具有ReLU激活的全连接网络来实现的。为了避免符号混乱,我们使用相同的符号θ来表示每个网络的参数

GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

 

给定沿射线r的所有点的颜色和体积密度{(cir,σir)},我们使用等式 (3).中的体积渲染操作符得到射线r对应像素的颜色cr∈R3结合所有R射线的结果,我们将预测的斑片表示为p,如图2所示。

3.2.2 Discriminator

GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

 

鉴别器Dφ是实现为一个卷积神经网络(见附件)将预测的补丁P与从数据分布pD中提取的真实图像I中提取的补丁P进行比较。为了从真实图像I中提取一个K×K补丁,我们首先从我们在上面用于绘制生成器补丁的相同的分布pν中绘制ν=(u,s)。然后,我们通过使用双线性插值法在二维图像坐标P(u,s)处查询I,对真实的patch P进行采样。下面,我们使用Γ(I,ν)来表示这种双线性采样操作。请注意,我们的鉴别器类似于PatchGAN[21],除了我们允许连续位移u和缩放s,而PatchGAN使用s=1。更重要的是,我们并不是基于s对真实图像I进行降采样,而是在稀疏位置查询I,以保留高频细节,见图3。

在实验中,我们发现一个具有共享权重的鉴别器对所有的补丁都是足够的,即使这些补丁是在不同尺度的随机位置采样的。请注意,比例尺决定了补丁的接受域。为了便于训练,我们首先从更大的接受域开始,以捕捉全局环境。然后,我们逐步采样具有较小的接受域的补丁,以细化局部细节。

3.2.3 Training and Inference GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

 

我们在我们的鉴别器中使用光谱归一化[37]和实例归一化[65],并使用RMSprop[27]训练我们的方法,生成器和鉴别器的学习率分别为0.0005和0.0001。在推理时,我们随机抽取zs、za和ξ,并预测图像中所有像素的颜色值。关于网络架构的详细信息可以在附件中找到。

5 Conclusion

我们引入了生成辐射场(GRAF)用于高分辨率三维感知图像合成。我们证明,与基于体素的方法相比,我们的框架能够生成具有更好的多视图一致性的高分辨率图像。然而,我们的研究结果仅限于具有单个对象的简单场景。我们相信,结合归纳偏差,例如,深度图或对称性,将允许将我们的模型扩展到未来更具挑战性的现实世界场景。文章来源地址https://www.toymoban.com/news/detail-415895.html

到了这里,关于GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks [2022 CVPR]

    长期以来,仅使用单视角二维照片集无监督生成高质量多视角一致图像和三维形状一直是一项挑战。现有的三维 GAN 要么计算密集,要么做出的近似值与三维不一致;前者限制了生成图像的质量和分辨率,后者则对多视角一致性和形状质量产生不利影响。 在这项工作中,我们

    2024年02月11日
    浏览(32)
  • [CVPR‘22] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

    paper: https://nvlabs.github.io/eg3d/media/eg3d.pdf project: EG3D: Efficient Geometry-aware 3D GANs code: GitHub - NVlabs/eg3d 总结 : 本文提出一种hybrid explicit-implicit 3D representation: tri-plane hybrid 3D representation,该方法不仅有更强的表达能力,速度更快,内存开销更小。 同时,为解决多视角不一致问题,

    2023年04月27日
    浏览(44)
  • Curricular Contrastive Regularization for Physics-aware Single Image Dehazing

    提出了一种新的对比正则化方法,旨在解决现有方法中存在的问题。传统方法中使用的负样本通常与清晰的正样本图像相距较远,导致解空间受限。为了改进这一点,提出了一种新的对比正则化方法,利用了更接近正样本的负样本信息,这些负样本包括原始有雾图像以及其他

    2024年04月28日
    浏览(32)
  • 论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    原文链接: 2022 CVPR 2022 MAT: Mask-Aware Transformer for Large Hole Image Inpainting  [pdf]   [code] 本文创新点: 开发了一种新颖的修复框架 MAT,是第一个能够直接处理高分辨率图像的基于 transformer 的修复系统。 提出了一种新的多头自注意力 (MSA) 变体,称为多头上下文注意力 (MCA),只使用

    2024年02月08日
    浏览(42)
  • 【深度学习】MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    论文:https://arxiv.org/abs/2203.15270 代码:https://github.com/fenglinglwb/MAT Generator 参数统计: Discriminator参数统计,用了VGG16. 最近的研究表明,在修复图像中存在长距离相互作用的建模非常重要。为了实现这个目标,现有的方法利用独立的注意力技术或transformers,但通常考虑到计算成

    2024年02月14日
    浏览(43)
  • Curricular Contrastive Regularization for Physics-aware Single Image Dehazing (CVPR2023) 论文记录

    原文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Zheng_Curricular_Contrastive_Regularization_for_Physics-Aware_Single_Image_Dehazing_CVPR_2023_paper.pdf 在单幅图像去雾领域,考虑到图像去雾问题的不适定性,Wu 1 提出了对比正则化方法,将负样本图像的信息引入作为下界。(本文主要是基于该方

    2024年02月16日
    浏览(55)
  • Generative Diffusion Prior for Unified Image Restoration and Enhancement 论文阅读笔记

    这是CVPR2023的一篇用diffusion先验做图像修复和图像增强的论文 之前有一篇工作做了diffusion先验(Bahjat Kawar, Michael Elad, Stefano Ermon, and Jiaming Song, “Denoising diffusion restoration models,” arXiv preprint arXiv:2201.11793, 2022. 2, 4, 6, 7),但这个模型只能做线性的退化,对于暗图增强这种非线性

    2024年02月15日
    浏览(49)
  • 一文搞懂 神经辐射场(Neural Radiance Fields,NeRF)

    神经辐射场(Neural Radiance Fields,简称NeRF)是一种计算机视觉技术,用于生成高质量的三维重建模型。它利用深度学习技术从多个视角的图像中提取出对象的几何形状和纹理信息,然后使用这些信息生成一个连续的三维辐射场,从而可以在任意角度和距离下呈现出高度逼真的

    2024年02月06日
    浏览(36)
  • CVPR 2022 Image Dehazing Transformer with Transmission-Aware 3D Position Embedding 个人学习笔记

    源码下载: CVPR2022ImageDehazingTransformerwithTransmission-Aware3D代码-深度学习文档类资源-CSDN下载 Abstract 尽管卷积神经网络(CNNs)的单图像去模糊已经取得了良好的进展,但卷积固有的 等方差 和 局部性 仍然是去雾性能的 瓶颈 。虽然 Transformer 占据了各种计算机视觉任务,但直接利

    2023年04月08日
    浏览(48)
  • 论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion

    @article{ma2019fusiongan, title={FusionGAN: A generative adversarial network for infrared and visible image fusion}, author={Ma, Jiayi and Yu, Wei and Liang, Pengwei and Li, Chang and Jiang, Junjun}, journal={Information fusion}, volume={48}, pages={11–26}, year={2019}, publisher={Elsevier} } [论文下载地址] Image fusion, infrared image, visible image

    2024年01月22日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包