84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures

这篇具有很好参考价值的文章主要介绍了84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

简介

论文:https://arxiv.org/abs/2211.07600
84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures
dream fusion开创了2d扩散模型引导nerf生成的先河,但是其使用的是stable diffusion,庞大的资源开销是不可忽视的一个问题,该论文则是基于潜空间的diffusion模型(IDM),有效提升了效率,同时还提出了两个新的生成方式——Sketch-shape,Latent-Paint

IDM 与 Score Distillation

**潜扩散模型(LDM)**是一种特定形式的扩散模型,它被训练来去噪预训练的自编码器的潜代码,而不是直接去噪高分辨率图像。

分数蒸馏是一种能够将扩散模型作为评价器的方法,即:,将其用作损失,而无需在扩散过程中显式地反向传播。

要执行分数蒸馏,首先将噪声添加到给定的图像(例如,NeRF输出的一个视图)。然后,利用扩散模型预测噪声图像的附加噪声。最后,利用预测噪声和添加噪声之间的差异计算逐像素梯度

在分数蒸馏优化的每次迭代中,渲染的图像 x 对随机绘制的时间步 t 进行噪声处理
84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures
将每个像素的分数蒸馏梯度取为
84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures
ϵ ϕ \epsilon_\phi ϵϕ 为扩散模型的降噪器,φ为去噪器参数,T 是一个可选的引导文本提示符,W (t)是一个依赖于 α t α_t αt 的常数乘数

在训练阶段,梯度从像素梯度传播到NeRF参数,并逐渐改变3D对象

dream fusion中 分数蒸馏 伪代码
84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures

实现流程

84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures
在每次训练迭代中,从随机视点渲染场景以生成特征图 z。然后,根据随机扩散步骤 t,对 z 进行噪声处理。对 z 的噪声版本,即 x t x_t xt,使用稳定扩散去噪,并输入文本提示。最后,通过稳定扩散从预测噪声中减去输入噪声,以近似逐像素梯度反向传播到NeRF表示。

LatentNeRF输出4个伪颜色通道 ( c 1 , c 2 , c 3 , c 4 ) (c_1, c_2, c_3, c_4) (c1,c2,c3,c4),分别对应于稳定扩散作用的4个 latent features,以及一个体积密度 σ

由于空间亮度场和渲染方程,使用NeRF隐式地表示场景会在不同视图之间施加空间一致性

Z 可以用NeRF表示并具有空间一致性,Z 中的超像素主要依赖于输出图像中的单个块,潜空间的高分辨率(64 × 64)和低通道深度(4),这鼓励了对自编码器图像和潜空间的局部依赖性

假设Z是其对应的RGB图像的近补丁级表示,使得潜在变量与场景的空间变换几乎相等,这就证明了使用nerf来表示3D场景是合理的

Text Guidance

84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures

Latent-NeRF的普通形式是文本引导的,对于场景生成没有其他约束
84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures
L S D S L_{SDS} LSDS 为Score-Distillation loss。这个损失的确切值是不可获取的,它所隐含的梯度通过通过降噪器的单个前向传递来近似

L s p a r s e = B E ( w b l e n d ) L_{sparse} = BE(w_{blend}) Lsparse=BE(wblend),通过惩罚未定义背景掩码 w b l e n d w_{blend} wblend的二进制熵来防止浮动的“辐射云”,它鼓励对象NeRF和背景NeRF的严格混合(来源于:A pytorch implementation of the text-to-3d model dreamfusion, powered by the stable diffusion text-to2d model)

RGB Refinement

在某些情况下,通过在像素空间中进行微调来进一步完善模型可能是有益的,并使NeRF模型直接在RGB中操作,将在潜空间中训练的NeRF转换为在RGB中操作的NeRF

将MLP的输出从四个潜在通道转换为三个RGB通道,这样当应用到原始模型的渲染潜在时,初始渲染的RGB图像接近解码器输出(来源于:Decoding latents to rgb without upscaling)

通过以下转换,线性近似足以预测给定单个四通道潜在超级像素的可信RGB颜色

84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures
通过对RGB图像和它们对应的潜在代码在自然图像集合上计算出来的

添加另一个线性层,该层使用公式3中的权重进行初始化

84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures
然后,附加层与模型的其余部分一起进行微调,以创建细化的最终输出

Sketch-Shape Guidance

84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures

指导基于粗糙几何的Latent-NeRF生成,称之为Sketch-Shape,是简单3D原语(如球体、盒子、圆柱体等)的抽象粗略对齐,它们共同描绘了一个更复杂物体的轮廓

希望MLP的输出密度与草图形状的输出密度匹配,这样输出的Latent-NeRF结果与输入形状相似

也希望新的NeRF能够创建与输入文本提示相匹配的新细节和几何图形,并提高形状的保真度

鼓励NeRF的占用率与Sketch-Shape的圈数指示器匹配,但在表面附近的重要性逐渐衰减,以允许新的几何形状
84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures
占用率应该被很好地限制在远离表面的地方,并且可以通过分数蒸馏在表面附近自由地设置

除了Latent-NeRF损失外,该损失还应用于整个点集 p,该点集被NeRF的体积渲染所使用

d 表示 p 到曲面的距离, σ S σ_S σS 是一个超参数,它控制损失的缓和程度,即 σ S σ_S σS 值越低,意味着对输入Sketch-Shape的约束越严格

仅在采样点集 p 上应用损失,使其更有效,因为这些点已经作为Latent-NeRF渲染过程的一部分进行了评估

Latent-Paint of Explicit Shapes

84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures
转向更严格的约束,其中的指导是基于给定形状的精确结构,例如,以网格的形式提供,称之为:Latent-Paint,其为给定的形状生成新的纹理

在UV纹理地图上生成纹理,它可以由输入网格提供,也可以使用XAtlas实时计算

为了给网格上色,首先初始化一个大小为 H × W × 4 的随机潜在纹理图像,其中 H 和 W 可以根据所需的纹理粒度选择,实验中设置为 128
84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures

在每次分数蒸馏迭代中,使用可微分渲染器对网格进行渲染,得到一个64 × 64 × 4的特征图,该特征图由潜在纹理图像伪着色,将公式2中的分数蒸馏损失应用于与 Latent-NeRF 相同的方法,不是将损失反向传播到NeRF的MLP参数,而是通过可微渲染器反向传播来优化深层纹理图像,为了得到最终的RGB纹理图像,简单地将潜在的纹理图像通过Stable Diffusion的解码器D传递一次,以获得更大的高质量RGB纹理

实验

使用 HuggingFace Diffusers的稳定扩散,有着 v1-4个checkpoint

分数蒸馏,使用代码库

NeRF基于Instant NGP

latent - nerf 通常需要不到15分钟的时间收敛到单个V100,而使用具有稳定扩散的RGB-NeRF需要大约30分钟,这是由于编码到潜空间的开销增加,DreamFusion在4个tpu上大约需要1.5小时
84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures

Limitations

为了获得合理的3D形状,使用DreamFusion所使用的相同的“提示调整”,即在输入文本提示中添加方向文本提示(例如,相对于相机的“正面”,“侧面”),该方法应用于某些对象时,这种辅助往往会失败,即使是稳定扩散,当指定所需的方向时,也往往产生不满意的图像
84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures
与大多数使用扩散模型的工作类似,结果存在随机行为,因此不同种子之间的结果质量可能有显著差异文章来源地址https://www.toymoban.com/news/detail-464498.html

到了这里,关于84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection 论文解读

    单目目标检测在自动驾驶领域,一直是一个具有挑战的任务。现在大部分的方式都是沿用基于卷积的2D 检测器,首先检测物体中心,后通过中心附近的特征去预测3D属性。 但是仅仅通过局部的特征去预测3D特征是不高效的,且并没有考虑一些长距离的物体之间的深度关系,丢

    2024年02月09日
    浏览(45)
  • 【论文笔记】Guided Skill Learning and Abstraction for Long-Horizon Manipulation

    更多笔记(在耕):这里 这篇文章在 RAL 期刊录用了。可以上 IEEE Xplore 查看更完整的内容! 研究背景? To assist with everyday human activities, robots must solve complex long-horizon tasks and generalize to new settings. 为了协助日常人类活动,机器人必须解决复杂的长期任务并推广到新环境。 Rec

    2024年02月15日
    浏览(45)
  • 论文阅读《Spherical Space Feature Decomposition for Guided Depth Map Super-Resolution》

    论文地址:https://openaccess.thecvf.com/content/ICCV2023/papers/Zhao_Spherical_Space_Feature_Decomposition_for_Guided_Depth_Map_Super-Resolution_ICCV_2023_paper.pdf 源码地址: https://github.com/Zhaozixiang1228/GDSR-SSDNet   GDSR是一种多模态图像处理的热门话题,它的目的是利用同一场景中的高分辨率(HR)RGB图像中

    2024年01月16日
    浏览(43)
  • Trajectory-guided Control Prediction for End-to-end Autonomous Driving论文学习

    端到端自动驾驶方法直接将原始传感器数据映射为规划轨迹或控制信号,范式非常简洁,从理论上避免了多模块设计的错误叠加问题和繁琐的人为规则设计。当前的端到端自动驾驶方法主要有两条独立的研究路线,要么基于规划轨迹来运行控制器,要么直接预测控制信号。端

    2024年02月05日
    浏览(55)
  • 行人重识别优化:Pose-Guided Feature Alignment for Occluded Person Re-Identification

    文章记录了ICCV2019的一篇优化遮挡行人重识别论文的知识点:Pose-Guided Feature Alignment for Occluded Person Re-Identification 论文地址: https://yu-wu.net/pdf/ICCV2019_Occluded-reID.pdf PCB结构,将特征图F按照垂直方向水平划分为6个part,每个part引入一个分类损失。 从全局特征中提取局部(未遮挡

    2024年02月03日
    浏览(43)
  • [论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models

    code links: https://null- textinversion.github.io/. 在本文中,我们引入了一种精确的反演技术,从而方便了直观的基于文本的图像修改。 我们提出的反演包含两个新的关键组成部分: (i)扩散模型的关键反演。我们为每个时间戳使用单个关键噪声向量,并围绕它进行优化。我们证明了

    2024年02月16日
    浏览(61)
  • 【视频异常检测】Delving into CLIP latent space for Video Anomaly Recognition 论文阅读

    中文题目:视频异常识别的CLIP潜在空间研究 文章信息: 原文链接:https://arxiv.org/abs/2310.02835 源代码:https://github.com/luca-zanella-dvl/AnomalyCLIP 我们介绍了一种新的方法AnomalyCLIP,它首次将大型语言和视觉(LLV)模型(如CLIP)与多实例学习相结合,用于联合视频异常检测和分类。

    2024年04月14日
    浏览(91)
  • Shepherd: A Critic for Language Model Generation

    本文是LLM系列的相关文章,针对《Shepherd: A Critic for Language Model Generation》的翻译。 随着大型语言模型的改进,人们对利用这些模型的能力来完善其自身输出的技术越来越感兴趣。在这项工作中,我们介绍了Shepherd,这是一个专门针对批评模型响应和建议改进的语言模型,它超

    2024年02月12日
    浏览(48)
  • 论文阅读:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

    论文链接 代码链接 背景:Stable Diffusion在合成高分辨率图片方面表现出色,但是仍然需要提高 本文提出了SD XL,使用了更大的UNet网络,以及增加了一个Refinement Model,以进一步提高图片质量。 用户偏好调查比较 可以看到,在不增加Refiner模型的情况下,SD XL的效果已经比SD 1.

    2024年03月11日
    浏览(84)
  • RuntimeError: shape ‘[-1, 784]‘ is invalid for input of size 68076

    在应用torch进行测试时,有可能出现这种错误: RuntimeError: shape \\\'[-1, 784]\\\' is invalid for input of size 68076 这个错误通常是由于输入数据的大小与模型期望的输入大小不匹配导致的。具体地说,在这个错误信息中, [-1, 784] 表示输入张量的形状是一个二维张量,第一个维度大小是 -1,

    2024年02月12日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包