Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑)

这篇具有很好参考价值的文章主要介绍了Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Vox-E: Text-guided Voxel Editing of 3D Objects (3D目标的文本引导体素编辑)

Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型

Paper:https://readpaper.com/paper/1705264952657440000

Code:http://vox-e.github.io/

原文链接:Vox-E: 3D目标的文本引导体素编辑 (by 小样本视觉与智能前沿)

01 现有工作的不足?

这一领域的研究主要集中在仅外观的操作上,它改变了对象的纹理[44,46]和样式[48,42],或者通过与显式网格表示的对应关系进行几何编辑[13,47,45]——将这些表示与关于网格变形的丰富文献联系起来[18,39]。不幸的是,这些方法仍然需要将用户定义的控制点放置在显式网格表示上,并且不允许添加新结构或显着调整对象的几何形状。

02 文章解决了什么问题?

在这项工作中,我们提出了一种利用潜在扩散模型的力量来编辑现有的 3D 对象。

03 关键的解决方案是什么?

我们的方法以 3D 对象的定向 2D 图像作为输入并学习其基于网格的体积表示。为了引导体积表示符合目标文本提示,我们遵循unconditional text-to-3D方法并优化分数蒸馏采样 (SDS) 损失。

我们引入了一种新的体积正则化损失,直接在3D空间中操作,利用我们的3D表示的显式性质来加强原始和编辑对象的全局结构之间的相关性。

此外,我们提出了一种优化交叉注意力体积网格的技术,以细化编辑的空间范围。

04 主要的贡献是什么?

  • 使用 3D 正则化绑定的耦合体积表示,允许使用扩散模型作为指导编辑 3D 对象,同时保留输入对象的外观和几何形状。
  • 基于 3D 交叉注意的体积分割技术,该技术定义了文本编辑空间范围。
  • 结果表明,我们提出的框架可以执行广泛的编辑任务,这是以前无法实现的。

05 有哪些相关的工作?

  • Text-driven Object Editing
  • Text-to-3D

06 方法具体是如何实现的?

Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型

Grid-Based Volumetric Representation

我们使用 3D 网格 G,其中每个体素包含一个 4D 特征向量。我们使用单个特征通道对对象的几何图形进行建模,该通道表示通过 ReLU 非线性时的空间密度值。三个额外的特征通道表示对象的外观,并在通过 sigmoid 函数时映射到 RGB 颜色。请注意,与最近的神经 3D 场景表示(包括 ReLU Fields)相比,我们没有对视图相关的外观效应进行建模,因为我们发现当以 2D 基于扩散的模型引导时,它会导致不希望的伪影。

为了用基于网格的表示来表示输入对象,我们使用图像和相关的相机姿势来执行体绘制,如NeRF[28]所述。然而,与 NeRF 相比,我们没有使用任何位置编码,而是在每个位置查询中采样我们的网格以获得插值的密度和颜色值,然后沿着每条射线累积。在我们的渲染输出和输入图像之间使用简单的L1损失,以学习表示输入对象的基于网格的体积Gi。

Text-guided Object Editing

在上一节中描述的初始体素网格 Gi的基础上,我们通过优化 Ge 来执行文本引导的对象编辑,Ge 是一个网格,表示从 Gi 初始化的编辑对象。我们的优化方案结合了由目标文本提示引导的生成组件和鼓励新网格与其初始值没有太大偏差的回拉项。正如我们稍后所展示的,我们的耦合体积表示为我们的系统提供了额外的灵活性,允许通过直接在 3D 空间中进行正则化来更好地平衡两个目标。接下来我们描述这两个优化目标。

1) Generative Text-guided Objective

为了鼓励我们的特征网格尊重通过文本提示提供的所需编辑,我们使用应用于潜在扩散模型 (LDM) 的分数蒸馏采样 (SDS) 损失。形式上,在每次优化迭代中,使用随机时间步长 t 将噪声添加到生成的图像 x 中,

Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型

分数蒸馏梯度(按像素计算)可以被表示为:

Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型
其中w是是权重函数,s是输入的引导文本。
正如 Lin 等人所建议的那样[23],我们使用退火 SDS 损失,它逐渐减少我们从中得出 t 的最大时间步长,允许 SDS 在编辑轮廓形成后专注于高频信息。我们凭经验发现这通常会导致更高质量的输出。

2)Volumetric Regularization

我们提出了一个体积正则化项,它将我们编辑的网格 Ge 与初始网格 Gi 耦合。具体来说,我们结合了一个损失项,它鼓励输入网格 f i σ f_i^{\sigma} fiσ 的密度特征与编辑网格 f e σ f_e^{\sigma} feσ的密度特征之间的相关性:

Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型

这种体积损失比图像空间损失具有显著的优势,因为它允许将场景的外观与其结构解耦,从而将3D空间中的体积表示连接起来,而不是将其视为多视图优化问题。

Spatial Refinement via 3D Cross-Attention

我们添加了一个(可选的)细化步骤,它利用来自交叉注意层的信号来产生一个体积二进制掩码M,该掩码标记了应该编辑的体素。然后将输入网格Gi与编辑后的网格Ge合并,得到精细化网格Gr:

Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型

我们使用基于能量最小化的seam-hiding segmentation算法将这些3D概率场转换为我们的二值掩码M[3]。我们将体素单元的标签概率定义为两个交叉注意网格 A e A_e Ae A o b j A_{obj} Aobj的element-wise softmax,其中:

  • Ae是与描述编辑的标记(例如太阳镜)相关联的交叉注意网格,
  • A o b j A_{obj} Aobj是与对象关联的网格是与对象关联的网格,定义为提示符中所有其他tokens的最大概率。

我们从编辑后的网格中的局部色差计算平滑项。也就是说,我们求和:

Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型
对于相邻体素p和q的每一对,其中cp和cq是来自Ge的RGB颜色。
最后,我们通过图切割[7]解决了这个能量最小化问题,得到了如图3所示的高质量分割蒙版。

Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型

07 实验结果和对比效果如何?

我们在图1、4、5、8、6、7中展示了不同3D对象和各种编辑的定性编辑结果

Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型

在图5中,我们证明了我们的方法也成功地使用Mildenhall等人[28]提供的360°真实场景建模和编辑真实场景。如图所示,我们的方法可以局部编辑前景(例如,将花朵变成向日葵)或背景(例如,将地面变成池塘)。

Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型

我们在图6中展示了对一个未着色网格的定性比较(可以在顶部一行观察到它的几何形状,因为Latent-paint保持了输入几何形状的固定)。如图所示,Text2Mesh不能产生显著的几何编辑(例如,给马添加圣诞老人帽子或把马变成驴子)。即使是允许几何编辑的SketchShape,也无法实现重要的局部编辑。此外,它不能保留输入的几何形状,该方法并不打算保留输入的几何形状。另一方面,我们的方法成功地遵循了目标文本提示,同时保留了输入的几何形状,允许对几何形状和外观进行语义上有意义的更改。

Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型

我们在表1中对我们的数据集进行了定量评估。为了公平地比较所有方法在其训练域中的操作,我们使用没有纹理映射的网格作为所有基线方法的输入。如表所示,就CLIP相似度而言,我们的方法优于本地和全局编辑的所有基线,但Text2Mesh产生略高的CLIP方向相似度。我们注意到Text2Mesh在CLIP指标方面具有优势,因为它明确地优化了CLIP相似性,因此它的分数并不完全具有指示性。

Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型

在图7中,我们比较了Latent-NeRF中提出的无条件文本到3d模型,以表明这种无条件模型也不能保证在不同的提示下生成一致的对象。我们还注意到,如果使用专有的大扩散模型[35],这个结果(以及我们的编辑)肯定会看起来更好,但尽管如此,这些模型不能保持身份。

Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型

如图8所示,2D方法通常很难从不太规范的视图(例如,在狗的背上添加太阳镜)产生有意义的结果,并且还会产生高度不一致的视图结果。
Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型

08 消融研究告诉了我们什么?

我们在表2和图9中提供了消融研究。具体来说,我们去掉了体积正则化( L r e g 3 D \mathcal{L}_{reg3D} Lreg3D)和基于3D交叉注意的空间细化模块(SR)。在消除体积正则化时,我们使用单个体积网格,并使用基于图像的L2正则化损失对SDS目标进行正则化。

Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型

Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型

09 这个工作还是可以如何优化?

我们的方法适用于广泛的高保真度的3D对象编辑,然而,有几个限制要考虑。如图10所示,由于我们对不同的视图进行了优化,因此我们的方法尝试在不同的空间位置编辑相同的对象,因此在某些提示下失败。此外,从图中可以看出,我们的一些编辑由于属性绑定错误而失败,其中模型将属性绑定到错误的主题,这是基于大规模扩散的模型中常见的挑战[9]。最后,我们继承了体积表示的局限性。因此,真实场景的质量可以通过借鉴[6]等作品的想法(例如场景收缩来模拟背景)来显着提高。
Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑),Diffusion,NeRF,论文解析,3d,Vox-E,Text-guided,Editing,NeRF,Diffusion,扩散模型

10 结论

在这项工作中,我们提出了Vox-E,这是一个新的框架,利用扩散模型的表达能力进行3D对象的文本引导体素编辑。技术上,我们证明了通过将基于扩散的图像空间目标与体积正则化相结合,我们可以实现对目标提示和输入3D对象的保真度。我们还说明了2D交叉注意地图 可以在3D空间中执行定位。我们展示了我们的方法可以生成本地和全局编辑,这对现有技术来说是一个挑战。我们的工作使非专家可以轻松地修改3D对象,只需使用文本提示作为输入,使我们更接近民主化3D内容创建和编辑的目标。

原文链接:Vox-E: 3D目标的文本引导体素编辑 (by 小样本视觉与智能前沿)文章来源地址https://www.toymoban.com/news/detail-522772.html

到了这里,关于Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文笔记(二十九):BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects

    作者:Bowen Wen, Jonathan Tremblay, Valts Blukis, Stephen Tyree, Thomas Muller, Alex Evans, Dieter Fox, Jan Kautz, Stan Birchfield 来源:arXiv:2303.14158v1 [cs.CV] 24 Mar 2023 原文:https://arxiv.org/pdf/2303.14158.pdf 代码、数据和视频: https://bundlesdf.github.io/ 系列文章目录: 上一篇: https://blog.csdn.net/xzs1210652636?spm=

    2024年02月04日
    浏览(30)
  • 84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures

    论文:https://arxiv.org/abs/2211.07600 dream fusion开创了2d扩散模型引导nerf生成的先河,但是其使用的是stable diffusion,庞大的资源开销是不可忽视的一个问题,该论文则是基于潜空间的diffusion模型(IDM),有效提升了效率,同时还提出了两个新的生成方式——Sketch-shape,Latent-Paint *

    2024年02月06日
    浏览(24)
  • 论文翻译:Text-based Image Editing for Food Images with CLIP

    图1:通过文本对食品图像进行处理的结果示例。最左边一栏显示的是原始输入图像。\\\"Chahan\\\"(日语中的炒饭)和 \\\"蒸饭\\\"。左起第二至第六列显示了VQGAN-CLIP所处理的图像。每个操作中使用的提示都是将食物名称和 \\\"与 \\\"一个配料名称结合起来。例如,第二列中的两幅图像分别是

    2024年02月16日
    浏览(31)
  • 【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    声明 不定期更新自己精度论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV、NLP 论文标题:SINE: SINgle Image Editing with Text-to-Image Diffusion Models 论文链接: https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00

    2024年02月13日
    浏览(37)
  • Text to image论文精读MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey

    由于信息在现实世界中以各种形式存在, 多模态信息之间的有效交互和融合对于计算机视觉和深度学习研究中多模态数据的创建和感知起着关键作用 。 近期 OpenAI 发布的 DALLE-2 和谷歌发布的 Imagen 等实现了令人惊叹的文字到图像的生成效果,引发了广泛关注并且衍生出了很多

    2024年02月04日
    浏览(36)
  • Voxel R-CNN:基于体素的高性能 3D 目标检测

    论文地址:https://arxiv.org/abs/2012.15712 论文代码:https://github.com/djiajunustc/Voxel-R-CNN 基于点的方法具有较高的检测精度,但基于点的方法通常效率较低,因为对于点集抽象来说,使用点表示来搜索最近邻的代价更高。 相比于基于点,更高效,基于体素的结构更适合于特征提取,

    2024年02月09日
    浏览(32)
  • LeetCode //2675. Array of Objects to Matrix (Day 19 of LC JavaScript Challenge)

    Write a function that converts an array of objects arr into a matrix m. arr is an array of objects or arrays. Each item in the array can be deeply nested with child arrays and child objects. It can also contain numbers, strings, booleans, and null values. The first row m should be the column names. If there is no nesting, the column names are the unique keys

    2024年02月06日
    浏览(32)
  • [论文阅读]Voxel R-CNN——迈向高性能基于体素的3D目标检测

    Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection 迈向高性能基于体素的3D目标检测 论文网址:Voxel R-CNN 论文代码:Voxel R-CNN 该论文提出了 Voxel R-CNN,这是一种基于体素的高性能 3D 对象检测框架。作者认为,原始点的精确定位对于准确的目标检测并不重要,粗体素粒度可

    2024年02月07日
    浏览(27)
  • Image Editing、3D Textured Mesh、Image Composition、SplattingAvatar

    本文首发于公众号:机器感知 Image Editing、3D Textured Mesh、Image Composition、SplattingAvatar An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control Building on the success of text-to-image diffusion models (DPMs), image editing is an important application to enable human interaction with AI-generated content. Among var

    2024年03月18日
    浏览(34)
  • 102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies

    官网  Nvidia2023提出的一种新的生成模型,可生成具有任意属性的高分辨率稀疏3D体素网格,以前馈方式生成数百万体素,最细有效分辨率高达 102 4 3 1024^3 102 4 3 ,而无需耗时的 test-time 优化,使用一种分层体素潜扩散模型,使用建立在高效VDB数据结构上的自定义框架,以从粗

    2024年02月03日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包