CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

这篇具有很好参考价值的文章主要介绍了CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

来源:投稿 作者:橡皮
编辑:学姐

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

论文链接:https://arxiv.org/abs/2303.13843

0.背景:

最近,文本到图像生成通过将视觉-语言预训练模型与扩散模型相结合,取得了巨大的成功。这些突破也使得强大的视觉-语言预训练模型在文本生成三维内容中产生了深远的影响。最近,几种文本生成3D的方法已经表明,将来自差分3D模型的渲染视图与来自预先训练的扩散模型的学习到的文本到图像分布相匹配,可以获得显著的结果。

然而,文本描述通常是用于期望的目标3D模型或2D图像的抽象规范。尽管拥有强大的扩散模型,例如stable diffusion,它已经在数十亿的文本图像对上进行了训练,但从文本中生成不同视点的几何相干图像仍然是一个挑战。

在给定包含多个对象的文本的情况下,扩散模型可能会产生不准确的结果,导致对象丢失或语义混乱,有时即使使用简单的多对象文本,稳定扩散也无法保持对象身份和几何一致性。这显然与NeRF中体积渲染的本质相矛盾,导致了障碍引导崩溃,尤其是在从多对象文本中渲染复杂场景时。

因此,这自然提出了一个问题:是否可以从3D场景生成的扩散模型的不可知分布中准确地学习和组合多对象文本中的所有概念。

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

1.主要贡献:

通过将可编辑的3D布局与多个局部NeRF集成,以精确关联特定结构的文本引导,来解决多物体3D场景生成中的引导崩溃问题

通过引入全局MLP来校准全局场景颜色和不同级别的文本引导,以在学习单个实体的全局一致性的同时保持对象的身份,从而解决全局一致性和遮挡问题。

全面评估了我们提出的方法在各种多对象场景中的有效性,展示了其以合成方式生成3D场景并提供灵活编辑功能的能力。

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

2.网络介绍: CompoNeRF

由三部分组成:

  1. 可编辑的3D场景布局通过3D框和文本提示配置场景表示;

  2. 场景渲染包括全局校准和合成过程;

  3. 联合优化将全局和局部文本指导应用于全局和局部渲染视图。

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

3.1方法细节:概述

上图展示了pipeline,由三个主要组件组成:包括基于多对象文本的可编辑3D场景布局(第3.3节),合成所有局部NeRF预测的场景渲染pipeline(第3.4节),以及局部和全局表示模型的联合优化(第3.5节),提出的可编辑3D场景布局通过将其分解为一组局部帧来表示场景的全局帧,其中每个局部帧由局部NeRF、3D边界框和相应的局部文本提示参数化。

例如,文本提示“一只泰迪熊和一只毛绒猴子并排坐着”被解释为是一个3D场景布局。整个3D布局,即场景帧,由两个3D边界框组成,即局部帧#1和#2,并带有特定的局部文本提示,即“泰迪熊”和“毛绒猴子”。

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

3.2方法细节:先验知识

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

生成噪声图像。然后,扩散模型φ预测采样噪声 

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

给定噪声图像 、噪声水平t和可选文本提示T。

特别是SDS根据预测噪声和添加噪声之间的差来计算梯度,

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

其中w(t)是加权函数。在所有渲染视图上生成的梯度方向用于更新θ,以生成与扩散先验下的条件文本提示相匹配的图像。我们还遵循SJC将扰动和平均评分应用于SDS过程。

3.3方法细节:可编辑3D场景布局

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

此外,如下图所示,3D场景布局中的每个组件都可以用其他经过训练的本地NeRF替换或重新合成,与仅使用文本提示相比,这对于灵活的用户版本更友好。

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

3.4方法细节:场景渲染pipeline

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

注意,首先使用局部帧的盒尺度将采样点的坐标投影到归一化坐标中,以使每个局部NeRF能够学习尺度无关的表示。全局坐标中局部框架的边界框b可以通过(b−p)/s转换为规范边界框。考虑到渲染效率,我们只计算有效点,与框进行交互,并将所有空点设置为恒定的背景色。

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

其中,δ是相邻采样点之间的距离。 对于每个局部NeRF  ,我们还通过,

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

事实上,与场景相比,每个局部帧只有少量的命中光线。尽管部分光线被跳过,但我们观察到,在保持较短渲染时间的同时,准确地表示每个对象就足够了。

3.5方法细节:联合优化

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

4.实验结果:

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

关注下方《学姐带你玩AI》🚀🚀🚀

回复“CVPR”获取顶会必读论文合集

码字不易,欢迎大家点赞评论收藏!文章来源地址https://www.toymoban.com/news/detail-483368.html

到了这里,关于CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [CVPR-23-Highlight] Magic3D: High-Resolution Text-to-3D Content Creation

    目录 Abstract Background: DreamFusion High-Resolution 3D Generation Coarse-to-fine Diffusion Priors Scene Models Coarse-to-fine Optimization NeRF optimization Mesh optimization Experiments Controllable 3D Generation Personalized text-to-3D Prompt-based editing through fine-tuning DreamFusion是目前基于文本的3D生成任务的主流方法,但它有两

    2024年02月13日
    浏览(47)
  • 51-32 CVPR’24 | 3DSFLabelling,通过伪自动标注增强 3D 场景流估计

    24 年 2 月,鉴智机器人、剑桥大学和上海交通大学联合发布CVPR\\\'24工作,3DSFLabelling: Boosting 3D Scene Flow Estimation by Pseudo Auto-labelling。 提出 3D 场景自动标注新框架,将 3D 点云打包成具有不同运动属性的 Boxes,通过优化每个 Box 运动参数并将源点云 Warp 扭曲到目标点云中,创建了

    2024年04月09日
    浏览(45)
  • 【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法...

    【CVPR 2023的AIGC应用汇总(5)】语义布局可控生成,基于diffusion扩散/GAN生成对抗 【CVPR 2023的AIGC应用汇总(4)】图像恢复,基于GAN生成对抗/diffusion扩散模型 【CVPR 2023的AIGC应用汇总(3)】GAN改进/可控生成的方法10篇 【CVPR 2023的AIGC应用汇总(2)】可控文生图,基于diffusion扩散模型/G

    2024年02月10日
    浏览(52)
  • 【计算机视觉中的 GAN 】 - 条件图像合成和 3D 对象生成(2)

            上文  【计算机视觉中的 GAN 】 或多或少是GANs,生成学习和计算机视觉的介绍。我们达到了在 128x128 图像中生成可区分图像特征的程度。但是,如果你真的想了解GAN在计算机视觉方面的进展,你肯定必须深入研究图像到图像的翻译。尽管这是第一个成功的模型,

    2024年02月15日
    浏览(52)
  • 界面控件DevExpress WinForms/WPF v23.2 - 富文本编辑器支持内容控件

    众所周知内容控件是交互式UI元素(文本字段、下拉列表、日期选择器),用于在屏幕上输入和管理信息。内容控件通常在模板/表单中使用,以标准化文档格式和简化数据输入。DevExpress文字处理产品库(Word Processing Document API、WinForm和WPF富文本编辑器)附带了内容控制支持(v23

    2024年04月15日
    浏览(51)
  • BMVC 23丨多模态CLIP:用于3D场景问答任务的对比视觉语言预训练

    来源:投稿 作者:橡皮 编辑:学姐 论文链接:https://arxiv.org/abs/2306.02329 训练模型将常识性语言知识和视觉概念从 2D 图像应用到 3D 场景理解是研究人员最近才开始探索的一个有前景的方向。然而,2D 提炼知识是否可以为下游 3D 视觉语言任务(例如 3D 问答)提供有用的表示仍

    2024年02月04日
    浏览(48)
  • 在 Qt 的文本编辑类中,document() 是一个成员函数,用于获取文档对象

    在 Qt 的文本编辑类中, document() 是一个成员函数,用于获取文档对象。它返回与文本编辑器关联的 QTextDocument 对象的指针。 QTextDocument 类是 Qt 中用于处理富文本内容的类。它包含了文本内容以及相关的格式、样式和布局信息。通过 document() 函数,可以获取到当前文本编辑器

    2024年02月04日
    浏览(43)
  • 23. Unity - 3D游戏开发小计02 --- 动画结束UI、导航网格代理、场景搭建插件(ProGrids,ProBuilder,Polybrush)

    1. 动画结束UI 一个游戏在通过后,都是需要一个界面显示当前游戏已经结束,即需要给游戏添加一个结束的界面,可以做一个简单的游戏结束界面,用一个图片展示: 首先在 层级窗口 添加两层UI中的Image,其中第一层的Image仅作背景,可将其填充颜色设置为纯黑色,第二层的

    2024年02月05日
    浏览(58)
  • 一行文本生成4D动态场景——Meta AI MAV3D论文解读

    论文链接:https://arxiv.org/pdf/2301.1128

    2024年02月12日
    浏览(40)
  • Unity3d C#实现场景编辑/运行模式下3D模型XYZ轴混合一键排序功能(含源码工程)

    在部分场景搭建中需要整齐摆放一些物品(如仓库中的货堆、货架等),因为有交互的操作在单个模型上,每次总是手动拖动模型操作起来也是繁琐和劳累。 在这背景下,我编写了一个在运行或者编辑状态下都可以进行一键排序模型的脚步。方便在场景搭建时,可以快速搭建

    2024年01月17日
    浏览(72)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包