3D 生成重建004-DreamFusion and SJC :TEXT-TO-3D USING 2D DIFFUSION

这篇具有很好参考价值的文章主要介绍了3D 生成重建004-DreamFusion and SJC :TEXT-TO-3D USING 2D DIFFUSION。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

3D 生成重建004-DreamFusion and SJC :TEXT-TO-3D USING 2D DIFFUSION


0 论文工作

对于生成任务,我们是需要有一个数据样本,让模型去学习数据分布 p ( x ) p(x) p(x),但是对于3d的生成来说,有两个挑战:1)一个完善的很大的3d数据数据集,对比2d的扩散模型是一个几亿的图像文本对上训练的,对于3d需要更大体量的数据;2)计算量,纯3d生成的策略相比2d计算度复杂度指数增加。所以前面的3d任务都是向办法,将3d监督转换成2d监督进行,减少数据和计算的问题。当然也有基于合成数据集做3d生成的,但是其中也存在一些其他问题。随着对比学习和transformer的进步,CLIP模型第一个比较理想的双模态大模型,打通了文本和图像之间的关系。研究者将模型引入到生成任务中去辅助3d的生成,主要路线是让不同视角的视图的相似度和文本保持一个较高的相似度Janus problem 多面的问题开始出现。
在3D mesh重建002-text2meshCVPR2022将CLIP跨圈到mesh风格的生成中已经介绍过从CLIP中提取信息的方法。
3D 生成重建004-DreamFusion and SJC :TEXT-TO-3D USING 2D DIFFUSION,三维重建,3d,DreamFusion
问题的根源是2d数据中虽然隐含了丰富的3d知识,但是是有偏见的,互联网用户显然更加钟爱‘face’,在物体的生成中这个问题的确不明显,因为对于一般的物体不涉及正面还是反面问题。为了解决多面问题,研究者进行过很多探索,主要的解决思路还是两条,一个形状先验,借助形状的引导去环节这个问题,另外一个就是3D经验。前面的zero123,sparseFusion和HOLOdiffusion整体都是基于这个思路,后续单独整理,当然形状本身就是3d,只不过在使用形式上不同。
基于CLIP模型,stable diffusion、DALLE2 和IMAGEN这些文生图模型快速发展。相比于CLIP,扩散模型的文生图在图像和文本之间引入了更加紧密的关联,约束性更强。
论文dreamFusion最早通过蒸馏2d扩散模型中的信息进行文生3d的任务,随后SJC在前者的基础上进行了更详细的公式推导。
参考
3D mesh重建002-text2meshCVPR2022将CLIP跨圈到mesh风格的生成
dreaamFusion
SJC

1 论文方法

1.1论文方法

对于文生3d这样一个问题,作者采用一个随机初始化的nerf来表示一个三维物体,然后将物体渲染到图像空间,对图像加噪,放入到扩散模型,预测噪声。用预测噪声减去添加噪声作为更新方向。在代码实现过程中会用到一些前后左右上下view等关键词进行约束。
3D 生成重建004-DreamFusion and SJC :TEXT-TO-3D USING 2D DIFFUSION,三维重建,3d,DreamFusion

  上面的图是dreamfusion的整体过程。重点分析后面的实现部分。
  因为一般训练好的扩散模型在使用的过程中是直接输入文本从纯噪声中逐步回复过去,在测试阶段是没有加噪这个步骤的这里为什么是预测噪声减去添加的噪声作为梯度呢。目前的理解是这样预测图像减去输入加噪的图像是梯度二者一减就变成预测噪声-加入噪声了。但是这个地方实际存在一个小小的问题就是,默认要保证nerf的图像和加噪后的图像要保持一个相同的分布,他的梯度才有效引导,但是这里的采样实际加噪是随机的,不太能保证他们的分布吧,可能还需要细看看其中的细节。(ps理解有限)
  这里添加噪声,一个SJC的解释是out of distribution,OOD问题,因为nerf渲染的结果可能不满足预定分布还是什么,这个意思约等于为什么不是图像直接监督,另外一点就是在整体的不断迭代中增加nerf的整体性,因为我们在网络中也**设置了很高的CFG去引导扩散模型生成高确定性的内容。**实际上这个部分也可考虑从得分函数的角度理解,添加噪声就是基于score matching的考量。
参考
NeRF

1.2 CFG

  参考扩散模型基础,因为在条件生成中需要平衡条件和源得分之间的平衡,当这个系数比较小的时候,条件的影响力会降低,生成多样性较好,但是质量受影响。但是增加CFG生成的确定性增加,但是多样性受损。
在文生图的时候一般这个系数是0-10,但是在文生3d的时候设置成了100左右,就是让模型生成高度一致的内容,来保持一致性。但是只用这种方法很受限,所有论文也是用了基于nerf表示的很多次优化,来促进整体的一致性。
论文中使用的是这个形式的损失
3D 生成重建004-DreamFusion and SJC :TEXT-TO-3D USING 2D DIFFUSION,三维重建,3d,DreamFusion
但是在附录中推理他其实也是一种得分函数的形式
3D 生成重建004-DreamFusion and SJC :TEXT-TO-3D USING 2D DIFFUSION,三维重建,3d,DreamFusion
3D 生成重建004-DreamFusion and SJC :TEXT-TO-3D USING 2D DIFFUSION,三维重建,3d,DreamFusion
classifier guided diffusion3D 生成重建004-DreamFusion and SJC :TEXT-TO-3D USING 2D DIFFUSION,三维重建,3d,DreamFusion
当用一个条件去限制的时候能保证我们在一个更小的区间内进行采样。里面包含一个得分项,和一个分类项,分类项需要一直跟着扩散模型进行训练,识别不同噪声状态下的图像。相关的于要训练两个扩散模型。
基于以上一些问题,有一种CFG方法讲他们合并成一个复杂的得分函数。通过系数去控制条件得分和无条件得分之间的状态。这个系数就是dreamfusion中设置为100的系数。在stable diffusion的文生图中一般设置是3-10之间。这个系数过高就是过饱和的主要原因,之所以这么设置,是作者希望在生成的一致性和过饱和之间做个平衡。
3D 生成重建004-DreamFusion and SJC :TEXT-TO-3D USING 2D DIFFUSION,三维重建,3d,DreamFusion上面的两部分基本上是后面的条件生成的基础,比如GLIDE,stable diffusion和controlnet等。

1.3影响

这是一个影响力很强的论文,在讨论部分作者提出了一些未来的看法。这就是发生在差不多半年左右的事情。
1)过饱和跟CFG有关,后面的ProlificDreamer在这个基础上做了推广,一定程度缓解这个问题
2)这项将2D观测结果“提升”到3D世界的任务本质上是模糊的,并可能受益于更健壮的3D先验。实际上就是一致性的问题,后面的3dfuse ,zero123,sparseFusion,holodiffuion等等工作都围绕这一点。
3)论文在附录里面证明了这也是一种得分函数形式,SJC进一步推理验证优化部分细节。
4)提到分辨率问题,后面有magic3d跟进
5)后续从2d扩散模型去蒸馏信息进行3d任务的算法层出不穷,整体上都是受到这篇论文的启发。

1.4 SJC

虽然dreamFusion效果很好但是当时并不开源,SJC在他的基础上直接基于得分函数论证了OOD问题,为什么不直接输入渲染图像进入扩散模型去降噪,然后提出一个扰动平均得分,通过几个点的优化方向的均值作为整体方向。

2 效果

dreamfusion文章来源地址https://www.toymoban.com/news/detail-733871.html

到了这里,关于3D 生成重建004-DreamFusion and SJC :TEXT-TO-3D USING 2D DIFFUSION的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Text-to-3D 任务论文笔记: Latent NeRF

    论文链接: https://arxiv.org/pdf/2211.07600.pdf 这篇文章做的task可以简单分为三个: 直接用文本生成3D; 用一个所谓的Sketch-Shape,让用户定义基础形状,然后加上文本,共同去引导生成3D;(Latent-NeRF主体) 用户给定mesh,可以给uv参数,也可以不给,然后引导latent-NeRF去给这个Me

    2024年02月10日
    浏览(34)
  • 106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation

     很多工作在扩散先验中注入跨视图一致性,但仍然缺乏细粒度的视图一致性。论文提出的文本到3d的方法有效地减轻了漂浮物(由于密度过大)和完全空白空间(由于密度不足)的产生。  简单而言,论文工作是 Dreamfusion+Zero123 。  使用两种不同的分数蒸馏进行监督:文本条件下

    2024年01月17日
    浏览(34)
  • 85、Magic3D: High-Resolution Text-to-3D Content Creation

    主页:https://research.nvidia.com/labs/dir/magic3d/ DreamFusion 实现了文本指导2D扩散模型生成3D场景,但是其有以下两个缺点: 对NeRF的优化极其缓慢; 对NeRF的图像空间监督分辨率低,导致3D模型质量低,处理时间长 论文为此提出两阶段优化框架 使用低分辨率扩散先验和稀疏三维哈希网

    2024年02月11日
    浏览(27)
  • [综述] Generative AI meets 3D: A Survey on Text-to-3D in AIGC Era

    论文| 改文章是23年5月27日挂在arxiv上,本文重点关注4.1节Text Guided 3D Avatar Generation、4.4节Text Guided 3D Shape Transformation和第5章Discussion DreamAvatar DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models https://arxiv.org/abs/2304.00916生成姿态可控的高质量3D人体avatar,包含以下几

    2024年02月16日
    浏览(37)
  • [CVPR-23-Highlight] Magic3D: High-Resolution Text-to-3D Content Creation

    目录 Abstract Background: DreamFusion High-Resolution 3D Generation Coarse-to-fine Diffusion Priors Scene Models Coarse-to-fine Optimization NeRF optimization Mesh optimization Experiments Controllable 3D Generation Personalized text-to-3D Prompt-based editing through fine-tuning DreamFusion是目前基于文本的3D生成任务的主流方法,但它有两

    2024年02月13日
    浏览(31)
  • 新出炉!谷歌AI #DreamFusion 从文本生成3D模型

    文本生成图像已有了大量模型工具,文本生成3D模型的工具到是很少见。 # 我记得有一期推文介绍了文本生成数字人模型吧,现在有能生成通用3D模型的工具了? 近期谷歌AI 发布了文本生成3D模型— Dreamfusion # 赶紧去体验下有多神奇~ DreamFusion Dreamfusion  是 Google 的大型AI图像

    2023年04月08日
    浏览(61)
  • How to parse OR AND within text

    假设你有一行 String condition = \\\"A or B and C\\\"; 语句,请问怎么做才能变成一行真正的逻辑表达式(能在计算机中运行计算)? 声明一个 ListListString 结构; 先分割 or ; 变成 [ A, B and C ] 不包含and的,插入 ListListString 结构; ListListString .add( [A] ) 声明一个 ListString , 再分割 and; ListStrin

    2024年02月08日
    浏览(25)
  • 【3D生成与重建】SSDNeRF:单阶段Diffusion NeRF的三维生成和重建

    题目 :Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and Reconstruction 论文 :https://arxiv.org/pdf/2304.06714.pdf 任务 :无条件3D生成(如从噪音中,生成不同的车等)、单视图3D生成 机构 :Hansheng Chen,1,* Jiatao Gu,2 Anpei Chen, 同济、苹果、加利福尼亚大学 代码 :https://github.com/Lakon

    2024年02月02日
    浏览(32)
  • 更好的 3D 网格,从重建到生成式 AI

        推荐:使用 NSDT场景编辑器 助你快速搭建可二次编辑的3D应用场景   这些生成的 3D 模型通常提取为标准三角形网格。网格表示提供了许多好处,包括支持现有软件包、高级硬件加速和支持物理仿真。但是,并非所有网格都是平等的,这些优势只能在高质量网格上实现。

    2024年02月12日
    浏览(24)
  • [23] Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion

    本文提出一种3D-to-3D转换方法:Instruct 3D-to-3D; 借助预训练的Image-to-Image扩散模型,本文方法可以使各个视角图片的似然最大;本文方法显式地将source 3D场景作为condition,可以有效提升3D连续性和可控性。 同时,本文还提出dynamic scaling,使得几何变换的强度是可调整的。 目录

    2024年02月13日
    浏览(20)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包