106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation

这篇具有很好参考价值的文章主要介绍了106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

简介

106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation,# 3D重建,3d

 很多工作在扩散先验中注入跨视图一致性,但仍然缺乏细粒度的视图一致性。论文提出的文本到3d的方法有效地减轻了漂浮物(由于密度过大)和完全空白空间(由于密度不足)的产生。

实现过程

106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation,# 3D重建,3d
 简单而言,论文工作是 Dreamfusion+Zero123

 使用两种不同的分数蒸馏进行监督:文本条件下的多视图扩散模型(维护文本的多视图一致性)和图像条件下的新视图扩散模型(维护视图之间的一致性)。

 对于3D表示,实现了threeststudio的隐式体积方法,该方法由多分辨率哈希网格和用于预测体素密度和RGB值的MLP网络组成

文本条件下的多视图扩散模型

106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation,# 3D重建,3d

 对一组相机姿势 c 进行采样,并渲染这些视图 x = g(φ, c),称之为参考视图,视图 x 的选择使它们彼此正交。对于每个视图,采样一个时间步长 t,并计算扩散过程 z t i z^i_t zti 的正演过程,给定文本 y 和NeRF渲染的带噪视图集 z t z_t zt,文本条件扩散模型 x ^ θ 1 ( z t ; y , c , t ) \hat{x}_{θ_1} (z_t;y, c, t) x^θ1(zt;y,c,t) 计算分数函数 w.rt 到 z t z_t zt,得到一个向高密度区域的更新方向。

 使用MVDream 的预训练模型作为多视图扩散模型

图像条件下的新视图扩散模型

106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation,# 3D重建,3d
 将其作为额外的监督来指导不同的视图,并确保细粒度的多视图一致性。在相机位姿 c j c_j cj渲染额外的视图 x j x_j xj ,计算表示从相机位置 i 到 j 的相对相机外部 c ( j → i ) c^{(j→i)} c(ji)。公式中,图像条件扩散模型以渲染图像 x j x_j xj 和相对相机外部 c ( j → i ) c^{(j→i)} c(ji)作为条件。从均匀分布中抽样 t 。训练模型计算新视图 z t i z^i_t zti 的分数函数,记为 x ^ θ 2 ( z t i ; x j , c ( j → i ) , t ) \hat{x}_{\theta_2}(z^i_t;x^j,c^{(j\rightarrow i)},t) x^θ2(zti;xj,c(ji),t)

 使用Zero-1-to-3 提供的Zero123-xl作为图像条件扩散模型

score distillation

 总的分数函数如下:
106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation,# 3D重建,3d
 式中 λ t λ_t λt λ i λ_i λi 分别为文本扩散模型和图像扩散模型的比例因子

实验

 在视图选择方面,首先随机选择视场(fov)在[15,60]和高度在[0,30]之间的摄像机,用于多视图扩散模型,相机距离设置为物体大小(0.5)乘以NDC焦距和一个随机缩放因子,范围为[0.8,1.0],从上述集合中随机选择视图作为新视图扩散模型的参考视图。对于每个参考视图,在应用新的视图图像条件扩散模型之前,选择一个具有相同视场和海拔在[- 30,80]之间的额外随机摄像机。对于多视图模型和新视图模型,批处理大小分别从8和12开始,然后在5000次迭代后减少到4和4

 3D模型使用AdamW 优化器优化10000步。哈希网格和MLP组件的学习率分别设置为0.01和0.001。应用分数蒸馏采样,在前8000步中,最大和最小时间步分别从0.98减少到0.5和0.02。损失尺度因子λt和λi均设为1.0。渲染分辨率从64×64开始,在5000步之后增加到256×256。多视角模型和新视角模型的指导尺度分别为50.0和3.0。

106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation,# 3D重建,3d
106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation,# 3D重建,3d
106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation,# 3D重建,3d文章来源地址https://www.toymoban.com/news/detail-796181.html

到了这里,关于106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    声明 不定期更新自己精度论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV、NLP 论文标题:SINE: SINgle Image Editing with Text-to-Image Diffusion Models 论文链接: https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00

    2024年02月13日
    浏览(55)
  • Adding Conditional Control to Text-to-Image Diffusion Models

    安全验证 - 知乎 知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以「让人们更好的分享知识、经验和见解,找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容,

    2024年02月06日
    浏览(68)
  • 条件控制生成——diffusion模型——Adding Conditional Control to Text-to-Image Diffusion Models

      在之前的扩散模型介绍中,入门-1,主要考虑的是无条件下的图片生成,涉及到的问题主要是如何保证图片的质量,这个过程需要考虑很多的参数项,参数设定的不同会对图片的质量和多样性产生很大的影响。    能够让diffusion模型在工业界中大放异彩的模型,比如条件

    2024年02月16日
    浏览(44)
  • Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】

    本文发表于CVPR 2023 论文地址:CVPR 2023 Open Access Repository (thecvf.com) Github官方代码地址: github.com 最近的文本到图像模型能够根据文本提示生成高质量的图像,可以覆盖广泛的物体、风格和场景。尽管这些模型具有多样的通用功能,但用户通常希望从他们自己的个人生活中综合

    2024年01月22日
    浏览(47)
  • Adding Conditional Control to Text-to-Image Diffusion Models——【论文笔记】

    本文发表于ICCV2023  论文地址:ICCV 2023 Open Access Repository (thecvf.com) 官方实现代码:lllyasviel/ControlNet: Let us control diffusion models! (github.com)  论文提出了一种神经网络架构ControlNet,可以将空间条件控制添加到大型的预训练文本到图像扩散模型中。ControlNet将预训练好的大型扩散模型

    2024年02月01日
    浏览(41)
  • AI作画:十分钟快速搭建自己的text-to-image diffusion models

    Diffusion Models专栏文章汇总:入门与实战 前言: 最近AI作画彻底火出圈,diffusion models的研究者也越来越多,就连搞推荐算法、搞目标检测的同学都来问我扩散模型的事情。这篇博客作为一个科普博客,手把手教大家如何用十分钟搭建一个属于自己的text-to-image stable diffusion mo

    2024年02月12日
    浏览(52)
  • Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

    论文连接: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models 论文代码: Code 摘要 Text-to-image diffusion 以文本嵌入作为输入能生成高质量的图像,这表明 diffusion model 的表征与高级语义概念高度关联。此外, CLIP 能够赋予图像准确地开集预测(即zero-shot 分类能力),因此

    2024年02月15日
    浏览(41)
  • 论文翻译:Text-based Image Editing for Food Images with CLIP

    图1:通过文本对食品图像进行处理的结果示例。最左边一栏显示的是原始输入图像。\\\"Chahan\\\"(日语中的炒饭)和 \\\"蒸饭\\\"。左起第二至第六列显示了VQGAN-CLIP所处理的图像。每个操作中使用的提示都是将食物名称和 \\\"与 \\\"一个配料名称结合起来。例如,第二列中的两幅图像分别是

    2024年02月16日
    浏览(48)
  • 【论文笔记】Globally and Locally Consistent Image Completion

    发表年份: 2017 原文链接: Globally and Locally Consistent Image Completion 参考代码: 暂无 提出了一种基于卷积神经网络的图像补全方法,能够生成全局与局部一致的补全图像。 采用了全卷积神经网络(fully-convolutional neural network),可以通过填补任意形状的缺失区域,补全任意分辨

    2024年02月01日
    浏览(44)
  • Text-to-Image with Diffusion models的巅峰之作:深入解读​ DALL·E 2​

    Diffusion Models专栏文章汇总:入门与实战   前言: DALL·E 2、imagen、GLIDE是最著名的三个text-to-image的扩散模型,是diffusion models第一个火出圈的任务。这篇博客将会详细解读DALL·E 2《Hierarchical Text-Conditional Image Generation with CLIP Latents》的原理。 目录 背景知识:CLIP简介 方法概述

    2024年02月13日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包