[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models

这篇具有很好参考价值的文章主要介绍了[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion

使用引导扩散模型编辑真实图像的空文本反转

code links: https://null- textinversion.github.io/.

Abstract

在本文中,我们引入了一种精确的反演技术,从而方便了直观的基于文本的图像修改。

我们提出的反演包含两个新的关键组成部分:

  • (i)扩散模型的关键反演。我们为每个时间戳使用单个关键噪声向量,并围绕它进行优化。我们证明了直接反演本身是不够的,但确实为我们的优化提供了一个很好的锚定。
  • (ii)空文本优化,我们只修改用于无分类器引导的无条件文本嵌入,而不是输入文本嵌入。这允许保持模型权重和条件嵌入不变,因此可以应用基于提示的编辑,同时避免对模型权重进行繁琐的调优。

取得的效果: 在各种图像和提示编辑上进行了广泛的评估,显示了对真实图像的高保真编辑。

Introduction

在本文中,我们引入了一种有效的反演方案,实现了近乎完美的重构,同时保留了原始模型丰富的文本引导编辑能力(见图1)。我们的方法建立在对导扩散模型的两个关键方面的分析之上:无分类器制导和DDIM反演。

据我们所知,我们的方法是第一个在真实图像上启用Prompt-to-Prompt[16]文本编辑技术的方法。此外,与最近的方法不同[19,39],我们不调整模型权重,从而避免破坏训练模型的先验,并为每张图像复制整个模型。通过全面的消融研究和比较,我们展示了我们的关键组件对实现给定真实图像的高保真重建的贡献,同时允许有意义和直观的编辑能力。

Method

framework

[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion

  • 第一行:关键反转。我们首先对输入图像应用初始DDIM反演,估计扩散轨迹。 从最后一个潜在的z * T开始扩散过程会导致不满意的重建,因为潜在代码离原始轨迹越来越远。
  • 我们使用初始轨迹作为优化的枢轴,使扩散反向轨迹{* zt}T1更接近编码z * 0的原始图像。
  • 第二行:时间戳t的空文本优化。无分类器引导包括执行两次预测θ—使用文本条件嵌入和无条件使用空文本嵌入∅,然后,这些都是用w(中)的指导尺度外推的
  • 我们仅通过采用重建MSE损失(红色)来优化无条件嵌入∅t

使用我们的方法编辑真实图像。
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion

  • 我们首先对真实输入图像应用一个空文本反转,实现高保真重建。
  • 然后,应用各种基于提示符到提示符的文本编辑操作。
  • 可以看出,我们的反转方案在保持高可编辑性的同时提供了高保真度。参见附录C(图10)中的其他示例。

我们的方法基于两个主要的观察结果:

  • DDIM反演在应用无分类器引导时重构效果不理想,但为优化提供了良好的起点,使我们能够高效地实现高保真反演。
  • 其次,优化用于无分类器引导的无条件空嵌入,允许精确的重建,同时避免模型和条件嵌入的调整。

3.1 background and preliminaries

文本引导扩散模型旨在将随机噪声向量zt和文本条件P映射到一个输出图像z0,该输出image z0对应于给定的条件提示符。为了实现序列去噪,训练网络εθ对人工噪声进行预测,遵循目标:
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion
其中,[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion
是文本条件的嵌入。

在推断的时候:给定一个噪声向量zT,使用我们训练好的T步网络对噪声进行连续预测,从而逐步去除噪声。

采用the deterministic DDIM sampling [35]:
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion

扩散模型通常在图像像素空间中运行,其中z0是实数图像的样本。

我们使用流行和公开的稳定扩散模型[30],其中扩散前向过程应用于潜在图像编码z0 = E(x0),扩散后向过程x0 = D(z0)的末端使用图像解码器。

Classifier-free guidance.

更正式地说,设∅= ψ(“”)为空文本的嵌入值,设w为引导尺度参数,则无分类器引导预测定义为:
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion

DDIM inversion

ODE过程可以在小步骤的限制下进行反转:
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion
换句话说,扩散过程以相反的方向进行,即z0→zT而不是zT→z0,其中z0设置为给定实像的编码。

3.2 Pivotal Inversion

特别是,我们的目标是围绕一个关键噪声向量进行优化,这是一个很好的近似,因此允许更有效的反演。

我们把这个w = 1的初始DDIM反转作为我们的枢轴轨迹

我们的优化最大化了与原始图像的相似性,同时保持我们执行有意义的编辑的能力。
在实践中,我们按照扩散过程t = t→t = 1的顺序对每个时间戳t执行单独的优化,目的是尽可能接近初始轨迹z * t,…, z * 0:
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion

其中zt - 1为优化的中间结果。

3.3. Null-text optimization

我们利用了无分类器引导的关键特征-结果受到无条件预测的高度影响。因此,我们将默认的空文本嵌入替换为优化后的,叫做Null-text optimization。 即,对于每个输入图像,我们只优化无条件嵌入∅,初始化为空文本嵌入。模型和条件文本嵌入保持不变。
我们将优化单个无条件嵌入∅称为全局空文本优化。

对于每个时间步, 优化:
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion
更新规则:
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion

[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion

Experiments

[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion

  • 顶部:我们将我们的完整算法(绿线)与不同变体的性能进行比较,通过测量PSNR分数作为数量优化迭代的函数和运行时间(以分钟为单位)来评估重构质量。
  • 下:我们直观地展示了我们的完整算法经过200次迭代后的反演结果(在右边)与其他基线的比较。所有迭代的结果显示在附录B中(图13和14)。

[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion文章来源地址https://www.toymoban.com/news/detail-586838.html

到了这里,关于[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文笔记】3D Gaussian Splatting for Real-Time Radiance Field Rendering

    原文链接:https://arxiv.org/abs/2308.04079 网孔和点是最常见的3D场景表达,因其是显式的且适合基于GPU/CUDA的快速栅格化。神经辐射场(NeRF)则建立连续的场景表达便于优化,但渲染时的随机采样耗时且引入噪声。本文的方法结合了上述两种方法的优点:使用3D高斯表达和基于ti

    2024年02月04日
    浏览(43)
  • 论文笔记《3D Gaussian Splatting for Real-Time Radiance Field Rendering》

    项目地址 原论文 最近辐射场方法彻底改变了多图/视频场景捕获的新视角合成。然而取得高视觉质量仍需神经网络花费大量时间训练和渲染,同时最近较快的方法都无可避免地以质量为代价。对于无边界的完整场景(而不是孤立的对象)和 1080p 分辨率渲染,目前没有任何方法

    2024年02月09日
    浏览(43)
  • 【读论文】3D Gaussian Splatting for Real-Time Radiance Field Rendering

    What kind of thing is this article going to do (from the abstract and conclusion, try to summarize it in one sentence) To simultaneously satisfy the requirements of efficiency and quality, this article begins by establishing a foundation with sparse points using 3D Gaussian distributions to preserve desirable space. It then progresses to optimizing anisotrop

    2024年04月09日
    浏览(46)
  • 3D Gaussian Splatting for Real-Time Radiance Field Rendering(论文中代码复现)

    3D Gaussian Splatting for Real-Time Radiance Field Rendering https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/ 主要研究方法是使用3D高斯光点绘制(3D Gaussian Splatting)方法进行实时光辐射场渲染。该方法结合了3D高斯场表示和实时可微分渲染器,通过优化3D高斯场的属性和密度控制,实现了高质

    2024年02月03日
    浏览(49)
  • Training-Time-Friendly Network for Real-Time Object Detection 论文学习

    目前的目标检测器很少能做到快速训练、快速推理,并同时保持准确率。直觉上,推理越快的检测器应该训练也很快,但大多数的实时检测器反而需要更长的训练时间。准确率高的检测器大致可分为两类:推理时间久的的训练时间久的。 推理时间久的检测器一般依赖于复杂的

    2024年02月15日
    浏览(45)
  • 3D Gaussian Splatting for Real-Time Radiance Field Rendering论文中代码复现及排错过程

    graphdeco-inria/gaussian-splatting: Original reference implementation of “3D Gaussian Splatting for Real-Time Radiance Field Rendering” (github.com) 以下是最初电脑所安装的内容: Anaconda3 2022.10-Windows-x86_64 CUDA 电脑只支持11.6,所以装的是11.6版本。 使用git去克隆repository 尽管挂了梯子,但是还是需要多次刷

    2024年02月05日
    浏览(57)
  • Perceptual Loss(感知损失)&Perceptual Losses for Real-Time Style Transferand Super-Resolution论文解读

    由于传统的L1,L2 loss是针对于像素级的损失计算,且L2 loss与人眼感知的图像质量并不匹配,单一使用L1或L2 loss对于超分等任务来说恢复出来的图像往往细节表现都不好。 现在的研究中,L2 loss逐步被人眼感知loss所取代。人眼感知loss也被称为perceptual loss(感知损失),它与MSE(

    2023年04月20日
    浏览(52)
  • 【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

    作者:Ashutosh Pandey and DeLiang Wang 文末附文章地址及其开源代码地址         尽管使用 T-F 表示是最流行的方法,但它也有一些缺点。首先,这些方法通常忽略干净的相位信息,并使用噪声相位进行时域信号重建。         受成功实现用于序列建模的 TCNN 以及基于编解码

    2024年02月02日
    浏览(46)
  • 【论文阅读】Resource Allocation for Text Semantic Communications

    这是一篇关于语义通信中资源分配的论文。全文共5页,篇幅较短。 语义通信在传输可靠性方面有着天然优势,而其中的资源分配更是保证语义传输可靠性和通信效率的关键所在,但目前还没有研究者探索该领域。为了填补这一空白,我们研究了语义领域的频谱效率,并重新

    2024年02月03日
    浏览(50)
  • 论文笔记:AugGPT: Leveraging ChatGPT for Text Data Augmentation

    文本数据增强是克服许多自然语言处理(NLP)任务中样本量有限的挑战的有效策略。这一挑战在小样本学习场景中尤为突出,其中目标域中的数据通常更加稀缺且质量较低。缓解此类挑战的一种自然且广泛使用的策略是执行数据增强,以更好地捕获数据不变性并增加样本量。

    2024年02月11日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包