【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

这篇具有很好参考价值的文章主要介绍了【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

声明

不定期更新自己精度论文,通俗易懂,初级小白也可以理解

涉及范围:深度学习方向,包括 CV、NLP

论文标题:SINE: SINgle Image Editing with Text-to-Image Diffusion Models

论文链接:https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00d211f0efhttps://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00d211f0ef

论文代码:

发表时间:2022年12月

创新点

 1、提出了一种新型的模型引导方法,即基于无分类器引导的模型引导,使得在单个图像上训练的模型的知识可以被提炼到预训练扩散模型中,从而可以进行内容创作,即使只有一个给定的图像。

 2、提出了一种基于补丁的微调方法,可以有效地帮助模型生成任意分辨率的图像,从而解决了现有文本引导图像编辑工作中生成大分辨率图像时出现的问题。

Abstract

最近的扩散模型研究展示了在生成图像中进行条件控制的强大能力,例如文本引导图像合成。这种成功激励了许多尝试使用大规模预训练扩散模型解决一个具有挑战性的问题 - 实际图像编辑。

在这个领域进行的工作学习了一个唯一的文本标记,对应于包含相同对象的几个图像。然而,在许多情况下,只有一张图像可用,例如"戴珍珠耳环的女孩"的画作。使用现有的关于对单个图像进行微调的工作会导致严重的过拟合问题。预训练扩散模型中的信息泄漏使得编辑无法保持与给定图像相同的内容,同时又能根据语言引导创建新的特征。

本文旨在解决单图像编辑的问题。提出了一种基于无分类器引导的新型模型引导,使得在单个图像上训练的模型的知识可以被提炼到预训练扩散模型中,即使只有一个给定的图像,也可以进行内容创作。此外,提出了一种基于补丁的微调方法,可以有效地帮助模型生成任意分辨率的图像。我们提供了广泛的实验来验证我们方法的设计选择,并展示了有前途的编辑能力,包括风格转换、内容添加和对象操作。

Method 

【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models,学习笔记,论文笔记,论文阅读,深度学习,计算机视觉

 

Language-Guided Diffusion Models

该部分主要介绍了基于预训练扩散模型的模型引导方法,以及如何使用文本描述来控制模型生成编辑后的图像。

具体来说,给定一张 Source Image 和一个 Text Prompt,SINE 模型首先将 Source Image 输入到预训练扩散模型中,得到一个中间表示。然后,将 Text Prompt 与中间表示进行融合,得到一个新的中间表示。最后,将新的中间表示输入到扩散模型中,生成编辑后的图像。

此外,模型还使用样式向量来控制模型生成的图像风格。具体来说,利用一个预训练的样式提取器,将不同风格的图像映射到样式向量空间中。然后,可以通过文本描述来指定所需的风格,将样式向量与中间表示进行融合,从而控制模型生成的图像风格。

文中没有详细介绍预训练的样式提取器的网络结构,但是目前主流样式提取器结构分为两种,基于 CNN 或 GAN 网络的。

Model-Based Classifier-Free Guidance

介绍了 SINE 模型的两种微调方法,

(1)无监督的方式来微调预训练的扩散模型,以提高模型的编辑能力和生成质量。

在这种方法中,SINE 模型使用给定的 Source Image 和 Text Prompt,通过最小化重建误差来微调预训练的扩散模型。

首先,将编辑后的图像输入到扩散模型中,计算它们之间的重建误差;

然后将重建误差作为损失函数进行优化。

通过这种方式,可以提高扩散模型对 Source Image 的重建能力,从而提高模型的编辑效果。

(2)基于对比损失的无监督微调方法

在这种方法中,SINE 模型使用给定的 Source Image 和 Text Prompt,通过最小化对比损失来微调预训练的扩散模型。

首先,将编辑后的图像和 Source Image 输入到扩散模型中,计算它们之间的相似度,然后将相似度作为损失函数进行优化。通过这种方式,可以进一步提高模型的编辑能力和图像生成质量。

最后,使用多尺度训练和随机数据增强来进一步提高微调效果。可以在不同尺度下训练模型,并使用随机裁剪、随机旋转、随机翻转等数据增强技术来扩充训练集,从而提高模型的鲁棒性和泛化能力。

Patch-Based Fine-Tuning

SINE 模型的另一种微调方法,该方法主要是利用局部区域的特征来微调预训练的扩散模型,以提高模型的编辑能力和生成质量。

首先,将编辑后的图像和 Source Image 划分为多个大小相等的 Patch,

然后,将每个 Patch 输入到扩散模型中进行微调。

通过这种方式,可以使模型更加关注局部区域的细节,提高模型的编辑能力和生成质量。

然后还可以使用不同的微调策略来微调不同类型的 Patch。具体来说,可以根据 Patch 的语义信息和视觉特征来设计微调策略。

例如,对于包含目标对象的 Patch,可以使用基于重建误差的微调策略,以提高模型对目标对象的编辑能力;对于包含背景区域的 Patch,可以使用基于对比损失的微调策略,以提高模型生成背景区域的质量。

Experiments

(1)单图像编辑实验

实验目标:验证 SINE 模型在单图像编辑方面的性能

实验结果:SINE 模型能够通过文本描述来实现准确、灵活的单图像编辑。实验结果表明,在多个编辑任务中,SINE 模型的编辑成功率高于对比模型

 【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models,学习笔记,论文笔记,论文阅读,深度学习,计算机视觉 

(2)微调方法比较实验

实验目标:比较不同微调方法对SINE模型性能的影响

实验结果:两种微调方法 (Model-Based Classifier-Free Guidance 和 Patch-Based Fine-Tuning) 都能够显著提高SINE模型的性能,但 Patch-Based Fine-Tuning 方法能够进一步提高模型的生成质量和编辑能力。

【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models,学习笔记,论文笔记,论文阅读,深度学习,计算机视觉 文章来源地址https://www.toymoban.com/news/detail-642635.html

到了这里,关于【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

    论文连接: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models 论文代码: Code 摘要 Text-to-image diffusion 以文本嵌入作为输入能生成高质量的图像,这表明 diffusion model 的表征与高级语义概念高度关联。此外, CLIP 能够赋予图像准确地开集预测(即zero-shot 分类能力),因此

    2024年02月15日
    浏览(29)
  • Text-to-Image with Diffusion models的巅峰之作:深入解读​ DALL·E 2​

    Diffusion Models专栏文章汇总:入门与实战   前言: DALL·E 2、imagen、GLIDE是最著名的三个text-to-image的扩散模型,是diffusion models第一个火出圈的任务。这篇博客将会详细解读DALL·E 2《Hierarchical Text-Conditional Image Generation with CLIP Latents》的原理。 目录 背景知识:CLIP简介 方法概述

    2024年02月13日
    浏览(21)
  • Text to image论文精读MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey

    由于信息在现实世界中以各种形式存在, 多模态信息之间的有效交互和融合对于计算机视觉和深度学习研究中多模态数据的创建和感知起着关键作用 。 近期 OpenAI 发布的 DALLE-2 和谷歌发布的 Imagen 等实现了令人惊叹的文字到图像的生成效果,引发了广泛关注并且衍生出了很多

    2024年02月04日
    浏览(36)
  • AI绘画后面的论文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

    代码:lllyasviel/ControlNet: Let us control diffusion models! (github.com) 论文地址 最近AI绘画又双叒叕进化了,前一次还只能生成二次元,这次三次元都能生成了。这次AI绘画这么火爆的原因跟下面这篇文章脱不开关系,它将AI绘画带到了一个新的高度。 我们提出了一个神经网络结构cont

    2024年02月11日
    浏览(36)
  • 【论文阅读笔记】Emu Edit: Precise Image Editing via Recognition and Generation Tasks

    Emu edit是一篇 图像编辑Image Editing 的文章,和instruct pix2pix类似,选择了合成数据作为训练数据,不是zero-shot任务,并进一步将多种任务都整合为生成任务,从而提高模型的编辑能力。本篇文章的效果应该目前最好的,在local和global编辑甚至其他代理任务(分割、边缘检测等)

    2024年02月04日
    浏览(37)
  • 【论文精读】Hierarchical Text-Conditional Image Generation with CLIP Latents

    本篇工作即DALL·E2,是文生图领域和多模态领域具有轰动性的工作,其一出现就上了各大板块的热搜。DALL·E2生成的图像丰富且真实,很容易以假乱真。它的实现基于CLIP和扩散模型,前者结合丰富的图文语义,后者生成多样高质量图像,这套组合拳可谓实力十足。下面就来看

    2024年02月09日
    浏览(31)
  • 论文阅读:VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial

    论文标题是“ VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design ”,写不下了,是2023.7.31原vits团队刚刚挂在arxiv上的文章,主要基于四个方面对vits做了改动,此篇文章我们就不讲vits,主要分析vits2的部分。 单阶段文本到语音模型最近

    2024年02月07日
    浏览(36)
  • Adding Conditional Control to Text-to-Image Diffusion Models

    安全验证 - 知乎 知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以「让人们更好的分享知识、经验和见解,找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容,

    2024年02月06日
    浏览(58)
  • 文本-图像生成(Text-to-Image Generation)的评价指标介绍——CLIPScore、TISE

    论文标题:CLIPScore: A Reference-free Evaluation Metric for Image Captioning 这一篇是针对Image Caption领域的评价指标,但是有些基于条件的Diffusion模型也使用了这个评价指标来衡量文本和生成图像的匹配程度。 本文提出的CLIPScore(下文简称CLIPS)是不需要推理的评估指标,之前常见的基于

    2023年04月08日
    浏览(33)
  • 基于Huggingface完成text-to-image的文本生成图像实例(AIGC)--零基础

    AIGC指人工智能生成创造力(Artificial Intelligence Generated Creativity,AIGC),是一个涵盖多个领域的跨学科领域,它将人工智能和计算机科学与创造力和艺术结合起来,旨在通过算法生成具有创造力和艺术性的作品,例如图像、音乐、文本等。文本到图像转换就是其中一个重要的方

    2024年02月15日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包