IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器

这篇具有很好参考价值的文章主要介绍了IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


一、IP-Adapter简介

  1. IP-Adapter是图像提示适配器,用于预训练的文本到图像扩散模型,以实现使用图像提示生成图像的能力;
  2. IP-Adapter的关键设计是解耦的交叉注意力机制,将交叉注意力层分离为文本特征和图像特征,实现了图像提示的能力。

二、IP-Adapter与img2img的区分

(一)结构上的区别

  • img2img使用unet架构,包括一个编码器(下采样)和一个解码器(上采样)
  • IP-Adapter包括一个图像编码器和包含解耦交叉注意力机制的适配器

(二)流程上的区别

  • img2img通过编码/解码器,需要通过一系列上采样、下采样
  • IP-Adapter通过图像编码器,文本提示和图像特征通过适配模块与预训练的文本到图像模型进行交互

(三)输出上的区别

现在给出prompt要求在图1一个男人的基础上加上参考图2:
IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器,AIGC阅读学习,计算机视觉,AIGC,算法,人工智能

  • img2img是输出一个转换后的图像:相当于直接盖在参考图上开始临摹,画出一些强行混合不知所谓的图来。IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器,AIGC阅读学习,计算机视觉,AIGC,算法,人工智能
  • IP-Adapter是根据文本和图像提示生成的图片:IP-Adapter则不是临摹,而是真正的自己去画,将参考图与原图荣威一体
    IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器,AIGC阅读学习,计算机视觉,AIGC,算法,人工智能

(四)原理上的区别

  1. stable diffustion是扩散模型,它的核心作用机制就是对噪音的处理,prompt可以看做是我们的目标,通过不断的去噪过程,向着目标越来越靠近,最终生成出预期的图片。
    IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器,AIGC阅读学习,计算机视觉,AIGC,算法,人工智能

  2. IP-Adapter将图片单独提出作为一种提示特征,相比SD模型把图像特征和文本特征抽取后拼接在一起的方法,IP-Adapter通过带有解耦交叉注意力的适配模块,将文本特征的Cross-Attention 和图像特征的Cross-Attention区分开来,在Unet的模块中新增了一路Cross-Attention模块,用于引入图像特征。

  3. img2img是直接将参考图传入unet,去替换了原始的随机噪音,这样所有的生成结果都是建立在它的基础上,于是有了前面人和老虎混杂的现象就比较好理解了。
    IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器,AIGC阅读学习,计算机视觉,AIGC,算法,人工智能

三、IP-Adapter的网络架构

  1. 当前adapter很难达到微调图像提示模型或从头训练的模型性能,主要原因是图像特征无法有效的嵌入预训练模型中。大多数方法只是将拼接的特征输入到冻结的cross-attention中,阻止了扩散模型捕捉图像图像提示的细粒度特征。
  2. 为了解决这个问题,我们提出了一种解耦交叉注意力策略,即通过新添加的交叉注意力层嵌入图像特征。提议的IP-adapter包含两个部分:
    • 图像编码器用于从图像提示中提取图像特征;
    • 具有解耦的cross-attention的适配模块,用于将图像特征嵌入预训练的文本到图像扩散模型中。
      IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器,AIGC阅读学习,计算机视觉,AIGC,算法,人工智能

(一)图像编码器

  1. 与大多数方法一样,我们使用预训练好的 CLIP 图像编码器模型从图像提示中提取图像特征;
  2. 我们利用 CLIP 图像编码器中的全局图像嵌入,它与图像字幕非常吻合,能代表图像的丰富内容和风格;
  3. 在训练阶段,CLIP 图像编码器被冻结。

(二)解耦交叉注意力

图像特征由具有解耦交叉注意力的适配模块集成到预训练的UNet模型中。
IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器,AIGC阅读学习,计算机视觉,AIGC,算法,人工智能把文本特征和图像特征分开cross-attention再相加,之前的想法大多数先将图像特征和文本特征拼接后再cross。

(三)训练和推理

  1. 在训练过程中,我们只对 IP 适配器进行优化,同时保持预训练扩散模型的参数不变,训练目标与原始 SD 相同:
    IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器,AIGC阅读学习,计算机视觉,AIGC,算法,人工智能
  2. 我们还在训练阶段随机放弃图像条件,以便在推理阶段实现无分类器指导:
    IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器,AIGC阅读学习,计算机视觉,AIGC,算法,人工智能
  3. 如果丢弃了图像条件,可以将clip图像embedding归0。由于文本cross-attention和图像cross-attention是分离的,在推理阶段还可以调整图像条件的权重:
    IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器,AIGC阅读学习,计算机视觉,AIGC,算法,人工智能

参考:
图像作为prompt#IP-Adapter
新一代“垫图”神器,IP-Adapter的完整应用解读
IP-Adapter:text compatible image prompt adapter for text-to-image diffusion models
IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器文章来源地址https://www.toymoban.com/news/detail-789802.html

到了这里,关于IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Tune-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning

    Project:https://tuneavideo.github.io 原文链接:Tnue-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning (by 小样本视觉与智能前沿) 目录 为了复制文本到图像(T2I)生成的成功,最近的工作使用大规模视频数据集来训练文本到视频(T2V)生成器。尽管他们的结果很有希望,但这种

    2024年01月15日
    浏览(49)
  • 【转绘】IP-Adapter 画风重绘

     其他方法参考: 【商业案例】tile 转绘-CSDN博客 模型下载地址: https://huggingface.co/lllyasviel/sd_control_collection/tree/7cf256327b341fedc82e00b0d7fb5481ad693210 https://huggingface.co/lllyasviel/sd_control_collection/tree/7cf256327b341fedc82e00b0d7fb5481ad693210 模型存放目录: sd-webui-akimodelsControlNet 单独使用IP-A

    2024年02月01日
    浏览(48)
  • diffusion model(十五) : IP-Adapter技术小结

    info paper https://arxiv.org/pdf/2308.06721.pdf code https://github.com/tencent-ailab/IP-Adapter org. Tencent AI Lab 个人博客地址 http://myhz0606.com/article/ip_adapter 为了对文生图 diffusion model 进行特定概念的定制,常用 LoRA [1]、 textual inversion [2]等inference before fine-tune的方法。此类方法有一个弊端:每一个新

    2024年04月09日
    浏览(52)
  • webUI下使用IP-adapter的简要说明

    IP-adapter是一个最近比较火的模型,但是在webUI下使用,经常会报各种各样的错误,这里简单讲一下模型匹配问题的处理方式,希望对你有帮助。 错误案例说明: 比如说选择了sdxl的模型,并且选择了ip-adapter_clip_sdxl_plus_vith预处理器后,模型选择ip-adapter_xl [4209e9f7], 可能会遇到

    2024年04月12日
    浏览(59)
  • 新一代“垫图”神器,IP-Adapter的完整应用解读

    导读 不用训练lora,一张图就能实现风格迁移,还支持多图多特征提取,同时强大的拓展能力还可接入动态prompt矩阵、controlnet等等,这就是IP-Adapter,一种全新的“垫图”方式,让你的AIGC之旅更加高效轻松。 都是“垫图”,谁能还原你心中的图 “垫图”这个概念大家肯定都不

    2024年02月20日
    浏览(49)
  • Stable Diffusion使用ControlNet:IP-Adapter实现图片风格迁移

    IP-Adapter 全称是 Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models(文本到图像扩散模型的文本兼容图像提示适配器),是腾讯研究院出品的一个新的ControlNet模型,旨在使预训练的文本到图像扩散模型能够生成具有图像提示的图像。 IP-Adapter是一种有效的轻量级适配器,

    2024年04月28日
    浏览(59)
  • [Stable Diffusion]ip-adapter:SD也可以垫图了,一张图复刻lora效果

    Controlnet更新的v1.1.4版本新预处理ip-adapter,这项新能力简直让stablediffusion的实用性再上一个台阶。这些更新将改变sd的使用流程。   ip-adapter是腾讯Ai工作室发布的一个controlnet模型,可以通过stable diffusion的webui使用,这个新的功能简单来说,他可以识别参考图的艺术风格和内容

    2024年02月04日
    浏览(51)
  • 扩散模型实战(十):Stable Diffusion文本条件生成图像大模型

     扩散模型实战(一):基本原理介绍 扩散模型实战(二):扩散模型的发展 扩散模型实战(三):扩散模型的应用 扩散模型实战(四):从零构建扩散模型 扩散模型实战(五):采样过程 扩散模型实战(六):Diffusers DDPM初探 扩散模型实战(七):Diffusers蝴蝶图像生成实

    2024年02月03日
    浏览(61)
  • 【AIGC】手把手使用扩散模型从文本生成图像

    在这篇文章中,我们将手把手展示如何使用Hugging Face的diffusers包通过文本生成图像。 DALLE2是收费的,用户只有一些免费的额度,如果免费额度使用完毕就需要付费了,所以必须寻找替代方案,并发现了Hugging Face,他们发布了一个扩散模型的包diffusers ,可以让我们直接使用。

    2024年02月09日
    浏览(61)
  • 扩散模型diffusion model用于图像恢复任务详细原理 (去雨,去雾等皆可),附实现代码

    话不多说,先上代码: 扩散模型diffusion model用于图像恢复完整可运行代码,附详细实验操作流程 令外一篇简化超分扩散模型SR3来实现图像恢复的博客见: 超分扩散模型 SR3 可以做图像去雨、去雾等恢复任务吗? 1. 去噪扩散概率模型 扩散模型是一类生成模型, 和生成对抗网络

    2024年02月03日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包