diffusion model(十五) : IP-Adapter技术小结

这篇具有很好参考价值的文章主要介绍了diffusion model(十五) : IP-Adapter技术小结。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

info
paper https://arxiv.org/pdf/2308.06721.pdf
code https://github.com/tencent-ailab/IP-Adapter
org. Tencent AI Lab
个人博客地址 http://myhz0606.com/article/ip_adapter

1 Motivation

为了对文生图diffusion model进行特定概念的定制,常用LoRA[1]、textual inversion[2]等inference before fine-tune的方法。此类方法有一个弊端:每一个新的概念都需要重新训练一个权重,比较麻烦。那么,能不能有一个方法inference前无须微调,只需给一张reference image,就能将该图片的概念融入到生成过程中?这就是IP-adapter想要解决的问题。

2 Method

IP-adapterLoRA等工作类似,也是一个PEFT(parameter efficient fine-tuning)的方法。区别在于,一般LoRA等方法只须定制特定概念,训练数据只需少量(一般只需数十张)、高质量特定概念的图片。而IP-adapter希望diffusion model能够理解开放式的图片特征,并依此生成图片,故为了保证泛化性,需要在大量数据上进行训练。

2.1 模型架构

为了降低训练成本,作者引入了预训练的CLIP[3] image encoder来初步提取reference image的图片特征,随后接了一个Linear+layer norm层来调整特征的维度。随后设计了一个decoupled cross-attention 模块,将image feature融入到diffusion model的生成过程中。通过训练让diffusion model能够理解image prompt。(pipeline中只有 🔥的module更新权重,其它module freeze。)

diffusion model(十五) : IP-Adapter技术小结,diffusion model,diffusion model,stable diffusion,ip-adapter

2.2 decoupled cross-attention

decoupled cross-attention相比文生图的cross attention多了两个训练参数 W i k ′ , W i v ′ W_{i}^{k'},W_{i}^{v'} Wik,Wiv,起始阶段用text分支的 W i k , W i v W_{i}^{k},W_{i}^{v} Wik,Wiv进行初始化。(下标 i i i代表第 i i icross-attention)。

可以通过调整image embedding的权重 λ \lambda λ来决定image condition的影响程度。

diffusion model(十五) : IP-Adapter技术小结,diffusion model,diffusion model,stable diffusion,ip-adapter

2.3 模型训练

模型的训练数据采用LAION-2BCOYO-700M的子集,总计10M左右。训练目标和经典的diffusion model[4]一致。

L s i m p l e = E x 0 , ϵ , c t , c t , t ∣ ∣ ϵ − ϵ θ ( x t , c t , c i , t ) ∣ ∣ 2 . { \mathcal L } _ { \mathrm { s i m p l e } } = { \mathbb E } _ { { \boldsymbol { x } } _ { 0 } , \epsilon , c _ { t } , c _ { t } , t } \vert \vert \epsilon - \epsilon _ { \theta } ( { \boldsymbol { x } } _ { t } , c _ { t } , c _ { i } , t ) \vert \vert ^ { 2 } . Lsimple=Ex0,ϵ,ct,ct,t∣∣ϵϵθ(xt,ct,ci,t)2.

同样为了classifier-free guidance训练时随机drop condition。

3 Result

IP-Adapter的一大优势是他能结合其它condition tool。

diffusion model(十五) : IP-Adapter技术小结,diffusion model,diffusion model,stable diffusion,ip-adapter

下图展示了IP-Adapter和其它方法的对比结果

diffusion model(十五) : IP-Adapter技术小结,diffusion model,diffusion model,stable diffusion,ip-adapter

diffusion model(十五) : IP-Adapter技术小结,diffusion model,diffusion model,stable diffusion,ip-adapter

IP-adapter还能做instruction editing

diffusion model(十五) : IP-Adapter技术小结,diffusion model,diffusion model,stable diffusion,ip-adapter

(更多结果请见原论文)

4 summary

IP-Adapter能接受image作为prompt,实现inference without fine-tune的定制生成。虽然在单一概念比不上精心微调的LoRA等定制方法,但在一些精细化要求没那么高的场景,IP-Adapter是一个非常有用的工具。

Reference

[1] LoRA: Low-Rank Adaptation of Large Language Models

[2] An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

[3] Learning Transferable Visual Models From Natural Language Supervision

[4] Denoising Diffusion Probabilistic Models文章来源地址https://www.toymoban.com/news/detail-845454.html

到了这里,关于diffusion model(十五) : IP-Adapter技术小结的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 新一代“垫图”神器,IP-Adapter的完整应用解读

    导读 不用训练lora,一张图就能实现风格迁移,还支持多图多特征提取,同时强大的拓展能力还可接入动态prompt矩阵、controlnet等等,这就是IP-Adapter,一种全新的“垫图”方式,让你的AIGC之旅更加高效轻松。 都是“垫图”,谁能还原你心中的图 “垫图”这个概念大家肯定都不

    2024年02月20日
    浏览(47)
  • 关于IP-Adapter的十几个模型,到底是干啥用的?

    IP-Adapter的一系列模型在stable diffusion的实际应用中,越来越被频繁的使用到,用于“换脸”或者“保证角色的一致性”,但是很多朋友在安装或者使用别人的工作流的时候,经常会遇到各种各样的问题,同时因为资源在各种群里转来转去的,发现有很多个版本,所以有些时候

    2024年04月09日
    浏览(84)
  • IP-Adapter:文本兼容图像提示适配器,用于文本到图像扩散模型

    IP-Adapter这是一种有效且轻量级的适配器,用于实现预训练文本到图像扩散模型的图像提示功能。只有 22M 参数的 IP 适配器可以实现与微调图像提示模型相当甚至更好的性能。IP-Adapter 不仅可以推广到从同一基本模型微调的其他自定义模型,还可以推广到使用现有可控工具的可

    2024年01月18日
    浏览(47)
  • IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器

    IP-Adapter是图像提示适配器,用于预训练的文本到图像扩散模型,以实现使用图像提示生成图像的能力; IP-Adapter的关键设计是解耦的交叉注意力机制,将交叉注意力层分离为文本特征和图像特征,实现了图像提示的能力。 img2img使用unet架构,包括一个编码器(下采样)和一个

    2024年02月01日
    浏览(55)
  • 【AIGC】IP-Adapter:文本兼容图像提示适配器,用于文本到图像扩散模型

            IPAdapter能够通过图像给Stable Diffusion模型以内容提示,让其生成参考该图像画风,可以免去Lora的训练,达到参考画风人物的生成效果。         通过文本提示词生成的图像,往往需要设置复杂的提示词,通常设计提示词变得很复杂。文本提示可以由图像来替代

    2024年01月16日
    浏览(56)
  • diffusion model(五)stable diffusion底层原理(latent diffusion model, LDM)

    [论文地址] High-Resolution Image Synthesis with Latent Diffusion Models [github] https://github.com/compvis/latent-diffusion diffusion model(一)DDPM技术小结 (denoising diffusion probabilistic) diffusion model(二)—— DDIM技术小结 diffusion model(三)—— classifier guided diffusion model diffusion model(四)文生图diffusio

    2024年02月15日
    浏览(41)
  • Stable Diffusion背后原理(Latent Diffusion Models)

    2023年第一篇博客,大家新年好呀~ 这次来关注一下Stable Diffusion背后的原理,即 High-Resolution Image Synthesis with Latent Diffusion Models 这篇论文。 之前关注的那些工作只能工作到 256 × 256 256 times 256 256 × 256 像素(resize成这个后才输入模型),甚至更低。 然而这篇 Latent Diffusion Models 可以

    2024年01月18日
    浏览(36)
  • Latent Diffusion Models / Stable Diffusion(LDM)

    High-Resolution Image Synthesis with Latent Diffusion Models (CVPR 2022) https://arxiv.org/abs/2112.10752 latent-diffusion stable-diffusion cross-attention(用于多模态任务) Cross-attention vs Self-attention: Cross-attention的输入来自不同的序列,Self-attention的输入来自同序列,也就是所谓的输入不同,但是除此之外

    2024年02月21日
    浏览(46)
  • 十五)Stable Diffusion使用教程:另一个线稿出3D例子

    案例:黄金首饰出图 1)线稿,可以进行色阶加深,不易丢失细节; 2)文生图,精确材质、光泽、工艺(抛光、拉丝等)、形状(包括深度等,比如镂空)和渲染方式(3D、素描、线稿等)提示词,负面提示词; 3)seed调-1,让ai随机出图; 4)开启controlnet,上传线稿图,选择

    2024年02月07日
    浏览(41)
  • AI 绘画Stable Diffusion 研究(十五)SD Embedding详解

    大家好,我是风雨无阻。 本期内容: Embedding是什么? Embedding有什么作用? Embedding如何下载安装? 如何使用Embedding? 大家还记得 AI 绘画Stable Diffusion 研究(七) 一文读懂 Stable Diffusion 工作原理 这篇文章中,曾提到过词嵌入(Embedding)吗? 我们来简单回顾一下:Embedding 将输

    2024年02月11日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包