CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版

这篇具有很好参考价值的文章主要介绍了CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

可控文生图/定制化文生图

1、DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

DreamBooth是一种新的文本到图像扩散模型的“个性化”方法。给定一个主题的几张图像作为输入,对预训练的文本到图像模型进行微调,使其学会将一个唯一标识符(identifier)绑定到特定的主题。一旦主题被嵌入到模型的输出域中,唯一的标识符就可以用来生成不同场景下关于主题的新颖逼真图像。通过利用模型中嵌入的语义先验和一种类特定先验保留损失,能够在参考图像中没有出现的不同场景、姿势、视图和光照条件下合成主题。
在保留主题关键特征的同时,应用于主题重新背景化、文本引导的视图合成和艺术渲染等任务。此外,研究者还为这个新的主题驱动生成任务提供了一个新的数据集和评估协议。
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画

项目页面:https://dreambooth.github.io/
代码地址:https://github.com/google/dreambooth
论文地址:https://arxiv.org/abs/2208.12242

2、Multi-Concept Customization of Text-to-Image Diffusion

大规模的文本到图像扩散模型可以生成高保真图像。模型通常是根据大量互联网数据进行训练的,这些数据通常包含受版权保护的材料、许可图像和个人照片。此外,它们被发现可以复制各种艺术家的风格或记住准确的训练样本。如何在不从头开始重新训练模型的情况下删除此类受版权保护的概念或图像?
为了实现这一目标,提出了一种在预训练模型中消除概念的有效方法,即防止目标概念的生成。算法将希望消融的目标样式、实例或文本提示的图像分布与锚概念对应的分布相匹配。这可以防止模型在给定文本条件的情况下生成目标概念。大量实验表明,方法可以成功地防止消除概念的产生,同时在模型中保留密切相关的概念。
提出自定义扩散,只需要优化文本到图像调节机制中的几个参数就足以表示新概念,同时实现快速调整(6min)可以针对多个概念进行联合训练,获通过闭式约束优化将多个微调模型组合为一个。提出一种微调技术,用于文本到图像扩散模型的自定义扩散,确定一小部分模型权重,即从文本到交叉注意力层中潜在特征的关键和值映射。
基于stable diffusion建立了该方法。方法只需要存储一小部分参数(模型权重的3%),并减少了微调时间(在2个A100 GPU上6分钟,与并行工作相比快2−4倍)。

论文地址:https://arxiv.org/pdf/2212.04488v1.pdf

模型网络结构如下图所示:
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画

CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画

3、Ablating Concepts in Text-to-Image Diffusion Models

大规模的文本到图像扩散模型可以生成高保真图像。模型通常是根据大量互联网数据进行训练的,这些数据通常包含受版权保护的材料、许可图像和个人照片。此外,它们被发现可以复制各种艺术家的风格或记住准确的训练样本。如何在不从头开始重新训练模型的情况下删除此类受版权保护的概念或图像?

为了实现这一目标,提出了一种在预训练模型中消除概念的有效方法,即防止目标概念的生成。算法将希望消融的目标样式、实例或文本提示的图像分布与锚概念对应的分布相匹配。这可以防止模型在给定文本条件的情况下生成目标概念。大量实验表明,方法可以成功地防止消除概念的产生,同时在模型中保留密切相关的概念。

论文地址:https://arxiv.org/pdf/2303.13516.pdf

模型结构如下图所示:
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画

CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画

4、Imagic: Text-Based Real Image Editing with Diffusion Models

以文本为条件的图像编辑最近引起了相当大的兴趣。然而,目前大多数方法要么仅限于特定的编辑类型(例如,目标融合叠加、风格迁移),要么适用于合成生成的图像,或者需要一个公共对象的多个输入图像。
本文首次展示了将复杂(例如,非刚性)文本引导语义编辑应用于单个真实图像的能力。例如,可以改变图像中一个或多个对象的姿势和构图,同时保留其原始特征。方法可以让站立的狗坐下或跳跃,让鸟张开翅膀等等——每一个都在用户提供的单个高分辨率自然图像中。
与以前的工作相反,提出的方法只需要一个输入图像和一个目标文本(所需的编辑)。使用真实图像,不需要任何额外的输入(例如图像掩码或对象的额外视图)。方法称之为“Imagic”,利用预训练的文本到图像扩散模型来完成这项任务。它生成与输入图像和目标文本对齐的文本嵌入,同时微调扩散模型以捕获特定于图像的外观。
在来自不同领域的大量输入上展示了方法的质量和多功能性,展示了大量高质量的复杂语义图像编辑。
项目地址:https://imagic-editing.github.io/
论文地址:https://arxiv.org/abs/2210.09276

模型结构图如下图所示:
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画

5、Shifted Diffusion for Text-to-image Generation

本文提出了一种新的文本到图像生成方法Corgi。Corgi基于本文出的shifted扩散模型,从输入文本中实现了更好的图像特征嵌入生成。与在DALL-E 2中使用的基线扩散模型不同,方法通过设计新的初始化分布和新的扩散步骤,无缝地编码预训练的CLIP模型在扩散过程中的先验知识。
与强DALL-E 2基线相比,方法在从文本生成图像嵌入方面的效率和有效性都更好,从而获得更好的文本到图像生成。进行了大量的大规模实验,从定量测量和人工评价两方面进行了评价,表明方法比现有方法具有更强的生成能力。
此外,模型支持半监督和无语言的文本到图像生成训练,其中训练数据集中只有部分或没有图像具有相关的文本描述。半监督模型在只有1.7%的图像被配上文本的情况下进行训练,在MS-COCO上评估零镜头文本到图像生成时,得到的FID结果与DALL-E 2相当。Corgi还在下游无语言文本到图像生成任务的不同数据集上获得了最新的结果,大大超过了之前的Lafite方法。


论文地址:https://arxiv.org/pdf/2211.15388.pdf
视频demo地址:https://youtu.be/smL7mboV3l0

模型结构图如下图所示
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画

6、SpaText: Spatio-Textual Representation for Controllable Image Generation

最近的文本到图像扩散模型能够以前所未有的质量生成令人信服的结果。然而,当前方法无法以精细控制不同区域/对象的形状或它们的布局。以前提供此类的尝试,却因依赖标签而有所受限制。
为此,本文提出了 SpaText,一种使用开放式词汇场景控制、进行文本到图像生成的新方法。除了描述整个场景的全局文本外,用户还提供了一个分割图,其中每个感兴趣的区域都用自由形式的自然语言描述进行了注释。由于缺乏对图像中每个区域进行详细文本描述的大规模数据集,选择利用当前的大规模文本到图像数据集,并将方法基于一种新的基于 CLIP 的空间文本表示,并展示其在两种最先进的扩散模型上的有效性:基于像素和基于潜在。
此外,展示了如何将扩散模型中的无分类器指导方法扩展到多条件情况,并提出了一种替代加速推理算法。最后,除了 FID 分数和用户研究之外,还提供了几个自动评估指标并评估方法。

项目地址:https://omriavrahami.com/spatext/
论文地址:https://arxiv.org/abs/2211.14305

模型结构如下图所示:
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画

7、Scaling up GANs for Text-to-Image Synthesis

GigaGAN 的实现,是Adobe 的新 SOTA GAN,其证明GAN仍然是文本生成图像的可行选择之一。
在最近的DALL·E 2、Imagen、Stable Diffusion等等出现之后,相较于diffusion model和AR模型,GANs已经不被大家青睐,作者想证明一下大规模GAN模型在大数据集上的表现依然可行(make GAN great again)。并给出了GAN模型的卖点:1.更快的生成速度 2.生成高分辨率图片 3.平滑的内插和样式混合。
GigaGAN有三大优势。首先,它的推理速度快了几个数量级,合成一张512px的图像只需要0.13秒。其次,它可以在3.66秒内合成高分辨率图像,例如1600万像素的图像。最后,GigaGAN支持各种潜在空间编辑应用程序,如潜在插值、风格混合和其它编辑操作。

项目地址:https://mingukkang.github.io/GigaGAN/
代码地址:https://github.com/lucidrains/gigagan-pytorch
论文地址:https://arxiv.org/abs/2303.05511

模型结构如下图所示:
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画

8、GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis

为了同时实现生成质量高、训练高效、生成速度快,以及内容更可控的文本到图像生成模型,作者提出了 Generative Adversarial CLIPs,即 GALIP。

GALIP首先提出了一个基于 CLIP 的判别器。CLIP的复杂场景理解能力使判别器能够更加准确地评估复杂图像的质量。此外,还提出了一个 CLIP增强的生成器,它通过Bridge Feature和Prompts从 CLIP 中抽取有用的视觉概念。集成 CLIP 的生成器和判别器提高了对抗学习效率,使得GALIP只需要大约 3% 的训练数据和 6% 的可学习参数,仅用8张3090显卡训练3天时间,取得了与大规模预训练的自回归和扩散模型相当的结果。同时,GALIP的生成速度也快了120倍,且继承了GAN更加可控的平滑隐空间。实验结果证明GALIP的卓越性能。

代码地址:https://github.com/tobran/GALIP

模型结构如下图所示:
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画

9、Variational Distribution Learning for Unsupervised Text-to-Image Generation

当训练期间图像的文本不可用时,本文提出了一种基于深度神经网络的文本到图像生成算法。这项工作不是简单地使用现有的图像文本描述生成方法生成训练图像的伪句子,而是使用预训练的 CLIP 模型,该模型能够在联合空间中正确对齐图像和相应文本的嵌入,因此, 在零样本识别任务上效果很好。
通过最大化以图像-文本 CLIP 嵌入对为条件的数据对数似然来优化文本到图像生成模型。为了更好地对齐两个域中的数据,采用了一种基于变分推理方法,可以有效地估计给定图像及其 CLIP 特征的隐藏文本嵌入的近似后验。实验结果证实,在无监督和半监督的文本到图像生成设置下,所提出的框架大大优于现有方法。
CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版,AIGC前沿论文分享,AI作画,CVPR,CVPR2023,可控文生图,生成图片算法,可控AI作画,ai作画

关注微信公众号:CV算法小屋 获取最新AIGC代码和论文文章来源地址https://www.toymoban.com/news/detail-714390.html

到了这里,关于CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI作画,国风油画风随心定制~ Stable Diffusion模型使用,三步就上手

    最近, AIGC (即 AI Generated Content ,是指利用人工智能技术来生成内容)真的是火出了天际。除了被挤到服务器满负荷的 chatGPT ,另一个也颇受瞩目的领域当属 AI 作画了。利用开源的一类“扩散( diffusion )”模型,你可以随时用AI进行绘画创作。除了常见的网页版注册-输入文

    2023年04月09日
    浏览(29)
  • 【论文合集】CVPR2023年 部分论文

    参考: CVPR 2023 最全整理:论文分方向汇总 / 代码 / 解读 / 直播 / 项目(更新中)【计算机视觉】-极市开发者社区 (cvmart.net) amusi/CVPR2023-Papers-with-Code: CVPR 2023 论文和开源项目合集 (github.com)   [7]Fine-Grained Face Swapping via Regional GAN Inversion paper [6]Cross-GAN Auditing: Unsupervised Identifica

    2024年02月12日
    浏览(36)
  • CVPR2023(论文笔记)

    基于抽象的鲁棒图像分类模型高效训练与验证方法: 针对问题: 深度神经网络在面对对抗性攻击时的鲁棒性问题 提出了一种基于抽象的、经过认证的训练方法,用于提高深度神经网络对抗性攻击的鲁棒性;提出黑盒验证方法,该方法与神经网络的大小和架构无关,可扩展到

    2024年02月09日
    浏览(45)
  • CVPR2023对抗攻击相关论文

    Feature Separation and Recalibration for Adversarial Robustness 论文链接:http://arxiv.org/abs/2303.13846v1 代码地址:GitHub - wkim97/FSR: Feature Separation and Recalibration (CVPR 2023) 摘要:由于特征层面的扰动积累,深度神经网络容易受到对抗性攻击,许多研究通过停用导致模型错误预测的非鲁棒特征激活

    2024年02月09日
    浏览(29)
  • CVPR 2023 论文和开源项目合集

    向AI转型的程序员都关注了这个号👇👇👇 Backbone CLIP MAE GAN GNN MLP NAS OCR NeRF DETR Diffusion Models(扩散模型) Avatars ReID(重识别) 长尾分布(Long-Tail) Vision Transformer 视觉和语言(Vision-Language) 自监督学习(Self-supervised Learning) 数据增强(Data Augmentation) 目标检测(Object Detection) 目标跟踪(Visual

    2024年02月07日
    浏览(23)
  • CVPR2023论文及代码合集来啦~

    以下内容由马拉AI整理汇总。 下载 :点我跳转。  狂肝200小时的良心制作,529篇最新CVPR2023论文及其Code,汇总成册,制作成《CVPR 2023论文代码检索目录》,包括以下方向: 1、2D目标检测 2、视频目标检测 3、3D目标检测 4、人物交互检测 5、显著性目标检测 6、车道线检测 7、异

    2023年04月26日
    浏览(37)
  • CVPR 2023 医学图像分割论文大盘点

    点击下方 卡片 ,关注“ CVer ”公众号 AI/CV重磅干货,第一时间送达 点击进入— 【医学图像分割】微信交流群 被催了很久,CVer 正式开启 CVPR 2023 论文大盘点系列 ! Amusi 一共搜集了13篇医学图像分割论文 ,这应该是目前各平台上 最新最全面的CVPR 2023 医学图像分割盘点资料

    2024年02月14日
    浏览(27)
  • CVPR2023 | 70+目标检测论文及代码整理

    目标检测是当下应用最广的计算机视觉任务之一。本文整理了CVPR 2023 目标检测相关论文72篇,覆盖包括2D目标检测、3D目标检测、视频目标检测、人物交互检测、异常检测、伪装目标检测、关键点检测、显著性目标检测、车道线检测、边缘检测等10个细分任务。并且每篇论文都

    2024年02月10日
    浏览(27)
  • CVPR 2023 | 美团技术团队精选论文解读

    本文精选了美团技术团队被CVPR 2023收录的8篇论文进行解读。这些论文既有自监督学习、领域自适应、联邦学习等通用学习范式方面的技术迭代,也涉及目标检测、跟踪、分割、Low-level Vision等典型视觉任务的性能,体现了美团在基础通用技术和垂直领域技术上的全方位创新。

    2024年02月09日
    浏览(34)
  • 【论文阅读】CVPR2023 IGEV-Stereo

    【cvhub导读】【paper】【code_openi】 代码是启智社区的镜像仓库,不需要魔法,点击这里注册 1️⃣现有主流方法 基于代价滤波的方法 和 基于迭代优化的方法 : 基于 代价滤波 的方法可以在cost volume中编码足够的 非局部几何和上下文信息 ,这对于具有挑战性的区域中的视差预

    2024年02月07日
    浏览(22)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包