DreamBooth 梦幻亭——用于主题驱动的文生图微调扩散模型

这篇具有很好参考价值的文章主要介绍了DreamBooth 梦幻亭——用于主题驱动的文生图微调扩散模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

© 2022 Ruiz, Li, Jampani, Pritch, Rubinstein, Aberman (Google Research)
© 2023 Conmajia

简介

本文是 DreamBooth 官网首页的中文翻译。
本文已获得 Nataniel Ruiz 本人授权。

DreamBooth 主要内容基于 CVPR 论文 DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation（2208.12242）。

$‘ ‘$ 这就像一部照相亭，但只要捕捉到主题，就能把它合成到你梦里能去的任何地方。 $"$

摘要大型文本生成图像模型在 AI 的发展中取得了显著的飞跃，可以从给定的文本提示中合成高质量和多样化的图像。然而，这些模型缺乏模仿给定参考集中主题外观并在不同环境中合成新的演绎的能力。在这项工作中，我们提出了一种新的方法来“个性化”文本生成图像扩散模型（使其适应用户的需求）。只需要输入主题的几张图片，我们就可以微调预训练的文本生成图像模型（Imagen，虽然我们的方法不限于特定模型），使其学会将唯一标识符与该特定主题绑定。这种方法可以使模型更好地满足用户的需求，同时也增强了模型对主题的识别和生成能力。

一旦主题被嵌入模型的输出域中，唯一标识符就可以用于在不同场景中合成完全新颖的逼真主题图像。通过利用模型中嵌入的语义先验和新的自生类特定先验保留损失，我们的技术能够合成出现在参考图像中不存在的多样化场景、姿态、视角和照明条件中的主题。我们的技术不仅可以实现主题重新定位、文本引导的视图合成和外观修改，还可以在保留主题关键特征的同时实现艺术渲染。这项研究为文本生成图像领域的进一步发展提供了有益的探索。

背景

对于特定的主题，比如一部时钟（在左侧的真实图像中显示），使用最先进的文本生成图像模型在不同的上下文中生成该主题，同时保持其关键视觉特征的高保真度是非常具有挑战性的。以 Saharia 等在 2022 年提出的 Imagen 模型为例，即使包含的文本详细描述了时钟外观（丛林里有一个白色表盘的复古风格黄色闹钟，表盘右侧有一个黄色数字“3”），经过几十次迭代后，模型仍无法重建其关键视觉特征。此外，即使是文本嵌入在共享的语言-视觉空间中，可以创建图像的语义变化的模型，如 DALL-E2，也无法重建给定主题的外观或修改上下文（Ramesh et al, 2022）。相比之下，我们的方法（最右）可以高保真度地合成时钟，并在新的上下文中进行合成（在丛林中的一个[V]时钟）。