面向 Stable Diffusion 的自动 Prompt 工程算法 BeautifulPrompt

这篇具有很好参考价值的文章主要介绍了面向 Stable Diffusion 的自动 Prompt 工程算法 BeautifulPrompt。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

近日,阿里云人工智能平台PAI与华南理工大学朱金辉教授团队合作在自然语言处理顶级会议EMNLP2023上发表了BeautifulPrompt的深度生成模型,可以从简单的图片描述中生成高质量的提示词,从而使文生图模型能够生成更美观的图像。BeautifulPrompt通过对低质量和高质量的提示进行微调,并进一步提出了一种基于强化学习和视觉信号反馈的技术,以最大化生成提示的奖励值。

论文:
Tingfeng Cao, Chengyu Wang, Bingyan Liu, Ziheng Wu, Jinhui Zhu, Jun Huang. BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image Synthesis. EMNLP 2023 (Industry Track)

背景

文生图是AIGC中最引人注目和广泛应用的技术之一,旨在通过文本输入创建逼真的图像。最近,随着大型模型建模能力的提升,文生图模型得到快速的发展。大规模的TIS模型,如DALLE-2、Imagen和stable diffusion,显著提高了最先进的性能,并允许没有艺术专业知识的用户通过个人想象力创建前所未有的图像。

然而,文成图模型要求用户在模型推理之前编写文本提示(例如“一艘雄伟的帆船”)。编写满足设计师或艺术工作者需求的这些提示充满了不确定性,就像开盲盒一样。这是由于训练数据的质量问题,导致需要详细的描述才能生成高质量的图像。在现实场景中,非专家往往很难手工编写这些提示,并且需要通过试错的迭代修改来重新生成图像,从而导致时间和计算资源的严重浪费。

提示工程(prompt engineering)是一个新兴的研究领域,旨在探索如何为深度生成模型提供提示,并提高人与AI之间直接交互的效率。因此,我们关注于大语言模型(LLM)自动地生成高质量的提示词,下图展示了使用简单的图片描述和BeautifulPrompt之后生产的图片。

面向 Stable Diffusion 的自动 Prompt 工程算法 BeautifulPrompt,云栖号技术分享,stable diffusion,prompt,算法,云计算,阿里云,ai,大数据

算法概述

数据收集

我们提出一个自动化收集prompt优化的数据集方案:

面向 Stable Diffusion 的自动 Prompt 工程算法 BeautifulPrompt,云栖号技术分享,stable diffusion,prompt,算法,云计算,阿里云,ai,大数据

原始数据源是DiffusionDB,它只包含未配对的提示。启发式地,我们根据提示的长度、提示中包含的某些标签等将提示分为低质量提示和高质量提示。

接下来,我们

i) 使用BLIP 对与高质量提示相关的图像进行caption,并将结果视为相应的低质量提示,因为说明文字较短且缺乏细节;

ii) 使用ChatGPT对高质量的提示进行总结,并将总结视为低质量的提示;

iii) 使用ChatGPT从低质量的提示生成更好的提示;结果被认为是高质量的提示。

通过以上三种方法,我们获得了大量的提示对;然而,这些提示对的质量无法保证。因此,我们需要进行进一步的数据清理和过滤。我们清洗了包含色情、政治敏感等不适合工作场景的数据,并对图片的美观值进行筛选。得到最终的数据集。与InstructGPT类似,我们采用了三阶段的训练,整体训练架构图如下:

面向 Stable Diffusion 的自动 Prompt 工程算法 BeautifulPrompt,云栖号技术分享,stable diffusion,prompt,算法,云计算,阿里云,ai,大数据

Step 1. SFT

面向 Stable Diffusion 的自动 Prompt 工程算法 BeautifulPrompt,云栖号技术分享,stable diffusion,prompt,算法,云计算,阿里云,ai,大数据

Step 2. RM

我们基于PickScore 和 Aesthetic Score来训练奖励模型。

简单地说,PickScore是一个基于文本到图像提示和真实用户偏好的大型数据集训练的偏好模型,它在预测人类对图像的偏好方面表现出超人的表现。我们计算低质量提示和相应高质量提示生成的图像的PickScore。为了减少随机种子对TIS模型生成的图像质量的影响,我们使用8种不同的随机种子生成图像并对结果进行平均。计算的平均PickScore 被用作训练奖励模型的基础真相。损失函数为:

面向 Stable Diffusion 的自动 Prompt 工程算法 BeautifulPrompt,云栖号技术分享,stable diffusion,prompt,算法,云计算,阿里云,ai,大数据

Step 3. PPO(RL)

面向 Stable Diffusion 的自动 Prompt 工程算法 BeautifulPrompt,云栖号技术分享,stable diffusion,prompt,算法,云计算,阿里云,ai,大数据

算法评测

为了验证BeautifulPrompt的有效性,我们在一些基于模型打分的客观指标和人类主观评估上做了实验:

面向 Stable Diffusion 的自动 Prompt 工程算法 BeautifulPrompt,云栖号技术分享,stable diffusion,prompt,算法,云计算,阿里云,ai,大数据

面向 Stable Diffusion 的自动 Prompt 工程算法 BeautifulPrompt,云栖号技术分享,stable diffusion,prompt,算法,云计算,阿里云,ai,大数据

我们也对算法的模块进行了详细有效性分析,我们可以算法的各个流程都是有效的。

面向 Stable Diffusion 的自动 Prompt 工程算法 BeautifulPrompt,云栖号技术分享,stable diffusion,prompt,算法,云计算,阿里云,ai,大数据

为了更好地服务开源社区,BeautifulPrompt算法的源代码即将贡献在自然语言处理算法框架EasyNLP中,欢迎NLP从业人员和研究者使用。

EasyNLP开源框架:https://github.com/alibaba/EasyNLP

参考文献

  • Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. EMNLP 2022
  • Stiennon, Nisan, et al. "Learning to summarize with human feedback." Advances in Neural Information Processing Systems 33 (2020): 3008-3021
  • Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022
  • Kirstain, Yuval, et al. "Pick-a-pic: An open dataset of user preferences for text-to-image generation." arXiv preprint arXiv:2305.01569 (2023)

论文信息

论文标题:BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image Synthesis
论文作者:曹庭锋、汪诚愚、刘冰雁、吴梓恒、朱金辉、黄俊
论文pdf链接:https://arxiv.org/abs/2311.06752

原文链接

本文为阿里云原创内容,未经允许不得转载。文章来源地址https://www.toymoban.com/news/detail-766679.html

到了这里,关于面向 Stable Diffusion 的自动 Prompt 工程算法 BeautifulPrompt的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AIGC Stable Diffusion prompt

     【基于Stable Diffusion生成国风人物图片】   prompt: negative prompt: 模型:3Guofeng3_v33.safetensors [4078eb4174] 参数设置: 生成图片:

    2024年02月11日
    浏览(38)
  • Stable Diffusion Prompt提示语用法

    Stable Diffusion可以根据你输入的提示词(prompt)来绘制出画面。 提高图像质量的prompt: prompt 用途 HDR, UHD, 64K (HDR、UHD、4K、8K和64K)这样的质量词可以带来巨大的差异提升照片的质量 Highly detailed 画出更多详细的细节 Studio lighting 添加演播室的灯光,可以为图像添加一些漂亮的纹理

    2024年02月09日
    浏览(55)
  • Stable Diffusion 提示词语法(Prompt)

    本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里。 大家好,我是水滴~~ 本篇文章主要讲述 Stable Diffusion 提示词语法,主要包括:提示词的概念、提示词的长度、权重、分步绘制、交替绘制、组合绘制等,希望能对你有所帮助。

    2024年03月18日
    浏览(44)
  • Stable Diffusion prompt绘画提示词

    你来充当一位有艺术气息的Stable Diffusion prompt 助理。 我用自然语言告诉你要生成的prompt的主题,你的任务是根据这个主题想象一幅完整的画面,然后转化成一份详细的、高质量的prompt,让Stable Diffusion可以生成高质量的图像。 Stable Diffusion是一款利用深度学习的文生图模型,支

    2024年02月12日
    浏览(53)
  • 吴恩达+Open AI 《面向开发者的ChatGPT Prompt 工程》课程学习2——prompt指导原则1

    吴恩达+Open AI 《面向开发者的ChatGPT Prompt 工程》课程学习1——课程介绍 吴恩达+Open AI 《面向开发者的ChatGPT Prompt 工程》课程学习2——prompt指导原则1(本博文) prompt编写指导原则1:写出清晰而具体的指示。 本节课讲述方式:理论+代码实践。 1 在整个课程中,我们将使用

    2024年02月07日
    浏览(43)
  • stable-diffusion 模型效果+prompt

    Prompt运用规则及技巧 : 1. https://publicprompts.art/(最适用于OpenArt 线上模型 https://openart.ai/) 2. https://docs.qq.com/doc/DWFdSTHJtQWRzYk9k(转自元素法典,含各类风格用词) 3. https://www.ptsearch.info/home/(实例查询) 4. http://prompttool.com/NovelAI(体验还不错) 使用: 1. 通用Tag起手式: 正向:

    2024年02月13日
    浏览(42)
  • stable-diffusion领域prompt集合

    有什么写实的stable diffusion模型? - 知乎 试了试这个模型,感觉勉强,大佬们知道有没有更写实的模型?https://huggingface.co/CompVis/stable-diff… https://www.zhihu.com/question/567026134 Stable Diffusion好看的御姐风AI美女Prompts提示词大全 Stable Diffusion是很热门的AI绘画工具,通过各种不同Model可

    2024年02月10日
    浏览(35)
  • AI Stable Diffusion Prompt参数【一】

    (masterpiece:1.11), (best quality:1.38), (ultra high res:1.18), (photorealistic:1.38), (8k, RAW photo:1.18), (1girl:0.49), 20yo, (skinny), demon, race queen, (Plant suit made of plants:1.3), ornate robe, chapped skin, demon\\\'s horns, roses surrounding, fighting, laughing, medium breasts, wind, hell, dust, humidity, heat, ionizing radiation, vibration, shock,

    2024年02月09日
    浏览(43)
  • prompt-engineering-note(面向开发者的ChatGPT提问工程学习笔记)

    ChatGPT Prompt Engineering Learning Notesfor Developers (面向开发者的ChatGPT提问工程学习笔记) 课程简单介绍了语言模型的工作原理,提供了最佳的提示工程实践,并展示了如何将语言模型 API 应用于各种任务的应用程序中。 此外,课程里面提供了 Jupyter Notebook 代码实例,可以直接使用

    2024年02月12日
    浏览(44)
  • stable-diffusion 电商领域prompt测评集合

    和GhostReivew一个思路,还是从比较好的图片或者是civitai上找一些热门的prompt,从小红书上也找到了不少的prompt,lexica.art上也有不少,主要是为了电商场景的一些测评: 小红书、civitai、Lexica、Liblib.ai、 depth of field, (highly detailed background:1.4),nikon d850,film stock photograph,4 kodak portr

    2024年02月05日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包