BeautifulPrompt:PAI推出自研Prompt美化器,赋能AIGC一键出美图

这篇具有很好参考价值的文章主要介绍了BeautifulPrompt:PAI推出自研Prompt美化器,赋能AIGC一键出美图。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

作者:曹庭锋、汪诚愚、吴梓恒、黄俊

背景

Stable Diffusion(SD)是一种流行的AI生成内容(AI Generated Content,AIGC)模型,能在文字输入的基础上生成各种风格多样的图像。在目前的AIGC方向,SD是开源社区最热门的模型。然而,SD能够生成高颜值的图像,非常依赖于用户提供的Prompt。如果没有好的Prompt,SD往往无法生成用户预期的图像,极大的影响用户的使用体验。在先前的工作中,阿里云机器学习PAI团队在AIGC方向做了很多探索,包括PAI-Diffusion中文模型的开源、基于Blade的推理优化等,并且推出一系列行业解决方案。为了提升SD系列模型的易用性、降低使用门槛、释放AI模型的创造潜力,我们提出并训练完成面向SD自动Prompt美化器,使得用户只要输入一个极其简单的Prompt,就可以得到一系列经过语言模型优化过的、细节满满的Prompt,帮助您更简单地生成高颜值图像。在下文中,我们详细介绍PAI自动Prompt生成模型的功能和背后的技术干货。

一键体验Prompt自动生成

在详细介绍PAI自动Prompt生成模型前,我们首先给出体验Prompt生成效果。在以下的示例中,我们分别对比了原始Prompt和我们生成Prompt在Stable Diffusion v1.5底座模型上生成图像的效果。对于每个Prompt,我们随机生成两张图片进行对比。

BeautifulPrompt:PAI推出自研Prompt美化器,赋能AIGC一键出美图,AIGC,prompt,人工智能

BeautifulPrompt:PAI推出自研Prompt美化器,赋能AIGC一键出美图,AIGC,prompt,人工智能

BeautifulPrompt:PAI推出自研Prompt美化器,赋能AIGC一键出美图,AIGC,prompt,人工智能

BeautifulPrompt:PAI推出自研Prompt美化器,赋能AIGC一键出美图,AIGC,prompt,人工智能

BeautifulPrompt:PAI推出自研Prompt美化器,赋能AIGC一键出美图,AIGC,prompt,人工智能

BeautifulPrompt:PAI推出自研Prompt美化器,赋能AIGC一键出美图,AIGC,prompt,人工智能

我们也在ModelScope上构建了一个Demo以供用户体验(链接)。只要输入一个简单的Prompt,我们的模型就可以扩写成一个细节描述详细的Prompt,然后使用Stable Diffusion进行文图生成。

BeautifulPrompt:PAI推出自研Prompt美化器,赋能AIGC一键出美图,AIGC,prompt,人工智能

Prompt美化器背后的技术

在本节中,我们详细介绍如何训练一个优秀的Prompt美化器。整体架构如下图所示:

BeautifulPrompt:PAI推出自研Prompt美化器,赋能AIGC一键出美图,AIGC,prompt,人工智能

底座模型

PAI-Prompt生成模型底座基于BLOOM(BigScience Language Open-science Open-access Multilingual),由BigScience训练并且开源。BLOOM具有Decoder-only模型架构,和GPT-3非常相似,最大具有1760亿参数。在我们的模型训练时,我们选择了具有11亿参数的BLOOM模型进行继续训练,其原因在于它的参数量不大,当它用于线上部署时,推理速度较快,而且训练和推理成本都相当可控,具有很高的实用价值。

无需数据标注的SFT

由于模型的训练需要高质量和低质量的Prompt对,这些数据一般很难直接去做标注。因此我们使用如下方法自动话地搜集训练数据。

1.摘要生成:首先,我们搜集开源的高质量Prompt数据集,作为语言模型生成的Target。在这种场景下,由于缺乏低质量的Prompt,我们可以使用ChatGPT等大模型生成Summary作为低质量的Prompt。以下是一个Summary的例子:

Instruction: Summarize this image description in 10 words or less and ignore words like archdaily, wallpaper, highly detailed, 8k, [r/earthporn]. Check English. Ignore modifiers 'by xxx', 'with xxx' or 'in xxx'. Ignore adjective.
Input: a beautiful very detailed illustration of abandoned urbex unfinished building city nature industrial architecture architecture building spaceport by caspar david friedrich, scumm bar meadow nature synthwave, archdaily, wallpaper, highly detailed, trending on artstation.
Output: of abandoned urban building in nature.

Input: portrait painting of a lost boy by cedric peyravernay and greg ruthkowski, in the style of dishonored concept art, concept design, trending on artstation \n
Output:

2.Prompt扩展:利用低质量的Prompt,使用ChatGPT生成更高质量的Prompt。以下是一个Prompt生成的例子:

Instruction: create a detailed and creative description of the 'input'. Your response should include specific details about the colors, textures, and overall composition of the painting, as well as any unique features or elements that make it stand out.
Please provide a clear and concise response that captures the essence of the painting while also encouraging creativity and originality in your description. You may consider describing the setting or environment depicted in the painting.
Input: Digital painting of a girl with candy hat.

3.图像标题生成:我们搜集了高质量的图文对,对图像进行image captioning,生成更多可供训练模型的Prompt。

最终,得到的数据会进行美观值和一致性筛选,我们保留质量较高的数据用于SFT。

面向SD的强化学习优化

RLHF(Reinforcement Learning from Human Feedback)对ChatGPT等大模型的效果提升有重要的作用。在我们的应用中,我们设计了面向Stable Diffusion的强化学习算法,优化Prompt生成模型。

对于Reward Model,我们在得到图文对数据基础上,使用美学值评分模型来给图片打分,并使用一个语言模型来拟合对应Pprompt->美学值评分,将此作为我们的打分模型。此外,我们还采用最先进的强化学习算法PPO来进一步优化模型,奖励函数使用打分模型和一致性得分加权:

reward = a * score_model(prompt) + b * consistency_model(raw_prompt, prompt)

这样可以进一步加强我们生成Prompt的美观性和图文一致性。在完成了上述三阶段训练以后,我们的模型在小参数规模下(1.1B)的效果不亚于ChatGPT生成Prompt的效果,示例如下:

BeautifulPrompt:PAI推出自研Prompt美化器,赋能AIGC一键出美图,AIGC,prompt,人工智能

BeautifulPrompt:PAI推出自研Prompt美化器,赋能AIGC一键出美图,AIGC,prompt,人工智能

BeautifulPrompt:PAI推出自研Prompt美化器,赋能AIGC一键出美图,AIGC,prompt,人工智能

BeautifulPrompt:PAI推出自研Prompt美化器,赋能AIGC一键出美图,AIGC,prompt,人工智能

BeautifulPrompt:PAI推出自研Prompt美化器,赋能AIGC一键出美图,AIGC,prompt,人工智能

模型调用

如果想快速体验模型效果,可以访问我们在ModelScope社区的创空间页面链接。同时,我们也在huggingface等开源社区上架了这一模型,使用接口如下:

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained('alibaba-pai/pai-bloom-1b1-text2prompt-sd')
model = AutoModelForCausalLM.from_pretrained('alibaba-pai/pai-bloom-1b1-text2prompt-sd').eval().cuda()

raw_prompt = '1 girl'
input = f'Instruction: Give a simple description of the image to generate a drawing prompt.\nInput: {raw_prompt}\nOutput:'
input_ids = tokenizer.encode(input, return_tensors='pt').cuda()

outputs = model.generate(
    input_ids,
    max_length=384,
    do_sample=True,
    temperature=1.0,
    top_k=50,
    top_p=0.95,
    repetition_penalty=1.2,
    num_return_sequences=5)

prompts = tokenizer.batch_decode(outputs[:, input_ids.size(1):], skip_special_tokens=True)
prompts = [p.strip() for p in prompts]
print(prompts)

未来展望

在这一期的工作中,我们提出并训练完成面向SD自动Prompt美化器,使得用户只要输入一个极其简单的Prompt,就可以得到一系列经过语言模型优化过的Prompt,帮助您更简单地生成高颜值图像。在未来,我们计划增加这一类模型对各种类SD模型的适配,丰富PAI-AIGC的算法和产品能力。

阿里灵杰回顾

  • 阿里灵杰:阿里云机器学习PAI开源中文NLP算法框架EasyNLP,助力NLP大模型落地
  • 阿里灵杰:预训练知识度量比赛夺冠!阿里云PAI发布知识预训练工具
  • 阿里灵杰:EasyNLP带你玩转CLIP图文检索
  • 阿里灵杰:EasyNLP中文文图生成模型带你秒变艺术家
  • 阿里灵杰:EasyNLP集成K-BERT算法,借助知识图谱实现更优Finetune
  • 阿里灵杰:中文稀疏GPT大模型落地 — 通往低成本&高性能多任务通用自然语言理解的关键里程碑
  • 阿里灵杰:EasyNLP玩转文本摘要(新闻标题)生成
  • 阿里灵杰:跨模态学习能力再升级,EasyNLP电商文图检索效果刷新SOTA
  • 阿里灵杰:EasyNLP带你实现中英文机器阅读理解
  • 阿里灵杰:EasyNLP发布融合语言学和事实知识的中文预训练模型CKBERT
  • 阿里灵杰:当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界
  • 阿里灵杰:PAI-Diffusion模型来了!阿里云机器学习团队带您徜徉中文艺术海洋
  • 阿里灵杰:阿里云PAI-Diffusion功能再升级,全链路支持模型调优,平均推理速度提升75%以上
  • 阿里灵杰:EasyNLP集成K-Global Pointer算法,支持中文信息抽取
  • 阿里灵杰:PAI-Diffusion中文模型全面升级,海量高清艺术大图一键生成

免费领取 交互式建模PAI-DSW、模型训练PAI-DLC 5000CU*H计算资源包,以及价值500元模型在线服务 PAI-EAS 抵扣包。文章来源地址https://www.toymoban.com/news/detail-537379.html

到了这里,关于BeautifulPrompt:PAI推出自研Prompt美化器,赋能AIGC一键出美图的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 参与赢大奖!阿里云机器学习平台PAI助力开发者激发AIGC潜能

    近年来,随着海量多模态数据在互联网的爆炸性增长和训练深度学习大模型的算力大幅提升,助力开发者一站式快速搭建文生图、对话等热门场景应用,阿里云机器学习平台PAI特推出AIGC加油包,为广大开发者加油助力激发AIGC潜能,同时有机会赢取坚果投仪、AirPods等多款好礼

    2024年02月09日
    浏览(46)
  • 加码中文 AIGC,IDEA 推出“盖亚计划”

    作者 | 伍杏玲 出品 | CSDN 近年来,AIGC 话题火爆 AI 技术人的朋友圈。由于深度学习模型不断完善、开源模式推动,AIGC 的迭代速度呈爆发式发展。据 Gartner 发布的 2022 年需要探索的重要战略技术趋势显示,生成式 AI 是其中引人注目的人工智能技术之一。Gartner 预计到 2025 年,

    2024年02月09日
    浏览(23)
  • 【AIGC】提示词 Prompt 分享

    Prompt engineering(提示词工程)是指在使用语言模型进行生成性任务时,设计和调整输入提示(prompts)以改善模型生成结果的过程。它是一种优化技术,旨在引导模型产生更加准确、相关和符合预期的输出。 在生成性任务中,输入提示是指提供给语言模型的初始文本或问题,

    2024年02月05日
    浏览(32)
  • AIGC提示词(Prompt)网站

    整理的 AI提示词(Prompt)网站,让AI工具效率翻倍! 我的Blog https://xxlab.tech/archives/aigc-ti-shi-ci-prompt-wang-zhan https://learningprompt.wiki/ 语言:中文 免费的 Prompt Engineering 教程,现已包含 ChatGPT 和 Midjourney 教程 https://snackprompt.com/ 语言:英文 Snack Prompt提供了大量的ChatGPT提示词,可以

    2024年02月09日
    浏览(33)
  • AIGC Stable Diffusion prompt

     【基于Stable Diffusion生成国风人物图片】   prompt: negative prompt: 模型:3Guofeng3_v33.safetensors [4078eb4174] 参数设置: 生成图片:

    2024年02月11日
    浏览(24)
  • Covalent Network(CQT)宣布推出面向 Cronos 生态的捐赠计划与 API 积分,为 Web3 创新赋能

    为了促进 Web3 领域的创新,Covalent Network(CQT)宣布将其捐赠计划向 Cronos 生态系统中的开发者拓展。这一战略性举措,旨在通过向 Cronos 网络中基于 Covalent Network(CQT)API 构建的项目提供支持和资源,激发创新和协作。 Covalent Network(CQT)凭借其无与伦比的解决方案,正在成为

    2024年04月27日
    浏览(22)
  • 【AIGC】prompt工程从入门到精通

    注:本文示例默认“文心大模型3.5”演示,表示为 或 w (wenxin),有时为了对比也用百川2.0展示 b (baichuan) 有时候为了模拟错误输出,会用到 m (mock)表示(因为用的大模型都会给出正确答案) 有时候直接贴网络来源的示例,不重跑大模型,就用 o (original)表示 本文持续更新

    2024年01月19日
    浏览(33)
  • AIGC初探:提示工程 Prompt Engineering

    提示工程(Prompt Engineering)是人工智能领域中的一个概念,特别是在自然语言处理(NLP)领域中。它是一种通过设计和优化输入提示来提高AI模型表现的方法。 对于基于转换器的大型语言模型(如OpenAI的GPT系列),输入提示在提高模型理解、回答问题、生成有用输出等方面具

    2024年02月03日
    浏览(31)
  • 【AIGC】一起学习prompt提示词(1/4)

    本来是参加CSDN提示词的话题活动,但是觉得一次写不完,于是准备写一个系列。 欢迎批评、点赞和关注我。 为了避免大家使用特殊工具,我以国内大模型典范,百度的文心一言(文心一格)作为范例和模板,来说说prompt提示词。 比如你知道文心一言App——“发现”栏目的

    2024年02月02日
    浏览(49)
  • AIGC:Prompt逆向工程简介及使用

    很多同学都会写爬虫。但如果想把爬虫写得好,那一定要掌握一些逆向技术,对网页的JavaScript和安卓App进行逆向,从而突破签名或者绕过反爬虫限制。最近半年,大语言模型异军突起,越来越多的公司基于GPT3.5、GPT-4或者其他大语言模型实现了各种高级功能。在使用大语言模

    2024年02月11日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包