文生图关键问题探索:个性化定制和效果评价

这篇具有很好参考价值的文章主要介绍了文生图关键问题探索:个性化定制和效果评价。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文生图(Text-to-Image Generation)是AIGC(AI Generated Content,人工智能生成内容)的一个主要方向。近年来,文生图模型的效果和质量得到飞速提升,投资界和研究界都在密切关注文生图模型的进展。这一领域还有什么样的问题或者发展方向?本文介绍了近期文生图的发展历程,从四个不同角度来介绍这一领域目前面临的关键问题和研究进展。

作者 | 刘广
责编 | Carol
出品 | 《新程序员》编辑部

2021年初,OpenAI团队提出了CLIP[1]模型并开源了模型权重,其核心点有三个:通过对比学习进行图文匹配学习,开源CLIP模型权重和发布CLIP Benchmark评测。从此,文图多模态领域开始收到广泛关注并迅速发展。文生图应用最早出现的标志是OpenAI推出DALL· E[2],自此各大公司开始不断推出新的文生图模型,实际生成效果和效率相对于从前基于自回归(Auto Regressive)和对抗网络(GAN)等文生图方法均提升显著。

DALL·E的应用技术是Diffusion Model,主要用于生成图像、音频、文本等数据。它通过模拟数据的去噪过程来生成新的数据。与生成对抗网络(GAN)相比,Diffusion models的生成过程更加稳定,生成的数据也更加真实。Diffusion Model的发展如图1所示:

文生图关键问题探索:个性化定制和效果评价
图1 AIGC-Text to Image 的发展

 特别是从2022年5月Stable Diffusion[3]的开源开始,作为一个迅速火出圈的AI技术,Stable Diffusion以极快的速度获得了大量的开源社区关注,开始引领AIGC行业发展。那么,为什么Stable Diffusion能够这么快地火出圈?其根本还是在于生成的效果和效率非常高,极大地降低了创作的门槛,降低了创作的成本。这里列了Stable Diffusion的Discord上的几个例子(见图2),这些图片都可以在Nvidia Tesla A100机器上通过3-4s的时间生成出来。

文生图关键问题探索:个性化定制和效果评价
图2 Stable Diffusion在Discord上的案例

虽然Stable Diffusion取得了很大的成功,但其本身存在一些问题会影响生成效果。主要包括:

  • 问题一:模型的机器评价与人工评价之间缺乏一致性。通过机器评价指标,比如FID值等,评价结果往往和真实的生成效果并不一致,因此不能很好地评价不同模型的效果。而人工评价标准难以统一并有高昂的成本。
  • 问题二:如何在生成过程中实现更高效的控制。如何提高生成图像和文本输入之间的一致性,特别是在使用简短的提示句来生成图像时,目前难以有效地控制所生成图片与文本之间的相关性程度。
  • 问题三:如何进行定制个性化模型。如何定制一个文生图模型,是行业应用的关键。快速的进行新概念/风格/人物的学习,是文生图落地到各应用场景的第一个拦路虎。
  • 问题四:高质量文图数据集的缺乏。数据的重要性不言而喻,大量高质量的文图数据是文生图发展的血液,没有数据再好的算法也发挥不了作用。


 本文节选自《新程序员006:人工智能新十年》

如何评价文生图模型的效果

如何评价文生图模型的效果是生成类模型面临的共性问题之一。通常,生成类模型的评价分为机器评价和人工评价两种。机器评价方法如Bleu等,人工评价如ChatGPT中的人工评价等。然而,机器评价结果不完全符合人工评价结果,因此高机器评价并不一定代表生成效果好。

文生图的模型评价也面临同样的问题,现在用于文生图模型评价的机器评价指标比如FID值等指标的评价结果跟真实的图片生成效果并不是一致,因此机器评价的结果并不能够很好的评价不同的文生图模型效果。但是,由于机器评价的便利性和客观性等原因,还是有很多评价基准在采用机器评价指标。比如ArtBench,一个提供了很多不同艺术风格标注数据的数据集,也是用FID指标等机器评价方法来评价不同模型的效果。

从ArtBench的评测结果中可以看到基于GAN模型生成的图片可以获得最高的FID值,说明GAN生成跟训练数据同分布图片的能力还是更强。但同时这种更强的生成能力也是一种限制,限制了GAN模型的泛化能力,使得GAN只偏向于生成更像训练数据中的样本。在2021年NeurIPS上刊载的OpenAI团队的文章Diffusion Models Beat GANs on Image Synthesis[4],指出了有引导的Diffusion 模型可以在各种机器评价指标上比GANs的效果更好。

但就像前面提到的一样,机器评价指标好就真的会生成更高质量的图片吗?由此可以看出,人工评价可能是更加合适文生图模型的评价方式。但是人工评价没有统一的标准,成本比较高。文章Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark[5]提出了一套人工评价的标准。让人从三种prompts的难度以及三种不同的task维度来对比不同的文生图模型的图片生成效果(见表1),比如SD和DALL-E 2。难度的定义用论文中的原文表述是:“In that case, the task may be easy: generating 1-3 objects, medium-generating 4-10 objects, and hard-generating more than ten objects.”

文生图关键问题探索:个性化定制和效果评价

表1  不同的文生图模型的人工评测结果

论文也给出了人工评价的结果,在数量(counting)和人脸(faces)两个类别的任务上,DALL·E2占优势,而在形状(shapes)这个类型的任务上,SD占优势。从篇文章给出的结果来看,现在的文生图模型中的第一梯队水平模型,在数量和形状方面,还是明显弱于人脸的生成任务的。因此,我们可以从这篇文章中总结出现在文生图模型存在的语言理解的问题,特别是数量和形状在理解能力上偏弱。

文本理解能力可以通过更大更强的语言模型来解决,比如Google提出的Imagen[6]使用了更大的文本模型T5(Text-To-Text Transfer Transformer[7]),并在解码和超分模型中都引入文本的信息来生成具有更丰富细节的图片。为了评价文生图模型的效果,Imagen团队也同时提出了一个文生图的评价基准DrawBench。该基准主要从两个维度来评价文生图的效果:image-text alignment和sample fidelity。其实验指出,用T5作为文本编码器的Imagen模型在这两个维度上都有提升。但是,从上述实验的结果可以得出,在Image框架下将文本编码器从CLIP的文本塔换成T5,会有一定的alignment提升,但是不是特别明显。所以更大的语言模型会带来一定的alignment的提升,但是提升没有预期的高。

整体来看,文生图模型的评价是AIGC继续发展的基石,急需评价体系的建立。

可控生成

 从上述论文对文生图的评价结果可以看出来,达到可控生成任重而道远,其中最关键的一点是alignment,还有很大的提升空间。因此,我们可以得到文生图的第二个关键问题——可控生成。通过一句prompts输入来生成图片时,生成的图片和文字之间的alignment会比较弱,比如:

  • 同时输入多个实体不能实现完全生成;
  • 实体之间的关系不能体现;
  • 颜色和数量不能体现;
  • 文字显示不出来。

在现行的一些研究中,研究者也提出引入对文本理解更好的模型来解决可控问题,比如EDiff-I[8]。这篇文章延续了Imagen的思路,既然T5文本理解对于可控生成有帮助,那就把它集成进来,发挥出1+1>2的效果。

但是,从文本模型角度来改进可控生成所需资源比较多,首先需要一个更强的文本模型,然后才能训练得到更好的文生图模型。因此,有一些研究便从可控编辑的角度来解决这个问题,比如一项名为P2P (Prompt-to-Prompt Image Editing with cross attention control[9]) 的研究便期望通过微调prompt达到可控生成的目标(见图3)。

文生图关键问题探索:个性化定制和效果评价

图3 通过微调prompt达到可控生成的目标

InstructPix2Pix [10]这篇文章的思路跟P2P思路很像,也是通过图像编辑来实现可控生成。不一样的是,这篇文章用GPT-3来做prompt微调。从图片编辑这条线上进行研究效果的确很惊艳,但是评价偏弱,没有一个很好的评价标准和体系,还是很难继续推进。图像编辑算法Paint by Example提出了另外一种思路:将可控生成的难度降低,提供一个样本图片,结合图像修复技术来达到局部可控生成。其技术思路很直观,同时提供机器评价和人工评价的结果。

总得来说,这个方向的改进可能会引发下一波文生图应用热潮,但是因为评价方法的缺失,导致进展比较难以衡量。

个性化模型

本文首先从评测的角度探讨了文生图模型的关键问题:可控生成。接着从应用的角度出发,重点研究如何定制一个文生图模型,这是落地各行业应用的关键所在。在影视、动漫、漫画、游戏、媒体、广告、出版、时尚等行业使用文生图模型时,常常会遇到新概念、风格、人物缺失的问题。例如,若需要生成某位明星A的中国风肖像,但该模型并未见过此明星的肖像,也无法识别中国风,这将严重限制文生图模型的应用场景。因此,如何快速新增概念和风格,成为当前研究的重要方向之一。

说到这里,大家第一时间想到的肯定就是DreamBooth[11]、Textual Inversion[12]和美学梯度[13]。

DreamBooth本身是为Imagen设计的,通过三张图就能够快速学习到新概念/风格/人物,但是现在已经迁移到了Stable Diffusion。这个技术有很多个不同的版本,其核心思想是在小样本上微调的同时尽量减少过拟合。

Textual Inversion是从文本编码器的角度来解决新概念引入的问题,其提出新风格和概念的引入需要从文本理解开始,新的风格和概念如果是OOV(Out Of Vocaburary,未登录)的词汇,那我们就在文本编码器上增加这个词汇来解决概念引入的问题。其思路是整个模型的所有参数都不需要调整,只需要增加一个额外的token以及其对应的embedding就可以,即插即用。

美学梯度方法跟之前inpainting的可控生成思路很类似,针对新的风格,我们先降低难度,给出一些新风格的样例(这里是embedding),然后让生成朝着与这个样例更接近的方向展开。

总而言之,这条线上的研究现在也没有什么评价标准和体系,处于方兴未艾的阶段,离落地也很近,基本出来效果就可以直接创业。

高质量数据集

数据的重要性不言而喻,大量高质量的文图数据是文生图发展的血液,没有数据再好的算法也发挥不了作用。数据集不是开源一堆url提供下载就完了,其中包括了水印识别、NSFW(Not Suitable For Work)图片识别、文图匹配过滤等多种预处理操作,甚至包括说明文字的生成、改写和优化等操作。这个方向国外的LAION团队做的非常的扎实,国内也有一些公司开源了数据集。下表2列出,仅供参考。

文生图关键问题探索:个性化定制和效果评价

表2:国内外开源文图数据集

综上,文图数据现在是英文的数据在数量和质量上都比中文和其他语言高了一截,希望未来有十亿级别的高质量中文数据集出现。

结语

文生图模型是当前人工智能领域最具潜力和前景的研究方向之一。未来,随着计算能力的提高和技术的进一步发展,文生图模型的应用前景将会更加广泛和深远。然而,针对其应用过程中存在的一些问题,如模型评价缺乏一致性、控制生成过程效率低下、定制个性化模型困难以及高质量文图数据集缺乏等,需要我们进一步研究探索解决方案。

随着文生图模型的不断发展和完善,我们可以预见到未来人机交互方式的改变。在智能化时代的到来中,文生图模型的应用将会极大地改变人们与计算机交互的方式,让计算机更加“懂人”,进一步提升人机交互的效率和质量,也有望成为人工智能走向真正“人性化”的关键一步。总之,文生图模型作为一项研究热点,具有极其广泛的应用前景,未来也将在技术创新和产业应用中扮演越来越重要的角色。

参考链接

[1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning.PMLR, 202

[2] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.

[3] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[4] Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794.

[5] Petsiuk, Vitali, et al. "Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark." arXiv preprint arXiv:2211.12112 (2022).

[6] Saharia, Chitwan, et al. "Photorealistic text-to-image diffusion models with deep language understanding." Advances in Neural Information Processing Systems 35 (2022): 36479-36494.

[7] Raffel, Colin, et al. "Exploring the limits of transfer learning with a unified text-to-text transformer." The Journal of Machine Learning Research 21.1 (2020): 5485-5551.

[8] Balaji, Yogesh, et al. "ediffi: Text-to-image diffusion models with an ensemble of expert denoisers." arXiv preprint arXiv:2211.01324 (2022).

[9] Hertz, Amir, et al. "Prompt-to-prompt image editing with cross attention control." arXiv preprint arXiv:2208.01626 (2022).

[10] Brooks, Tim, Aleksander Holynski, and Alexei A. Efros. "Instructpix2pix: Learning to follow image editing instructions." arXiv preprint arXiv:2211.09800 (2022).

[11] Ruiz, Nataniel, et al. "Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation." arXiv preprint arXiv:2208.12242 (2022).

[12] Gal, Rinon, et al. "An image is worth one word: Personalizing text-to-image generation using textual inversion." arXiv preprint arXiv:2208.01618 (2022).

[13] Gallego, Victor. "Personalizing Text-to-Image Generation via Aesthetic Gradients." arXiv preprint arXiv:2209.12330 (2022).

作者介绍


文生图关键问题探索:个性化定制和效果评价

 刘广,北京邮电大学智能科学与技术博士,北京智源人工智能研究院NLP和多模态研究中心算法研究员。FlagAI核心贡献者,主要研究方向是预训练大模型和多模态文图生成等方向。在人工智能领域顶级学术会议和国际学术期刊上发表论文数篇,发明专利申请十余项。文章来源地址https://www.toymoban.com/news/detail-457827.html

到了这里,关于文生图关键问题探索:个性化定制和效果评价的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 奥威BI数据可视化工具:个性化定制,打造独特大屏

    每个人都有自己独特的审美,因此即使是做可视化大屏,也有很多人希望做出不一样的报表,用以缓解审美疲劳的同时提高报表浏览效率。因此这也催生出了数据可视化工具的个性化可视化大屏制作需求。 奥威BI数据可视化工具:个性化定制,打造独特可视化大屏 奥威BI数据

    2024年02月12日
    浏览(54)
  • 服装行业多模态算法个性化产品定制方案 | 京东云技术团队

    一、项目背景 AI赋能服装设计师,设计好看、好穿、好卖的服装 传统服装行业痛点 • 设计师无法准确捕捉市场趋势,抓住中国潮流 • 上新周期长,高库存滞销风险大 • 基本款居多,难以满足消费者个性化需求 解决方案 • GPT+数据洞察,快速反应市场时尚流行趋势 • 柔性

    2024年02月14日
    浏览(53)
  • 三防平板定制服务:亿道信息与个性化生产的紧密结合

    在当今数字化时代,个性化定制已经成为了市场的一大趋势,而三防平板定制服务作为其中的一部分,展现了数字化技术与个性化需求之间的紧密结合。这种服务是通过亿道信息所提供的技术支持,为用户提供了满足特定需求的定制化三防平板,从而使得产品更符合用户的个

    2024年04月09日
    浏览(54)
  • 三种风格:山海鲸可视化软件模板的个性化定制之旅“

    当我们谈论数据可视化时,一个好的可视化组件套件模板至关重要。一个优秀的模板不仅可以提高数据可视化的效果,还能让用户更加深入地探索和理解数据。作为山海鲸可视化软件的开发者,在提供 免费好用 的产品同时我们也希望最大限度降低用户设计难度,因此我们精

    2024年01月22日
    浏览(55)
  • 基于ssm个性化旅游攻略定制系统设计与实现+jsp论文

    在如今社会上,关于信息上面的处理,没有任何一个企业或者个人会忽视,如何让信息急速传递,并且归档储存查询,采用之前的纸张记录模式已经不符合当前使用要求了。所以,对个性化旅游攻略信息管理的提升,也为了对个性化旅游攻略信息进行更好的维护,个性化旅游

    2024年02月03日
    浏览(62)
  • 个性化定制,提升运营效率:SAP二次开发引领企业数字化转型

    SAP二次开发引领企业数字化转型 随着企业竞争的日益激烈,定制化管理方案成为企业实现差异化竞争的重要工具。SAP作为全球领先的企业管理软件提供商,SAP二次开发服务应运而生,为企业提供个性定制的解决方案,助力其实现数字化转型,提高运营效率,迎接不断变化的业

    2024年02月22日
    浏览(49)
  • 基于Android+Django+Python的服饰管理与个性化定制系统的设计与实现

    资源下载地址:https://download.csdn.net/download/sheziqiong/87904742 资源下载地址:https://download.csdn.net/download/sheziqiong/87904742 一、选题的背景和意义 1、课题研究背景 随着移动终端技术和网络技术的飞速发展,人们可以使用移动客户端上网,随时随地从互联网获取信息和服务,解决吃

    2024年03月13日
    浏览(101)
  • 个性化定制界面 VS 极简版原装界面:你更喜欢哪一个?为什么?

    不管昨天、今天、明天,能豁然开朗就是最美好的一天。 个性化定制界面和极简版原装界面,哪一个你用起来更加顺手呢,相比之下你更喜欢哪一个? 随着移动互联网技术的不断发展,手机和电脑成为我们生活中必不可少的工具之一。而手机和电脑界面作为我们与手机交互

    2024年02月11日
    浏览(55)
  • 【ChatGPT】Mr. Ranedeer:可定制个性化学习体验的 GPT-4 AI 导师提示

    Mr. Ranedeer AI Tutor 是一个可定制的提示,为具有不同需求和兴趣的用户提供个性化的学习体验。它使用GPT-4来释放AI的潜力,并允许您调整知识深度以匹配您的学习需求,自定义学习风格,沟通类型,语气和推理框架 。 当您使用Mr. Ranedeer AI Tutor时,您 可以选择自己的学习风格

    2024年02月11日
    浏览(50)
  • 企业版ChatGPT用户激增至60万;百度文心一言推出个性化声音定制功能

    🦉 AI新闻 🚀 企业版ChatGPT用户激增至60万 摘要 :OpenAI首席运营官Brad Lightcap在接受采访时透露,企业版ChatGPT的注册用户已超60万,相较2024年1月的15万用户,短短三个月内增长了300%。这一版本自2023年8月推出,特别支持无限制访问GPT-4模型并提供深入的数据分析,帮助企业更有

    2024年04月09日
    浏览(70)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包