QQGC?揭秘QQ的AI绘画大模型技术

这篇具有很好参考价值的文章主要介绍了QQGC?揭秘QQ的AI绘画大模型技术。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

QQGC?揭秘QQ的AI绘画大模型技术

QQGC?揭秘QQ的AI绘画大模型技术

👉腾小云导读

2022年来,AIGC概念迅速出圈并快速形成产业生态,成为继PGC、UGC之后新的数字内容创作形式。QQ影像中心提出了自研的AI画画技术方案——QQGC,本文将介绍在QQGC基础大模型训练中的实践和探索,接着往下看吧~

👉看目点收藏,随时涨技术

1 背景

    1.1 扩散模型

    1.2 DALLE 2

    1.3 Stable Diffusion

2 技术方案

    2.1 整体架构

    2.2 Prior模型

    2.3 Decoder模型

    2.4 训练加速方案

3 结果展示

    3.1 Text2Image

    3.2 Image Variation

    3.3 融合原图语义信息的img2img

    3.4 CLIP向量编辑

4 总结展望

01、背景

2022年来,随着 DALLE2、ChatGPT 等技术的突破式发展,AIGC 迎来了快速的爆发式的增长,内容生产已经从专业生成内容(PGC)、用户生成内容(UGC),进入到人工智能生成内容 AIGC(AI-Generated Content)的时代。这其中关于AI画画的应用随着生成技术的不断完善、开源社区的推动、以及大量的商业化探索,成为未来最有希望落地并广泛使用的技术方向,为数字内容创作注入新能量。

QQGC?揭秘QQ的AI绘画大模型技术

而基础大模型作为 AIGC 生态中最底层一环发挥着重要作用,因此QQ影像中心提出了自研的QQGC-AI 画画技术方案,本文将分析现有 text2Image 技术方案,以及在AI画画大模型等探索和相关技术落地案例。

   1.1 扩散模型

Diffusion Model 是近几年兴起的生成式模型,比如 OpenAI 的 GLIDE、DALLE2、Google 的 Imgen、Parti 等,它们都是采用扩散模型的 pipeline 完成高质量的图像生成。

扩散模型通常包括两个过程,从信号逐步到噪声的扩散过程和从噪声逐步到信号的逆向过程。这两个过程建立起了复杂的数据分布与简单的噪声先验分布之间的双向联系。从数据分布到先验分布是一个预先定义好的加噪过程,通过按照预先设置好的规律逐渐融合数据与噪声,将复杂的分布转换为一个简单的分布。

Diffusion Model 的反向过程则是:将原始数据与噪声混合的数据送入模型,模型预测出其中的噪声(或者原始数据),通过逐渐降低先验分布中样本的噪声,实现了从简单分布中样本到数据分布中的样本的转换。

QQGC?揭秘QQ的AI绘画大模型技术

相比 GAN、VAE 而言,Diffusion Model 解决了由于对抗训练产生的训练不稳定的问题,并且有更高的生成质量和多样性。

   1.2 DALLE 2

DALLE 2 是 OpenAI 公司发布的 text2image 算法,该算法在之前 GLIDE 生成模型的基础上,大幅提升了生成效果,首次将 text2image 算法提升到一个可用的水平,获得了社会各界的广泛关注。

DALLE 2 沿用了 OpenAI 之前 GLIDE 模型的技术路线,GLIDE 模型中选择transformer 模型提取文本特征,用了 Diffusion 模型作为图像生成模型,进行端到端的训练。DALLE 2 在此基础上,选择 CLIP 模型作为文本-图像桥梁,整体主要可以分为如下几部分:

Prior 模型:使用 CLIP text embedding 作为输入,预测待生成图像的CLIP image embedding;

Decoder 模型:输入 CLIP image embedding ,预测64分辨率的小图;

Upsampler 模型:输入64分辨率的小图,通过两阶段超分,将图片分辨率超分到1024分辨率;

QQGC?揭秘QQ的AI绘画大模型技术

以上的方式以 CLIP 模型为桥梁,很好地将各部分任务解耦开来。对于每一项任务而言,大大降低了训练的难度。并且使用了 CLIP 作为已知的预训练模型,能够很好的提取文本图像特征,解决了端到端训练的 text transformer 能力不足问题。

   1.3 Stable Diffusion

Stable Diffusion 模型是由 Stability 公司发布的一个开源的 text2image 模型,该模型以 latent-diffusion 模型为基础,融合了 DALLE2 以及 Imagen 等方法的优点。使用 CLIP text embedding 作为模型输入,预测一个 VAE 的 latent sapce ,然后通过 VAE decode 得到原始分辨率大小。

QQGC?揭秘QQ的AI绘画大模型技术

通过替换 CLIP 语言模型以及 classifier-free guidance 等方法,Stable Diffusion 做出了非常好的效果。而且由于其相对简洁的 pipeline,不需要超分作为后处理流程,大大降低了训练和部署成本。

很多社区和公司在 Stable Diffusion 的基础上改进衍生出了自己模型,使得 text2image 成功出圈,衍生了很多不同的生成技术和玩法。

02、技术方案

   2.1 整体架构

通过对 DALLE2、Stable Diffusion 等方案的对比,QQ 影像中心探索了自研的  text2image 方案,包含如下几个重要的改进技术方向:

更强的文本特征提取:

通过 DALLE2 和 Stable Diffusion 等模型的改进方案可以看到,语言模型特征提取在图片生成过程中至关重要。包括 Google 的 Imagen 以及 Nvidia 等 ediff 等方案,都尝试在引入了更多更强大的语言模型作为文本特征提取器,并且取得效果上的显著提升;

对训练数据要求较低的技术框架:

高质量 text-image 成对的数据要求文本能够很好地描述图片,同时图片也有足够高的质量,其收集的难度远大于收集单独的高质量图片(或文本)。所以要求将文生图任务尽量解耦,降低对数据收集的要求,让训练更容易收敛;

更轻量低成本的训练部署:

Stable Diffusion 模型能够迅速破圈的原因在于其相对轻量的技术方案,通过减少超分等更大计算量的步骤,大大减少了训练及部署的成本,这一点在当前降本增效的大环境下显得更加重要;

基于以上分析,我们提出了如下的技术架构。核心主要包含 prior 模型和 decoder 模型两部分。在几乎不引入额外计算量的情况下,可以大幅超越 Stable Diffusion 开源模型,达到 DALLE2 等第一梯队 text2image 模型的水平。

QQGC?揭秘QQ的AI绘画大模型技术

   2.2 Prior模型

经过实验我们发现,直接通过 CLIP text embedding 输入 Stable Diffusion 的方案在图文一致性上存在明显的缺陷。因此我们参考了 DALLE2 的模型设计思路,将 text embedding -> image 一步的思路,拆分成 text embedding -> image embedding -> image 两阶段,增加了 prior 模型作为从 text 特征域到 image 特征域的映射,这样可以显著降低训练难度以及提升生成效果。同时为了增强文本特征的提取能力,我们还融合了 T5 类语言模型作为特征提取模型,实现更强的语意理解能力。

   2.3 Decoder模型

Decoder 模型的输入是 CLIP image embeddings,输出图片。在实现上,我们复用了 Stable Diffusion 的 pipeline,将 Stable Diffusion 的 condition 从CLIP text embedding 替换成 CLIP image embeddings。

在训练 Decoder 模型的过程中,不需要文本数据的参与,只需要收集高质量图片数据即可。对应地,训练 Prior 模型时,更关注训练数据中图文数据的语义匹配程度,对图文 pair 中图片的质量要求不高。这样,训练高质量文生图模型的数据收集要求被拆解、降低。

   2.4 训练加速方案

如何用有限的资源和成本,快速高效的训练 text2image 大模型?这是一项非常有挑战的任务。加速训练的核心在于消除整个训练 pipeline 中的性能短板,提高计算密度和计算效率。因此我们主要从如下几个方面入手进行了加速改进。

  • 提高数据效率:

Text2image 训练依赖海量的数据,不同于传统CV任务,数据量的增加了几个量级,需要设计面向大数据的高效 dataloader,解决数据读取方面的短板。这里我们选取了 tar 包形式的数据组织方式,将数据分层存储,将 百M 条数据分 每10K 数据打包成一个 tar 包,这样就降低了数据读取的难度,数据的 shuffle 等操作仅在 tar 包这一层级进行。

QQGC?揭秘QQ的AI绘画大模型技术

  • 提高计算密度/效率:

提高训练速度最有效的方式就是尽量提高计算密度,即在一张 GPU 上部署更大的 batchsize 。我们使用了 FP16 半精度训练、activation checkpoint,以及 ZeRO(零冗余优化器) flash attention算子优化等方法显著的减少了显存占用,单卡 batchsize 增加了8倍,训练速度提升到了4倍。

QQGC?揭秘QQ的AI绘画大模型技术

  • 减少通信开销:

在部署分布式多机训练时,由于模型参数量较大,多机间的通信耗时往往是模型训练的瓶颈。我们采用 GPU RDMA 网络直连通信,能够保证基础的网络通信性能。我们使用梯度累加,以及优化器方面的优化工作,来减少通信量,节约通信的成本。经过上述优化,我们可以在64卡集群上就可以很快的进行超过 2B 参数量模型的训练。

03、结果展示

   3.1 Text2Image

我们在 COCO-30k 上评测了 FID 和 CLIP-score 指标的表现,结果达到同等级SOTA 水平。

QQGC?揭秘QQ的AI绘画大模型技术

以下为一些自研模型的生成效果,可以作为通用大模型已经可以生成非常高质量的不同物体、风格、及抽象概念的图像。

QQGC?揭秘QQ的AI绘画大模型技术

以下是一些模型生成效果示例,在语义贴合度、美观度方面远超 StableDiffusion 模型:

QQGC?揭秘QQ的AI绘画大模型技术

   3.2 Image Variation

Decoder 模型可以根据图片的 CLIP embedding 来重建图片。下面是用我们训练的 Decoder 模型重建各种图片的示例:

QQGC?揭秘QQ的AI绘画大模型技术

可以看到,无论是艺术画,还是肢体复杂的自然图片,包括由其它(Parti 和 DALLE2)生成的复杂图片,我们的 Decoder 的模型都能重建还原其神韵,在语义层次很接近。证明我们训练的 Decoder 模型有较强的还原 Clip image embedding 能力,只要 Prior 模型能生成符合 prompt 描述的 Clip image embedding ,组合两者就可以得到一个强大的文生图模型。

   3.3 融合原图语义信息的 img2img

Stable Diffusion 除了可以用来实现文生图生成,也可以通过用加噪的图片取代一部分 Diffusion 过程,实现 img2img。用于加噪的图片也常被称为垫图。但是基于 Stable Diffusion 实现的的 img2img 只利用了输入图片的加噪结果,常常面临保留原图更多信息和保留 prompt 对应效果之间的权衡。而 QQGC-AI 画画模型由于将生成步骤拆分成了两个阶段,可以在 Decoder 生成图片过程中,利用垫图的加噪结果,融合垫图的语义特征和 prompt 对应的特征,实现融合原图语义信息的 img2img。

比如使用如下 prompt:

two women standing next to each other holding hands, portrait, elegant, intricate, digital painting, artstation, concept art, smooth, sharp focus, illustration, art by konstantin korovin and daniel f. gerhartz and john howe

调用 QQGC-AI 画画模型完成文生图任务:

QQGC?揭秘QQ的AI绘画大模型技术

类似于 Stable Diffsuion 实现的 img2img,QQGC-AI 画画模型也可以给定一个垫图,在由 Prior 生成的 condition 向量控制下实现基础的 img2img:

QQGC?揭秘QQ的AI绘画大模型技术

可以注意到,由于这种基础的 img2img 完全不考虑原图的语义信息,只是用了原图的结构(色块),导致生成图只保留了一些比如右边女性的头发区域是黑色这样的信息,但完全忽略了这部分区域是头发的语义信息,生成图对应区域成了黑色的袖子。

为了融合原图的语言信息,可以将 prompt 对应的 image embedding 和原图的 embedding 混合,然后由 Decoder 将混合 image embedding 转化为图片。借此,实现了融合了原图语义信息的 img2img:

QQGC?揭秘QQ的AI绘画大模型技术

   3.4 CLIP 向量编辑

由于二阶段模型提供了两个域很好的解耦性,我们可以直接在 CLIP Embedding 域做向量编辑来达到对图片的精细修改的效果,如下图展示了通过对向量做编辑,实现精准的水印文字去除甚至增加水印的能力:

QQGC?揭秘QQ的AI绘画大模型技术

同时,为了让模型生成内容更加健康正能量、主体更美观,在输入 text 包含血腥、色情等描述时,也可以在 diffusion 过程中对 CLIP embbeding 做控制,达到生成内容更加真善美的目的。

04、总结展望

通过以上结果可以看到,QQ 影像中心自主研发的 QQGC 两阶段生成大模型具备:更好的文本图像域解耦、更精准的生成语意匹配度、更低模型训练部署成本、支持更为复杂丰富的编辑控制操作等特性。

QQGC 基础大模型作为 AIGC 技术落地中的 Foundation 模型将会发挥重要作用,QQ 影像中心也以 QQGC 大模型为基础,上线了小世界“魔法画室”功能。后台回复「QQ」,体验AI绘画。

可以根据用户的自由输入直接生成高质量的生成结果:

QQGC?揭秘QQ的AI绘画大模型技术

同时,在业界很关注的在不同风格、场景的生成图片中保留身份特征、更强的生成控制能力上,我们也在持续探索,会在未来的活动中上线,欢迎大家在评论区中反馈讨论交流~

QQGC?揭秘QQ的AI绘画大模型技术

欢迎在评论区聊一聊对AI绘画的看法。AI绘画的出现会替代某些岗位吗?AI绘画能有哪些应用场景?我们将选取1则最有创意的评论,送出腾讯云开发者-鼠标垫1个(见下图)。6月1日中午12点开奖。

QQGC?揭秘QQ的AI绘画大模型技术

QQGC?揭秘QQ的AI绘画大模型技术

QQGC?揭秘QQ的AI绘画大模型技术

QQGC?揭秘QQ的AI绘画大模型技术

QQGC?揭秘QQ的AI绘画大模型技术文章来源地址https://www.toymoban.com/news/detail-492463.html

到了这里,关于QQGC?揭秘QQ的AI绘画大模型技术的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 揭秘艺术的未来:AI绘画自动生成器的魔法

    A. 介绍AI在艺术创作中的兴起 随着人工智能技术的迅猛发展,它已经逐渐渗透到了各个领域,其中包括艺术创作。传统上,艺术创作一直被认为是人类独有的领域,需要艺术家具备独特的创造力和技能。然而,随着AI技术的崛起,人们开始探索将机器学习和深度学习应用于艺

    2024年04月14日
    浏览(71)
  • 揭秘AI魔法绘画:Stable Diffusion引领无限创意新纪元

    随着科技的飞速发展,人工智能已经渗透到我们生活的方方面面。在艺术领域,AI技术的应用也日益广泛,为我们带来了前所未有的视觉体验。今天,我们将探讨一种名为Stable Diffusion的AI魔法绘画技术,它如何挑战无限可能,为艺术家和设计师提供全新的创作空间。 首先,让

    2024年02月05日
    浏览(64)
  • AI绘画创意文字全流程揭秘,你的终极文字艺术实操宝典

    本教程收集于:AIGC从入门到精通教程汇总 AIGC技术不断更新迭代,国内出现了越来越多的新玩法,比如最近大家都在热议的AI绘画创意文字。 过去的一周,我把这些新玩法都研究了一遍,并总结了一套完整的制作流程。 主流的创意文字玩法主要分为四类: 光影文字 嵌入文字

    2024年02月13日
    浏览(53)
  • 【AI绘画:月入万元的秘籍】揭秘!这个AI绘画神器不仅让你拥有艺术天赋,还能轻松变现!跟着教程一起赚钱吧!

    随着AI的飞速发展,三页AI成为了创新艺术的新宠。它利用先进算法和大数据,使得个性化设计变得触手可及,轻松将你的照片变成独特的卡通形象。现在,每个人都有机会成为AI设计师! 今天为大家介绍一款上手非常简单的三页AI平台,对AI小白十分友好,无需魔法,微信即

    2024年03月16日
    浏览(50)
  • 红衣大叔讲AI:Sora技术原理大揭秘

    前沿:Sora是一个OpenAI技术大集成模型,融合了ChatGPT、DALL E3,以及把视频融合到Transformer中,生成一个一的视频帧,利用矢量来表示,最后把这个矢量送到Transformer中训练视觉大模型。 Sora 生成图像能力 : Sora是一个文生视频模型,但同样具备生成图像能力,这个创新属于业内

    2024年03月15日
    浏览(43)
  • 大模型时代下智能文档处理核心技术大揭秘

    ​强烈推荐一个大神的人工智能的教程:http://www.captainai.net/zhanghan  最近,中国图像图形大会在苏州圆满结束,本次论坛邀请了5位学术界和产业界的专家做特邀报告,共同交流文档图像分析与处理的前沿学术进展、在典型行业的规模化应用情况,并探讨未来技术及产业发展

    2024年02月06日
    浏览(43)
  • 【AI绘画】AI绘画乐趣:稳定增强扩散技术展现

    本文将借助stable-diffusion-webui项目来展示AI绘画的乐趣,stable-diffusion-webui项目是一个基于稳定增强扩散技术的Web界面应用,使得普通用户也能够轻松探索AI绘画的乐趣。使用该项目,用户可以上传自己的图像,然后选择特定的风格或主题,AI系统将利用稳定增强扩散技术进行图

    2024年02月16日
    浏览(52)
  • 《花雕学AI》34:用13种Prompt玩转AI聊天机器人—揭秘ChatGPT模型

    引言: 聊天机器人是一种能够通过自然语言进行交流的智能系统,它可以模仿人类的对话方式,提供各种信息、服务或娱乐。随着人工智能技术的发展,聊天机器人的应用越来越广泛,从电商、教育、医疗、旅游等领域,到社交、游戏、文学等领域,都可以看到聊天机器人的

    2024年02月05日
    浏览(50)
  • 【AI绘画】探索艺术与技术的融合:AI绘画的新前景

    随着人工智能(AI)技术的快速发展,AI绘画成为了艺术创作领域中备受关注的话题。传统的艺术创作方式受到了AI技术的冲击,为艺术家和观众带来了全新的体验和想象空间。 在过去,绘画通常需要艺术家具备丰富的绘画技能和创意想法。然而,随着深度学习等AI技术的发展

    2024年02月09日
    浏览(53)
  • AI绘画技术也很强大,推荐5个国内AI绘画网站

    近年来,随着人工智能技术的飞速发展,越来越多的AI绘画网站应运而生。这些网站提供了更加方便快捷的绘画工具和创作灵感,让广大用户可以轻松掌握绘画技巧和理论。 推荐5个国内非常受欢迎的AI绘画网站: 1. 悦灵犀AI 。它不仅提供了多种绘画风格(如动漫、仿真人、

    2024年02月16日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包