百度最强中文AI作画大模型

1年前作者：weixin_42001089分类：Toy博客阅读(9)违法举报

这篇具有很好参考价值的文章主要介绍了百度最强中文AI作画大模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

最近文生图领域的发展可谓是分生水起，这主要是得益于最近大火的扩散模型，之前笔者也写过一篇关于文本生产3D模型的文章，大家感兴趣的可以穿梭：

https://zhuanlan.zhihu.com/p/570332906

今天要给大家介绍的这一篇paper是百度最新的文生图佳作：ERNIE-ViLG 2.0，其在diffusion的model基础上进行了两方面设计：融入语言和图像知识进行增强、混合降噪专家网络。

ERNIE-ViLG 2.0目前在文本生成图像公开权威评测集 MS-COCO取得了SOTA, 尤其是在中文领域展现出了超强优势。

论文链接：https://arxiv.org/pdf/2210.15257.pdf

体验链接：https://wenxin.baidu.com/ernie-vilg

demo

在开始之前先给大家展示几个demo，感受一波，学起来更有动力～

中文在线大模型,程序人生

中文在线大模型,程序人生

中文在线大模型,程序人生

中文在线大模型,程序人生

中文在线大模型,程序人生

可以看到不论是轮廓还是上色都是很棒的，而且很细节的描述都能捕捉到，比如最后一幅画中的光从右边打来。

更多的demo大家感兴趣的话可以自己去体验体验～

方法

整体框架如下

中文在线大模型,程序人生

扩散模型

在开始介绍作者提出的创新点之前，不得不先介绍下扩散模型，作者是在其基础上针对性的设计了两点。

要详细介绍扩散模型的话，其实设计到很多数学知识，而他的思想逻辑实际上很好理解，基本上两句话就可以介绍清楚。

关于扩散模型这里就按照本篇paper中的介绍方式给大家从大的逻辑上介绍一下吧，如果有同学还是对细节更感兴趣，还是建议去看扩散模型的原paper或者其他大牛的讲解，现在扩散模型很火，网上资料多多，笔者就不再叙述了，也怕从根源上误导到大家。

它的过程大致就是：给图片不断的加噪声，然后再不断的去噪声。而这个噪声就是人为的取了一个最常见的数学分布：高斯噪声。

中文在线大模型,程序人生

x就是图片的表征，每一步t都是在不断的叠加一个噪声，经过不断的叠加噪声（从高斯分布随机采样），图片就是越来越模糊。那么很明显，如果我们能够得到每一步的确切噪声，那么就能够回推出一开始的图片，也就是复原。

再解释一下这个逻辑：在随机叠加噪声的时候是随机采样的，而为了复原，我们需要训练一个去噪网络，而这个所谓的网络其实就是在拟合每一步这个随机采样的噪声值，因为拿到了噪声值就可以一步步往回推理直到复原。

中文在线大模型,程序人生

好了现在的重点变成了：怎么能够精确得到这些噪声呢？

那就是直接监督训练吧：

中文在线大模型,程序人生

可以看到直接设计一个网络，然后每一步监督训练，具体的这个网络的输入是当前这一步对应的图片表征，输出就是这一步采样叠加的噪声。

有了这个训练好的模型，inference的时候便可以推理得到图片在t步的预测值

中文在线大模型,程序人生

具体到没一步的推理往回推理公式：

中文在线大模型,程序人生

上面就是扩散模型的去噪过程。

那上面说的“直接设计一个网络”中的网络是什么网络呢？答案是：U-Net。

它的核心是一个cross-modal attention网络

中文在线大模型,程序人生

(x,y)分别代表一对图文训练pair，可以非常清晰的看到K、V是图文的concatenated表征，Q是图片的表征。

融入语言和图像知识进行增强

再经过前面的解释，这里我们正式的看一下作者提出的第一个设计：

（1）文本知识

中文在线大模型,程序人生

中文在线大模型,程序人生

通过公式(8)可以看到在计算attention的时候，作者多加了一个权重W项，具体的它是一个可学习网络矩阵，其中的每一个具体元素值ij，代表着image tokens i和 text tokens j的权重。

可以看到如果是非关键token，它的值是1，如果是关键token那么就会累积一个可学习的权重。

具体的什么是关键token呢？作者这里考虑了形容词和名词，凡是形容词和名词的，会在对应的输入开头拼接一个[a]和[n],如上图中的“灰色的”和“猫”的开头。

（2）视觉知识

视觉知识这里，作者具体是采用了目标检测手段。

具体的融合手段是放在了上述拟合高斯噪声loss那里，如下：

中文在线大模型,程序人生

在之前的基础上，又是同样的手段即多加了一个权重W，同理如果对应的image和text token是关键物体（目标检测），那么就要着重惩罚此时的loss，也就是说这是关键物体，一定得给我画出来呀。

说到这里，就会遇到另外一个问题：图片中目标检测出来的物体，文本中没有对应的描述，这个时候怎么办？

那就强行在文本后面append追加上这个目标，如上图框架中的“碗”。

除此之外，为了进一步增加泛化性，作者还用了一个images-text的模型，通过图片生成对应的文本，用这个文本随机代替原先给扩散模型训练(images,text)pair中的text。

这样的话文本中会包含一些图片中的重要目标。

混合降噪专家网络

接下来接着第二点设计

这里就更好理解一点，看到扩散模型去噪那里，每一步都是用的同样的模型或者说同一套参数，这里其实每一步应该关注的点是不一样的，所以说应该个性化。

具体的作者这里每一步都对应自己的参数，而是进行了分组，每一组其实就是连续的几步step，同一个组内对应一套参数。

那具体多少组呢？也就是paper中提到的MoDE，多专家网络，其实就是多少组，可以想象得到理论上来说越多越个性化，越效果好。

实验

paper也做了很多实验和case分析，大家感兴趣的可以去详细看看，这里给一下设计的两个点的对应消融实验结果吧

中文在线大模型,程序人生

总结

融入知识是ERNIE系列的老手段了，也是起家的本领，怎么把更多更细粒度的知识融入到模型是ERNIE一直坚持创新的点，其已经在各个领域模型发光发热，大家对模型感兴趣的可以持续关注～

欢迎关注，下期再见啦~

知乎，csdn，github，微信公众号

本文由 mdnice 多平台发布文章来源地址https://www.toymoban.com/news/detail-606779.html

到了这里，关于百度最强中文AI作画大模型的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

文心一言放开，百度搜索AI最强评测
今天凌晨，百度突然官宣，文心一言全面开放，人人都能上手用了！现在，只需登陆「文心一言官网」即可体验。真正重磅的是，一批全新重构的百度AI原生应用，包括百度搜索、「文心一言APP」、输入法、百度文库率先开放。人人皆知，百度搜索是国内最大的引擎，是百
2024年02月10日
浏览(8)
人工智能AI时代：全栈程序员的人生规划
博主默语带您 Go to New World. ✍ 个人主页—— 默语的博客👦🏻 《java 面试题大全》 🍩惟余辈才疏学浅，临摹之作或有不妥之处，还请读者海涵指正。☕🍭 《MYSQL从入门到精通》数据库是开发者必会基础之一~ 🪁 吾期望此文有资助于尔，即使粗浅难及深广，亦备添少许微薄
2024年02月11日
浏览(23)
(十三)AI作画、AI绘画、AIGC本地大模型
AI作画近期很火，涌现出了很多AIGC(AI内容生成)的网站、平台，但这些平台都是使用的云上的算力，基本都有使用的各种限制等。一、本代码自动将大模型下载本地，可以无-限-使-用。但是对硬件的要求较高需要8G显存以上的显卡才能快速出图，用CPU会很慢的。【同时，针对
2024年02月11日
浏览(10)
AI 作画：Stable Diffusion 模型原理与实践
本文首先简单介绍 Stable Diffusion 模型结构 Latent Diffusion 的论文和博客，然后介绍模型的训练和推理技术细节（不含数学推导），接着介绍几个 prompt 搜索引擎等实用工具，最后简单介绍 AI 作画（图像生成）的发展史，并测试了 Stable Diffusion 不同风格和 prompt 的生成样例。 Mod
2024年02月10日
浏览(9)
pytorch快速训练ai作画模型的python代码
在 PyTorch 中训练 AI 作画模型的基本步骤如下: 准备数据集: 需要准备一个包含许多图像的数据集, 这些图像可以是手绘的或者是真实的图像. 定义模型: 选择一个适当的深度学习模型, 并使用 PyTorch 定义该模型. 例如, 可以使用卷积神经网络 (CNN) 或者生成对抗网络 (GAN). 训练模型
2024年02月09日
浏览(14)
给我推荐20个比较流行的AI作画模型
好的，下面是20个比较流行的AI作画模型： DALL-E GAN Deep Dream CycleGAN StyleGAN pix2pix SketchRNN BigGAN ProGAN ESRGAN SPADE BigVAE StackGAN VQ-VAE 3D-GAN SinGAN Text2Image StarGAN FunGAN Image2StyleGAN 这些模型的具体应用可以结合你的需求来进行选择。
2024年02月12日
浏览(6)
给我推荐20个比较流行的AI作画模型源码
很抱歉,我并不会推荐任何源码。但是我可以告诉你几个比较流行的AI作画模型。 pix2pix CycleGAN DALL-E BigGAN StyleGAN SPADE GauGAN ProGAN StarGAN ESRGAN MUNIT UNIT DRIT DRINet LAPGAN StackGAN COCO-GAN iTGAN HDGAN SINGAN 这些模型的应用领域包括图像风格迁移、图像生成、图像转换、自然图像修复、视觉对
2024年02月11日
浏览(9)
12秒内AI在手机上完成作画！谷歌提出扩散模型推理加速新方法
本文源自：量子位只需12秒，只凭手机自己的算力，就能拿Stable Diffusion生成一张图像。而且是完成了20次迭代的那种。要知道，现在的扩散模型基本都超过了10亿参数，想要快速生成一张图片，要么基于云计算，要么就是要本地硬件够强大了。而随着大模型应用逐渐普及开
2024年02月01日
浏览(9)
使用Amazon SageMaker构建高质量AI作画模型Stable Diffusion
近来，随着新一代 AI 大型聊天机器人 ChatGPT 火遍科技圈，人工智能生成内容( Artificial Intelligence Generated Content , AIGC )这一领域开始受到学术界、工业界甚至普通用户的广泛关注。 AIGC 凭借其独特的“创造力”与人类无法企及的创作生成速度掀起了一股人工智能狂潮。但是，利
2023年04月14日
浏览(12)
目前最强的AI绘画模型——Midjourney v5
我想，各类不仅是文字工作领域，艺术设计等相关的行业也应当被彻底颠覆了。官网：https://www.midjourney.com/home/?callbackUrl=%2Fapp%2F 订阅：Purchase a subscription Midjourney是一个独立的研究实验室，探索新的思维媒介，扩大人类的想象力。 Midjourney是一个自筹资金的小团队，专注于设
2023年04月08日
浏览(9)