AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介

这篇具有很好参考价值的文章主要介绍了AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

在过去的几年里,人工智能(AI)取得了极大的进展,而AI的新产品中有AI图像生成器。这是一种能够将输入的语句转换为图像的工具。文本转图像的AI工具有许多,但最突出的就属DALLE 2、Stable Diffusion和Midjourney了。

AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介

DALL·E 2

DALL-E 2由OpenAI开发,它通过一段文本描述生成图像。其使用超过100亿个参数训练的GPT-3转化器模型,能够解释自然语言输入并生成相应的图像。

AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介

一幅描述篮球运动员灌篮的油画,具有星云爆炸的效果 - 图片由DALLE 2创作

Stable Diffusion

Stable Diffusion是一个文转图的模型,其使用了CLIP ViT-L/14文本编码器,能够通过文本提示调整模型。它在运行时将成像过程分离成“扩散 (diffusion)”的过程——从有噪声的情况开始,逐渐改善图像,直到完全没有噪声,逐步接近所提供的文本描述。

AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介

一个可以看到埃菲尔铁塔的皮卡丘高级餐厅 - 图片由Stable Diffusion生成

Midjourney

Midjourney也是一款由人工智能驱动的工具,其能够根据用户的提示生成图像。MidJourney善于适应实际的艺术风格,创造出用户想要的任何效果组合的图像。它擅长环境效果,特别是幻想和科幻场景,看起来就像游戏的艺术效果。

AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介

夜晚的云端城堡,电影般的画面 - 图片由Midjourney生成

DALL-E 2原理

DALL-E 2主要由两部分组成——将用户输入转换为图像的表示(称为Prior),然后是将这种表示转换为实际的照片(称为Decoder)。

AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介

Source: https://www.youtube.com/watch?v=F1X4fHzF4mQ

其中使用到的文本和图像嵌入来自另一个叫做CLIP(对比语言-图像预训练)的网络,这也是由OpenAI研发的。CLIP是一种神经网络,为输入的图像返回最佳的标题。它所做的事情与DALL-E 2所做的相反——它是将图像转换为文本,而DALL-E 2是将文本转换为图像。引入CLIP的目的是为了学习物体的视觉和文字表示之间的联系。

AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介

DALL-E 2的工作是训练两个模型。第一个是Prior,接受文本标签并创建CLIP图像嵌入。第二个是Decoder,其接受CLIP图像嵌入并生成图像。模型训练完成之后,推理的流程如下:

  • 输入的文本被转化为使用神经网络的CLIP文本嵌入。
  • 使用主成分分析(Principal Component Analysis)或PCA降低文本嵌入的维度。
  • 使用文本嵌入创建图像嵌入。
  • 进入Decoder步骤后,扩散模型被用来将图像嵌入转化为图像。
  • 图像被从64×64放大到256×256,最后使用卷积神经网络放大到1024×1024。

Stable Diffusion原理

Stable Diffusion是基于Latent Diffusion Model(LDM)的,LDM是一款顶尖的文转图合成技术。在了解LDM的工作原理之前,让我们先看看什么是扩散模型以及为什么我们需要LDM。

扩散模型(DM)是基于Transformer的生成模型,它采样一段数据(例如图像)并随着时间的推移逐渐增加噪声,直到数据无法被识别。该模型尝试将图像回退到原始形式,在此过程中学习如何生成图片或其他数据。

DM存在的问题是强大的DM往往要消耗大量GPU资源,而且由于Sequential Evaluations,推理的成本相当高。为了使DM在有限的计算资源上进行训练而不影响其质量以及灵活性,DM被应用于强大的预训练自动编码器(Pre-trained Autoencoders)。

在这样的前提下训练扩散模型,使其有可能在降低复杂性和保留数据细节之间达到一个最佳平衡点,显著提高视觉真实程度。在模型结构中引入交叉注意力层(cross attention layer),使扩散模型成为一个强大而灵活的生成器,实现基于卷积的高分辨率图像生成。

Midjourney原理

Midjourney也是一个人工智能图像生成工具,它通过输入文本和参数,并使用在大量图像数据上训练出的机器学习(ML)算法来生成独一无二的图像。

Midjourney目前只能通过其官方Discord上的Discord机器人使用。用户使用“/imagine”命令生成图像,并像其他AI图像生成工具一样输入命令提示。然后机器人会返回一张图片。

AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介

AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介

技术对比

DALL-E 2使用数以百万计的图片数据进行训练,其输出结果更加成熟,非常适合企业使用。当有两个以上的人物出现时,DALL-E 2产生的图像要比Midjourney或Stable Diffusion好得多。

而Midjourney则是一个以其艺术风格闻名的工具。Midjourney使用其Discord机器人来发送以及接收对AI服务器的请求,几乎所有的事情都发生在Discord上。由此产生的图像很少看起来像照片,它似乎更像一幅画。

Stable Diffusion 是一个开源的模型,人人都可以使用。它对当代艺术图像有比较好的理解,可以产生充满细节的艺术作品。然而它需要对复杂的prompt进行解释。Stable Diffusion比较适合生成复杂的、有创意的插图。但在创作一般的图像时就显得存在些许不足。

下面的prompt有助于了解每种模型的相似性和差异。

AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介

AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介

AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介

AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介

AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介

其他

1.引用

https://medium.com/mlearning-ai/dall-e2-vs-stable-diffusion-same-prompt-different-results-e795c84adc56

https://medium.com/geekculture/what-is-dalle-2-what-to-know-before-trying-the-groundbreaking-ai-e7a585f2edf0

https://stability.ai/blog/stable-diffusion-public-release

https://www.dexerto.com/entertainment/what-is-midjourney-new-ai-image-generator-rivals-dall-e-1864522/

https://medium.com/nightcafe-creator/stable-diffusion-tutorial-how-to-use-stable-diffusion-157785632eb3

https://interestingengineering.com/innovation/stability-ai-uses-latent-diffusion-models-to-allow-users-to-create-art-in-stable-diffusion

https://medium.com/augmented-startups/how-does-dall-e-2-work-e6d492a2667f

https://medium.com/codex/a-quick-look-under-the-hood-of-stable-diffusion-open-source-architecture-2f07fc1e729

https://stepico.com/blog/midjourney-as-an-artificial-intelligence-system/

https://www.dexerto.com/entertainment/what-is-midjourney-new-ai-image-generator-rivals-dall-e-1864522/

https://petapixel.com/2022/08/22/ai-image-generators-compared-side-by-side-reveals-stark-differences/

https://analyticsindiamag.com/stable-diffusion-vs-midjourney-vs-dall-e2/

https://medium.com/mlearning-ai/dall-e-2-vs-midjourney-vs-stable-diffusion-8eb9eb7d20be

2.参考

https://blog.csdn.net/Baihai_IDP/article/details/128181514文章来源地址https://www.toymoban.com/news/detail-501461.html

到了这里,关于AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【百科】《DALL·E 2 vs Midjourney vs Stable Diffusion|AI图像工具对比》- 知识点目录

    Midjourney DALL·E 2 StableDiffusion 需要收费 如果出现 “区域限制” 的情况,请尝试清除缓存后并使用全局代理访问; Stability-AI/stablediffusion DreamStudio 示例prompt: 中文提示 英文提示 提问备忘 英文提示

    2024年02月12日
    浏览(44)
  • AI图像模型的深度分析:DALL·E 3、Google Imagen2、Stable Diffusion 和 Midjourney

    原文:Comparative Analysis of AI Image Generation Platforms: DALL·E 3, Google Imagen2, Stable Diffusion, and Midjourney - Blog 本文提供了对四个AI图像生成模型——DALL·E 3、Google Imagen2、Stable Diffusion以及Midjourney的详细比较。通过十个不同领域的图像生成能力进行比较,文中展示了各个平台的优点和缺点

    2024年02月19日
    浏览(45)
  • MidJourney 的新 V4C 模型现在可以创建更宽、更好看的图像,比Stable Diffusion和Dall-E2强大么?

    MidJourney 自成立以来已经走过了漫长的道路。这款流行的 AI 艺术生成器在 2022 年 11 月发布其 V4 和 V4B 模型时获得了巨大的人气。此次更新旨在改进先前版本的细节、构图和真实感。 不过,有一个限制:V4B 的纵横比仅限于 1:1。这意味着所有图像都是方形的。这里有些例子:

    2024年02月12日
    浏览(37)
  • AIGC: Midjourney和Stable Diffusion在大厂中的应用

    AIGC: Midjourney和Stable Diffusion在大厂中的应用和教程​ http://www.webhub123.com/#/home/detail?projectHashid=51631966ownerUserid=21336964 收录效果如下   登录后即可一键拥挤收藏以下所有文章网址到我的收藏夹,网站帮你简单高效地管理你的网络收藏,可以自由免费的管理和收藏超过20000多个网址

    2024年02月11日
    浏览(39)
  • Stability AI推出Stable Diffusion 3和Turbo版API:定义新时代AI,超越DALL-E 3和Midjourney v6|TodayAI

    在人工智能的世界里,革命性的发展正稳步前行。Stability AI 在其开发者平台API上全新推出了Stable Diffusion 3和Stable Diffusion 3 Turbo。这两款产品在技术上的突破不仅提升了AI技术的可用性,还进一步推动了开放式创新的愿景。 AI性能的新高度 Stable Diffusion 3和其加速版本Stable Dif

    2024年04月27日
    浏览(40)
  • 54款宝藏级AIGC工具分享(claude,Midjourney,Stable Diffusion等)

    随着ChatGPT的一波又一波高潮,生成式AI逐渐进入人们视野,并开始大行其道,正如人们所说: AI用的好,天天下班早 ! 当然,有效的利用AI不但能下班早,还能在上班时间摸鱼,就如潘哥我,哈哈哈~~~ 牛X的AI神器可以不止ChatGPT一款,虽然潘哥对ChatGPT情有独钟。今天就给大家

    2024年02月13日
    浏览(42)
  • AI绘画 stable diffusion Midjourney 官方GPT文档 AIGC百科全书资料收集

    教学AI绘画 AIGC工具 SD教程 https://yv4kfv1n3j.feishu.cn/docx/MRyxdaqz8ow5RjxyL1ucrvOYnnH 很多友友反馈,在线二维码生成器404不能用了,给大家总结了10个在线二维码生成器,方便大家推广,已同步至群文档

    2024年02月12日
    浏览(44)
  • AIGC:AI绘画-Stable-Diffusion 简介及实践

    最近随着ChatGPT的爆火,AI绘画也火得不行,这几天文心一言发布会,图片生成的梗都快被大家玩坏了,网上有不少Midjourney的使用分享,但是毕竟那个是商用网站,收费的,博主今天给大家发个福利!出一波免费使用AI绘画的教程:Stable-Diffusion本地化部署及使用!手把手教你如

    2024年02月09日
    浏览(79)
  • stable diffusion简介和原理

    Stable Diffusion中文的意思是稳定扩散,本质上是基于AI的图像扩散生成模型。 Stable Diffusion是一个引人注目的深度学习模型,它使用潜在扩散过程来生成图像,允许模型在生成图像时考虑到文本的描述。这个模型的出现引起了广泛的关注和讨论,不仅因为它在技术上的创新,还

    2024年02月08日
    浏览(44)
  • 探索结合ChatGPT、Midjourney/Nijijourney、Stable Diffusion和Procreate创作动漫图片的工作流程

    引用 OpenAI 自己的描述, ChatGPT是 InstructGPT 的同级模型,它经过训练可以遵循提示中的指令并提供详细的响应。 并且它还能够为图像生成编写提示 😃 首先,我首先选择了当天的服装: 上衣:轻盈的白色长袖衬衫,带有精致的花卉印花。这件衬衫有 V 领口和飘逸的袖子。 下

    2024年02月11日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包