走进AI图像生成核心技术 - Diffusion

这篇具有很好参考价值的文章主要介绍了走进AI图像生成核心技术 - Diffusion。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

编者按:2022年,Diffusion model成为图像生成领域的重要发现,推动了AI绘画应用的爆发式发展。Diffusion模型相较于其他的图像生成模型,在所需数据更少的背景下,图像生成效果有明显提升。
本期IDP Inspiration,我们将和大家一起走进Diffusion的发展史。
以下是译文,Enjoy!

作者 | Kyle Wiggers

编译 | 岳扬

随着技术的进步,人工智能创造的艺术保真度得到了大大增强,文转图人工智能在今年爆发了。尽管像Stable Diffusion和OpenAI的DALL-E 2这样的系统存在许多争议,但包括DeviantArt和Canva在内的很多平台已经采用它们来制作创意工具,实现品牌的个性化,甚至创意新产品。

但这些系统的核心技术 - Diffusion - 的能力远远不止生成艺术作品,它还被一些研究小组用来制作音乐,合成DNA序列,甚至用于研制新药。

那么,究竟什么是Diffusion,为什么它与以前的技术水平相比有如此大的飞跃?我们需要来了解一下Diffusion的起源,以及它是如何随着时间的推移而发展成今天这样有影响力的。Diffusion的故事还没有结束——每个月都会出现技术的改进,尤其过去一两年出现了显著的进步。

Diffusion的诞生

你或许还记得几年前爆火的deepfaking——这些App将人们的肖像插入现有的图像和视频中,创造出看起来很真实的换脸视频。利用人工智能,这些App会将一个人的脸,或者在某些情况下,他们的整个身体插入到某个场景中,往往能够产生足够的说服力,骗过大多数人。

这App大多依靠一种叫做生成对抗网络的人工智能技术,简称GANs。GANs由两部分组成:一个从随机数据中产生合成内容(如图像)的生成器和一个试图区分合成内容和训练数据集中的真实内容的鉴别器。生成器和鉴别器互相配合提高生成或鉴别能力,直到鉴别器无法从合成的例子中分辨出真实的例子,此时其准确率已经高于预期的50%。

走进AI图像生成核心技术 - Diffusion

哈利-波特和霍格沃茨的沙雕,由Stable Diffusion生成。图片来源:Stability AI

好的GAN可以创建很多逼真的图片,例如虚构的公寓楼照片[1]。Nvidia几年前开发的StyleGAN,通过学习面部姿势、雀斑和头发等属性,可以生成虚构人物的高分辨率头像。除了生成图像之外,GANs还被应用于构建3D建模空间和绘制矢量草图[2],输出视频片段[3]以及语音[4],甚至还能利用乐器演奏样本生成歌曲。

不过,在实践中,GANs由于其结构而存在一些缺陷。生成器和鉴别器的同时训练本身就是十分不稳定的。有时生成器会 “崩溃”,输出许多看起来很相似的样本。GANs还需要大量的数据和计算能力来运行和训练,这使得它们难以进行扩展。

Diffusion是如何工作的

Diffusion的灵感来自于物理学——物理学中物质从高浓度区域向低浓度区域移动的过程,就像糖块在咖啡中的溶解。咖啡中的糖粒最初集中在液体的顶部,但逐渐变得分散。

Diffusion特别借用了非平衡热力学中的扩散,该过程随着时间的推移增加了系统的熵(或随机性)。比如气体最终会通过随机运动扩散开来,均匀地充满整个空间。同样,像图像这样的数据也可以通过随机添加噪声而转变为均匀分布。

Diffusion通过添加噪音慢慢地破坏数据的结构,直到除了噪音什么都不剩。

在物理学中,扩散是自发的和不可逆的——扩散到咖啡中的糖不能恢复到立方体的形式。但机器学习中的扩散系统旨在学习一种 “反向扩散” 过程来恢复被破坏的数据,获得从噪声中恢复数据的能力。

Diffusion已经存在了近十年,但是OpenAI最近的一项创新,即CLIP(Contrastive Language-Image Pre-Training的简称)使它们在日常应用中更加实用。CLIP对数据(例如图像)进行分类,根据它在给定的文本提示下被分类成某一类的可能性(例如:“花丛中的狗素描画”),对扩散过程的每一步进行“评分”。

在最开始的时候,会给数据一个非常低的CLIP分数,因为它大部分是噪声。但随着Diffusion从噪声中重建数据,它慢慢地接近于文本提示。可以用一个雕刻大理石的例子,就像一个雕刻大师告诉一个新手在哪里雕刻一样,CLIP引导Diffusion生成一个能给出更高分数的图像。

OpenAI将CLIP与图像生成系统DALL-E一起推出。从那之后,又推出了DALL-E的后继者DALL-E 2,以及诞生了像Stable Diffusion这样的开源替代品。

Diffusion能做什么?

那么,CLIP引导的Diffusion能做什么?正如前面所提到的,它们在生成艺术作品方面相当出色,从逼真的艺术作品到素描、油画等,几乎可以模仿任何艺术家的风格。事实上,有证据表明,它们会有针对性地反刍它们的一些训练数据。

但这些模型的天赋(尽管可能有争议)并没有到此为止。

研究人员还尝试使用引导式Diffusion来创作新音乐。Harmonai[5]是一个得到 Stability AI[6] 投资的公司,它发布了一个基于Diffusion的模型,通过对数百小时现有歌曲进行训练,可以输出音乐片段。最近,开发者Seth Forsgren和Hayk Martiros创建了一个被称为Riffusion的业余项目,该项目使用Diffusion巧妙地对音频的光谱图进行训练,以生成新的音乐。

除开音乐领域之外,一些实验室正试图将Diffusion应用于生物医学,希望能发现新的疾病治疗方法。正如《 MIT Tech Review》本月早些时候报道的那样[7],创业公司Generate Biomedicines和华盛顿大学的一个团队训练了一个基于Diffusion的模型,可以进行具有特定属性和功能的蛋白质设计。

这些模型以不同的方式工作。Generate Biomedicines公司通过解开构成蛋白质的氨基酸链来增加噪声,然后在研究人员指定的约束条件指导下,将随机链放在一起形成一个新的蛋白质。另一方面,华盛顿大学的模型从一个混乱的结构开始,并使用一个独立的AI系统来提供蛋白质碎片如何组合的信息来预测蛋白质结构。

他们已经取得了一些成果,华盛顿大学小组设计的模型找到了一种能够附着在甲状旁腺激素(控制血液中钙含量的激素)上的蛋白质,比现有药物更好。

走进AI图像生成核心技术 - Diffusion

图片来源:PASIEKA/SCIENCE PHOTO LIBRARY/Getty Images

同时,在OpenBioML[8],这是一个由Stability AI支持的项目,其将基于机器学习的方法引入生物化学的工作中,研究人员开发了一个名为DNA-Diffusion的系统,它能够生成细胞类型特异的调节性DNA序列(影响生物体内特定基因表达的核酸分子段)。如果一切按计划进行,DNA-Diffusion将通过文本指令生成调节性DNA序列,比如 “一个激活基因在X型细胞中达到最大表达水平的DNA序列” 和 “一个能够在肝脏和心脏中激活基因,但不在大脑中激活的DNA序列”。

Diffusion的未来可能是什么?一切皆有可能。现在研究人员已经将其应用于生成视频[9]、压缩图像[10]和合成语音[11]。这并不是说Diffusion最终不会被更有效、性能更强的机器学习技术所取代,就像GANs被Diffusion取代一样。但它拥有今天的辉煌是有原因的,Diffusion如果不是多功能的,那就什么都不是。

参考资料

  1. https://syncedreview.com/2019/02/27/from-faces-to-kitties-to-apartments-gan-fakes-the-world/

  1. https://venturebeat.com/2019/04/11/ai-sketches-cats-firetrucks-mosquitos-and-yoga-poses/

  1. https://venturebeat.com/2019/07/19/deepminds-ai-learns-to-generate-realistic-videos-by-watching-youtube-clips/

  1. https://venturebeat.com/2019/09/30/googles-highly-scalable-ai-can-generate-convincingly-humanlike-speech/

  1. https://www.harmonai.org/

  1. https://stability.ai/

  1. https://www.technologyreview.com/2022/12/01/1064023/biotech-labs-are-using-ai-inspired-by-dall-e-to-invent-new-drugs/

  1. https://techcrunch.com/2022/11/04/stability-ai-backs-effort-to-bring-machine-learning-to-biomed/

  1. https://arxiv.org/pdf/2204.03458.pdf

  1. https://arstechnica.com/information-technology/2022/09/better-than-jpeg-researcher-discovers-that-stable-Diffusion-can-compress-images/

  1. https://arxiv.org/abs/2204.09934文章来源地址https://www.toymoban.com/news/detail-499045.html

到了这里,关于走进AI图像生成核心技术 - Diffusion的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人工智能AI系列 - java 版的stable diffusion 图像生成

    图像生成 文生图:输入提示词(仅支持英文),生成图片(仅支持英文) GPU版本 StableDiffusionGPU.java CPU版本 StableDiffusionCPU.java 图生图:根据图片及提示词(仅支持英文)生成图片 GPU版本 Img2ImgStableDiffusionGPU.java 显卡CUDA:11.7版本 参考测试数据:分辨率 512*512 25步 CPU(i5处理器

    2024年02月09日
    浏览(69)
  • 最近超火的Stable Diffusion来了,用文本AI生成图像!

    前言 Stable Diffusion 应该是目前最流行的两个项目之一,另外一个就是大名鼎鼎的 ChatGPT前几天也给大家更新过 。     软件介绍 最近抖音小红人刷屏的AI人物,基本都是这款软件做的,相信很多做设计的小伙伴都知道它 ,只需要描述一段文字,它就能帮你生成一张图片。

    2024年02月10日
    浏览(77)
  • Stable Diffusion本地部署教程:搭建你的AI图像生成环境

    Stable Diffusion作为一种先进的AI图像生成技术,近年来受到了广泛关注。它可以根据用户输入的文本描述,生成与之相符的详细图像。本文将指导你如何在本地环境中部署Stable Diffusion,让你能够亲自体验这一技术的强大功能。 在开始部署之前,确保你的计算机满足以下条件:

    2024年04月15日
    浏览(59)
  • AI图像生成技术的工作原理

    AI图像生成技术的工作原理是训练两个神经网络:一个生成新图像的生成 器网络,一个试图区分真假图像的鉴别器网络。通过这些网络之间的竞争 和协作过程,AI可以生成在风格和内容上与它们接受训练的图像相似的新 图像,通过文本的输入,使用计算机算法来创建图像。这

    2024年02月04日
    浏览(38)
  • AIGC内容分享(二十):「AI视频生成」技术核心基础知识和模型应用

    目录 何为AI视频? 一、技术发展概况 二、代表模型及应用​​​​​​​ 三、仍存在许多技术难点 「 AI 视频」 通常指的是由人工智能(AI)技术生成或处理的视频。这可能包括使用深度学习、计算机视觉和其他相关技术来改善视频的质量、内容或生成全新的视频内容。一

    2024年01月18日
    浏览(53)
  • AI生成图像竟如此真实了?Stable Diffusion Model本地部署教程

    ✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。 🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。 Stable Diffusion Model 是一个基于扩散模型的图像

    2024年02月02日
    浏览(54)
  • 创建好的提示词来让 Stable Diffusion 生成 AI 艺术作品图像

    如何创建好的提示词来让 Stable Diffusion 生成 AI 艺术作品图像?

    2024年02月10日
    浏览(40)
  • 稳定扩散美学梯度(Stable Diffusion Aesthetic Gradients):一种创新的图像生成技术...

    项目地址:https://gitcode.com/vicgalle/stable-diffusion-aesthetic-gradients 如果你对艺术、人工智能和计算机视觉有热情,那么你一定不能错过 Vicgalle\\\'s Stable Diffusion Aesthetic Gradients项目。这个开源项目利用深度学习算法生成具有艺术感的渐变图像,其独特之处在于能够模仿各种艺术风格。

    2024年04月24日
    浏览(43)
  • 本地生成动漫风格 AI 绘画 图像|Stable Diffusion WebUI 的安装和局域网部署教程

    先放一张WebUI的图片生成效果图,以给大家学习的动力 :) 怎么样,有没有小小的心动?这里再补充一下,是可以生成 NSWF 的图片的。 官方github项目 安装 python 3.10.6,记得将python添加到路径。 安装 git (非必要,可以直接从上面的github链接下载压缩文件) 下载 github 文件

    2024年02月01日
    浏览(64)
  • 杂谈2——AIGC的反面思考 与AI生成图像检测技术

    参考博客 检测人工智能生成的图像的最大挑战之一是它们可能非常逼真,难以与真实图像区分开来。这是因为人工智能模型变得越来越复杂,并且能够生成与真实的图像在视觉上相似的图像。 另一个挑战是,有许多不同类型的AI模型可用于生成图像,每种模型都有自己独特的

    2024年02月12日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包