超有趣的stable diffusion干货解读

这篇具有很好参考价值的文章主要介绍了超有趣的stable diffusion干货解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

智能时代:向量和模型构成一切(Vector and models rule it all) ——朱嘉明

从老式电视机上的雪花引出diffusion

Diffusion模型尝试使用一种更加简单的方法生成图像。大家是否记得老式电视机信号不好时屏幕上闪烁的雪花?
超有趣的stable diffusion干货解读
这些雪花是随机、无序、混乱的,因而被称为噪声。当电视机信号不好的时候,屏幕上就会出现这些噪声点,信号越差就会出现越多的噪声点,直到最后屏幕完全被随机的噪声覆盖,那么换一个角度去思考,既然任何一张图像都可以在不断添加噪声后,变成一张完全随机的噪声图像,那我们能不能将这个过程翻转,让神经网络学习这个噪声扩散的过程之后逆向扩散,把随机生成的噪声图像,逐渐转化为清晰的生成图像,diffusion模型就是基于这个思想实现的。

Stable Diffusion 的组成

Stable Diffusion 并不是一个单一模型,而是由多个部分和模型一起构成的系统。
超有趣的stable diffusion干货解读
首先将文本输入到编码器中得到特征列表,之后将文本特征作为图像生成器的输入,图像生成器又分为图像信息创建和图像解码
图像信息创建器由 UNet 神经网络和调度算法组成,Stable Diffusion 接口(interfaces)和库(libraries)的 step 参数一般默认为 50 或 100。
图像解码器是Autoencoder Decoder,主要根据图像信息创建器的信息绘制图像,它只用在过程结束时运行一次,以生成最终的像素图像。
超有趣的stable diffusion干货解读

为什么从文本到图像的思路这么好用?

对于人类来说,在婴儿时期学习图片并不是具体地学习一个个像素,而是父母指着图片告诉孩子:“这是一只在吃猫粮的黑色小猫”,或者“这是一辆在马路上飞驰的红色汽车”。于是,研究者开始思考,AI的学习过程是否也能采用这种类似的方式?这本质上是一个文本和图像匹配的问题,为此,OpenAI在互联网上收集到了4亿对质量过关的图像文本对,分别将文本和图像进行编码,让clip模型学会计算文本和图像的关联程度,在此基础上,结合diffusion模型对图像的生成能力,就可以打造一款AI绘画应用了。

知名AI绘画工具

许多公司在CLIP模型和Diffusion模型的基础上开发了模型变体的相关应用工具,其中,stable diffusion是最知名的工具之一,stable diffusion对于生成当代艺术图像具有较强的理解力,善于刻画图像的细节,但为了还原这些细节,它在图像描述上需要进行非常复杂细致的说明,比较适合生成涉及较多创意细节的复杂图像,在创作普通图像时可能会略显乏力。

文本编码器的重要基建:Transformer语言模型

Transformer 语言模型作为语言理解组件,能够接受文本提示词,生成 token embeddings。
超有趣的stable diffusion干货解读文章来源地址https://www.toymoban.com/news/detail-514577.html

Stable Diffusion资源列表

  1. Hugging Face
    Hugging Face是一个专注于构建、训练和部署先进开源机器学习模型的网站。
    HuggingFace是Stable Diffusion模型创作的首选平台,目前平台上有270多个与Stable Diffusion相关的模型,用"Stable Diffusion"作为关键字就能搜到。
  2. Civitai
    Civitai是一个专为Stable Diffusion AI艺术模型设计的网站。该平台目前有来自250+创作者上传的1700个模型。这是迄今为止我所知的最大的AI模型库。你可以在上面分享自己的模型或生成作品。
  3. Discord
    在Stable Diffusion的Discord页面中有一个名为“Models-Embeddings”的专属频道,里面提供了很多可以免费下载的各种模型。
  4. Rentry for SD
    Rentry网站上有一个保存Stable Diffusion模型的页面sdmodels,上面由70多个模型可以免费下载。

到了这里,关于超有趣的stable diffusion干货解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 详细解读ControlNet Stable Diffusion代码

    Diffusion models代码解读:入门与实战 前言 :ControlNet的原理部分可以看我之前写的博客《Image-to-Image任务的终结者:详解ControlNet原理与代码》 ,这篇博客主要讲解一下diffusers版本的ControlNet代码,从代码中洞悉原理,加深理解。 目录 原理详解

    2024年02月12日
    浏览(49)
  • 一文解读:Stable Diffusion 3究竟厉害在哪里?

    知乎原文:叫我Alonzo就好了 最近一段时间,正当所有人都在为OpenAI发布Sora狂欢时,Stability AI更是推出了Stable Diffusion 3的技术报告。**这两项技术不约而同都采用了Diffusion Transformer的架构设计,之前我也在我的文章中进行了解读:Diffusion Transformer究竟好在哪里?感兴趣的朋友可

    2024年04月16日
    浏览(44)
  • 代码解读:使用Stable Diffusion完成相似图像生成任务

    Diffusion models代码解读:入门与实战 前言 :作为内容生产重要的一部分,生成相似图像是一项有意义的工作,例如很多内容创作分享平台单纯依赖用户贡献的图片已经不够了,最省力的方法就是利用已有的图片生成相似的图片作为补充。这篇博客详细解读基于Stable Diffusion生成

    2024年04月25日
    浏览(55)
  • 强大到离谱!硬核解读Stable Diffusion(完整版)

    原文链接: 硬核解读Stable Diffusion(完整版) 2022年可谓是 AIGC(AI Generated Content)元年 ,上半年有文生图大模型 DALL-E2 和 Stable Diffusion ,下半年有OpenAI的文本对话大模型 ChatGPT 问世,这让冷却的AI又沸腾起来了,因为AIGC能让更多的人真真切切感受到AI的力量。这篇文章将介绍

    2024年02月05日
    浏览(48)
  • 解读Stable Video Diffusion:详细解读视频生成任务中的数据清理技术

    Diffusion Models视频生成-博客汇总 前言 :Stable Video Diffusion已经开源一周多了,技术报告《Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets》对数据清洗的部分描述非常详细,虽然没有开源源代码,但是博主正在尝试复现其中的操作。这篇博客先梳理一下Stable Video

    2024年02月04日
    浏览(77)
  • 万字长文解读Stable Diffusion的核心插件—ControlNet

    目录 一、介绍 二、使用方法 三、ControlNet结构 1.整体结构 2.ControlLDM 3.Timestep Embedding 4.HintBlock 5.ResBlock 6.SpatialTransformer 7.SD Encoder Block 8.SD Decoder Block 9.ControlNet Encoder Block 10.Stable Diffusion 四、训练 1.准备数据集 2.生成ControlNet模型 3.执行训练 五、其它 1.损失函数 2.随机替换提示

    2023年04月14日
    浏览(45)
  • 一文读懂Stable Diffusion 论文原理+代码超详细解读

    Stable diffusion是一个基于Latent Diffusion Models(LDMs)实现的的文图生成(text-to-image)模型。 2022年8月,游戏设计师Jason Allen凭借AI绘画作品《太空歌剧院(Théâtre D’opéra Spatial)》获得美国科罗拉多州博览会“数字艺术/数码摄影“竞赛单元一等奖,“AI绘画”引发全球热议。得力

    2024年01月19日
    浏览(57)
  • 【Stable Diffusion】入门-03:图生图基本步骤+参数解读

    当提示词不足以表达你的想法,或者你希望以一个更为简单清晰的方式传递一些要求的时候,可以给AI输入一张图片,此时图片和文字是相当的,都是作为一种信息输送给模型,让它拿来生成一张新的图片。模型可以从图片上获取更多的信息,原本的图片上记录的像素信息会

    2024年03月20日
    浏览(62)
  • AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画

    论文: 《AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning》 github: https://github.com/guoyww/animatediff/ 随着文生图模型Stable Diffusion及个性化finetune方法:DreamBooth、LoRA发展,人们可以用较低成本生成自己所需的高质量图像,这导致对于图像动画的需求越来越多

    2024年02月14日
    浏览(37)
  • Stable diffusion的架构解读(本博客还是以unet架构为主)

    博客只是简单的记录一下自己学的,基于自己的一些情况,所以简单了一些只是将来忘记,用来回顾用。 论文的大体框架 stable diffusion生成的图本质上是通过prompt进行引导从噪声中生成的,text是唯一的输入 unet结构位于 unet会接受prompt特征、latent特征、和t时间步特征,最后生

    2024年02月06日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包