Diffusers 0.9.0 正式发布,支持 Stable Diffusion 2!

这篇具有很好参考价值的文章主要介绍了Diffusers 0.9.0 正式发布,支持 Stable Diffusion 2!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Diffusers 0.9.0 正式发布,支持 Stable Diffusion 2!

扩散模型 (Diffusion models) 是「生成模型」算法领域中的一个相对较新的算法。生成模型通过学习大量训练样本(例如图像或者音频),创建一些与训练数据神似,但又不是完全相同的多样化输出。

Diffusers 库是一个操作扩散模型的工具箱,由 Hugging Face 团队发布,它可以非常方便的使用各种扩散模型生成图像、音频,也可以非常方便的使用各种噪声调度器,用于调节在模型推理中的速度和质量,同时,这个库也支持多种类型的模型。

上周,Diffusers 发布了 v0.9.0 版,正式支持了最新的 Stable Diffusion 2,Stable Diffusion 可以简要理解为是一个自然语言生成图片的模型,并于上周发布了 2.0 版本,可以生成 768x768 和 512x512 分辨率的图片,也包括了一个 Upscaler Diffusion 模型,可以将图片分辨率升级为 2048x2048 甚至更高,更多关于 Stable Diffusion 2 的更新,请阅读 机器之心的文章 了解更多。

你可以在 Hugging Face Spaces 上体验 Stable Diffusion 2:
https://huggingface.co/spaces/stabilityai/stable-diffusion

Diffusers 0.9.0 正式发布,支持 Stable Diffusion 2! 差一点忘记我们的「正事儿」——介绍 Diffusers 的更新,下面开始正文部分内容:

🎨 安装最新版 Diffusers v0.9.0 体验 Stable Diffusion 2

pip install diffusers[torch]==0.9 transformers

Diffusers 支持 Stable Diffusion 2 中的多种模型,我们将在后面的章节介绍用法以及示例代码。

基于 768x768 图像的 Stable Diffusion 2.0-V

Diffusers 0.9.0 正式发布,支持 Stable Diffusion 2!

最新的基于 768x768 大小图像的稳定扩散模型:Stable Diffusion 2.0-V,它的参数数量为 U-Net 模型的 1.5 倍,但采用了 OpenCLIP-ViT/H 作为文本编码器从头开始训练,因此 2.0-V 也被称为:v-prediction 模型。

  • OpenCLIP-ViT/H:
    https://github.com/mlfoundations/open_clip

  • v-prediction 模型:
    https://arxiv.org/abs/2202.00512

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler

repo_id = "stabilityai/stable-diffusion-2"
pipe = DiffusionPipeline.from_pretrained(repo_id, torch_dtype=torch.float16, revision="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = "High quality photo of an astronaut riding a horse in space"
image = pipe(prompt, guidance_scale=9, num_inference_steps=25).images[0]
image.save("astronaut.png")

基于 512x512 图像的 Stable Diffusion 2.0-base

上面的模型是基于 SD 2.0-base 进行微调而来,SD 2.0-base 在 512x512 图像数据集上被训练为标准的噪声预测模型,当然 base 模型在我们的平台上也是支持的。

Diffusers 0.9.0 正式发布,支持 Stable Diffusion 2!
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler

repo_id = "stabilityai/stable-diffusion-2-base"
pipe = DiffusionPipeline.from_pretrained(repo_id, torch_dtype=torch.float16, revision="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = "High quality photo of an astronaut riding a horse in space"
image = pipe(prompt, num_inference_steps=25).images[0]
image.save("astronaut.png")

Stable Diffusion 2.0 用于图像修补 (Inpanting)

该模型用于文本引导的图像修补,它同样基于 SD 2.0-base 进行微调,遵循 LAMA 中提出的掩码生成策略 (mask-generation strategy),并结合掩码图像 (masked image) 的隐式 VAE 表示。

  • LAMA:
    https://github.com/saic-mdal/lama

Diffusers 0.9.0 正式发布,支持 Stable Diffusion 2!
import PIL
import requests
import torch
from io import BytesIO
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler

def download_image(url):
    response = requests.get(url)
    return PIL.Image.open(BytesIO(response.content)).convert("RGB")

img_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo.png"
mask_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo_mask.png"
init_image = download_image(img_url).resize((512, 512))
mask_image = download_image(mask_url).resize((512, 512))

repo_id = "stabilityai/stable-diffusion-2-inpainting"
pipe = DiffusionPipeline.from_pretrained(repo_id, torch_dtype=torch.float16, revision="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = "Face of a yellow cat, high resolution, sitting on a park bench"
image = pipe(prompt=prompt, image=init_image, mask_image=mask_image, num_inference_steps=25).images[0]
image.save("yellow_cat.png")

Stable Diffusion X4 超分辨率图像 (Upscaler)

这款模型在 512x512 的数据集上训练,并且是基于文本指导 (text-guided) 的隐式分辨率提高扩散器模型 (latent upscaling diffusion model)。

除了文本输入之外,它还接收一个 noise_level 作为输入参数,可用于根据预定义的扩散计划 (predefined diffusion schedule) 向输入的低分辨率图像添加噪声。

  • latent upscaling diffusion model:
    https://arxiv.org/abs/2112.10752

  • predefined diffusion schedule:
    https://hf.co/stabilityai/stable-diffusion-x4-upscaler/blob/main/low_res_scheduler/scheduler_config.json

Diffusers 0.9.0 正式发布,支持 Stable Diffusion 2!

保存并加载多功能扩散器 (Versatile Diffusion) 的 bug 已经被修复

我们修复了之前在保存并加载多功能扩散器时出现的 bug ,以便保证大家更高效地工作。

以上就是本次 Diffusers v0.9.0 更新的内容,更详细的更新内容,欢迎点击阅读原文在 GitHub 上查阅,如果有任何发现的 Bug 和建议,欢迎你在 GitHub Issue 里向我们提出:
https://github.com/huggingface/diffusers/issues


正文部分译者:

丁继峥 Johnson,微信号:ZJUer_0817 拾象DAO成员,浙江大学机器人工程专业,主要关注 AI 模型与交互的前沿进展,专用机器人的产业落地,通用机器人的无限可能。

文章头图: Lynn

我们正在招募更多翻译志愿者帮助我们扩充官方公众号内容,如果你感兴趣,欢迎通过文章下方的留言功能介绍自己,并留下联系方式。谢谢!文章来源地址https://www.toymoban.com/news/detail-493911.html

到了这里,关于Diffusers 0.9.0 正式发布,支持 Stable Diffusion 2!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • huggingface的diffusers训练stable diffusion记录

    目录 1.原理                 扩散模型的目的是什么?                         扩散模型是怎么做的?                         前向过程在干啥?                 反向过程在干啥? 2.安装环境 3.lora 训练 4.推理 5.源代码​         

    2024年04月26日
    浏览(33)
  • 【Stable Diffusion XL】huggingface diffusers 官方教程解读

    相关链接: GitHub: https://github.com/huggingface/diffusers 官方教程:https://huggingface.co/docs/diffusers/tutorials/tutorial_overview StableDiffuson: https://huggingface.co/blog/stable_diffusion#how-does-stable-diffusion-work Diffusers被设计成一个用户友好和灵活的工具箱,用于构建适合您用例的扩散系统。工具箱的核

    2024年02月06日
    浏览(54)
  • 如何将 Stable Diffusion PT+YAML 转换成 diffusers 格式

    Huggingface 的 diffusers 格式是初学者最爱的格式,只需要简单几行代码,就可以下载模型,执行 文字到图片 转换等常用功能 而有时候在网上淘模型的时候,经常会遇到原版 Stable Diffusion 格式,只有一个 .pt 文件和一个 .yaml 配置文件 ,为了方便管理和加载,可以把原版格式转换

    2024年02月16日
    浏览(40)
  • Stable Diffusion with Diffusers 学习笔记: 原理+完整pipeline代码

    参考链接: https://huggingface.co/blog/stable_diffusion#how-does-stable-diffusion-work 在这篇文章中,我们想展示如何使用Stable Diffusion with the 🧨 Diffusers library,,解释模型是如何工作的,最后深入探讨扩散器是如何允许自定义图像生成pipeline的。 如果你对扩散模型完全陌生,我们建议你阅读

    2024年02月05日
    浏览(61)
  • diffusers加速文生图速度;stable-diffusion、PixArt-α模型

    参考: https://pytorch.org/blog/accelerating-generative-ai-3/ https://colab.research.google.com/drive/1jZ5UZXk7tcpTfVwnX33dDuefNMcnW9ME?usp=sharing#scrollTo=jueYhY5YMe22 大概GPU资源8G-16G;另外模型资源下载慢可以在国内镜像:https://aifasthub.com/ 1、加速代码 能加速到2秒左右

    2024年04月23日
    浏览(71)
  • 使用 Docker 和 Diffusers 快速上手 Stable Video Diffusion 图生视频大模型

    本篇文章聊聊,如何快速上手 Stable Video Diffusion (SVD) 图生视频大模型。 月底计划在机器之心的“AI技术论坛”做关于使用开源模型 “Stable Diffusion 模型” 做有趣视频的实战分享。 因为会议分享时间有限,和之前一样,比较简单的部分,就用博客文章的形式来做补充分享吧。

    2024年01月24日
    浏览(71)
  • Hugging Face使用Stable diffusion Diffusers Transformers Accelerate Pipelines VAE

    A library that offers an implementation of various diffusion models, including text-to-image models. 提供不同扩散模型的实现的库,代码上最简洁,国内的问题是 huggingface 需要翻墙。 A Hugging Face library that provides pre-trained deep learning models for natural language processing tasks. 提供了预训练深度学习模型,

    2024年02月07日
    浏览(49)
  • 《满怀美梦的小崽子是pycharm主义者》之服务器部署stable diffusion /diffusers教程

    距离上一次教大家在本地部署sd已经过去了........俺也不知道多久了,相信大家现在应该都已经很熟悉了吧,估计大家也发现了一个问题,就是本地的配置跑sd,一个是对配置要求太高了,现在的模型都特别大,没有一张3090根本玩不了,一个是内存啥的根本不够用模型加上各种

    2024年02月04日
    浏览(44)
  • IntelliJ IDEA 2023.1正式发布,Maven项目大提速&支持Apache Dubbo

    你好,我是 YourBatman :做爱做之事❣交配交之人。 一年一个大版本,共计3个中型版本 ,北京时间2023年3月月29日终于迎来了IntelliJ IDEA今年的首个版本2023.1。老规矩,吃肉之前,可以先把这几碗汤干了,更有助于消化(每篇都很顶哦): IntelliJ IDEA 2023.1正式发布,Maven项目大提

    2023年04月20日
    浏览(70)
  • go-easy-utils 2.0 正式发布,全面支持泛型和any

    这是一个基于 Go 语言开发的通用数据类型处理工具类,帮助开发者在业务代码实现中处理常见的数据类型和数据操作。可以让您专注于您的业务代码的实现,而免去处理基本数据类型转换和验证的功能。该工具库无侵入式的设计可以让您的业务代码更容易阅读和优雅。 安装

    2023年04月13日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包