基于 huggingface diffuser 库本地部署 Stable diffusion

这篇具有很好参考价值的文章主要介绍了基于 huggingface diffuser 库本地部署 Stable diffusion。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


Stable Diffusion 是用 LAION-5B 的子集(图像大小为512*512)训练的扩散模型。此模型冻结 CLIP 的 ViT-L/14 文本编码器建模 prompt text。模型包含 860M UNet 和123M 文本编码器,可运行在具有至少10GB VRAM 的 GPU 上。




1. 安装环境

conda create -n diffenv python=3.8
conda activate diffenv
pip install diffusers==0.4.0
pip install transformers scipy ftfy
# pip install "ipywidgets>=7,<8" 这个是colab用于交互输入的控件

如果后面执行代码时报错 RuntimeError: CUDA error: no kernel image is available for execution on the device,说明cuda版本和pytorch版本问题,根据机器的 cuda 版本重新装一下:

pip install torch==1.12.0+cu113 torchvision==0.13.0+cu113 torchaudio==0.12.0 -f https://download.pytorch.org/whl/torch_stable.html

如果用官方 colab,需要输入 huggingface 的 access token 来联网校验你是否同意了协议。如果不想输入的话,就执行以下命令先把模型权重等文件下载到本地:

git lfs install
git clone https://huggingface.co/CompVis/stable-diffusion-v1-4

这样加载模型时直接 DiffusionPipeline.from_pretrained("./MODEL_PATH/stable-diffusion-v1-4") ,就不用加 use_auth_token=AUTH_TOKEN 参数了。

2. 加载模型

如果要确保高精度(占显存也高),删除 revision="fp16"torch_dtype=torch.float16

import torch, os
from diffusers import StableDiffusionPipeline

os.environ["CUDA_VISIBLE_DEVICES"] = "2"

pipe = StableDiffusionPipeline.from_pretrained(
    "CompVis/stable-diffusion-v1-4",  # 本地地址也行
    revision="fp16",  # 如果不想用半精度,删掉这行和下面一行

pipe = pipe.to("cuda")

3. 生成图像

3.1 直接生成

默认长宽都是512像素,可以指定 pipe(height=512, width=768) 来控制尺寸。需要注意的是:

  • 高度和宽度都是8的倍数
  • 低于 512 可能会导致图像质量降低
  • 长宽都超过 512 会出现重复图像区域(丢失全局一致性)
  • 非正方形图像最佳方法:一个维度为 512px,另一维度大于512px。
prompt = "a photograph of an astronaut swimming in the river"
image = pipe(prompt).images[0]  # PIL格式 (https://pillow.readthedocs.io/en/stable/)

huggingface stable diffusion,ML&amp;DL&amp;NLP,深度学习,pytorch,python

3.2 非随机生成

刚才 3.1 部分生成的每次都不一样,若需非随机生成,则指定随机种子,pipe() 中传入 generator 参数指定 generator。

import torch

generator = torch.Generator("cuda").manual_seed(1024)
image = pipe(prompt, generator=generator).images[0]

huggingface stable diffusion,ML&amp;DL&amp;NLP,深度学习,pytorch,python

3.3 推理步数控制图像质量

使用 num_inference_steps 参数更改推理 steps。通常步数越多,结果越好,推理越慢。Stable Diffusion 比较强,只需相对较少的步骤效果就不错,因此建议使用默认值50。如图把 num_inference_steps 设成 100,随机种子保持不变,貌似效果差距并不大。

import torch

generator = torch.Generator("cuda").manual_seed(1024)
image = pipe(prompt, num_inference_steps=100, generator=generator).images[0]

huggingface stable diffusion,ML&amp;DL&amp;NLP,深度学习,pytorch,python

3.4 生成多张图片


from PIL import Image

def image_grid(imgs, rows, cols):
    assert len(imgs) == rows*cols

    w, h = imgs[0].size
    grid = Image.new('RGB', size=(cols*w, rows*h))
    grid_w, grid_h = grid.size
    for i, img in enumerate(imgs):
        grid.paste(img, box=(i%cols*w, i//cols*h))
    return grid

一次性生成 3 幅图,此时 prompt 为 list 而不是 str。

num_images = 3
prompt = ["a traditional Chinese painting of a squirrel eating a banana"] * num_images
images = pipe(prompt).images
grid = image_grid(images, rows=1, cols=3)

huggingface stable diffusion,ML&amp;DL&amp;NLP,深度学习,pytorch,python



