还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了

这篇具有很好参考价值的文章主要介绍了还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Midjourney虽然出图精美,使用方便,但是出图的灵活性方面是一大硬伤,Stable Diffusion 作为Midjourney的开源替代品,由于其丰富的插件,灵活可控,受到社区的热捧,一直被寄予厚望,这次Stable Diffusion发布了 XL 1.0版本,让它又大火了一把。下面我们一起来认识下它。

Stable Diffusion XL 简称 SDXL,是 最新的图像生成模型,在它出现之前,Stable Diffusion已经有2个大版本在用了,stable 1.5和 stable 2.1。SDXL 1.0 出现前,同样经历了0.9和beta版本的过渡阶段, SDXL 1.0 在 stable 1.5的基础上做了改进,参数数量从0.98B扩大到6.6B。在AI领域,更大的参数意味着更好的质量。

在介绍SDXL的优秀表现之前,有必要说明下为什么它这么受欢迎?

官方介绍了几点,我在这里再引用一下,并做个详细说明。

  1. 更有艺术感的图像。在SDXL之前,应用Stable Diffusion 生成图像是基于SD的基础模型,比如sd 1.5,sd2.1 那种,但是基础通用的模型不仅缺少风格等特征,而且不够真实。为此,社区在基础模型上做了大量的精调,生成特定领域的风格或场景图,比如训练各种各样的LoRA来改变风格。LoRA,英文全称Low-Rank Adaptation of Large Language Models,直译为大语言模型的低阶适应,在微软的论文《LoRA: Low-Rank Adaptation of Large Language Models》提出了一种低秩adapters学习技术LoRA,实现大规模语言模型的跨领域与跨语言迁移。LoRA不仅可以实现跨领域与跨语言的迁移,当应用于Stable Diffusion模型中,可以实现该模型在不同领域与任务中的迁移。比如Stable Diffusion是一个多模态语言-图像模型,LoRA可以学习将其语言表征迁移到图像modal中,从而获得跨模态语义一致的表示。还可以将Stable Diffusion模型从一个生成样式或风格迁移到其他样式与风格,如从写实主义迁移到动漫风格等。比如我之前的文章曾介绍的示例,它可以将真人模型转为迪士尼风格的图片,常用于个人头像订制等场景。

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

LoRA仅需要少量的数据就可以进行训练的一种模型。在生成图片时,LoRA模型会与大模型结合使用,从而实现对输出图片结果的调整。

与LoRA相对的是checkpoint模型。checkpoint模型在基础模型之上的再训练,通过追加更多的数据,checkpoint模型包含生成图像所需的一切,可以独立使用,不需要额外的文件。但是它们体积很大,通常为2G-7G。

前比较流行和常见的checkpoint模型有Anything系列(v3、v4.5、v5.0)、AbyssOrangeMix3、ChilloutMix、Deliberate、国风系列等等。这些checkpoint模型是从Stable Diffusion基本模型训练而来的,相当于基于原生安卓系统进行的二次开发。目前,大多数模型都是从 v1.4 或 v1.5 训练的。它们使用其他数据进行训练,以生成特定风格或对象的图像。

而有了SDXL之后,就可以一步到位生成照片级的图像,SDXL默认生成1025*1024,而stable之前的图片是512*512,像素大小提高4倍,更清晰。

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

而且还可以在一个模型中生成比如动画风格的人物形象。

anime, photorealistic, 1girl, collarbone, wavy hair, looking at viewer, upper body, necklace, floral print, ponytail, freckles, red hair, sunlight

disfigured, ugly, bad, immature, photo, amateur, overexposed, underexposed

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

  1. 更真实的图像

在SDXL之前,通过Stable Diffusion生成绘画,经常会出现恐怖片场景,SD基础模型特别不擅长进行真人绘制,所绘制的人物要么多头,要么少胳膊,要么多手指,要么少腿,总之人物经常会发生变形。举几个不那么让人不适的图片:

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

为此,如果要生成一张富有美感的照片,需要输入非常多的描述词,比如为了得到下面这张图片:

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

需要提供者这么多的正向提示词:

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

有时候不放心,还要追加一连串重复的形容词:

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

同时再提供一堆的负向描述:

bad anatomy, disfigured, blurry, cloned face, low contrast, over/underexposed,bad hands,cloned face ,disfigured ,extra limbs,extra legs,fused fingers,extra fingers,extra arms,long neck,poorly Rendered face,deformed body features,poorly rendered hands,malformed limbs,bad anatomy,ugly,missing arms,missing legs,bad proportions,cloned face,cropped, poorly drawn feet,extra limbs ,mutated hands,morbid,dehydrated,cut off,body out of frame,out of frame,malformed limbs

尽管如此,你仍然无法保证能得到一张好的图像,而这些正反提示词本身就足够吓退初学者。

在Midjourney中,这再简单不过了,自动有了SDXL之后,我们生成图像的难度进一步降低,更接近Midjourney了,尽管还有不少的差距。举一个示例,这里随意生成一张中国女性的图像:

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

虽然图像很普通,但至少没有出现恐怖场景,提示词只需要简单的 “chinese woman”即可,负向提示词都可以省略,更关键的是,再也不需要使用其他特别训练的大模型或者搭配类似国风LoRA模型了。

提示词只需要简单的 chinese woman即可,负向提示词都可以省略,更关键的是,再也不需要使用其他特别训练的大模型或者搭配类似国风LoRA模型了。

3. 更清晰可读的字体

在之前的stable中图像中添加文字,可是一件非常难以办到的事,比如在之前的模型中在生成的图像中生成下面的文字:

A fast food restaurant on the moon with name “Moon Burger”

它可能是这种效果:

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

在SDXL中,不出意外可能是这种:

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

关于图像文字生成,额外介绍一下,尽管SDXL也很优秀,但是可能在这方面不如DeepFloyd/IF.

比如在DeepFloyd/IF中生成下面的图片:

 a photo of a violet baseball cap with yellow text: "JZ AIGC". 50mm lens, photo realism, cine lens. violet baseball cap says "JZ AIGC". reflections, render. yellow stitch text "JZ AIGC"

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

而在SDXL中是这样的:

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

反正我是尝试了N次,这是最好的结果,要么多字符,要么少字符,还有字符漂移到帽子之外的。当然DeepFloyd/IF 也不是每次都能保证好质量。

讲到zhel,大家应该明白为什么SDXL为什么这么火,这么受欢迎了,确实它在一个模型之中,帮助我们节省了更多的精力,为什么它有这种能耐的,这得从其工作原理说起:

还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了,人工智能

我们简单看一下工作原理,它包括两个模型:base基础模型和一个Refiner精炼模型。基础模型设置全局的构图,精炼模型在其基础上增加更多细节,当然你也可以单独使用基础模型。

语言模型结合了OpenClip (ViT-G/14) 和 OpenAI CLIP ViT-L。而StableDiffusionV2仅仅使用了 OpenClip ,导致很难写prompts。此外,Stable Diffusion中最关键的 U-Net是之前的3倍,加上更大的语言模型,使得SDXL能够用prompts匹配到更高质量的图像。

最后,前面提到SDXL默认生成图像大小为1024×1024,是 之前的4倍。

接下来,我们再一起过一下,怎么来用SDXL?

如果你喜欢使用现成的网页,你可以选择在 Clipdrop 上线的SDXL 1.0 ,地址:

Clipdrop - Stable Diffusion

这个免费网站不足之处是需要排队,而且免费生成的图像细节和质量都不如收费的。

下面几个免费网站值得去看看,尤其是playgroundai,它做的类似智能版本的线上PS:

https://playgroundai.com/ 目前是SDXL1.0

https://canvas.krea.ai/files/recent 目前是SDXL1.0

leonardo.ai 目前是SDXL0.9

另外,DreamStudio也具有可用于图像生成的 SDXL 1.0,每个账号试用 25 个credits,大概12张图片的试用额度。

http://dreamstudio.ai/

其他商用版的还有:AWS Sagemaker和AWS Bedrock:

Foundation Model API Service – Amazon Bedrock – AWS

Stable Foundation Discord也开放用于 SDXL 模型的实时测试。Discord是SDXL的测试渠道,可以趁着测试期间,薅一波羊毛:

https://discord.com/channels/1002292111942635562/

如果你想接入API,这几个网站可以尝试:

https://platform.stability.ai/

https://clipdrop.co/stable-diffusion

http://dreamstudio.ai/

如果你倾向于写Python代码去调用SDXL模型,可以看这个:

stabilityai/stable-diffusion-xl-base-1.0 · Hugging Face

如果你倾向于源码部署可以看下面的资源链接:SDXL 1.0的权重和相关源代码已在Stability AI GitHub上发布,地址:

GitHub - Stability-AI/generative-models: Generative Models by Stability AI

相关模型下载地址:

Download SDXL 1.0 base model【https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/resolve/main/sd_xl_base_1.0.safetensors】

Download SDXL 1.0 refiner model【https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0/resolve/main/sd_xl_refiner_1.0.safetensors】

Download SDXL VAE file【https://huggingface.co/stabilityai/sdxl-vae/resolve/main/sdxl_vae.safetensors】

下面是一些在colab 平台部署很不错的代码:

GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI

GitHub - TheLastBen/fast-stable-diffusion: fast-stable-diffusion + DreamBooth

https://colab.research.google.com/github/R3gm/InsightSolver-Colab/blob/main/SDXL_0_9.ipynb#scrollTo=WC7GtSaEHY9F

https://colab.research.google.com/github/camenduru/sdxl-colab/blob/main/sdxl_v1.0_webui_colab.ipynb

https://colab.research.google.com/github/yilundu/reduce_reuse_recycle/blob/main/notebooks/image_tapestry.ipynb#scrollTo=gMRVuthGU0y2

https://github.com/jduke99/DeepFloyd-Colab/blob/main/Deep_Floyd_from_HF_Spaces.ipynb?short_path=7f7ad36

GitHub - TonyLianLong/stable-diffusion-xl-demo: A gradio web UI demo for Stable Diffusion XL 1.0, with refiner and MultiGPU support

先整理这几个亲测可行的吧,后面再更新。欢迎关注微信公众号:纵横AI大世界。文章来源地址https://www.toymoban.com/news/detail-649175.html

到了这里,关于还没有上手Stable Diffusion XL 1.0 的同学,看这篇文章就够了的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 运行stable-diffusion-xl-refiner-1.0遇到version `GLIBCXX_3.4.29‘ not found的问题

    https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0 在运行示例程序时候遇到GLIBCXX_3.4.29‘ not found diffusers to = 0.18.0 以前也遇到过GLBXX没有的问题,通过编译高版本的GCC,感觉头大了, 但是这次其实的装的python3.10的环境中带有的,通过搜寻到,然后链接到该so就可以了 1、找到高

    2024年02月06日
    浏览(32)
  • 【文生图】Stable Diffusion XL 1.0模型Full Fine-tuning指南(U-Net全参微调)

    Stable Diffusion是计算机视觉领域的一个生成式大模型,能够进行文生图(txt2img)和图生图(img2img)等图像生成任务。Stable Diffusion的开源公布,以及随之而来的一系列借助Stable Diffusion为基础的工作使得人工智能绘画领域呈现出前所未有的高品质创作与创意。 今年7月Stability A

    2024年02月03日
    浏览(37)
  • Stable Diffusion XL搭建

    这里主要介绍如何从0到1搭建Stable Diffusion XL进行AI绘画。 Stable Diffusion XL是Stable Diffusion的优化版本,由Stability AI发布。比起Stable Diffusion,Stable Diffusion XL做了全方位的优化,Rocky相信,Stable Diffusion会是图像生成领域的“YOLO”,而Stable Diffusion XL那就是“YOLOv3”。 零基础使用Co

    2024年02月11日
    浏览(28)
  • Stable Diffusion XL简介

    Stable Diffusion XL的是一个文生图模型,是原来Stable Diffusion的升级版。相比旧版的Stable Diffusion模型,Stable Diffusion XL主要的不同有三点: 有一个精化模型(下图的Refiner),通过image-to-image的方式来提高视觉保真度。 使用了两个text encoder,OpenCLIP ViT-bigG和CLIP ViT-L。 增加了图片大小

    2024年02月19日
    浏览(34)
  • Stable Diffusion-XL

    开源、免费的Stable Diffusion就能达到Midjourney水平! 自从Midjourney发布v5之后,在生成图像的人物真实程度、手指细节等方面都有了显著改善,并且在prompt理解的准确性、审美多样性和语言理解方面也都取得了进步。 相比之下,Stable Diffusion虽然免费、开源,但每次都要写一大长

    2024年02月15日
    浏览(30)
  • Stable Diffusion XL 0.9

    虽然此前CEO曾陷入种种争议,但依然不影响Stability AI登上时代杂志。近日,该公司又发布了Stable Diffusion 的XL 0.9版本,35亿+66亿双模型,搭载最大OpenCLIP,让AI生图质量又有了新的飞跃。 Stable Diffusion又双叒升级了! 最近,Stability AI发布了最新版的Stable Diffusion XL 0.9(SDXL 0.9)。

    2024年02月12日
    浏览(29)
  • Stable Diffusion 模型分享:DreamShaper XL(梦想塑造者 XL)

    本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里。

    2024年03月24日
    浏览(37)
  • Stable Diffusion XL优化终极指南

    如何在自己的显卡上获得SDXL的最佳质量和性能,以及如何选择适当的优化方法和工具,这一让GenAI用户倍感困惑的问题,业内一直没有一份清晰而详尽的评测报告可供参考。直到全栈开发者Félix San出手。 在本文中,Félix介绍了相关SDXL优化的方法论、基础优化、Pipeline优化以

    2024年04月26日
    浏览(26)
  • Stable Diffusion XL训练LoRA

    主要包括SDXL模型结构,从0到1训练SDXL以及LoRA教程,从0到1搭建SDXL推理流程。  【一】SDXL训练初识 Stable Diffusion系列模型的训练主要分成一下几个步骤,Stable Diffusion XL也不例外: 训练集制作:数据质量评估,标签梳理,数据清洗,数据标注,标签清洗,数据增强等。 训练文

    2024年02月07日
    浏览(29)
  • Stable Diffusion XL on diffusers

    翻译自:https://huggingface.co/docs/diffusers/using-diffusers/sdxl v0.24.0 非逐字翻译 Stable Diffusion XL (SDXL) 是一个强大的图像生成模型,其在上一代 Stable Diffusion 的基础上主要做了如下优化: 参数量增加:SDXL 中 Unet 的参数量比前一代大了 3 倍,并且 SDXL 还引入了第二个 text-encoder(OpenCL

    2024年03月14日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包