Stable Diffusion在各种显卡上的加速方式测试,最高可以提速211.2%

这篇具有很好参考价值的文章主要介绍了Stable Diffusion在各种显卡上的加速方式测试,最高可以提速211.2%。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Stable Diffusion是一种基于扩散模型的图像生成技术,能够从文本生成高质量的图像,适用于CG,插图和高分辨率壁纸等领域。

但是它计算过程复杂,使得它的生成速度较慢。所以研究人员就创造了各种提高其速度的方式,比如Xformers、Aitemplate、TensorRT和onflow。在本文中我们将对这些加速方法进行了一系列对比测试。

在本文中,我们将介绍这些加速方法的原理和性能测试结果,并提供对不同显卡的成本效益总结,我们的目标时在并在2秒内生成高质量的图像。

通过我们的试验与RTX 3090上的Xformers相比,OneFlow实现了211.2%的加速,在RTX 4090上实现了205.6%的加速。所以一个高配的GPU还是很必要的。

加速方案原理及特性

以下表格整理了目前能够看到的加速方案

Stable Diffusion在各种显卡上的加速方式测试,最高可以提速211.2%,stable diffusion,人工智能,计算机视觉,深度学习,GPU

本文使用Xformers, Aitemplate, TensorRT和onflow进行测试。因为NvFuser在原理上与Xformers相似,都使用了FlashAttention技术。DeepSpeed和colossalAI主要是为训练加速而设计的,而OpenAI Triton则是一个模型部署引擎,适用于批大小的加速,但不适用于优化延迟场景,所以这些都包含在本文中。

我们使用VoltaML来评估Aitemplate的加速效果,使用Stable Diffusion web来评估Xformers的加速,使用官方TensorRT示例来评估TensorRT的性能,并将OneFlow集成到Diffusion中来测试其加速度。

加速方案测试

接下来,我们将介绍相关的测试配置

1、测试设置

我们的性能度量是每秒迭代数(its/s)。图像设置为512*512,步骤100

提示词为:A beautiful girl, best quality, ultra-detailed, extremely detailed CG unity 8k wallpaper, best illustration, an extremely delicate and beautiful, floating, high resolution.

Negative提示: Low resolution, bad anatomy, bad hands, text error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, bad feet, fused body.

Sampler: Euler a

模型:Stable Diffusion 1.5

2、测试结果

在各种gpu上的性能测试结果,如下图所示(上图第一行为Xformers,第三行为Aitemplate ,第四行为OneFlow ):

Stable Diffusion在各种显卡上的加速方式测试,最高可以提速211.2%,stable diffusion,人工智能,计算机视觉,深度学习,GPU

加速度比较如下:OneFlow > TensorRT > Aitemplate > Xformers。

与RTX 3090上的Xformers相比,OneFlow实现了211.2%的相对加速,在RTX 4090上实现了205.6%的加速。

以下是一个结果:

Stable Diffusion在各种显卡上的加速方式测试,最高可以提速211.2%,stable diffusion,人工智能,计算机视觉,深度学习,GPU

GPU性价比

通过对不同的gpu进行了成本效益分析,得到以下结论:

从性价比角度来看,RTX4090 GPU性价比最高,目前RTX 2080Ti是最高性价比,极低端的gpu会增加整体成本。所以不建议用低端入门级GPU。

我们这里选择的几个低端gpu,包括M60、1660s和1080,问题如下:

1、GPU如1660和1080不支持加速方案,如TensorRT, Aitemplate,和OneFlow,可能是由于内存不足或GPU不兼容

2、其中1660s(1080)在生成512*512的20步图像,耗时7.66s (7.57s),达到2.61 it/s (2.64 it/s),虽然慢,但是可以用,如果你时间富裕或者只是玩一下可以考虑

3、M60达到1.27 it/s, 20步生成512*512图像需要15.74s,比1660s又慢了1倍

Stable Diffusion在各种显卡上的加速方式测试,最高可以提速211.2%,stable diffusion,人工智能,计算机视觉,深度学习,GPU

选择的建议

1、虽然RTX 4090有最高的速度,但RTX 3090也是可以考虑,RTX 3090的性能优于其他同级别的gpu,如A5000和A4000(下面价格基于云服务提供商的GPU价格计算,自购肯定RTX 4090,因为比3090差不了多少钱)。

Stable Diffusion在各种显卡上的加速方式测试,最高可以提速211.2%,stable diffusion,人工智能,计算机视觉,深度学习,GPU

2、更大的VRAM允许缓存更多的模型,减少模型加载时间,并显著加快图像生成过程。

RTX 3090和RTX 4090都有24GB的VRAM,但如果稳定扩散web是基于VRAM使用进行优化,RTX 3090可能在VRAM成本上有优势。如果优先考虑推理速度,RTX 4090是最佳选择,因为它的推理时间大约是RTX 3090的一半。

3、不同gpu的更多详细信息,请参阅下面的图表。

Stable Diffusion在各种显卡上的加速方式测试,最高可以提速211.2%,stable diffusion,人工智能,计算机视觉,深度学习,GPU

以上就是完整的测试,希望对你有所帮助。

https://avoid.overfit.cn/post/4d41ab2ecdce462786892e315dc49ecc

作者:Omniinfer文章来源地址https://www.toymoban.com/news/detail-600786.html

到了这里,关于Stable Diffusion在各种显卡上的加速方式测试,最高可以提速211.2%的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Stable Diffusion配置要求,显卡推荐

    Stable Diffusion 是一款流行的人工智能图像生成器,您可以在自己的 PC 上运行。但是运行Stable Diffusion的最低规格是多少,哪些组件最重要? Stable Diffusion最关键的一个组件是显卡 (GPU)。Stable Diffusion(至少是主要版本)几乎完全在 GPU 上运行。这意味着其他系统组件,例如CPU、

    2024年02月16日
    浏览(38)
  • 惊喜!4G显卡也能用Stable Diffusion啦

    上周六 Stable Diffusion WebUI 发布了 1.8.0 版本 。 新版本主要特点如下: 将 touch2.1.2 更新到版本 2.1.2,提高了稳定性 FP8 支持,新增了对八位精度模型的支持,降低了硬件门槛 支持 SDXL-Inpaint 模型 使用 Spandrel 进行升级和面部修复架构 自动向后版本兼容性(从指定了程序版本的旧

    2024年04月11日
    浏览(39)
  • 轻薄本没有独立显卡如何运行stable diffusion

    众所周知,Stable Diffusion WebUI 使用 GPU 模式运行。 一:检查自己显卡 打开任务管理器或者win+R 输入dxdiag 查看自己显卡状态 很明显一般轻薄本只会带有集显,不能满足stable  diffusion要求所以我们可以使用 cup 来运行stable  diffusion  在Stable Diffusion Webui根目录文件夹下有 webui-use

    2024年04月23日
    浏览(38)
  • 进行Stable Diffusion的ai训练怎么选择显卡?

    Stable Diffusion主要用于从文本生成图像,是人工智能技术在内容创作行业中不断发展的应用。要在本地计算机上运行Stable Diffusion,您需要一个强大的 GPU 来满足其繁重的要求。强大的 GPU 可以让您更快地生成图像,而具有大量 VRAM 的更强大的 GPU 可以让您更快地创建更高分辨率

    2024年02月11日
    浏览(38)
  • 无独立显卡电脑安装Stable Diffusion教程,附安装包

    Stable Diffusion是一款开源的人工智能绘图工具。能通过文本生成精美的图片。 视频演示: 大叔试用人工智能 无独立显卡如何安装StableDiffusion 看一下Stable Diffusion生成的图片样例: Stable Diffusion的算法需要计算机有较强的算力,默认是需要配置有英伟达的独立显卡的机器才可以

    2024年02月09日
    浏览(69)
  • AMD显卡Ubuntu20.4系统下部署stable diffusion

    今天来给大家做一个AMD显卡使用stable diffusion的小白(硬核)教程。最近这段时间AI特别火,很多小伙伴看到各种大佬用AI画的老婆非常精美(色情),弄的人心痒痒,自己也想画一个心仪的老婆(画作)。 太露骨的图片不能放,你们懂得!! 但是很多小伙伴用的是AMD的独立显

    2024年02月03日
    浏览(46)
  • Stable Diffusion——使用TensorRT GPU加速提升Stable Diffusion出图速度

    Diffusion 模型在生成图像时最大的瓶颈是速度过慢的问题。为了解决这个问题,Stable Diffusion 采用了多种方式来加速图像生成,使得实时图像生成成为可能。最核心的加速是Stable Diffusion 使用了编码器将图像从原始的 3 512 512 大小转换为更小的 4 64 64 大小,从而极大地降低了计算

    2024年02月21日
    浏览(46)
  • 无显卡也能AI作画 | Colab + Stable Diffusion WebUI

    事情起因是这样的,我之前写了如何在linux上用Stable Diffusion WebUI。 里边提到我迟迟没有弄webui是因为我笔记本A卡,台式机显卡带不动。所以无奈只能使用学校服务器搭一个。 当时有人说我,你自己电脑不行怎么不用colab,我当时懒得弄。 原因如下: 服务器在我们本地,不用

    2024年02月10日
    浏览(73)
  • stable-diffusion-webui手动安装详细步骤(AMD显卡)

    主要介绍 stable-diffusion-webui 的 主题开发、插件开发 等内容,感兴趣的朋友可以订阅下! 大话Stable-Diffusion-Webui-客制化主题(一) 大话Stable-Diffusion-Webui-客制化主题(二) 大话Stable-Diffusion-Webui-客制化主题(三) 不定时更新中... stable-diffusion-webui手动安装详细步骤(NVIDIA显卡

    2024年02月02日
    浏览(61)
  • Win10+非英伟达显卡+Anaconda+Pytorch安装stable diffusion

    1、参考:intel的集成显卡(intel(r) uhd graphics) 配置stable diffusion_C_小艾的博客-CSDN博客 2、中间碰到一些问题: 解决在Windows安装stable diffusion遇到“Torch is not able to use GPU”的问题_hcaohr的博客-CSDN博客想要一键启动:进入D:stable-diffusion-webuiwebui-user.bat   编辑模式   直接set pytho

    2024年02月12日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包