【Stable Diffusion】FID、CLIP、cfg-scales都是什么

这篇具有很好参考价值的文章主要介绍了【Stable Diffusion】FID、CLIP、cfg-scales都是什么。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在stable-diffusion 仓库中,是这样评价模型的。

Evaluations with different classifier-free guidance scales (1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0) and 50 PLMS sampling steps show the relative improvements of the checkpoints,

对应了这张图
【Stable Diffusion】FID、CLIP、cfg-scales都是什么

图里的FID score 、Clip score 和 cfg-scales 都是什么意思呢?

FID score

FID(Fréchet Inception Distance ) score 是一种用于评估生成图像质量的度量标准,专门用于评估模型生成图片的性能,计算公式如下所示:

F I D ( p , q ) = ∣ ∣ μ p − μ q ∣ ∣ 2 2 + T r ( C p + C q − 2 C p C q ) \mathrm{FID}(p, q) = ||\mu_p - \mu_q||_2^2 + \mathrm{Tr}(C_p + C_q - 2\sqrt{C_pC_q}) FID(p,q)=∣∣μpμq22+Tr(Cp+Cq2CpCq )

其中, p p p 表示真实图像的分布, q q q 表示生成图像的分布, μ p \mu_p μp μ q \mu_q μq 分别表示两个分布的特征向量的均值, C p C_p Cp C q C_q Cq 分别表示两个分布的特征向量的协方差矩阵。 T r \mathrm{Tr} Tr 表示矩阵的迹运算, ∣ ∣ ⋅ ∣ ∣ 2 ||\cdot||_2 ∣∣2 表示欧几里得范数。

具体来说, FID ⁡ \operatorname{FID} FID首先用 Inception network提取真实数据和生成数据的特征向量,然后计算这两个特征向量集合的均值 μ 1 \mu_1 μ1, μ 2 \mu_2 μ2 和协方差矩阵 Σ 1 \Sigma_1 Σ1 , Σ 2 \Sigma_2 Σ2。最后计算上述公式得到 FID ⁡ \operatorname{FID} FID值。

FID ⁡ \operatorname{FID} FID 值越低代表两个分布越相似,生成的数据与真实数据分布越相似。

Clip score

Clip score是指将文本和图像对输入到OpenAI的CLIP(Contrastive Language-Image Pre-training)模型后分别转换为特征向量,然后计算它们之间的余弦相似度。当CLIP Score较高时,图像-文本对之间的相关性更高。CLIP Score评估自然语言和图像对之间的匹配度和相关性。值越大(接近1),评估越高。原始论文点这里
【Stable Diffusion】FID、CLIP、cfg-scales都是什么

CFG Scale

CFG Scale 是Classifier Free Guidance Scale 的缩写,代表提示词相关性。增加这个值将导致图像更接近你的提示,但过高会让图像色彩过于饱和,太高后在一定程度上降低了图像质量。可以适当增加采样步骤来抵消画质的劣化。一般在5~15之间为好,7,9,12是3个常见的设置值。

总结

FID score 计算生成的图像与原始图像的距离,越小越好。
Clip score 计算生成的图像与提示词之间的相关性,越大越好。
CFG Scale 是超参数,用于调整生成图片与提示词的相关性。文章来源地址https://www.toymoban.com/news/detail-495057.html

到了这里,关于【Stable Diffusion】FID、CLIP、cfg-scales都是什么的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Stable Diffusion WebUI 里不显示 VAE 模型、CLIP 终止层数?一分钟解决!

    上一篇已经在 Mac 上安装部署了 Stable Diffusion WebUI,没有装好的小伙伴可以看这里:在男朋友的 Mac 上部署 Stable Diffusion(超详细,含踩坑点,AI 绘画入门保姆级教程) 但是起来了之后,发现貌似少了一些东西。这是起来的画面: Windows 的小伙伴用秋叶大佬或者星空大佬的部署

    2024年02月14日
    浏览(44)
  • stable diffusion 安装xFormers 报错:Couldn‘t install open_clip.

    这是因为没有安装xformers导致的。 解决办法: 在webui-user.bat文件这添加一行: 如下图所示: 试着点击webui-user.bat,看能否下载,如果等了很久报错了,是网络问题,需要科学,但是科学你开全局也没有用 解决方法:我使用的是有蓝色的猫的软件。步骤如下: (1)打开webui中的

    2023年04月24日
    浏览(40)
  • CV多模态和AIGC的原理解析:从CLIP、BLIP到Stable Diffusion、Midjourney

    终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点 去年stable diffusion和midjourney很火的时候,就想写,因为经常被刷屏,但那会时间错不开 去年11月底ChatGPT出来后,我今年1月初开始写ChatGPT背后的技术原理,而今年2月份

    2024年02月13日
    浏览(50)
  • AI绘画与多模态原理解析:从CLIP到DALLE 3、Stable Diffusion、MDJ

    终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点 去年stable diffusion和midjourney很火的时候,就想写,因为经常被刷屏,但那会时间错不开 去年11月底ChatGPT出来后,我今年1月初开始写ChatGPT背后的技术原理,而今年2月份

    2024年02月05日
    浏览(41)
  • CV多模态和AIGC原理解析:从CLIP、BLIP到DALLE 3、Stable Diffusion、MDJ

    终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点 去年stable diffusion和midjourney很火的时候,就想写,因为经常被刷屏,但那会时间错不开 去年11月底ChatGPT出来后,我今年1月初开始写ChatGPT背后的技术原理,而今年2月份

    2024年02月06日
    浏览(47)
  • 保姆级教程:从0到1使用Stable Diffusion XL训练LoRA模型 |【人人都是算法专家】

    Rocky Ding 公众号:WeThinkIn 【人人都是算法专家】栏目专注于分享Rocky在AI行业中对业务/竞赛/研究/产品维度的思考与感悟。欢迎大家一起交流学习💪 大家好,我是Rocky。 Rocky在知乎上持续撰写Stable Diffusion XL全方位的解析文章: 深入浅出完整解析Stable Diffusion XL(SDXL)核心基础

    2024年02月09日
    浏览(52)
  • CV多模态和AIGC的原理解析:从CLIP、BLIP到DALLE 3、Stable Diffusion/MDJ

    终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点 去年stable diffusion和midjourney很火的时候,就想写,因为经常被刷屏,但那会时间错不开 去年11月底ChatGPT出来后,我今年1月初开始写ChatGPT背后的技术原理,而今年2月份

    2024年02月08日
    浏览(48)
  • CV多模态和AIGC的原理解析:从CLIP、BLIP到DALLE三代、Stable Diffusion/MDJ

    终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点 去年stable diffusion和midjourney很火的时候,就想写,因为经常被刷屏,但那会时间错不开 去年11月底ChatGPT出来后,我今年1月初开始写ChatGPT背后的技术原理,而今年2月份

    2024年02月08日
    浏览(43)
  • AIGC下的CV多模态原理解析:从CLIP/BLIP到stable diffusion/Midjourney、GPT4

    终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点 去年stable diffusion和midjourney很火的时候,就想写,因为经常被刷屏,但那会时间错不开 去年11月底ChatGPT出来后,我今年1月初开始写ChatGPT背后的技术原理,而今年2月份

    2024年02月10日
    浏览(68)
  • AI绘画原理解析:从CLIP到DALLE1/2、DALLE 3、Stable Diffusion、SDXL Turbo、LCM

    终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点 去年stable diffusion和midjourney很火的时候,就想写,因为经常被刷屏,但那会时间错不开 去年11月底ChatGPT出来后,我今年1月初开始写ChatGPT背后的技术原理,而今年2月份

    2024年02月22日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包