【Stable Diffusion】FID、CLIP、cfg-scales都是什么-Toy模板网

这篇具有很好参考价值的文章主要介绍了【Stable Diffusion】FID、CLIP、cfg-scales都是什么。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

在stable-diffusion 仓库中，是这样评价模型的。

Evaluations with different classifier-free guidance scales (1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0) and 50 PLMS sampling steps show the relative improvements of the checkpoints，

对应了这张图
【Stable Diffusion】FID、CLIP、cfg-scales都是什么

图里的FID score 、Clip score 和 cfg-scales 都是什么意思呢？

FID score

FID（Fréchet Inception Distance ） score 是一种用于评估生成图像质量的度量标准，专门用于评估模型生成图片的性能，计算公式如下所示：

$\mathrm{FID}(p, q) = ||\mu_p - \mu_q||_2^2 + \mathrm{Tr}(C_p + C_q - 2\sqrt{C_pC_q})$

其中， $p$ 表示真实图像的分布， $q$ 表示生成图像的分布， $\mu_p$ 和 $\mu_q$ 分别表示两个分布的特征向量的均值， $C_p$ 和 $C_q$ 分别表示两个分布的特征向量的协方差矩阵。 $\mathrm{Tr}$ 表示矩阵的迹运算， $||\cdot||_2$ 表示欧几里得范数。

具体来说, $\operatorname{FID}$ 首先用 Inception network提取真实数据和生成数据的特征向量,然后计算这两个特征向量集合的均值 $\mu_1$ , $\mu_2$ 和协方差矩阵 $\Sigma_1$ , $\Sigma_2$ 。最后计算上述公式得到 $\operatorname{FID}$ 值。

$\operatorname{FID}$ 值越低代表两个分布越相似,生成的数据与真实数据分布越相似。

Clip score

Clip score是指将文本和图像对输入到OpenAI的CLIP（Contrastive Language-Image Pre-training）模型后分别转换为特征向量，然后计算它们之间的余弦相似度。当CLIP Score较高时，图像-文本对之间的相关性更高。CLIP Score评估自然语言和图像对之间的匹配度和相关性。值越大（接近1），评估越高。原始论文点这里
【Stable Diffusion】FID、CLIP、cfg-scales都是什么

CFG Scale

CFG Scale 是Classifier Free Guidance Scale 的缩写，代表提示词相关性。增加这个值将导致图像更接近你的提示,但过高会让图像色彩过于饱和，太高后在一定程度上降低了图像质量。可以适当增加采样步骤来抵消画质的劣化。一般在5~15之间为好，7，9，12是3个常见的设置值。

总结

FID score 计算生成的图像与原始图像的距离，越小越好。
Clip score 计算生成的图像与提示词之间的相关性，越大越好。
CFG Scale 是超参数，用于调整生成图片与提示词的相关性。文章来源地址https://www.toymoban.com/news/detail-495057.html

到了这里，关于【Stable Diffusion】FID、CLIP、cfg-scales都是什么的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！