在stable-diffusion 仓库中,是这样评价模型的。
Evaluations with different classifier-free guidance scales (1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0) and 50 PLMS sampling steps show the relative improvements of the checkpoints,
对应了这张图
图里的FID score 、Clip score 和 cfg-scales 都是什么意思呢?
FID score
FID(Fréchet Inception Distance ) score 是一种用于评估生成图像质量的度量标准,专门用于评估模型生成图片的性能,计算公式如下所示:
F I D ( p , q ) = ∣ ∣ μ p − μ q ∣ ∣ 2 2 + T r ( C p + C q − 2 C p C q ) \mathrm{FID}(p, q) = ||\mu_p - \mu_q||_2^2 + \mathrm{Tr}(C_p + C_q - 2\sqrt{C_pC_q}) FID(p,q)=∣∣μp−μq∣∣22+Tr(Cp+Cq−2CpCq)
其中, p p p 表示真实图像的分布, q q q 表示生成图像的分布, μ p \mu_p μp 和 μ q \mu_q μq 分别表示两个分布的特征向量的均值, C p C_p Cp 和 C q C_q Cq 分别表示两个分布的特征向量的协方差矩阵。 T r \mathrm{Tr} Tr 表示矩阵的迹运算, ∣ ∣ ⋅ ∣ ∣ 2 ||\cdot||_2 ∣∣⋅∣∣2 表示欧几里得范数。
具体来说, FID \operatorname{FID} FID首先用 Inception network提取真实数据和生成数据的特征向量,然后计算这两个特征向量集合的均值 μ 1 \mu_1 μ1, μ 2 \mu_2 μ2 和协方差矩阵 Σ 1 \Sigma_1 Σ1 , Σ 2 \Sigma_2 Σ2。最后计算上述公式得到 FID \operatorname{FID} FID值。
FID \operatorname{FID} FID 值越低代表两个分布越相似,生成的数据与真实数据分布越相似。
Clip score
Clip score是指将文本和图像对输入到OpenAI的CLIP(Contrastive Language-Image Pre-training)模型后分别转换为特征向量,然后计算它们之间的余弦相似度。当CLIP Score较高时,图像-文本对之间的相关性更高。CLIP Score评估自然语言和图像对之间的匹配度和相关性。值越大(接近1),评估越高。原始论文点这里
CFG Scale
CFG Scale 是Classifier Free Guidance Scale 的缩写,代表提示词相关性。增加这个值将导致图像更接近你的提示,但过高会让图像色彩过于饱和,太高后在一定程度上降低了图像质量。可以适当增加采样步骤来抵消画质的劣化。一般在5~15之间为好,7,9,12是3个常见的设置值。文章来源:https://www.toymoban.com/news/detail-495057.html
总结
FID score 计算生成的图像与原始图像的距离,越小越好。
Clip score 计算生成的图像与提示词之间的相关性,越大越好。
CFG Scale 是超参数,用于调整生成图片与提示词的相关性。文章来源地址https://www.toymoban.com/news/detail-495057.html
到了这里,关于【Stable Diffusion】FID、CLIP、cfg-scales都是什么的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!