基于Stable Diffusion的图像合成数据集

这篇具有很好参考价值的文章主要介绍了基于Stable Diffusion的图像合成数据集。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

当前从文本输入生成合成图像的模型不仅能够生成非常逼真的照片,而且还能够处理大量不同的对象。 在论文“评估使用稳定扩散生成的合成图像数据集”中,我们使用“稳定扩散”模型来研究哪些对象和类型表现得如此逼真,以便后续图像分类正确地分配它们。 这使我们能够根据现实表现对模型进行评估。
基于Stable Diffusion的图像合成数据集,stable diffusion

推荐:用 NSDT编辑器 快速搭建可编程3D场景。

上面的照片使用足球的例子来表明,不仅生成了非常逼真的照片,而且从精确的文本提示开始,创建了非常不同的对象表示。

1、数据的生成

作为图像生成的基础,我们使用“稳定扩散”1.4 模型以及 Huggingface Diffusers 库的实现。 该模型允许根据文本提示创建和修改图像。 它是在 LION5B 文本到图像数据集的子集(LAION-Aesthetics)上训练的潜在扩散模型。

下图显示了根据文本提示生成的图像示例

Haflinger horse with short legs standing in water.

该示例表明,生成器模型可以表示具有不同属性的不同概念,并将它们组合在一种设置中。

基于Stable Diffusion的图像合成数据集,stable diffusion

我们创建了一个包含各种不同概念的图像的数据集。 对于文本输入,我们使用Wordnet中包含的信息。 Wordnet 将概念组织成所谓的“同义词集”,它对应于一个或多个具有相同含义的单词的含义。 因此,一个具有不同含义的词可以属于多个同义词集。 例如,“苹果”一词具有水果和计算机品牌的含义,并且每个术语都有一个同义词集。

从 Wordnet 同义词集“object.n.01”开始,通过递归调用“下位词”(比适用于它的一般或上位术语具有更具体含义的单词)创建了 26,204 个名词同义词集的列表。 对于每个名词,我们使用 Wordnet 中同义词集的描述来生成图像。

此类提示的示例是:(狗的同义词)

a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds

对于每个同义词集,生成 10 个图像并以该同义词集的名称存储并附加编号。 我们的数据集总共有 262,040 张图像。

与每个同义词集的 10 个图像一起,保存一个文本文件,其中包含所使用的提示、同义词集的名称(例如“dog.n.01”)和 wordnet 编号(例如“n12345678”)。 该记录可以从 Kaggle 下载。

2、数据评估

为了对数据集的子集进行系统评估,我们使用 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 数据集。

我们使用 Pytorch 实现的视觉 Transformer 模型来验证生成的图像是否可以正确分类,该模型在 ImageNet 数据上的 top-1 准确度为 88.55%,top-5 准确度为 98.69%。

对所考虑的子集中的所有 8610 个图像进行审查后,平均正确分类为每类 4.16 个图像(最多 10 个),所有类的平均标准差为 3.74。 下面的直方图显示了正确分类数量的巨大分布。 NSFW 过滤器产生的黑色图像是统计数据的一部分。
基于Stable Diffusion的图像合成数据集,stable diffusion

可以看出,虽然大多数类别 (73%) 至少生成了一张正确识别的图像,但只有 14% 的类别识别出了全部 10 张图像。 这也反映了文章开头的观察,即一个类的生成图像差异很大。 这使得分类过程的任务变得复杂。

现在让我们考虑一些对象组的识别率。 在Wordnet的层次结构下,总结了一些术语组的相关类别,并确定了每个术语的平均识别率。 下表显示了结果。

基于Stable Diffusion的图像合成数据集,stable diffusion

不同对象类别的识别率

值得注意的是建筑物的良好识别率。 下图显示了“Greenhouse”的所有 10 张图像均被正确识别。

基于Stable Diffusion的图像合成数据集,stable diffusion

“温室”——作者使用稳定扩散创建的图像

“动物”类别的分类率低于平均水平。 如果我们更仔细地观察这个群体,我们会发现对于 162 个动物类别,没有图像根本无法被识别。 看看具体的例子,例如以下术语“黑足雪貂”和“叶蝉”的例子,“稳定扩散”显然揭示了动物科学的重大缺陷。
基于Stable Diffusion的图像合成数据集,stable diffusion

“黑足雪貂” — 稳定扩散创建的图像

创建术语“地图”,显示哪些由稳定扩散生成的图像可以被视觉Transformer模型正确识别,并且每种情况下的识别率有多好,我们将术语按语义放置在 2D 中,并按子组对它们进行着色。 圆圈的大小表示正确分类的图像的数量。 为了确定该地图上的位置,我们使用单词嵌入来表示类的名称。
基于Stable Diffusion的图像合成数据集,stable diffusion

分类率“地图”

在这里,许多未被正确识别的动物类别小红点也很明显。

3、类似项目

Lexica是一个提供对稳定扩散生成的合成图像数据的访问的项目。 它是一个搜索引擎,可从超过 1000 万张图像中返回某个词条的结果。 不过这里的整个数据库无法下载,而且没有分类。

基于Stable Diffusion的图像合成数据集,stable diffusion

Lexica

DiffusionDB提供并描述了一个包含 200 万张图像的大型数据库,也可以作为开源下载和使用。

除了图像之外,DiffusionDB数据集还包含用于生成每个图像的文本提示。 作者通过爬行 Stable Diffusion 的 Discord 服务器并提取包括提示在内的图像来创建数据收集。


原文链接:稳定扩散合成数据集 — BimAnt文章来源地址https://www.toymoban.com/news/detail-752241.html

到了这里,关于基于Stable Diffusion的图像合成数据集的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Stable Diffusion复现——基于 Amazon SageMaker 搭建文本生成图像模型

    众所周知, Stable Diffusion扩散模型的训练和推理非常消耗显卡资源 ,我之前也是因为资源原因一直没有复现成功。 而最近我在网上搜索发现,亚马逊云科技最近推出了一个 【云上探索实验室】 刚好有复现Stable Diffusion的活动,其使用 亚马逊AWS提供的Amazon SageMaker机器学习平台

    2023年04月09日
    浏览(40)
  • 基于扩散模型的图像压缩:创建基于Stable Diffusion的有损压缩编解码器

    Stable Diffusion是最近在图像生成领域大火的模型,在对他研究的时候我发现它可以作为非常强大的有损图像压缩编解码器。在介绍之前,我们先看看它与高压缩率下的JPG和WebP相比的而结果,所有都是512x512像素的分辨率为单位: 上面这图的细节如下: 这是JPG压缩结果大小为5

    2024年02月12日
    浏览(44)
  • lama-cleaner:基于SOTA AI 模型Stable Diffusion驱动的图像修复工具

    由 SOTA AI 模型提供支持的图像修复工具。从照片中删除任何不需要的物体、缺陷、人物,或擦除并替换(由Stable Diffusion驱动)照片上的任何东西。 1.多种SOTA AI模型 擦除模型:LaMa/LDM/ZITS/MAT/FcF/Manga 擦除和替换模型:稳定扩散/绘制示例 2.后期处理 插件 RemoveBG:删除图像背景

    2024年02月12日
    浏览(43)
  • Stable Diffusion教程之使用Stable Diffusion改进图像分割模型

    作为 ML 工程师,Edge Analytics和Infinity AI的团队非常熟悉与为计算机视觉应用程序获取高质量标记图像相关的挑战。随着生成图像模型的发布,例如来自Stability AI的开源Stable Diffusion,我们探索了使用生成模型来提高特定语义分割模型的性能。 Stable Diffusion是 Stability AI 在今年早些

    2024年02月10日
    浏览(45)
  • Stable Diffusion - Stable Diffusion WebUI 图像生成工具的环境配置

    欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/131528224 Stable Diffusion WebUI 是一款基于深度学习的图像生成工具,根据用户的输入文本或图像,生成高质量的新图像,特点如下: 支持多种图像生成任务,如人脸生成、风格迁移、图像修复、

    2024年02月16日
    浏览(67)
  • Stable Diffusion 图像生成测试

    最近图像多模态生成模型特别火,简单尝试了下。 项目地址:GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model 由于本地GPU比较弱鸡,使用了Google的colab进行了简单尝试,colab地址: https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb 被效果

    2024年02月16日
    浏览(44)
  • Stable Diffusion 无损放大图像和缩小图像

    Stable Diffusion默认生成的图片尺寸为512×512,这种尺寸的分辨率可能无法满足高质量的要求。若想生成大图,存在两种可选的方法,在显卡足够支撑的情况下可以将图像当打到8K。 在生成图片时,可选择使用 hires.fix 高分辨率修复功能,该功能会将生成图片的尺寸从512×512调整至

    2024年02月12日
    浏览(48)
  • Stable Diffusion - Easy Diffusion 图像生成工具的环境配置

    欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/131524075 版本v2.5.41 Stable Diffusion 图像生成工具是一种基于深度学习的技术,可以从随机噪声中生成高质量的图像,利用 Diffusion Probabilistic Models 的概率模型,逐步地将噪声转化为目标图

    2024年02月16日
    浏览(48)
  • Stable Diffusion 使用outpainting扩展图像

    通常SD可以应用绘制的图像是固定分辨率的,但是如果想要超出这个分辨率的话那就要使用一些方法,并且如果还想保持这些图片的连贯性,例如背景就要使用到outpainting。 首先将需要扩展边缘的图像下载好,这个图像可以使横向也可以是纵向的,后续可以根据你的需要向其

    2024年02月12日
    浏览(40)
  • DiffuSEEG:一种基于stable diffusion 的SEEG数据补全方法

    立体脑电图(SEEG):是一种借助外科微创的方法将电极植入到大脑不同的部位,在电极点所在位置记录患者发作间期(即无发作的时候)及发作期脑电图的方法,以精确定位癫痫病灶。SEEG 不仅用于癫痫发作的定位诊断,也为癫痫外科治疗提供了一个新的治疗方法,即热凝固

    2024年02月08日
    浏览(63)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包