stable diffusion模型训练时数据量

这篇具有很好参考价值的文章主要介绍了stable diffusion模型训练时数据量。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文生图模型之Stable Diffusion - 知乎通向AGI之路码字真心不易,求点赞! https://zhuanlan.zhihu.com/p/6424968622022年可谓是 AIGC(AI Generated Content)元年,上半年有文生图大模型DALL-E2和Stable Diffusion,下半年有OpenAI的文本对话大模型Ch…https://zhuanlan.zhihu.com/p/617134893【stable-diffusion企业级教程08】图文数据集以及标签模型! - 知乎1、数据集1.1 CC数据集(Conceptual Captions)1)cc3m:语言:英文简介: 该数据集由谷歌于 2018 年发布,数据集共包括 330 万对图像-标题对。团队通过创建自动 pipeline,从数十亿网页中提取,过滤和处理候选图像…https://zhuanlan.zhihu.com/p/643722688中文多模态数据集汇总_数据集-阿里云天池本文整理汇总了业界常用的多模态中文数据集,提供了每个数据集的简介、官网、下载地址、Github代码等信息,方便算法研究人员学习研究。https://tianchi.aliyun.com/dataset/1457841.数据集

1.1 laion数据集

laion2B-en数据集,是laion5B的一个子集,更具体的说它是laion-5B中的英文数据集,laion-5B是从网页数据common crawel中筛选出来的图像文本对,包含5.85B的图像文本对,其中文本为英文的数据量为2.32B,这就是laion-2B-en数据集。中文预计143M,有效数据80M,

stablediffusion图生图训练自己的数据集,多模态和生成模型理论,stable diffusion,人工智能

图片的width和height均在256以上的样本量为1324M,在512以上的是488M,在1024以上为76M,文本平均长度为67.

stablediffusion图生图训练自己的数据集,多模态和生成模型理论,stable diffusion,人工智能

1.2 WUkong数据集

包括1亿对图文对

stablediffusion图生图训练自己的数据集,多模态和生成模型理论,stable diffusion,人工智能

stablediffusion图生图训练自己的数据集,多模态和生成模型理论,stable diffusion,人工智能

1.3 Zero数据

Zero,23M,图像和描述对,从互联网上收集,根据用户点击从50亿图文对中筛选出来的,还有一个子数据集,Zero-Corpus-Sub,是供研究用的,2.3M对,是上述数据集的10%。

2.模型训练

2.1 runwayml 1.5

在laion-2B-en数据集上评分为5以上训练的,先用256x256,再用512x512,用了32台8卡A100 40G,bs=32x8x2x2=2048。训练了150000小时,大约25天。

2.2 stability 2.0

在laion-2B-en数据集上评分为4.5以上训练的,

2.3 stability 2.1

sd 2.1在sd 2.0基础上放开了一些nsfw过滤掉的数据,

2.4 mosicML sd 2

使用laion-5B的一个子集,其中包括带有纯英文标题且审美得分为4.5+的样本,第一阶段使用分辨率大于256x256的0.79B样本,第二阶段使用大于512x512的0.3B样本,128台A100,第一个阶段耗时1.6天,55万次迭代,第二阶段耗时4.9天,85万次迭代。

2.5 pai-diffusion

用Wukong数据集中的2千万中文图文数据对进行了约20天的预训练。

2.6 chineseclip

laion-5B中的zh文本大概1.1亿,悟空的7千万,加一下自有数据,总量大概2亿。

2.7 skypaint 天工巧绘

skyclip,由openai-clip蒸馏得到,skyclip训练数据来源:中英文机器翻译任务平行语料、联合国中英文平行语料、laion中英文部分语料、wukong部分中文语料、AI-Challenger翻译任务中英文语料、古诗词中英文语料和提示词手册/魔法书中常见词组合而成的中英文语料。

采用筛选过的laion数据集,宣传文说有1.2亿,文本前使用sai-v1 art作为tag,sd1.5作为预训练模型,16xA100训练了50个小时。

2.8 腾讯混元文生图模型

20亿+未清洗的青铜诗句,用来对所有模型进行粗加工,预训练;6亿+白银数据,用来对生成模型进一步加工;1.12亿+黄金数据,精调训练,数据闭环反馈迭代。

2.9 网易丹青

8亿加数据

2.10 Taiyi

Taiyi sd:

Noah-Wukong数据集(100M)和Zero数据集(23M)用作预训练的数据集,先用IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese对这两个数据集的图文对相似性进行打分,取CLIP Score大于0.2的图文对作为训练集。 基于0.2亿筛选过的中文图文对训练。

Taiyi clip:

Noah-Wukong数据集(100M)和Zero数据集(23M)用作预训练的数据集。在悟空数据集和zero数据集上预训练24轮,在A100x32上训练了6天。

2.11 sdxl

未透露训练数据,直说采用内部数据训练,但大概率也是laion-2b-en数据。

2.12 altdiffusion

Wudao数据集和Laion。

2.13 VisCPM-Paint

CPM-Bee(10B)作为文本编码器,unet作为图像解码器,训练中,语言模型参数固定,使用sd2.1初始化视觉编码器,在laion-2b英文数据上训练。进一步在20M清洗后的原生中文图文对数据训练训练,以及120M翻译到中文的图文对数据训练。

2.14 中文StablDiffusion-通用领域

中文StableDiffusion-通用领域https://modelscope.cn/models/damo/multi-modal_chinese_stable_diffusion_v1.0/summary

本模型采用的是Stable Diffusion 2.1模型框架,将原始英文领域的OpenCLIP-ViT/H文本编码器替换为中文CLIP文本编码器chinese-clip-vit-huge-patch14,并使用大规模中文图文pair数据进行训练。训练过程中,固定中文CLIP文本编码器,利用原始Stable Diffusion 2.1 权重对UNet网络参数进行初始化、利用64卡A100共训练35W steps。训练数据包括经中文翻译的公开数据集(LAION-400M、cc12m、Open Images)、以及互联网搜集数据,经过美学得分、图文相关性等预处理进行图像过滤,共计约4亿图文对。

2.15 文本到图像生成扩散模型-中英文-通用领域-tiny

文本到图像生成扩散模型-中英文-通用领域-tinyhttps://modelscope.cn/models/damo/cv_diffusion_text-to-image-synthesis_tiny/summary

文本到图像生成模型由文本特征提取与扩散去噪模型两个子网络组成。文本特征提取子网络为StructBert结构,扩散去噪模型为unet结构。通过StructBert提取描述文本的语义特征后,送入扩散去噪unet子网络,通过迭代去噪的过程,逐步生成复合文本描述的图像。训练数据包括LAION400M公开数据集,以及互联网图文数据。文本截断到长度64 (有效长度62),图像缩放到64x64进行处理。模型分为文本特征提取与扩散去噪模型两个子网络,训练也是分别进行。文本特征提取子网络StructBert使用大规模中文文本数据上预训练得到。扩散去噪模型则使用预训练StructBert提取文本特征后,与图像一同训练文本到图像生成模型。

2.16 通义-文本生成图像大模型-中英文-通用领域

通义-文本生成图像大模型-中英文-通用领域https://www.modelscope.cn/models/damo/cv_diffusion_text-to-image-synthesis/summary

整体模型参数约50亿,支持中英双语输入。训练数据包括LAION5B, ImageNet, FFHQ, AFHQ, WikiArt等公开数据集。经过美学得分、水印得分、去重等预处理进行图像过滤。模型分为文本特征提取、文本特征到图像特征生成、级联扩散生成模型等子网络组成,训练也是分别进行。文本特征提取使用大规模图文样本对数据上训练的CLIP的文本分支得到。文本到图像特征生成部分采用GPT结构,是一个width为2048、32个heads、24个blocks的Transformer网络,利用causal attention mask实现GPT预测。64x64、256x256、1024x1024扩散模型均为UNet结构,在64x64、256x256生成模型中使用了Cross Attention嵌入image embedding条件。为降低计算复杂度,在256扩散模型训练过程中,随机64x64 crop、128x128 crop、256x256 crop进行了multi-grid训练,来提升生成质量;在1024扩散模型中,对输入图随机256x256 crop。

2.17 腾讯太极

原始的数据量级是10亿级,经过过滤我们最终保留了1亿高质量数据,全面覆盖了包括中英文场景、风景、物体、名人、游戏、动画、动漫、艺术、概念的图片。使用的过滤方法包括下面这些步骤

  1. 根据图片width、height绝对值和比例等过滤
  2. 根据简单的纹理复杂度过滤
  3. 根据太极-CLIP图文匹配模型的图文相关度过滤
  4. 根据laion aesthitic提出来的美学分数过滤

我们发现训练数据的质量对于模型的效果非常关键,宁缺毋滥;另外我们刚开始发现图片中包含了太多的卡通图片,导致最后生成的效果也是偏卡通风格的,因此后面把卡通图的比例降低,模型效果也随之正常。后期我们也是专门收集了一批游戏和各种风格的数据,引入模型训练,使模型能够适配各种风格。数据迭代跟模型迭代是同步进行的,不断的优化我们的数据集合,让模型生成效果更优。文章来源地址https://www.toymoban.com/news/detail-765379.html

到了这里,关于stable diffusion模型训练时数据量的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI 绘画 | Stable Diffusion 图生图

    Stable Diffusion 不仅可以文生图,还可以图生图。文生图就是完全用提示词文本去生成我们想要图片,但是很多时候会有词不达意的感觉。就像我们房子装修一样,我们只是通过文字描述很难表达出准确的想要的装修效果,如果能给到一张设计图或者效果图,那么就能更加直白

    2024年02月03日
    浏览(71)
  • Stable Diffusion学习指南【图生图篇】

    即使之前在Midjourney中有过图生图的使用经验,但大部分人对该功能的印象仅限于喂图,通过它可以让模型了解更多我们要传达的信息,从而达到准确出图的目的。但在Stable Diffusion中的图生图还要强大的多,除了控图还包含了手动涂鸦、局部重绘、图像扩展等更多功能。 今天

    2024年02月03日
    浏览(69)
  • Stable Diffusion 系列教程 | 图生图基础

    前段时间有一个风靡全网的真人转漫画风格,受到了大家的喜欢 而在SD里,就可以通过图生图来实现类似的效果 当然图生图还有更好玩的应用,我们一点一点来探索 首先我们来简单进行一下图生图的这一个实践---真人转动漫 和文生图基本界面差不多,多了一个上传图像区

    2024年02月11日
    浏览(61)
  • Stable Diffusion高清修复老照片-图生图

    修复老照片的意义就不多说了,相信大家都明白,这里直接开讲方法。 1、原理 这个方法需要一个真实模型,以便让修复的照片看起来比较真实,我这里选择:realisticVisionV20,大家有更好的给我推荐哦。 还需用搭配两个特殊设置: ControlNet Tile:这是一个ControlNet模型,用于放

    2024年02月14日
    浏览(43)
  • 〔004〕Stable Diffusion 之 图生图进阶 篇

    图生图功能主要包括六大类: 图生图 / img2img 、 涂鸦绘制 / sketch 、 局部绘制 / inpaint 、 局部绘制之涂鸦蒙版 / inpaint sketch 、 局部绘制之上传蒙版 / inpaint upload 、 批量处理 / batch 而图生图的基本参数包括但不限于以下几种: Resize mode: 缩放模式,包括 拉伸/Just resize 、

    2024年02月09日
    浏览(53)
  • Stable Diffusion教程:4000字说清楚图生图

    原文:Stable Diffusion教程:4000字说清楚图生图 - 知乎 目录 收起 基本使用 涂鸦绘制 局部绘制 局部绘制(涂鸦蒙版) 局部绘制(上传蒙版) 批量处理 总结 资源下载 “图生图”是 Stable Diffusion的 核心功能之一,它的主要能力是根据现有的图片 + 提示词生成新的改造图片,这在

    2024年02月05日
    浏览(42)
  • 全网最全stable diffusion图生图教程!!!小白必收藏!!!!

    手把手教你入门绘图超强的AI绘画程序Stable Diffusion,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新Stable Diffusion保姆级教程资料包(文末可获取) 1.1 传统意义上的喂参考图 我们都知道,模型在运算时是根据我们提供的提示内容来确定绘图方向

    2024年01月16日
    浏览(70)
  • 【Stable Diffusion】入门-03:图生图基本步骤+参数解读

    当提示词不足以表达你的想法,或者你希望以一个更为简单清晰的方式传递一些要求的时候,可以给AI输入一张图片,此时图片和文字是相当的,都是作为一种信息输送给模型,让它拿来生成一张新的图片。模型可以从图片上获取更多的信息,原本的图片上记录的像素信息会

    2024年03月20日
    浏览(62)
  • Stable Diffusion(SD)核心基础知识——(文生图、图生图)

    Stable Diffusion是计算机视觉领域的一个生成式大模型,可以用于文生图,图生图,图像inpainting,ControlNet控制生成,图像超分等丰富的任务。 文生图(txt2img) 文生图任务是指将一段文本输入到SD模型中,经过一定的迭代次数,SD模型输出一张符合输入文本描述的图片。 步骤一

    2024年01月22日
    浏览(51)
  • 【stable diffusion】保姆级入门课程03-Stable diffusion(SD)图生图-涂鸦(绘图)的用法

    目录    0.本章素材 1.涂鸦有什么用 2.涂鸦的使用场景是什么 3.操作面板 4.提示词与涂鸦 5.涂鸦与重绘幅度 6.涂鸦的其他用法(自由创作) 7.课后训练 涂鸦(绘图)和图生图一样,都会基于重绘幅度改变整张图片的整张画风,构图,姿势 等,这点是需要同学们注意的 涂鸦就是用画笔

    2024年02月16日
    浏览(64)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包