基于Stable Diffusion的AIGC服饰穿搭实践

这篇具有很好参考价值的文章主要介绍了基于Stable Diffusion的AIGC服饰穿搭实践。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

本文主要介绍了基于Stable Diffusion技术的虚拟穿搭试衣的研究探索工作。文章展示了使用LoRA、ControlNet、Inpainting、SAM等工具的方法和处理流程,并陈述了部分目前的实践结果。通过阅读这篇文章,读者可以了解到如何运用Stable Diffusion进行实际操作,并提供更优质的服饰虚拟穿搭体验。

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

业务背景

随着AI技术的不断创新,AI创作工具已经逐渐成为艺术家、设计师和创作者们的最佳助手。在AI生图领域,Stable Diffusion以其开源、生出图片质量高等众多优势脱颖而出,展现出强大的综合实力。我们希望利用Stable Diffusion作为工具,在虚拟服饰穿搭领域进行一些创新和探索,期待通过AI技术的应用,在线上提供更多样化、个性化的服装选择和搭配方案,为用户提供更好的服饰虚拟穿搭体验。

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

现状调研

在虚拟穿搭领域,目前主要有两类主流方法,分别是虚拟试衣VTON和基于Stable Diffusion的AIGC穿搭。

  虚拟试衣VTON

基于图像的虚拟试衣方法的处理流程通常有两个阶段:将试穿的服装扭曲以与目标人物对齐的几何匹配模块(GMM)和将扭曲的服装与目标人物图像混合的Try-On Module (TOM)。

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

为了训练神经网络,理想的数据集应该是:用户身穿自己衣服的照片,要试穿的衣服产品图,用户身着要试穿衣服的照片,在一般情况下获取到这样大量的理想数据集是非常难的。因此,对于VTON而言,大多数虚拟试衣模型神经网络的训练,都建立在一个上万张女模型数据集的基础上,且这上万张模特数据照片以正面视角为主,缺乏多机位多角度的拍摄。样本图片大小固定为256*192,出图的清晰度已经很难满意目前的用户需求。上述原因都限制了VTON实际应用中的效果。

  基于Stable Diffusion的AIGC穿搭

利用Stable Diffusion的大模型生图能力,辅以LoRA、ControlNet、Inpainting等“外挂”手段,增强穿搭出图的可控性与稳定性。

  • LoRA

LoRA,英文全称Low-Rank Adaptation of Large Language Models,直译为大语言模型的低阶适应,是一种参数高效性微调方法。LoRA的基本原理是在冻结预训练好的模型权重参数情况下,通过往模型中加入额外的网络层,并只训练这些新增的网络层参数。由于这些新增参数数量较少,这样不仅 finetune 的成本显著下降,还能获得和全模型微调类似的效果。

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

在https://civitai.com/等主流的绘画模型分享网站中,我们可以下载并运用已经finetune好的LoRA模型,用于输出特定风格的人、场景、服饰等。在我们服饰生成的工作中,我们通过对每件服饰准备了十张左右的训练样本图片,经过数据清洗、打标等处理流程后,通过训练生成一个LoRA小模型,这个LoRA模型可以学习到服饰的颜色、纹理等特征,最后应用LoRA模型产出AIGC的服饰穿搭。

  • ControlNet

在完成上述的LoRA训练后,如果我们希望AI生成的图片更易控制,人物姿态更明确,就可以使用ControlNet插件。ControlNet的核心能力是通过设置各种条件来让AI生成的最终图片结果更加可控。这些条件是通过调整预处理器参数实现的,因此我们需要先了解ControlNet各种预处理器模块的功能。下图展示了一些主要预处理器的功能和对应的模型。

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

例如,我们可以选择Canny预处理器,再选择对应的模型,对输入的图片进行边缘检测,生成线稿,然后根据Prompt提示词来生成与上传图片同样构图的画面。

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

  • Inpainting

Inpainting模式是Stable Diffusion图生图中的一种特殊模式,用户可以通过上传Mask图,使Stable Diffusion根据其余信息(例如Prompt、LoRA、ControlNet)保留Mask内部的全部细节,重绘其余所有部分。

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

可以通过Mask Mode选择重绘Masked部分或者除Masked外的剩余部分。

  • Segment Anything

Segment Anything如其名分割一切,是一个由Meta开源的图像分割模型,号称图像分割领域的GPT 4.0。网页demo如下:https://segment-anything.com/demo。在Stable Diffusion的Web UI中,我们也可以通过下载安装Segment Anything插件来实现相同的功能。分割方式非常友好,可以通过左键、右键简单地点击来选择或者提出对应物体,物体就会立即被分割出来,可以绘制成Mask图,直接发送至上节的Inpainting模式中使用。

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

处理流程

  本地部署

Stable Diffusion Web UI 是一个基于 Stable Diffusion 的基础应用,利用 gradio 模块搭建出交互程序,可以在低代码 GUI 中立即访问 Stable Diffusion,我们在本地部署了Stable Diffusion Web UI ,本地机器显卡配置为RTX3060 12GB。Stable Diffusion Web UI为保持代码整洁和便于管理,逐步将非核心功能解耦并转为插件和拓展脚本形式提供,我们可以根据需要从对应的GitHub仓库中下载插件,并放到Web UI 路径下的extensions文件夹下,启动时Web UI会从中自动加载插件。

Stable Diffusion Web UI 地址:https://github.com/AUTOMATIC1111/stable-diffusion-webui

  LoRA训练
  • 训练样本背景去除、大小裁剪

在进行LoRA训练前,对于每一件服饰,我们批量处理了约10张样本图片,去除了背景并统一裁剪为512*512的尺寸。

  • Tag生成

这里,我们使用Tagger插件,Tagger插件可以批量反推样本图片的Tag标签数据,相比于Stable Diffusion图生图中自带的CLIP和DeepBooru插件效果更好。输入样本图片所在的文件夹信息,并在下方填写Additional/Exclude tags选项,即可预设或者屏蔽某些Tag标签的产出。

Tagger 地址:https://github.com/toriato/stable-diffusion-webui-wd14-tagger

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

  • Tag编辑

在tag标签生成后,可以通过Dataset Tag Editor插件,对tag进行编辑。目前插件的tag反推精准度依然有限,时常需要人工介入剔除掉一些不相干或者完全错误的Tag词,以保证训练LoRA模型的精准性和还原性。

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

Dataset Tag Editor 地址:https://github.com/toshiaki1729/stable-diffusion-webui-dataset-tag-editor

  • 本地训练

在完成上述一系列图片、tag标签的预处理后,就正式进入到了LoRA模型的训练阶段,在本机RTX3060 12GB的机器配置下,完成对示例11张样本图片50批次训练的时间成本在30分钟左右。训练完成后,单个LoRA模型的大小在37MB左右。

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

  ControlNet

在以人物为主的生成图中,最常采用的是openpose系列的预处理器,openpose来对人物全身的骨骼姿态进行检测,使得输出图和上传输入图保留一致的人体骨骼形体,增强输入人物的姿态可控。可以在ControlNet插件中预览人体的骨骼姿态,也可以通过调节Control Weight权重参数来控制骨骼姿态对最终出图结果的影响。

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

成果展示

  单件试衣

针对于不同类型的服饰采集了训练样本,进行了LoRA的训练,服饰类型包括衬衫、外套、裤子、鞋子等,查看了单一LoRA与模特、虚拟人结合出图的效果。结果发现普通上衣下衣类别的服饰准确率比较高,可以基本还原服饰的颜色、纹理等特征,上身效果也不错。

  • T恤

输入

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

输出

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

  • 外套

输入

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

输出

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

  • 夹克

输入

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

输出

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

  • 衬衫

输入

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

输出

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

  • 长裙

输入

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

输出

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC


输入

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

输出

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

  季节试衣

在对单一服饰的LoRA训练出图后,我们又对于不同季节的服饰套装进行了风格训练,选取了春秋季、夏季、冬季三个季节的服饰穿搭套装进行了LoRA训练。从产出的图片效果来看,服饰套装的上身效率很不错,搭配比较合理,与季节的关联度比较高。

  • 春秋季

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

  • 夏季

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

  • 冬季

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

总结

我们基于在本地环境搭建的Stable Diffusion,对服饰进行了LoRA小模型微调,学习到服饰自身的特征信息,利用ControlNet插件提升了出图的可靠性与稳定性,初步完成了AIGC的服饰穿搭DEMO实践。从单件服饰的生成穿搭来看,普通类的上下衣主服饰还原度比较高。季节类的套装和人物模特合图效果尚可,上身效果也比较不错。

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

参考文献

  1. CP-VTON+: Clothing Shape and Texture Preserving Image-Based Virtual Try-On(地址:https://minar09.github.io/cpvtonplus/cvprw20_cpvtonplus.pdf)

  2. Segment Anything(地址:https://segment-anything.com/)

  3. continue-revolution/sd-webui-segment-anything(地址:https://github.com/continue-revolution/sd-webui-segment-anything)

  4. toshiaki1729/stable-diffusion-webui-dataset-tag-editor(地址:https://github.com/toshiaki1729/stable-diffusion-webui-dataset-tag-editor)

  5. 零基础读懂Stable Diffusion(I):怎么组成(地址:https://zhuanlan.zhihu.com/p/597247221)

  6. Stable Diffusion 常用术语(地址:https://www.bilibili.com/read/cv24001275/?from=search)

基于Stable Diffusion的AIGC服饰穿搭实践,stable diffusion,AIGC

团队介绍

我们是大淘宝技术-手猫技术-营销&导购团队,我作为一支专注于手机天猫创新的商业化及导购场景探索的团队,我们团队紧密依托淘天集团强大的互联网背景,致力于为手机天猫带来更高效、更具创新性的技术支持和商业化的导购场景。我们的团队成员来自不同的技术领域和营销导购领域,拥有丰富的技术经验和营销经验。我们不断探索并实践新的技术,创新商业化的导购场景,并将这些创新技术应用于手机天猫业务中,提高了用户体验和平台运营效率。作为一支技术创新和商业化的团队,我们致力于为手机天猫带来更广阔的商业化空间和更高效的技术支持,赢得了用户和客户的高度评价和认可。我们团队一直秉承“技术领先、用户至上”的理念,不断探索创新、提升技术水平,为手机天猫的导购场景和商业化发展做出重要贡献。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法文章来源地址https://www.toymoban.com/news/detail-692374.html

到了这里,关于基于Stable Diffusion的AIGC服饰穿搭实践的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AIGC-stable-diffusion系列1- stable-diffusion-webui

    repo参考地址:https://github.com/AUTOMATIC1111/stable-diffusion-webui python下载地址:https://www.python.org/downloads/release/python-3106/ git下载地址:https://git-scm.com/download/win https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki 1 2 运行后会根据系统的默认python环境,创建虚拟环境 浏览器打开以下网址

    2024年02月16日
    浏览(52)
  • 【AIGC】 快速体验Stable Diffusion

    stable Diffusion是一款高性能的AI绘画生成工具,相比之前的AI绘画工具,它生成的图像质量更高、运行速度更快,是AI图像生成领域的里程碑。 推荐阅读:Stable diffusion干货-运作机制 纵观全网,目前找到的最简单的安装方法: 三分钟完成Stable Diffusion本地安装 安装好后,打开

    2024年02月12日
    浏览(51)
  • (二)AIGC—Stable Diffusion(2)

    越往后,加的噪声越多,逐渐递增 正常的话,类似RNN,前向传递,不利于模型训练。 如果直接从x0到xt最好,DPPM这篇论文就实现了这一目标 beta这一参数在扩散过程是已知的,前期设计好,从0.0001-0.002,线性衰减,,或者其他衰减,因此,beta1…beta_n肯定是已知的。 前向加噪

    2024年02月09日
    浏览(49)
  • 【AIGC】Stable Diffusion安装包

    Stable Diffusion 的安装教程通常分为以下几个步骤: 一、安装 Python: 确保您的系统中已经安装了 Python,并且版本符合 Stable Diffusion 的要求。通常情况下,Python 版本应为 3.6 或更高版本。您可以从 Python 官方网站下载并安装 Python:https://www.python.org/downloads/ 安装 PyTorch: Stable D

    2024年02月20日
    浏览(46)
  • AIGC stable diffusion学习笔记

    目录 项目跑通了 原理和知识 训练自己的数据图片: 安装依赖库:

    2024年02月04日
    浏览(42)
  • AIGC Stable Diffusion prompt

     【基于Stable Diffusion生成国风人物图片】   prompt: negative prompt: 模型:3Guofeng3_v33.safetensors [4078eb4174] 参数设置: 生成图片:

    2024年02月11日
    浏览(38)
  • AIGC:文生图模型Stable Diffusion

    Stable Diffusion 是由CompVis、Stability AI和LAION共同开发的一个文本转图像模型,它通过LAION-5B子集大量的 512x512 图文模型进行训练,我们只要简单的输入一段文本,Stable Diffusion 就可以迅速将其转换为图像,同样我们也可以置入图片或视频,配合文本对其进行处理。 Stable Diffusion的

    2024年02月15日
    浏览(42)
  • 【AIGC】Stable Diffusion的模型微调

    为什么要做模型微调 模型微调可以在现有模型的基础上,让AI懂得如何更精确生成/生成特定的风格、概念、角色、姿势、对象。Stable Diffusion 模型的微调方法通常依赖于您要微调的具体任务和数据。 下面是一个通用的微调过程的概述 : 准备数据集 :准备用于微调的数据集。

    2024年02月19日
    浏览(48)
  • 【精华】AIGC之Stable Diffusion专栏

    【精华】AIGC之Stable Diffusion专栏 Stable-diffusion-webui 小白使用大全+插件和模型推荐2.0 Stable-diffusion-webui 插件拓展及依赖汇总 (1)openpose editor(♥♥♥♥♥) 【AI绘画】使用OpenPose editor打造个性化的人物姿势绘画 GitHub地址 :https://github.com/fkunn1326/openpose-editor GitHub地址 :https:/

    2024年02月11日
    浏览(50)
  • 【AIGC】Stable Diffusion的模型入门

    下载好相关模型文件后,直接放入Stable Diffusion相关目录即可使用,Stable Diffusion 模型就是我们日常所说的大模型,下载后放入**webuimodelsStable-diffusion**目录,界面上就会展示相应的模型选项,如下图所示。作者用夸克网盘分享了「大模型」 链接:https://pan.quark.cn/s/bd3491e5199

    2024年02月20日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包