让Ai帮你工作(4)--锁定图片生成角色

这篇具有很好参考价值的文章主要介绍了让Ai帮你工作(4)--锁定图片生成角色。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

背景:

Gpt4多模态模型上来后,MJ也是紧接着发布了V5,微软发布自己Ai作图工具,Abode、unity这些传统老牌作图软件工具也是紧跟着发布自己的AI作图插件工具。这已经标志着Ai作图已经成为计算成像的另一条生成链。

各大厂都已经发布了这么多的工具,开箱即用。我们是否还需要学习Ai作图code层面东西?我个人的回答是必须要,确实是对于一般用户或者艺术家,只要利用工具做内容生成和创造就行,做好美的裁判和艺术的架构。但是对于想在这个行业深入发展的非艺术家和玩玩就可以的从业者,了解了底层模型原理,知道如何训练自己风格和要求的模型来为自己服务是必须的。至少有以下几大好处:

1.有自己的风格和素材积累

2.模型是自己的,想怎么用就怎么用,想怎么改就怎么改

3.可以提炼自己的生产工艺,做出自己特色

4.否则你不过是大厂模型迭代的免费标注员或者燃料而已

上面部分纯粹是自己一些想法,各位看官看看久罢。切入正题,几天前有个读者说是用想实现角色锁定,然后利用大模型的强大表征力生产不同场景和风格的图;他试了dreambooth产出图效果很差,让我帮他看看能不能训一个可用网络。这篇文章会结合这个案例来对角色锁定神器dreambooth做介绍。

技术点介绍:

角色锁定思路:

1.用需要锁定的图来调校图embbeding,调校后的embedding更好的表达要锁定的类:texual inverse

2.训练时候,在图表示的高纬空间,让每个物体元素embeding更好的解耦,这样每个embbding在高维空间就能够尽可能表示单一物体(ID),用的时候就可以锁定物体,修改背景:instructpix2pix

3.训练时候,用身份ID(特殊文字字符)和图的embedding空间anchor(为了学的更好,可以利用这类物体共享参数,相当于先锁定大类的emebbding,特殊个体在学习,锁定细节),同步会对网络参数修改;这个方法和2的区别在于2是对人类修改过程建模,这个方法是对图、文分布做调整:dreambootn

让Ai帮你工作(4)--锁定图片生成角色

通常3-5张图像(要保证效果5-10张更好),和相应的类名(例如“狗”)作为输入,返回一个经过微调/“个性化”的文本到图像模型,该模型编码一个唯一的标识符,指代特定的主题(例如,特定的狗)。然后,在推理阶段,我们可以在不同的句子中插入唯一标识符(上图是[V]),以合成不同背景下的主题。

让Ai帮你工作(4)--锁定图片生成角色

给定一组约3-5张主题图片,我们可以通过以下两个步骤对文本到图像扩散模型进行微调:

(a) 使用包含唯一标识符和主题类别名称的文本提示(例如,“一张[T]狗的照片”)与输入图像配对来微调低分辨率的文本到图像模型,同时并行应用类别特定的先验保持损失,利用模型对类别的语义先验,通过将类别名称注入文本提示来鼓励模型生成属于该主题类别的多样化实例(例如,“一张狗的照片”)。

(b) 使用从输入图像集中获取的低分辨率和高分辨率图像对来微调超分辨率组件,从而使我们能够保持对主题小细节的高保真度。通过微调模型,能够在不同环境下生成不同的图像,保留了主题细节并展现出场景与主题之间的真实互动。

对应两部分loss,在代码体现:

if args.with_prior_preservation:
    # Chunk the noise and noise_pred into two parts and compute the loss on each part separately.
    noise_pred, noise_pred_prior = torch.chunk(noise_pred, 2, dim=0)
    noise, noise_prior = torch.chunk(noise, 2, dim=0)

    # Compute instance loss
    loss = F.mse_loss(noise_pred.float(), noise.float(), reduction="none").mean([1, 2, 3]).mean()

    # Compute prior loss
    prior_loss = F.mse_loss(noise_pred_prior.float(), noise_prior.float(), reduction="mean")

    # Add the prior loss to the instance loss.
    loss = loss + args.prior_loss_weight * prior_loss
else:
    loss = F.mse_loss(noise_pred.float(), noise.float(), reduction="mean")

accelerator.backward(loss)

实操:

1.下载代码

git clone https://github.com/CrazyBoyM/dreambooth-for-diffusion.git
让Ai帮你工作(4)--锁定图片生成角色

下载完文件夹如上

2.把图片下载放到 项目datasets下的test文件夹,执行以下代码做尺寸放缩

python tools/handle_images.py ./datasets/test ./datasets/test2 --width=512 --height=512
让Ai帮你工作(4)--锁定图片生成角色

需要训练数据放标蓝的文件夹

3.对裁剪放缩好的图片打标

python tools/label_images.py  --path=./datasets/test2 
让Ai帮你工作(4)--锁定图片生成角色

txt文件就模型是对每张图自动打的标签,右边文件显示英文就是打的标签样子

4.开始训练

a.如果需要训练特定人、事物: (推荐准备5-10张风格统一、特定对象的图片)

sh train_object.sh
让Ai帮你工作(4)--锁定图片生成角色

5.Lora实现

现在每个锁定角色就要一个模型,很浪费资源,后面文章会详细介绍如何用lora(几十M)增量学习,用更小的存储实现一样效果

小结:

1.介绍了角色锁定的三种思路

2.介绍了dreambooth为何能够通过特殊符号实现角色锁定、细节锁定

3.给了一个github,4步操作就可以实现自己的dreambooth模型

4.这个github属于几个月前项目,diffuser已经把dreambooth项目封装进库,后面在介绍lora时候会用diffuser更精简干净带大家实现dreambooth角色锁定文章来源地址https://www.toymoban.com/news/detail-488221.html

到了这里,关于让Ai帮你工作(4)--锁定图片生成角色的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI作画升级!一键帮你用Stable Diffusion 生成无限缩放效果视频

    在这一篇文章中,我们介绍了利用OpenVINO™优化和加速Stable Diffusion模型的推理,在英特尔®独立显卡上能够根据我们输入的指令(prompt),快速生成我们喜爱的AI画作。今天,我们对这一应用场景再次升级,除了能够作画,利用OpenVINO对Stable Diffusion v2模型的支持及优化,我们还

    2024年02月10日
    浏览(53)
  • 多模态逆天图片生成,OpenAI又一力作:DALL·E 2

    还记得2021年刷爆AI圈的DALL·E,它是基于文本token来生成超现实主义的图像,比如下面的 牛油果形状的椅子 。 最近,OpenAI基于其1.0版本进行了升级,发布了DALL·E 2。该版本除了可以像1.0版本一样,从自然语言的描述中创建逼真的图像和艺术,还可以: 对现有生成的图片进行

    2024年02月09日
    浏览(44)
  • 首个中文Stable Diffusion模型开源,玩转“中文-图片”的跨模态生成任务

    前言: 文本描述图片生成模型stable diffusion models大火的第4个月,首个中文stable diffusion models正式开源!基于0.2亿筛选过的中文图文对训练,能够轻松实现“中文-图片”的跨模态生成,感兴趣的小伙伴快来一起玩一玩吧! 目录 模型信息 震撼效果 体验地址 使用方法

    2023年04月17日
    浏览(38)
  • Crypko.ai:动漫角色生成和设计平台

    【产品介绍】   Crypko.ai是一个基于GAN(生成对抗网络)的高质量动漫角色生成和设计平台,可以让用户通过简单的操作,创造出各种风格和特征的动漫角色,并且可以对角色的头发、脸部、衣服、风格等进行编辑和调整。   Crypko.ai的上线时间是2018年3月。   Crypko.ai还利用

    2024年02月05日
    浏览(46)
  • 一句话生成 3D 人脸资产|ChatAvatar 角色生成 AI 登陆 Cocos

    近几个月以来,AIGC 一路高歌猛进,让我们见证了一场行业革命。 然而 AIGC 在 3D 资产领域却仍是业内的难题,少有突破。 小编今天给大家推荐一个 3D 角色 AIGC 利器 ChatAvatar 。它可以算是 3D AIGC 领域的一匹黑马,走在了领域的前沿。 ChatAvatar 团队为 Cocos Creator 制作了专门的插

    2024年02月03日
    浏览(43)
  • 角色生成器(人工智能伴侣)Character.ai

    网站类型 人工智能、深度学习、聊天机器人 语言 英语、西班牙语、法语、意大利语、欧洲葡萄牙语、巴西葡萄牙语、德语、土耳其语、俄语、 中文(简体) 、日语、韩语、印度尼西亚语 成立 2022年9月16日 创始人 诺姆·沙泽尔 和 丹尼尔·德·弗雷塔斯 网址 https://character.a

    2024年02月12日
    浏览(43)
  • 调用百度文心AI作画API实现中文-图像跨模态生成

    乔冠华,女,西安工程大学电子信息学院,2020级硕士研究生,张宏伟人工智能课题组。 研究方向:机器视觉与人工智能。 电子邮件:1078914066@qq.com 文心ERNIE-ViLG,一款适合中文的跨模态AI绘画大模型。 论文地址:https://arxiv.org/pdf/2112.15283.pdf 体验连接:https://wenxin.baidu.com/ern

    2024年02月03日
    浏览(43)
  • AI实战营:生成模型+底层视觉+AIGC多模态 算法库MMagic

    目录  环境安装 黑白照片上色 文生图-Stable Diffusion  文生图-Dreambooth 图生图-ControlNet-Canny 图生图-ControlNet-Pose 图生图-ControlNet Animation 训练自己的ControlNet           下载样例图    样例效果: 测试结果:  测试效果: 在数据集上训练Dreambooth, 数据集下载链接 用训练好的模型

    2024年02月11日
    浏览(34)
  • 智能代码:生成式 AI 在软件开发中的革命性角色

    想象一下,在智能手机革命性地改变了我们的生活之后,现在轮到了生成式 AI 在软件开发领域掀起风暴。你知道吗,如果代码能自己编写自己,这将是多么惊人的一步?这就好比我们现在能轻松地用手机应用管理日常生活一样,生成式 AI 使软件开发变得前所未有的便捷。想

    2024年02月21日
    浏览(48)
  • 高效工作法:占位图片生成工具助力项目快速迭代

    在现代设计和开发项目中,图片资源的重要性不言而喻。然而,项目中经常会遇到寻找合适图片、调整图片尺寸和格式等问题,这些问题不仅耗时耗力,还可能影响到项目的进度和质量。此时,占位图片生成工具应运而生,它为我们的项目带来了诸多好处,解决了诸多难题。

    2024年01月15日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包