阿里Facechain:3张照片就能生成个人写真,开源版本“妙鸭相机”来了!

这篇具有很好参考价值的文章主要介绍了阿里Facechain:3张照片就能生成个人写真,开源版本“妙鸭相机”来了!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

FaceChain是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低一张照片即可获得独属于自己的个人形象数字替身。FaceChain支持在gradio的界面中使用模型训练和推理能力、支持资深开发者使用python脚本进行训练推理,也支持在sd webui中安装插件使用;FaceChain的模型由ModelScope开源模型社区提供支持。

论文:https://arxiv.org/abs/2308.14256

代码:https://github.com/modelscope/facechain

阿里 推出的图片生成,AIGC,深度学习,论文阅读,数码相机,AIGC,stable diffusion,DALL·E 2

论文阅读

阿里 推出的图片生成,AIGC,深度学习,论文阅读,数码相机,AIGC,stable diffusion,DALL·E 2

一、引言

        近期图像生成技术取得了突飞猛进的发展。这得益于StableDiffusion技术,它使用深度学习算法来生成具有高质量、稳定性的图像和视频。与传统的图像生成技术不同,Stable Diffusion能够在生成图像和视频时保持图像和视频的稳定性,避免出现闪烁和抖动等现象。这种技术通常用于设计、虚拟现实、视频游戏等领域。虽然Stable Diffusion是一种部分条件可控的技术。它的生成过程可以由用户根据特定的prompt进行控制,这种可控性使得Stable Diffusion能够更加灵活地应用于不同的场景。但在指定ID人像生成方面,它往往不尽如人意,无法生成用户指定ID的人像图生成,这很大程度上限制了相应的学术跟应用的发展。

二、方法

框架图如下图所示:

阿里 推出的图片生成,AIGC,深度学习,论文阅读,数码相机,AIGC,stable diffusion,DALL·E 2

        个人写真模型的能力来源于Stable Diffusion模型的文生图功能,输入一段文本或一系列提示词,输出对应的图像。我们考虑影响个人写真生成效果的主要因素:写真风格信息,以及用户人物信息。为此,我们分别使用线下训练的风格LoRA模型和线上训练的人脸LoRA模型以学习上述信息。LoRA是一种具有较少可训练参数的微调模型,在Stable Diffusion中,可以通过对少量输入图像进行文生图训练的方式将输入图像的信息注入到LoRA模型中。因此,个人写真模型的能力分为训练与推断两个阶段,训练阶段生成用于微调Stable Diffusion模型的图像与文本标签数据,得到人脸LoRA模型;推断阶段基于人脸LoRA模型和风格LoRA模型生成个人写真图像。

训练阶段

输入:用户上传的包含清晰人脸区域的图像

输出:人脸LoRA模型

描述:首先,我们分别使用基于朝向判断的图像旋转模型,以及基于人脸检测和关键点模型的人脸精细化旋转方法处理用户上传图像,得到包含正向人脸的图像;接下来,我们使用人体解析模型和人像美肤模型,以获得高质量的人脸训练图像;随后,我们使用人脸属性模型和文本标注模型,结合标签后处理方法,产生训练图像的精细化标签;最后,我们使用上述图像和标签数据微调Stable Diffusion模型得到人脸LoRA模型。

推断阶段

输入:训练阶段用户上传图像,预设的用于生成个人写真的输入提示词

输出:个人写真图像

描述:首先,我们将人脸LoRA模型和风格LoRA模型的权重融合到Stable Diffusion模型中;接下来,我们使用Stable Diffusion模型的文生图功能,基于预设的输入提示词初步生成个人写真图像;随后,我们使用人脸融合模型进一步改善上述写真图像的人脸细节,其中用于融合的模板人脸通过人脸质量评估模型在训练图像中挑选;最后,我们使用人脸识别模型计算生成的写真图像与模板人脸的相似度,以此对写真图像进行排序,并输出排名靠前的个人写真图像作为最终输出结果。

模型列表

附(流程图中模型链接)

[1] 人脸检测+关键点模型DamoFD:魔搭社区

[2] 图像旋转模型:创空间内置模型

[3] 人体解析模型M2FP:魔搭社区

[4] 人像美肤模型ABPN:魔搭社区

[5] 人脸属性模型FairFace:魔搭社区

[6] 文本标注模型Deepbooru:GitHub - KichangKim/DeepDanbooru: AI based multi-label girl image classification system, implemented by using TensorFlow.

[7] 模板脸筛选模型FQA:魔搭社区

[8] 人脸融合模型:魔搭社区

[9] 人脸识别模型RTS:魔搭社区

[10] 人脸说话模型:魔搭社区

三、结果

以下是部分结果展示:

阿里 推出的图片生成,AIGC,深度学习,论文阅读,数码相机,AIGC,stable diffusion,DALL·E 2

阿里 推出的图片生成,AIGC,深度学习,论文阅读,数码相机,AIGC,stable diffusion,DALL·E 2

四、环境准备

兼容性验证

FaceChain是一个组合模型,基于PyTorch机器学习框架,以下是已经验证过的主要环境依赖:

  • python环境: py3.8, py3.10
  • pytorch版本: torch2.0.0, torch2.0.1
  • CUDA版本: 11.7
  • CUDNN版本: 8+
  • 操作系统版本: Ubuntu 20.04, CentOS 7.9
  • GPU型号: Nvidia-A10 24G

五、资源要求

  • GPU: 显存占用约19G
  • 磁盘: 推荐预留50GB以上的存储空间

六、安装指南

支持以下方式,可参考:https://github.com/modelscope/facechain/blob/main/README_ZH.md

  • ModelScope提供的notebook环境
  • docker镜像
  • conda虚拟环境
  • Colab运行
  • stable-diffusion-webui中运行

 文章来源地址https://www.toymoban.com/news/detail-861790.html

到了这里,关于阿里Facechain:3张照片就能生成个人写真,开源版本“妙鸭相机”来了!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 阿里最新EMO:只需要提供一张照片和一段音频,即可生成会说话唱歌的AI视频

    只要一张照片加上音频,就能让你说话唱歌,阿里做到了。 最近,阿里新上线了一款AI图片-音频-视频模型技术EMO,用户只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的AI视频。以及实现无缝对接的动态小视频, 最长时间可达1分30秒左右。 阿里研究团队表

    2024年03月16日
    浏览(50)
  • 保姆级教程 | PAI x EasyPhoto,节日氛围AI写真生成

    活动地址: https://developer.aliyun.com/topic/aigc_pai/newyear 生成式AI技术批量产出真/像/美的个人写真应用非常受欢迎。近期上线的EasyPhoto 作为一款开源的 SD WebUI 插件,提供更灵活、易用的开发方式,受到大量开发者们的关注和好评,用户可通过上传若干张同一人的照片,即可快速

    2024年01月25日
    浏览(45)
  • 堪比Midjourney!上百种风格AI写真丝滑生成,这个开源项目能颠覆照相馆吗?

    概览简介 FaceChain 是一个可以用来打造个人数字形象的深度学习模型工具平台。用户仅需要提供最低一张照片即可获得属于自己的个人形象数字替身。结合不同的风格模型和写真模版,可以生成超乎想象空间的个人写真作品。 更有意思的是,FaceChain 还集成了说话人与虚拟试衣

    2024年02月03日
    浏览(47)
  • 阿里云oss对象存储上传照片并返回照片路径

    安装javaJDk 依赖 jdk1.8(只用一个依赖即可) 使用的是Java 9及以上的版本,则需要添加jaxb相关依赖。 程序:

    2024年02月13日
    浏览(37)
  • java 阿里云上传照片

    获取对象 代码配置类 yml配置 注意这些参数都是事先配置好的(也就是注册阿里云购买过的获取的参数) 代码controller层 代码service层

    2024年02月07日
    浏览(23)
  • 装上这个插件,你就能一键生成接口文档

    当有接口对接需求的时候,开发终于不用再担心 API 文档难写了,也不用再一个个接口文档重新写!安装这个 IDEA 插件,可以一步将文档导入到 Postcat。 这款插件操作简单,容易上手,能够 让开发者省去 API 文档编写的工作,更专注于开发。 插件通过分析用户注释进行接口解

    2023年04月22日
    浏览(43)
  • 几个字就能生成画作,AIGC的时代即将到来

    最近AI绘画、聊天、代码生成可以说是刮起了一阵风,席卷了互联网。各大网站都在疯狂刷屏相关的内容,也收到了各界的热烈的关注。无论是AI绘画还是聊天这类的技术都属于同一个领域:人工智能生成内容(AIGC) 小伙伴可能会疑惑,什么是AIGC? AIGC 即 AI Generated Content,是

    2024年02月02日
    浏览(46)
  • 解放双手!这个插件只要一张表就能生成CRUD代码

    大家好,我是 Java陈序员 。 问君能有几多愁,代码一行又一行! 作为码农,代码是写不完的,而偷懒又是人的天性,能少干一点就少干一点。 今天,给大家介绍一个 IDEA 插件,帮助你快速生成出 CRUD 的代码! 关注微信公众号:【Java陈序员】,获取开源项目分享、AI副业分享

    2024年03月25日
    浏览(33)
  • roop 一张图片就能生成换脸视频的开源项目

    roop的github地址:https://github.com/s0md3v/roop 记住到 2023-6-18 这天 一定要是python3的10版本,11版本会有包不兼容,我就这个问题耗费了一天。 我使用的是:python3.10.9 python 下载地址:https://www.python.org/downloads/ 下载之后无脑安装但有一点,全局变量PATH一定要勾选 下载地址:https://

    2024年02月11日
    浏览(35)
  • 只需5秒视频就能生成3D模型的AI工具——Luma AI

    HI,同学们,我是赤辰,本期是第13篇AI工具类教程,文章底部准备了粉丝福利,看完后可领取! 今天给大家介绍一款用视频生成3D模型内容的AI工具——Luma AI,基于神经渲染技术,只需拍摄照片或者视频,即可生成、上色和渲染出极为逼真的3D产品模型,是3D建模领域的一重大

    2024年02月05日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包