AIGC内容分享(三十五):AIGC赋能的“秒鸭相机”到底有多强?

这篇具有很好参考价值的文章主要介绍了AIGC内容分享(三十五):AIGC赋能的“秒鸭相机”到底有多强?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

01-FaceChain算法简介

02-FaceChain-FACT算法简介

03-FaceChain算法流程

04-FaceChain-FACT算法流程

05-FaceChain算法应用场景    

06-FaceChain环境搭建与运行

07-FaceChain算法效果展示

08-FaceChain-FACT算法效果展示


01-FaceChain算法简介

AIGC内容分享(三十五):AIGC赋能的“秒鸭相机”到底有多强?,AI(人工智能) 内容分享,AIGC 内容分享,AIGC,数码相机,人工智能

    FaceChain是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低一张照片即可获得独属于自己的个人形象数字替身。它是一个个性化的肖像生成框架,它结合了一系列定制的图像生成模型和一组丰富的人脸相关感知理解模型(如人脸检测、深度人脸嵌入提取和人脸属性识别),以应对上述挑战并生成真实的个性化肖像,其中只有少数人像图像作为输入。

    具体而言,与之前的解决方案(如DreamBooth、InstantBooth或其它仅限LoRA的方法)相比,作者在生成过程中注入了几个SOTA人脸模型,实现了更高效的标签标记、数据处理和模型后处理。FaceChain被设计成一个由可插入组件组成的框架,这些组件可以轻松调整以适应不同的风格和个性化需求。此外,基于FaceChain,作者进一步开发了几个应用程序,以构建一个更广阔的游乐场,更好地展示其价值,包括虚拟试穿和2D会说话的头。

    FaceChain支持在gradio的界面中使用模型训练和推理能力、支持资深开发者使用python脚本进行训练推理,也支持在sd webui中安装插件使用。上图展示了几个FaceChain工具的测试样例生成效果。

02-FaceChain-FACT算法简介

    虽然FaceChain是一款具有面部身份保护功能的个性化肖像生成工具,但是它需要训练用户的LoRA模型,这增加了用户的开发成本。为了解决该问题,作者提出了一种称为FaceChain-FACT的零样本版本,该版本不需要训练Face-LoRA模型。此外,只需要用户的一张照片就可以生成定制的肖像。与SOTA的商业应用相比,该算法的生成速度加快了100倍,达到了二级图像生成速度。作者集成了一个基于变换器的人脸特征提取器,其结构类似于稳定扩散,使稳定扩散能够更好地利用人脸信息;该算法使用密集的细粒度特征作为人脸条件,具有更好的字符再现性;FaceChain FACT与ControlNet和LoRA插件无缝兼容,即插即用。

03-FaceChain算法流程

AIGC内容分享(三十五):AIGC赋能的“秒鸭相机”到底有多强?,AI(人工智能) 内容分享,AIGC 内容分享,AIGC,数码相机,人工智能

    上图展示了FaceChain算法的整体流程,个人写真模型的能力来源于Stable Diffusion模型的文生图功能,输入一段文本或一系列提示词,输出对应的图像。作者考虑影响个人写真生成效果的主要因素:写真风格信息,以及用户人物信息。为此,作者分别使用线下训练的风格LoRA模型和线上训练的人脸LoRA模型以学习上述信息。LoRA是一种具有较少可训练参数的微调模型,在Stable Diffusion中,可以通过对少量输入图像进行文生图训练的方式将输入图像的信息注入到LoRA模型中。因此,个人写真模型的能力分为训练与推断两个阶段,训练阶段生成用于微调Stable Diffusion模型的图像与文本标签数据,得到人脸LoRA模型;推断阶段基于人脸LoRA模型和风格LoRA模型生成个人写真图像。

输入:用户上传的包含清晰人脸区域的图像

输出:人脸LoRA模型

步骤:首先,分别使用基于朝向判断的图像旋转模型,以及基于人脸检测和关键点模型的人脸精细化旋转方法处理用户上传图像,得到包含正向人脸的图像;接着,使用人体解析模型和人像美肤模型,以获得高质量的人脸训练图像;随后,使用人脸属性模型和文本标注模型,结合标签后处理方法,产生训练图像的精细化标签;最后,使用上述图像和标签数据微调Stable Diffusion模型得到人脸LoRA模型。

推理阶段的细节如下所述:

输入:训练阶段用户上传图像,预设的用于生成个人写真的输入提示词

输出:个人写真图像

步骤:首先,将人脸LoRA模型和风格LoRA模型的权重融合到Stable Diffusion模型中;接着,使用Stable Diffusion模型的文生图功能,基于预设的输入提示词初步生成个人写真图像;随后,使用人脸融合模型进一步改善上述写真图像的人脸细节,其中用于融合的模板人脸通过人脸质量评估模型在训练图像中挑选;最后,使用人脸识别模型计算生成的写真图像与模板人脸的相似度,以此对写真图像进行排序,并输出排名靠前的个人写真图像作为最终输出结果。

04-FaceChain-FACT算法流程

AIGC内容分享(三十五):AIGC赋能的“秒鸭相机”到底有多强?,AI(人工智能) 内容分享,AIGC 内容分享,AIGC,数码相机,人工智能

    上图展示了FaceChain-FACT算法的具体流程。详细的步骤如下所述:

首先,使用一系列图像预处理,包括人脸分割、人脸裁剪和对齐、手部检测、人脸质量筛选等,来筛选并获得训练数据集。

然后,利用基于transformer的人脸特征提取器来提取特征,并利用倒数第二层的密集细粒度特征作为人脸条件。

接着,稳定扩散通过FACT适配器接收人脸条件,并将其与文本嵌入相结合,生成人像图像。

最后,通过融合FaceChain的各种LoRA模型,它可以生成各种风格的肖像。

05-FaceChain算法应用场景    

05.01-虚拟试衣

    随着网上购物的快速发展,人们对虚拟试穿的需求激增,虚拟试穿为特定的人和服装提供虚拟试穿体验。根据人或服装信息是否固定在交互体验中,虚拟试穿方法的核心思想可以分为生成服装和人的数字双胞胎。

    作为人脸/以人为中心的身份保护肖像生成的游乐场,FaceChain还支持固定服装和生成人物的虚拟试穿。具体来说,给定要试穿的服装的真实或虚拟模型图像,以及经过训练的人脸LoRA模型,FaceChain可以重新绘制服装外部的区域,包括人物和背景,以获得虚拟试穿结果。

05.02-头像特写

AIGC内容分享(三十五):AIGC赋能的“秒鸭相机”到底有多强?,AI(人工智能) 内容分享,AIGC 内容分享,AIGC,数码相机,人工智能

    为了进一步探索生成的肖像的使用案例,作者想到了让肖像生动起来,具体来说,如上图所示,用户从以前生成的人像库中选择一张人脸图像,然后用户提供一个音频片段,FaceChain将使用它们输出一个讲肖像的视频。为了实现这一点,作者测试了几种会说话的头/脸算法,这些算法可以生成嘴唇与输入音频相对应的人像视频。最后,作者选择sadtake作为我们的谈话头部后端算法,因为wav2lip和视频重新命名只能改变面部的嘴唇,而SadTaker提出的PoseVAE和ExpNet可以分别改变头部姿势和面部表情,其中头部姿势可以从46个嵌入中选择一个,表情系数可以控制,并且还可以控制眨眼频率。

    因为SadTaker的输入和输出分辨率是256或512,如果原始输入图像中的人脸分辨率相对较大,或者用户只是想提高整体分辨率,我们也支持使用GFPGAN作为后处理模块,可以将视频的分辨率提高一倍。至于音频剪辑,我们支持三种选项:1)TTS合成,2)麦克风录制,3)本地文件上传。至于TTS合成,作者使用微软Edge的API,因为它支持多语言混合输入,并支持多种语言合成,这使得FaceChain对世界各地的用户更加友好。

06-FaceChain环境搭建与运行

06.01-环境准备

FaceChain是一个组合模型,基于PyTorch机器学习框架,以下是已经验证过的主要环境依赖:
# 软件配置
python环境: py3.8, py3.10
pytorch版本: torch2.0.0, torch2.0.1
CUDA版本: 11.7
CUDNN版本: 8+
操作系统版本: Ubuntu 20.04, CentOS 7.9
GPU型号: Nvidia-A10 24G
# 硬件配置
GPU: 显存占用约19G
磁盘: 推荐预留50GB以上的存储空间

06.02-Demo执行方案​​​​​​​

方案1--使用ModelScope提供的notebook环境

# Step1: 我的notebook -> PAI-DSW -> GPU环境
# Step2: 进入Notebook cell,执行下述命令从github clone代码:
!GIT_LFS_SKIP_SMUDGE=1 git clone https://github.com/modelscope/facechain.git --depth 1

# Step3: 切换当前工作路径,安装依赖
import os
os.chdir('/mnt/workspace/facechain')    # 注意替换成上述clone后的代码文件夹主路径
print(os.getcwd())

!pip3 install gradio==3.50.2
!pip3 install controlnet_aux==0.0.6
!pip3 install python-slugify
!pip3 install onnxruntime==1.15.1
!pip3 install edge-tts
!pip3 install modelscope==1.10.0

# Step4: 启动服务,点击生成的URL即可访问web页面,上传照片开始训练和预测
!python3 app.py
​​​​​​​
方案2--创建docker镜像

# Step1: 机器资源
您可以使用本地或云端带有GPU资源的运行环境。
如需使用阿里云ECS,可访问:https://www.aliyun.com/product/ecs,推荐使用”镜像市场“中的CentOS 7.9 64位(预装NVIDIA GPU驱动)

# Step2: 将镜像下载到本地 (前提是已经安装了docker engine并启动服务,具体可参考:https://docs.docker.com/engine/install/)
# For China Mainland users:
docker pull registry.cn-hangzhou.aliyuncs.com/modelscope-repo/modelscope:ubuntu20.04-cuda11.8.0-py38-torch2.0.1-tf2.13.0-1.9.4
# For users outside China Mainland:
docker pull registry.us-west-1.aliyuncs.com/modelscope-repo/modelscope:ubuntu20.04-cuda11.8.0-py38-torch2.0.1-tf2.13.0-1.9.4

# Step3: 拉起镜像运行
docker run -it --name facechain -p 7860:7860 --gpus all registry.cn-hangzhou.aliyuncs.com/modelscope-repo/modelscope:ubuntu20.04-cuda11.8.0-py38-torch2.0.1-tf2.13.0-1.9.4 /bin/bash  # 注意 your_xxx_image_id 替换成你的镜像id
# 注意:如果提示无法使用宿主机GPU的错误,可能需要安装nvidia-container-runtime
# 1. 安装nvidia-container-runtime:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
# 2. 重启docker服务:sudo systemctl restart docker

# Step4: 在容器中安装gradio
pip3 install gradio==3.50.2
pip3 install controlnet_aux==0.0.6
pip3 install python-slugify
pip3 install onnxruntime==1.15.1
pip3 install edge-tts
pip3 install modelscope==1.10.0

# Step5: 获取facechain源代码
GIT_LFS_SKIP_SMUDGE=1 git clone https://github.com/modelscope/facechain.git --depth 1
cd facechain
python3 app.py
# Note: FaceChain目前支持单卡GPU,如果您的环境有多卡,请使用如下命令
# CUDA_VISIBLE_DEVICES=0 python3 app.py

# Step6: 点击 "public URL", 形式为 https://xxx.gradio.live
​​​​​​​
方案3--创建Conda虚拟环境

# Step1: 创建并进入虚拟环境
conda create -n facechain python=3.8    # 已验证环境:3.8 和 3.10
conda activate facechain

# Step2: 获取源代码
GIT_LFS_SKIP_SMUDGE=1 git clone https://github.com/modelscope/facechain.git --depth 1
cd facechain

# Step3: 安装三方依赖
pip3 install -r requirements.txt
pip3 install -U openmim 
mim install mmcv-full==1.7.0

# Step4: 执行demo
# 进入facechain文件夹,执行:
python3 app.py
# Note: FaceChain目前支持单卡GPU,如果您的环境有多卡,请使用如下命令
# CUDA_VISIBLE_DEVICES=0 python3 app.py

# 最后点击log中生成的URL即可访问页面。
​​​​​​​
方案4--Colab中执行Demo
https://colab.research.google.com/github/modelscope/facechain/blob/main/f

07-FaceChain算法效果展示

AIGC内容分享(三十五):AIGC赋能的“秒鸭相机”到底有多强?,AI(人工智能) 内容分享,AIGC 内容分享,AIGC,数码相机,人工智能

图7.1-FaceChain算法效果展示1

AIGC内容分享(三十五):AIGC赋能的“秒鸭相机”到底有多强?,AI(人工智能) 内容分享,AIGC 内容分享,AIGC,数码相机,人工智能

图7.2-FaceChain算法效果展示2

08-FaceChain-FACT算法效果展示

AIGC内容分享(三十五):AIGC赋能的“秒鸭相机”到底有多强?,AI(人工智能) 内容分享,AIGC 内容分享,AIGC,数码相机,人工智能

图8.1-FaceChain-FACT算法效果展示1

AIGC内容分享(三十五):AIGC赋能的“秒鸭相机”到底有多强?,AI(人工智能) 内容分享,AIGC 内容分享,AIGC,数码相机,人工智能

图8.2-FaceChain-FACT算法效果展示2

AIGC内容分享(三十五):AIGC赋能的“秒鸭相机”到底有多强?,AI(人工智能) 内容分享,AIGC 内容分享,AIGC,数码相机,人工智能

图8.3-FaceChain-FACT算法效果展示3文章来源地址https://www.toymoban.com/news/detail-797484.html

到了这里,关于AIGC内容分享(三十五):AIGC赋能的“秒鸭相机”到底有多强?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AIGC内容分享(三十三):AIGC“造浪”:创新应用爆发,钉钉为何先行一步?

    目录 前言  AI产业元年带来的变化与重构  AI如何深入产业、解决痛点?  智能时代的超级APP  结语 刚刚过去的2023年,可谓是AI产业发展的关键之年。 在这短短的一年内,AIGC(生成式人工智能,Artificial Intelligence Generated Content)就已经历了三波浪潮:第一波,以GPT为代表的大

    2024年01月21日
    浏览(28)
  • AIGC内容分享(四十五):AIGC绘画 | OutfitAnyone在线试衣&AnimateAnyone你的科目三

    ⚡  AIGC绘画 | outfit anyone 虚拟试衣 animate anyone 图像动画化 本文主要介绍2篇最新研究,outfit anyone 虚拟试衣 和 animate anyone 图像动画化,在在线购物试衣和动画制作上迈出了一小步! An Asian girl, smiling, dancing in central park, wearing long shirt and long jeans. 先选择衣服和模特进行试衣

    2024年01月21日
    浏览(36)
  • AIGC内容分享(三十八):被ChatGPT带飞的AIGC,能为垂直产业做些什么?

    本文从 AIGC 技术 - 产品 - 业务应用和价值实现环节探讨其发展路径,并以产业实例探讨 AIGC 如何才能在产业领域实现闭环和价值落地。 去年以来出现了 AIGC 热潮,引发了 AIGC 及其应用话题的爆发性增长,不少人感慨强人工智能的时代已经离我们不那么遥远了。但是在热潮

    2024年01月21日
    浏览(31)
  • AIGC全流程赋能:从剧本到宣发,影视内容全新呈现

    “猕猴桃”视频平台在今日发布了2023年第二季度财报,首次公布引入AIGC辅助剧本评估。内部数据显示,AIGC帮助提升剧本评估、预算规划等效率超过90%。“猕猴桃”视频平台还通过AIGC技术实现对影视剧的剧情理解,从而改进搜索结果、推荐和用户互动,提升用户体验。打开视

    2024年02月10日
    浏览(23)
  • 架构设计内容分享(一百三十六):Spring AI 项目简介

    目录 1、概览 2、Spring AI 的主要概念 2.1、高级的 Prompt 和 AiResponse 3、Spring AI 入门 4、Spring AI 实践 4.1、在 Spring Boot 中注入 AiClient 4.2、使用 PromptTemplate 配置查询 5、Error 处理 6、总结 Spring 通过 Spring AI 项目正式启用了 AI(人工智能)生成提示功能。本文将带你了解如何在 Spri

    2024年02月22日
    浏览(25)
  • 架构设计内容分享(一百九十五):揭秘微服务容错处理技术

    目录 容错处理 01 超时控制 02 熔断机制 03 重试机制 04 负载均衡与故障转移 05 服务降级 微服务治理涉及多个方面,包括服务注册与发现、负载均衡、容错处理、服务配置管理等,这些技术共同确保微服务架构的稳定运行。 在微服务架构中,容错处理技术是确保系统高可用性

    2024年02月21日
    浏览(32)
  • 数据赋能的未来,看向嵌入式BI

    数据分析能力越来越成为消费者和企业的必备品应用程序,复杂程度各不相同,从简单地一个网页或门户上托管一个可视化或仪表板,到在一个云服务上实现数据探索、建模、报告和可视化创建的应用程序。BI的实现方式越来越多,无论规模大小,在任何以数据为中心的企业

    2024年02月06日
    浏览(20)
  • 区块链赋能的6G零信任车联网可信接入方案

    (一)文章素材摘录于 单位信息 |广东工业大学+北京邮电 郝敏博士团队 数据来源 |电子与信息学报 基金项目 |国家重点研发计划 (二)正文 随着三大运营商 5G 套餐于2019年底的相继上线,宣告我国第五代无线通信网络(5G)正式进入商用阶段。以增强型移动宽带(eMBB)

    2024年01月17日
    浏览(24)
  • 架构设计内容分享(一百三十三):ES+Redis+MySQL高可用,如何试实现?

    目录 背景: ES 高可用方案: ES 双中心主备集群架构 ES 流量隔离三集群架构 ES 集群深度优化提升 会员 Redis 缓存方案: ES 近一秒延时导致的 Redis 缓存数据不一致问题的解决方案 Redis 双中心多集群架构 高可用会员主库方案: MySQL 双中心 Partition 集群方案 会员主库平滑迁移方

    2024年02月22日
    浏览(29)
  • AIGC内容分享(七):AIGC带来的伦理之思

    目录 快速发展的AIGC AIGC技术带来的伦理问题 1. AIGC的著作权归属与责任风险 2. AIGC带来的数据安全与维权问题 3. AIGC带来的潜在文化伦理讨论 4.AIGC带来的行业伦理冲击讨论 AIGC的伦理规范 1.适度使用AI技术工具 2.提高创意门槛 3.弥补技术缺陷完善法律规范 2023年可以说是AIGC生成

    2024年01月23日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包