【AIGC-AI人像生成系列-1】PhotoMaker:定制逼真的人体照片

这篇具有很好参考价值的文章主要介绍了【AIGC-AI人像生成系列-1】PhotoMaker:定制逼真的人体照片。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一. 项目概述与贡献

a) 项目概述

b) 主要贡献

二. 方法详解

a) PhotoMaker和ID导向的数据构建管道的概览

 PhotoMaker:

 ID导向的数据构建管道:

b) 方法详细解读

堆叠ID嵌入(Stacked ID Embedding):

2. ID导向的数据构建管道:

3. 训练过程:

4. 推理(Inference):

5. 应用和灵活性:

6. 实验和评估:

三. 重新语境化结果

四. 将艺术品/老照片中的人物带入现实结果

五. 风格化

六. 改变年龄或性别结果

七. 身份混合

八. 比较结果

九. 论文

关注公众号【AI杰克王】


继 FaceChain, Easyphoto等AI人像工作, PhotoMaker横空出世。

PhotoMaker通过少数几张用户ID图像输入,结合提示词,实现个性化、多样化的用户ID图像生成.

一. 项目概述与贡献

a) 项目概述

PhotoMaker可以很好地保留输入图像池中的ID 信息, 并且支持许多有趣的应用程序,例如 (a) 更改属性,(b) 将艺术品或旧照片的人带入现实,或 (c) 身份混合。

aigc生成照,AIGC人像生成系列,计算机视觉,人工智能,深度学习

b) 主要贡献

  1. 提出的PhotoMaker方法是一种高效的个性化文本到图像生成方法,能够生成逼真的人类照片,同时保持高度的个性化和身份(ID)的保真度

  2. 堆叠ID嵌入(Stacked ID Embedding):文章提出了一种新的嵌入技术,通过将多个输入ID图像的编码堆叠在一起,形成一个统一的ID表示,这不仅能够全面捕捉同一ID的多种特征,还能整合不同ID的特征,为后续的图像生成提供支持。

  3. ID导向的数据构建管道:为了训练PhotoMaker,文章提出了一种新的数据构建管道,用于组装训练数据。这个管道能够生成一个以ID为中心的数据集,包含大量具有不同表情、属性和场景的ID图像,从而提高了模型的训练效果。

二. 方法详解

a) PhotoMaker和ID导向的数据构建管道的概览

aigc生成照,AIGC人像生成系列,计算机视觉,人工智能,深度学习

    PhotoMaker

   - 文本编码器(Text Encoder(s))和图像编码器(Image Encoder)分别提取文本嵌入和图像嵌入

   - 通过MLP(多层感知机)层将类别嵌入(例如,男性和女性)与每个图像嵌入进行融合。

   - 将融合后的嵌入沿长度维度连接起来形成堆叠ID嵌入(Stacked ID Embedding)。

   - 将堆叠ID嵌入输入到所有交叉注意力层(cross-attention layers)中,以便在扩散模型中自适应地合并ID内容。

    ID导向的数据构建管道:

   - 图像下载(Image Downloading):根据名人列表从搜索引擎中爬取数据,每个名字下载约100张图片。

   - 人脸检测与过滤(Face Detection & Filtering):使用RetinaNet检测人脸边界框并过滤掉尺寸过小的检测结果。

   - ID验证(ID Verification):对剩余的图片进行ID验证,确保图像中的人脸属于当前的ID组。

   - 裁剪与分割(Cropping & Segmentation):根据检测到的人脸区域裁剪图像,并使用Mask2Former进行全景分割

   - 标题生成与标记(Captioning & Marking):使用BLIP2为裁剪后的图像生成标题,并标记出与当前ID相对应的类别词。

b) 方法详细解读

  1. 堆叠ID嵌入(Stacked ID Embedding):

   - 为了更好地表示和保留输入ID图像的身份信息,作者提出了将多个输入ID图像的编码在语义层面上堆叠起来,形成一个统一的ID表示

   - 这个堆叠的ID嵌入可以被视为待生成ID的统一表示,每个子部分对应一个输入ID图像。

   - 在训练过程中,模型会从同一ID的不同图像中学习,以避免记忆与ID无关的特征,如表情和视角。

2. ID导向的数据构建管道:

   - 为了训练PhotoMaker,作者设计了一个自动化的数据构建管道,用于构建一个以ID为中心的数据集。

   - 这个管道能够收集大量具有不同表情、属性和场景的ID图像,并且为每个图像自动生成描述性标题,以适应训练需求。

3. 训练过程:

   - 在训练过程中,模型会随机选择1-4张与目标ID相同的图像来形成堆叠ID嵌入。

   - 为了提高生成性能,作者还引入了无分类器引导(classifier-free guidance),使用掩蔽扩散损失(masked diffusion loss)和延迟主题条件(delayed subject conditioning)。

4. 推理(Inference):

   - 在推理阶段,PhotoMaker可以接受任意数量的ID图像作为输入,同时保持与其他调优无关方法相当的生成效率。

   - 生成的图像可以在大约10秒内完成,这比DreamBooth方法快约130倍

5. 应用和灵活性:

   - PhotoMaker不仅可以生成具有高ID保真度的图像,还可以在保持高效率的同时,允许用户通过调整提示权重或输入图像池中不同ID图像的比例来控制新生成ID的混合比例。

6. 实验和评估:

   - 作者通过实验验证了PhotoMaker在ID保真度、生成质量、面部多样性和文本一致性方面的表现,并与其他方法进行了比较。

   - 通过用户研究,进一步展示了PhotoMaker在不同应用场景下的优势,如改变人物属性、将艺术作品或旧照片中的人物带入现实,以及进行身份混合等。

三. 重新语境化结果

四. 将艺术品/老照片中的人物带入现实结果

通过将艺术绘画、雕塑或人物的老照片作为输入,PhotoMaker可以将一个人从上个世纪甚至古代带到本世纪,为他们“拍摄”照片。

aigc生成照,AIGC人像生成系列,计算机视觉,人工智能,深度学习

五. 风格化

PhotoMaker 不仅能够生成逼真的人类照片,而且还可以在保留 ID 属性的同时进行风格化。

六. 改变年龄或性别结果

通过简单地替换类别词(例如,男人和女人),可以在保持原始身份的同时实现性别和年龄的变化。

七. 身份混合

如果用户提供不同ID的图像作为输入,PhotoMaker可以很好地整合不同ID的特征,形成一个新的ID。

对于身份混合,可以通过控制输入图像池中身份图像的百分比或通过提示加权的方法来调整合并比率。

首先展示该方法如何通过控制输入图像池中不同 ID 的比例来定制新的 ID。

然后,我们将与特定 ID 相关的图像对应的嵌入乘以一个系数,以控制其融入新 ID 的比例。

八. 比较结果

与其他方法相比,PhotoMaker 可以同时满足高质量和多样化的生成能力、可编辑性、推理效率高和 ID 保真度强。

九. 论文

https://arxiv.org/pdf/2312.04461.pdf


关注公众号【AI杰克王】

1. 回复“资源”,获取AIGC 博客教程,顶级大学PPT知识干货;

2. 回复“星球”,获取AIGC 免费知识星球入口,有前沿资深算法工程师分享讨论。

欢迎加入AI杰克王的免费知识星球,海量干货等着你,一起探讨学习AIGC!aigc生成照,AIGC人像生成系列,计算机视觉,人工智能,深度学习文章来源地址https://www.toymoban.com/news/detail-827418.html

到了这里,关于【AIGC-AI人像生成系列-1】PhotoMaker:定制逼真的人体照片的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • OpenAI发布Sora模型,可根据文字生成逼真AI视频

    早在2022年11月30日,OpenAI第一次发布人工智能聊天机器人ChatGPT,随后在全世界掀起了人工智能狂潮,颠覆了一个又一个行业。在过去的一年多的时间里,chatGPT的强大功能改变了越来越多人的工作和生活方式,成为了世界上用户增长最快的应用程序。 昨天,OpenAI发布了一款新

    2024年02月19日
    浏览(57)
  • DreamTalk:单张图像即可生成逼真人物说话头像动画,助力AI数字人落地

    “ DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models ” DreamTalk是一个基于扩散的音频驱动的富有表现力的说话头生成框架,可以生成不同说话风格的高质量的说话头视频。DreamTalk对各种输入表现出强大的性能,包括歌曲、多语言语音、噪声音频和域外肖像。

    2024年04月15日
    浏览(46)
  • AI文生图:从零到逼真-掌握技巧,让你的AI图像生成更出色 Part I

    根据调查数据,超过90%的用户在使用AI文生图工具时,都期望能够生成高度逼真的图像。 经过深入的测试和验证,我们决定撰写一系列文章,向您展示提示词技巧以及相关的命令参数。通过这些技巧,您将能够轻松地利用AI工具,制作出令人惊叹的逼真图像。 在接下来的五期

    2024年02月22日
    浏览(49)
  • 深度学习实战28-AIGC项目:自动生成定制化的PPT文件

    大家好,我是微学AI,今天给大家介绍一下深度学习实战28-AIGC项目:自动生成定制化的PPT文件,AIGC项目是一个基于自然语言处理技术的创新性项目,旨在利用ChatGPT模型生成定制化的PPT文件。该项目主要应用于商务和教育领域,可以帮助用户快速创建具有专业性和高质量的P

    2024年02月08日
    浏览(47)
  • [AIGC] 如何使用Python绘制逼真的中秋月饼

    在这篇文章中,我们将使用Python中的Turtle库来绘制一个逼真的中秋月饼。为了方便实现,我们可以在Python的图形化界面中运行脚本,如anaconda等。 Turtle库是一个Python模块,用于绘制图形。通过使用Turtle库,可以轻松地创建各种图形,包括基本图形,如线条、圆形和多边形,以

    2024年02月07日
    浏览(33)
  • AIGC for code(AIGC/AI生成代码/生成式AI之代码生成/AI编程工具/自动编程/自动生成代码/智能编程工具/智能编程系统)

    AIGC,Artificial Intelligence Generated Content,人工智能生成内容 AIGC for code,AI生成代码 Copilot是由微软的子公司Github与openAI共同开发的人工智能(AI)驱动的编程助手。它能够直接在你的编辑器中,为你提供代码片段或者整个函数的建议,以帮助你更快地编写和完成代码。这个工具

    2024年02月17日
    浏览(77)
  • AIGC(生成式AI)试用 17 -- 续2,生成式AI是什么

        还是培训资料中的内容,重读一遍。     列举内容,尝试理解的多那么一点点。 1. 生成式AI 生成式AI定义 - Generative AI, GenAI - 一种人工智能技术 - 对已经数据分类、预测 - 生成新的内容,包括文本、图像、音频、视频 - 由大量数据语料库预训练大模型提供动力(基础模

    2024年01月23日
    浏览(43)
  • 【AIGC-图片生成视频系列-4】DreamTuner:单张图像足以进行主题驱动生成

    目录 一. 项目概述 问题: 解决: 二. 方法详解 a) 整体结构 b) 自主题注意力 三. 文本控制的动漫角色驱动图像生成的结果 四. 文本控制的自然图像驱动图像生成的结果 五. 姿势控制角色驱动图像生成的结果 2023年的最后一天,发个文记录下。马上就要迎来新的一年,在这里预

    2024年02月03日
    浏览(54)
  • AIGC(生成式AI)试用 15 -- 小结

        断断续续的尝试在实际的工作使用中理解和测试AIGC,运用会越来越多、越来越广范,但也是时候做个小结了。     没有太用热火的ChatGPT,只是拿了日常最容易用到的CSDN创作助手(每周写文章总是看到)和文心一言(没了谷歌只能百度),毕竟天天工作、生活能用到。

    2024年02月03日
    浏览(46)
  • AIGC(生成式AI)试用 14 -- 画画

        AIGC,内容生成,多多少少都可以达成,好与坏就看你如何引导、如何生成。     画画?本不想让写文本的去生成图片,但忍不住诱惑,小试一把,毕竟文档也是会要个插图的。 CSDN创作助手显然为文字生成而建 文心一言画画也有一定功力,准确率。。。别太多要求就好

    2024年02月04日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包