最强的AI视频去码&图片修复模型:CodeFormer

这篇具有很好参考价值的文章主要介绍了最强的AI视频去码&图片修复模型:CodeFormer。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 CodeFormer介绍

1.1 CodeFormer解决的问题

CodeFormer是由南洋理工大学-商汤科技联合研究中心S-Lab在NeurIPS 2022上提出的一种基于VQGAN+Transformer的人脸复原模型。该方法基于预训练VQGAN离散码本空间,改变复原任务的固有范式,将人脸复原任务转成Code序列的预测任务,大幅度降低了复原任务映射的不确定性,同时VQGAN的码本先验也为复原任务提供了丰富的人脸细节。最后,通过Transformer全局建模,进一步增加了模型对严重退化的鲁棒性,使得复原的人脸更加真实。

  • 论文地址:https://arxiv.org/pdf/2206.11253.pdf
  • 代码地址:https://github.com/sczhou/CodeFormer

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

主要用途:

  • 老照片修复与增强
  • 面部修复
  • 面部颜色增强和修复
  • 马赛克还原

 1.2 人脸复原的挑战

人脸复原任务面临的诸多挑战:

图片复原任务中的共性问题:高度不适定性。

低清图像(LQ)和潜在的高清图像(HQ)存在多对多的映射关系,如下图所示。这种多解的映射使得网络在学习过程中产生疑惑,无法获得一个高质量的输出,且退化越严重,这种不适应性就会越大。“如何才能降低这种映射的不确定性”是其挑战之一。

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

纹理细节丢失

从上图可以看出,真实场景的低清人脸图片中往往会引入各种退化,包括噪声、JPEG压缩伪影、模糊、下采样等。这些退化不同程度地损害了原有人脸纹理细节,造成信息丢失。“如何更好地补充真实高清纹理”也一直是人脸复原的一大难题。

人脸身份丢失

以上两点都会导致人脸复原的结果很难保持身份的一致性。然而现实应用中又往往对输出人脸的身份一致性有着很高的要求,在输出高清人脸细节的同时,又要与低清人脸的身份保持一致,这无疑增加了复原过程的难度。

1.3 方法动机

我们首先引入了VQGAN的离散码本空间来缓解以上 (1)、(2) 两个问题。有限且离散的映射空间大大降低了复原任务映射的不适定性 (1)。通过VQGAN的自重建训练,码本先验保存了丰富的高清人脸纹理信息,帮助复原任务补充真实的人脸纹理细节 (2)。

如下图所示,相比连续先验空间 (d、e),离散码本空间 (f、g) 可以输出更高质量的结果 (没有伪影),保持完好脸庞轮廓的同时,也展现出更真实、细致的纹理。

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

如何更准确地得到Code序列呢?我们对比分析了两种不同Code序列的查找方式:最近邻特征查找 (f) 和基于Transformer预测 (g),我们发现基于Transformer预测 (g)会得到更准确的Code序列,即生成更高质量的人脸图像且保持更好的身份一致性,如上图所示。

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

我们进一步发现,基于VQGAN最近邻特征查找的Code序列查询方式并不适用于低清图像。通过对高清 (HQ) 和低清 (LQ) 特征进行聚类可视化,我们分析了原因,如上图所示。

由于VQGAN的码本通过存储HQ的Code来重建高清人脸图,HQ特征分布在准确的Code簇附近,因此HQ特征可以通过最近邻来进行Code查找。然而,LQ特征丢失了大量的纹理信息,导致其分布到错误的Code簇中 (即便Finetune过Encoder)。

由此得出,最近邻Code查找对于LQ特征并不是最优的解决方案,我们通过Transformer进行全局人脸建模,缓解了局部特征最近邻查找带来的不准确性,从而找到更准确的Code序列,使得模型对严重细节损失更为鲁棒,复原的人脸图片也更加自然。

虽然Transformer可以缓解身份不一致的问题 (3),但由于VQGAN的码本空间并不能100%完美地重建出任意人脸,比如个人特有面部特征或首饰,因此引入可调节特征融合模块来控制对输入LQ人脸的依赖。

当输入LQ图像退化轻微时,LQ特征很好地保留了个人的身份信息,因此该模块倾向于融合更多的输入信息,使得模型输出和输入图保持身份一致;当输入LQ图像退化严重时,LQ特征中个人的身份信息已经严重损坏且包含了大量的退化噪声,无法对输出身份一致性提供太大的帮助,因此该模块倾向于融合较少的输入信息,从而降低退化对输出质量的影响。

1.4 模型实现

了解本文动机后,这里简单介绍一下本文方法,实现细节请查看原文和代码。

该方法分为3个训练过程:

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

Stage I:Codebook Learning

首先通过高清人脸自我重建学习,训练VQGAN,从而得到HQ码本空间作为本文的离散人脸先验。为了降低LQ-HQ映射之间的不确定性,我们设计尽量小的码本空间和尽量短的Code序列作为人脸的离散表达。因此,我们采用了大的压缩比 (32倍),即将原来的人脸图片压缩为的离散Code序列。该设计使得码本中Code具有更丰富的上下文信息,有助于提升网络表达能力以及鲁棒性。

Stage II:Codebook Lookup Transformer Learning

基于得到的码本空间,我们在原来Encoder后又嵌入一个Transformer模块对特征全局建模,以达成更好的Code序列预测。该阶段固定Decoder和Codebook,只需学习Transformer模块并微调Encoder。将原本的复原任务转变为离散Code序列预测任务,改变了复原任务的固有范式,这也是本文的主要贡献之一。

Stage III:Controllable Feature Transformation

尽管Stage II已经实现非常好的人脸复原,我们还希望在人脸复原的质量和保真方面达成更灵活的权衡。因此,该阶段引入可控特征融合模块 (CFT) 来控制Encoder特征和Decode特征 的融合,即:

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

从而达到:当调小,模型输出质量更高;当调大,模型输出能保持更好的身份一致性。如下图示例,随着 变大,输出人脸身份越来越像输入图,个人特征 (如眉中痔) 也逐渐恢复。

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

1.5 实验结果 

CodeFormer在人脸复原、人脸颜色增强以及人脸补全三个任务上均表现出了优势,此处只展示输出结果,和其他方法的对比和消融实验请查看原文。

  • 人脸复原

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

  • 人脸补全

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

  • 人脸颜色增强

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

  • AI生成人脸校正

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

  • 老照片修复

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

2 CodeFormer部署与运行

2.1 conda环境安装

conda环境准备详见:annoconda

2.2 运行环境构建

git clone https://github.com/sczhou/CodeFormer
cd CodeFormer

conda create -n codeformer python=3.9
conda activate codeformer

pip install -r requirements.txt 
python basicsr/setup.py develop

conda install ffmpeg
pip install ffmpy

2.3 模型下载

python scripts/download_pretrained_models.py facelib

python scripts/download_pretrained_models.py CodeFormer

parsing_parsenet 下载模型存储到weights/facelib/目录下

codeformer_colorization下载模型存储到weights/CodeFormer/目录下

codeformer_inpainting下载模型存储到weights/CodeFormer/目录下

RealESRGAN_x2plus下载模型存储到weights/realesrgan/目录下

 2.4 运行

2.4.1 人脸复原

python inference_codeformer.py -w 0.5 --has_aligned --input_path inputs/cropped_faces/0143.png

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

2.4.2 全图片增强

python inference_codeformer.py -w 0.7 --input_path inputs/whole_imgs/03.jpg 

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

2.4.3 人脸颜色增强

python inference_colorization.py --input_path inputs/cropped_faces/0368.png

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

2.4.4 人脸补全

python inference_inpainting.py --input_path inputs/masked_faces/00105.png

最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能最强的AI视频去码&图片修复模型:CodeFormer,AI数字人技术,人工智能

2.4.5 视频增强

python inference_codeformer.py --bg_upsampler realesrgan --face_upsample -w 1.0 --input_path inputs/test.mp4

3 安装问题定位与解决

3.1 安装错误描述

安装依赖过程中出现如下错误:

ERROR: HTTP error 404 while getting https://pypi.doubanio.com/packages/66/9a/b6d21ad7d69ce6f78d57bf4cb6382c2121811deeb128c57da22b042fe147/tb_nightly-2.15.0a20230902-py3-none-any.whl#sha256=11ed86269422f5fe48208c732956ac5633b9b76eed5bfed587a0621ce39275b1 (from https://pypi.doubanio.com/simple/tb-nightly/) (requires-python:>=3.9)
ERROR: Could not install requirement tb-nightly from https://pypi.doubanio.com/packages/66/9a/b6d21ad7d69ce6f78d57bf4cb6382c2121811deeb128c57da22b042fe147/tb_nightly-2.15.0a20230902-py3-none-any.whl#sha256=11ed86269422f5fe48208c732956ac5633b9b76eed5bfed587a0621ce39275b1 (from -r requirements.txt (line 11)) because of HTTP error 404 Client Error: Not Found for url: https://mirrors.cloud.tencent.com/pypi/packages/66/9a/b6d21ad7d69ce6f78d57bf4cb6382c2121811deeb128c57da22b042fe147/tb_nightly-2.15.0a20230902-py3-none-any.whl for URL https://pypi.doubanio.com/packages/66/9a/b6d21ad7d69ce6f78d57bf4cb6382c2121811deeb128c57da22b042fe147/tb_nightly-2.15.0a20230902-py3-none-any.whl#sha256=11ed86269422f5fe48208c732956ac5633b9b76eed5bfed587a0621ce39275b1 (from https://pypi.doubanio.com/simple/tb-nightly/) (requires-python:>=3.9)

3.2 问题分析

从错误信息可知,doubanio源中没有tb-nightly这个包

3.3 问题解决

指定aliyun镜像安装tb_nightly文章来源地址https://www.toymoban.com/news/detail-699523.html

pip install tb_nightly==2.15.0a20230902 -i https://mirrors.aliyun.com/pypi/simple

到了这里,关于最强的AI视频去码&图片修复模型:CodeFormer的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI日报:最强大模型Llama 3发布;Midjourney推社交新功能Room;超强AI视频自动剪辑工具Captions;手机上可以玩大模型了

    新鲜AI产品 点击了解 :https://top.aibase.com/ 1、最强大模型Llama3 正式发布 已达GPT4 级别 Llama3是Meta公司最新发布的开源模型,拥有80亿和700亿参数规模,预计7月正式发布。该模型具备多模态能力,集成了新的计算机编码功能,将被应用于Meta智能眼镜等设备。与前代Llama2相比,在

    2024年04月27日
    浏览(49)
  • 最强视频无损放大工具 HitPaw Video Enhancer 视频修复增强工具和Topaz Video Al对比

    最强视频无损放大工具 HitPaw Video Enhancer 视频修复增强工具 由 心语家园(https://www.xinyucn.cc/)独家或原创发布,你可通过右上角“私信本站”联系我们。 如果你网上搜索视频无损放大工具,找到的一定是Topaz Video Al。但是我要推荐的还是HitPaw Video Enhancer,为何,因为Topaz Vi

    2024年02月05日
    浏览(83)
  • 一键快速还原修复人脸,CodeFormer 助力人脸图像修复

    今天在查资料的时候无意间看到了一个很有意思的工具,就是CodeFormer ,作者给出来的说明是用于人脸修复任务的,觉得很有意思就拿来实践了一下,这里记录分享一下。 首先对人脸修复任务进行简单的回顾总结: 人脸修复是指对损坏、有缺陷或者遮挡的人脸图像进行恢复、

    2024年02月10日
    浏览(24)
  • AI数字人:让图片变高清的图像超分辨率模型 Real-ESRGAN

    Real-ESRGAN全名为 Enhanced Super-Resolution GAN: 增强的超分辨率的对抗生成网络,是由腾讯ARC实验室发布的一个盲图像超分辨率模型,它的目标是开发出实用的图像/视频修复算法,Real-ESRGAN 是在 ESRGAN 的基础上使用纯合成数据来进行训练的,基本上就是通过模拟高分辨率图像变低分

    2024年02月06日
    浏览(39)
  • 3款最强的AI视频生成器,支持文生视频、图生视频

    当我们深入人工智能世界及其对视频创作的变革性影响时,发现人工智能视频生成器的强大功能。人工智能视频生成器正在彻底改变我们创建内容的方式,让我们比以往更轻松地以最少的努力制作高质量的视频。无论您是内容创作者、营销人员,还是只是一名人工智能爱好者

    2024年02月10日
    浏览(38)
  • 百度最强中文AI作画大模型

    最近文生图领域的发展可谓是分生水起,这主要是得益于最近大火的扩散模型,之前笔者也写过一篇关于文本生产3D模型的文章,大家感兴趣的可以穿梭: https://zhuanlan.zhihu.com/p/570332906 今天要给大家介绍的这一篇paper是百度最新的文生图佳作:ERNIE-ViLG 2.0,其在diffusion的model基

    2024年02月15日
    浏览(21)
  • SadTalker AI模型使用一张图片与一段音频便可以自动生成视频

    SadTalker模型是一个使用图片与音频文件自动合成人物说话动画的开源模型,我们自己给模型一张图片以及一段音频文件,模型会根据音频文件把传递的图片进行人脸的相应动作,比如张嘴,眨眼,移动头部等动作。 SadTalker,它从音频中生成 3DMM 的 3D 运动系数(头部姿势、表

    2024年02月17日
    浏览(29)
  • 模糊图片变清晰,这款AI图片修复工具,一键轻松修复!

    在日常的工作学习生活中,我们总是避免不了,要去网上找各种素材图。然而有时候找到的图片,并不是那么完美,比如存在清晰度不够等问题。 就算你亲自进行拍摄,也有可能会因为粗心大意,拍了张模糊照片。 造成照片模糊的原因有很多,比如相机抖动、聚焦问题、参

    2024年02月12日
    浏览(38)
  • 目前最强的AI绘画模型——Midjourney v5

    我想,各类不仅是文字工作领域,艺术设计等相关的行业也应当被彻底颠覆了。 官网:https://www.midjourney.com/home/?callbackUrl=%2Fapp%2F 订阅:Purchase a subscription Midjourney是一个独立的研究实验室,探索新的思维媒介,扩大人类的想象力。 Midjourney是一个自筹资金的小团队,专注于设

    2023年04月08日
    浏览(37)
  • [AI Meta Llama-3] 最强开源大模型Llama 3发布!

    最强开源大模型Llama 3发布!我们看下重点: 今天,我们介绍Meta Llama 3,这是我们最先进的开源大型语言模型的下一代。 Llama 3模型很快将在AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake上提供,并得到AMD、AWS、戴尔、英特尔、NVIDIA和高

    2024年04月23日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包