【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品

这篇具有很好参考价值的文章主要介绍了【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、论文

本文介绍被计算机视觉顶级国际会议ICCV 2023接收的论文 "TransFace: Calibrating Transformer Training for Face Recognition from a Data-Centric Perspective"

论文链接:https://arxiv.org/abs/2308.10133

开源代码:https://anonymous.4open.science/r/ TransFace-294C

二、背景

1. Vision Transformer (ViT)

Vision Transformer (ViT) 已经在计算机视觉社区多项视觉任务上展现出其强大的表征能力和拟合能力。相比于卷积神经网络 Convolutional Neural Networks (CNNs),ViT缺少了归纳偏置,因此很容易过拟合小规模数据集上。在实际的应用中,ViT的训练通常需要大规模的数据集来做支撑,并配合相应的data augmentation技术,才能保证其有效地收敛。

2. 人脸识别

随着深度学习的发展,基于CNNs的人脸识别技术已经取得了巨大的成功。训练基于CNNs人脸识别模型的损失函数主要分为以下两种类型:(1)Metric-based loss functions, e.g., Triplet loss, Tuplet loss and Center loss. (2) Margin-based loss functions, e.g., ArcFace, CosFace, CurricularFace and AdaFace. 相比于Metric-based loss functions, Margin-based loss functions 能够鼓励模型执行更加高效的sample-to-class的比较,因此能够促进人脸识别模型取得更好的识别精度。其中,ArcFace成为业界训练人脸识别模型首选的损失函数。

现存的人脸识别模型几乎都基于CNNs来构建。考虑到ViT在各项视觉任务上都展现出了一流的性能(远超于CNNs的性能),并且人脸识别任务天然拥有着大规模的训练集,因此我们探索了ViT在人脸识别任务上的性能表现。我们意外地发现,ViT的性能跟CNNs的性能几乎不相上下。

本文旨在探索ViT在人脸识别任务上表现不佳的原因,并从data-centric的角度去提升ViT在人脸识别任务上的性能。

三、方法

1. Motivation

1.1 改进方向

我们发现ViT在人脸识别任务上表现不佳的原因是:ViT的预测很容易过拟合到人脸图像某几个patches上 (e.g., eyes, forehead and hair), 而忽略了一些包含重要人脸线索的patches (e.g., nose, mouth, ears and jaw). 在测试场景,一旦人脸上半部分被干扰 (e.g., a superstar wearing sunglasses or hat), ViT就容易做出错误的预测。我们将这个过拟合问题称作为 Patch-level overfitting issue.

1.2 数据增强

现存的有关ViT研究通过采用一些data augmentation技术,(e.g., Mixup, CutMix and Random Erasing),来缓解ViT过拟合问题。但这些Instance-level data augmentation技术并不适用于人脸识别任务,因为它们不可避免地破坏了人脸的结构信息和保真性,如下图所示。因此如何在充分保留人脸关键信息的基础上精准地解决Patch-level overfitting issue是值得深入研究的。

1.3 难样本挖掘

难样本挖掘技术(e.g., Focal loss, MV-Softmax, OHEM and ATk)在提升模型最终的精度中往往起到了重要的作用。现存的大部分难样本挖掘策略都是为CNNs设计的,它们通常采用instance-level indicators of the sample,(e.g., prediction probability, prediction loss and latent features),来挖掘难样本。然而,由于ViT的预测主要由几个patches所决定, 我们可以推断出其用于分类的global token将被几个local tokens所主导。因此,直接利用ViT的global token或者prediction information来挖掘难样本是一个有偏的行为,如下图所示。如何充分利用所有patches information来更精准地挖掘难样本是值得深入思考的。

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

2. Method

2.1 概览

针对上述问题,本文从data-centric角度出发,提出了基于ViT的人脸识别新框架TransFace,如下图所示。

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

2.2 Patch级数据增强

为精准地解决Patch-level overfittting issue, 本文提出了一个Patch-level Data augmentation策略DPAP, 其专为基于ViT的人脸识别框架所设计。

我们将人脸图像【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征送入网络进行前向传播,DPAP首先利用SE Module筛选出对ViT预测影响最大的top-K dominant patches:

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

其次,对这些top-K dominant patches执行Fourier Transform, 并分别提取其幅度谱信息和相位谱信息:

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

为了在不破坏人脸结构信息和保真性的基础上构建多样化的训练样本,我们利用了一个类似于Mixup的机制来线性混合domaint patch与random patch的幅度谱信息:

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

其中,混合强度系数λ从均匀分布中采样 【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征. 然后,我们将混合后的幅度谱信息与原始的相位谱信息重新组合并执行傅里叶逆变换,以此得到重建的new style patch:

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

最后,我们将扩增后的图像【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征正式送入网络中执行有监督训练,并采用ArcFace loss作为基础分类损失:【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

2.3 基于熵的难样本挖掘

信息论已经表明信息熵可以用于衡量图像所包含信息量的丰富度。对于人脸图像来说,高质量的人脸图像(easy sample)通常包含了更丰富的信息(高信息熵),因此更容易被网络学习。而低质量的人脸图像(hard sample),例如一些模糊人脸、低质量人脸等,通常包含较少的有用信息(低信息熵),因此很难被网络所学习。

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

为了更精确地挖掘难样本,受信息熵启发,我们提出根据人脸样本local tokens所包含信息量的多少来衡量样本的困难性。由于在深度神经网络中,each local token都服从一个未知的复杂分布,因此直接计算each local token的信息熵是非常困难的。受Maximum Entropy Principle的启发,我们转而去估计each local token的信息熵的高斯上界:

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

其次,我们利用一个entropy-aware weight mechansim将each local token的信息熵聚合在一起,以此来自适应地为每个样本分配一个重要性权重:

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

最后,我们将这个重要性权重加权至ArcFace loss前面,以此来有效地鼓励模型在优化过程中重点关注信息量较少的困难样本:

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

在训练过程中,最小化【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征将带来两个好处:

(i)最小化【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征将鼓励模型从多样化的训练样本中更好地学习出人脸特征
(ii)最小化重要性权重【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征,相当于最大化local tokens的总体信息【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征,这将促进模型充分挖掘each face patch中所包含的人脸线索(e.g., nose, lip and jaw),并极大地提升each local token的表征能力。在一些极端情况下,即使人脸上半部分特征信息被破坏,模型也能充分利用剩余的人脸线索来做出稳定的预测。

四、实验及结果

1.1 数据集

我们分别采用MS1MV2 (5.8 Mimages, 85K identities)与Glint360K (17M images, 360K identities) 作为我们模型的训练集。并利用LFW, AgeDB-30, CFP-FP和IJB-C来作为benchmarks评估我们模型的识别性能。

1.2 小数据集实验

我们可以观察到,TransFace在这些easy benchmarks上的性能几乎达到了饱和。

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

1.3 大数据集实验

我们可以看到,原始ViT的性能跟ResNet-based ArcFace模型的性能不相上下。我们提出的TransFace极大地提升了ViT的在各项评估指标上性能。此外,相比于原始ViT,TransFace仅引入了较小的计算复杂度,而取得了明显的性能增益。

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

1.4 数据增强对比

相比于以前的data augmentation技术,我们提出的patch-level DPAP策略可以在充分保留人脸结构信息的基础上更精准地解决ViT所面临的Patch-level overfitting issue,因此也获得了更高的性能增益。

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

1.5 难样本挖掘对比

相比于以前专为CNNs所设计的难样本挖掘策略,我们为ViT所设计的EHSM可以更好地衡量样本的困难性并提升模型的识别性能。

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

1.6 难样本挖掘有效性

我们调查了训练过程中local token所包含的平均信息熵的变化趋势,发现当ViT收敛时,ESHM能够明显地提升each local token的信息量,这有效地提升了each local token的表征能力。

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

1.7 DPAP可视化

我们可视化了原始训练样本和DPAP(K=15)所扩增的训练样本。我们可以明显观察到dominant patch主要分布于人脸的hard, forehead and eyes周围,这也充分印证了patch-level overfitting issue的存在。DPAP被提出从dominant patch角度来扩增样本,有效地缓解ViT对dominant patch的过拟合,这也间接地鼓励了ViT充分利用其余人脸线索(e.g., nose, mouth, ears and jaw)来辅助最后的预测,提升了网络的泛化能力。

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,人脸表征

五、结论

本文提出了一种基于ViT的人脸识别新框架。我们并没有为ViT引入任何较大的结构改进,而是从data-centric角度提出了两个学习策略:DPAP和EHSM,这确保了两个策略的通用性和灵活性。一系列在popular face benchmarks上的实验结果表明了我们TransFace模型的优越性。文章来源地址https://www.toymoban.com/news/detail-837583.html

到了这里,关于【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • OpenCV 入门教程:人脸识别和特征提取

    人脸识别是计算机视觉中的热门研究领域,通过对人脸图像或视频进行分析和比对,实现对个体身份的自动识别。人脸特征提取是人脸识别中的重要步骤,它用于从人脸图像中

    2024年02月13日
    浏览(90)
  • 基于局部信息提取的人脸标志检测算法matlab仿真

    目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 人脸检测 4.2 局部区域选择 4.3 特征提取 5.算法完整程序工程 matlab2022a         基于局部信息提取的人脸标志检测算法是计算机视觉和图像处理领域的重要研究方向。该算法旨在从人脸图像中准

    2024年01月19日
    浏览(68)
  • 大数据时代下的精准营销

    在大数据时代,人们的信息越来越透明,留在网络上的各种数据也是企业进行营销的一个重要的生产要素。一直以来,营销的科学性正是因为运用了自然科学中一级互联网中的数据收集手段,严谨的记录、搜集和分析消费者的各项数据和日常生活行为轨迹,数据已经渗透到了

    2024年02月10日
    浏览(43)
  • 火星文:网络时代下的语言

    在互联网时代,网络语言的发展日新月异。火星文作为一种特殊的网络表达方式,近年来逐渐兴起并成为了网络文化的一部分。 火星文生成器 | 一个覆盖广泛主题工具的高效在线平台(amd794.com) https://amd794.com/huoxingwen 火星文的兴起可以追溯到互联网时代的普及,尤其是社交媒

    2024年02月19日
    浏览(30)
  • 十四五双碳双控时代下的“低碳认证”

    目录 前言 十四五双碳双控时代下的“低碳认证” 一、关于“低碳认证” 二、低碳认证优势 三、环境产品认证EPD 四、EPD相关运营机构 五、碳中和相关机构 六、EPD的认证流程 七、低碳产品认证认证流程和要求 八、相关机构认证证书样例 九、证书附件表 通过本篇文章了解,

    2024年02月11日
    浏览(38)
  • AIGC时代多模态渠道

    目录 一、传统GC (一)PGC (二)UGC (三)OGC 二、多模态AIGC (一)文本→文本(论文、代码) (二)文本→图片 (三)文本→3D (四)文本→视频(AIGC下一站) (五)文本→音频 (六)图片—文本 “PGC”则是指专业生产内容(视频网站)、专家生产内容(微博)。经由

    2024年02月08日
    浏览(32)
  • AIGC时代的王者:微软

    从2022年到2023年这不到一年的时间,AI圈经历两大爆火事件:Stable diffusion和chatGPT,正式宣布AIGC时代的到来;在这背后有一家一直被认为科技创新性较弱的公司在默默的努力着,田字牌即微软. chatGPT爆火之前,微软一直为chatGPT母公司OpenAI提供超大的GPU集群,才造就了后台chat

    2024年02月15日
    浏览(29)
  • 人工智能大数据时代下的工程伦理问题探讨

    人工智能大数据时代下的工程伦理问题探讨 一、引言 人工智能技术以及大数据建设作为二十一世纪新兴技术,给人们带来更便捷的生活,社会中涌现出许多新技术,人与人工智能也越来越密不可分。伦理的本意是人伦道德之理,具体指人与人相处的相应道德准则。而现代科

    2023年04月24日
    浏览(82)
  • 【AIGC】如何使用自编码器完成人脸生成

    自编码器是一个非常简单的网络,早在上世纪90年代就提出了自编码器的概念。当时使用受限的玻尔兹曼机分层训练,在硬件强大的今天可以实现端到端的训练。自编码器有许多变种,比如变分自编码器、去噪自编码器、正则自编码器等。由于自编码器采用的是自监督学习,

    2024年02月06日
    浏览(43)
  • 多模态大模型时代下的文档图像智能分析与处理

    随着人工智能技术的不断发展,尤其是深度学习技术的广泛应用,多模态数据处理和大模型训练已成为当下研究的热点之一,这些技术也为文档图像智能处理和分析领域带来了新的发展机遇。 多模态大模型时代下的文档图像智能分析与处理的研究旨在通过运用多种数据类型,

    2024年02月06日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包