论文阅读-可泛化深度伪造检测的关键

这篇具有很好参考价值的文章主要介绍了论文阅读-可泛化深度伪造检测的关键。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、论文信息

  1. 论文名称:Learning Features of Intra-Consistency and Inter-Diversity: Keys Toward Generalizable Deepfake Detection

  2. 作者团队:Chen H, Lin Y, Li B, et al. (广东省智能信息处理重点实验室、深圳市媒体安全重点实验室和深圳大学人工智能与数字经济广东实验室)

  3. 论文网址:https://ieeexplore.ieee.org/abstract/document/9903059

  4. 发表期刊:IEEE Transactions on Circuits and Systems for Video Technology

二、动机与创新

1、动机:

①大多数都存在不同数据源、不同伪造方法、不同后处理方式、训练集中包含的深度不同的问题。由于这些不匹配的域差距导致大多数深度伪造检测方法在实际应用中都存在严重的性能下降。——>泛化性差

②原始图像的自一致性,通常起源于传感器模式噪声或由生成管道中的微纹理引起,是深度伪造检测的一般线索。—>由于不同的数据源或处理操作而导致的图像样本之间的不一致性可能比虚假的痕迹更明显。—>需要学习具有良好的类内一致性和类间可分性的特征,特别是在数据集不匹配的条件下。论文阅读-可泛化深度伪造检测的关键,读论文,论文阅读

2、创新:学习类内一致性类间多样性的特征,我们利用一种新的基于Transformer的自监督学习方法和一种有效的数据增强策略来增强深度伪检测泛化性。

三、方法

提出通过两阶段的自监督范式来提高深度伪造检测的泛化能力。

  1. 首先,在预训练阶段,我们利用没有任何图像类注释的mask patch和预测策略来训练一个大型的基于vit的编码器。它的目的是通过预测mask patch来学习丰富的隐藏的代表性特征。图像内的类内一致性线索可以由MIM以这种方式挖掘。

  2. 随后,我们以一种有监督的方式对预先训练过的基于视频的编码器进行了微调。我们采用了与深度伪造相关的二值分类和假mask估计两个任务,旨在丰富训练中的监督信息

  3. 此外,我们还引入了一种新的基于小波的数据增强技术,即可调伪造合成器(AFS),以丰富微调阶段人工伪造样本的多样性。论文阅读-可泛化深度伪造检测的关键,读论文,论文阅读

  4. 论文阅读-可泛化深度伪造检测的关键,读论文,论文阅读

  • Masking and Prediction Pre-Training

①引入了一种基于MIM的策略,该策略掩盖了图像patch的一些随机部分,并在预训练阶段预测了它们的RGB像素。

②改编自SimMIM ,由两个主要组件组成:

1)Masking:首先将大小为H×W×3的图像分割成一些规则的补丁大小为P×P。然后,我们用掩码比ρ随机mask部分输入图像patch。如图3所示,我们将mask patch的区域标记为[M]。我们提供了所有的patch来训练一个基于vit的编码器。

2)Prediction:我们使用一个基于vit的编码器来提取mask图像的潜在代表性特征。使用Swin-L作为编码器的主干。预测的目标是恢复每个mask patch中的原始像素。我们在主干的最后一层引入一个预测头,其目的是将特征映射中的每个特征向量映射到原始分辨率,并让这个向量负责相应的原始像素的预测。

  • Multi-Task Fine-Tuning(多任务微调)

①在预训练阶段之后,我们用标记数据对预训练后的编码器进行微调,以进行深度伪造检测。采用多任务学习的方式。使用了两个任务,一个用于二元分类,另一个用于估计伪造mask,涉及到更多的监督信息。

②损失函数说明:其中Lc是二分类交叉熵

论文阅读-可泛化深度伪造检测的关键,读论文,论文阅读

  • Adjustable Forgery Synthesizer(可调节伪造合成器)

①通过在频域扰动图像来模拟深度伪影的产生。提出了一种基于小波的数据增强方法,名为可调伪造合成器(AFS)。

②由于小波变换可以将图像分解为多个空间频子带,AFS可以通过一组缩放参数显式地调整源面与目标面之间的相似性。

③三个步骤组成:

1)相似的面部检索:通过Dlib提取面部landmarks。通过取landmarks的凸包得到掩模M。

2)小波分解:对图像进行离散小波变换(DWT),得到4个小波子频带。

3)伪造合成:为了尽可能多地覆盖不同形状的掩模,将2D维仿射变换T(·),然后进行高斯模糊,记为¯M。使用一些混合方法将mask内源子带的面区域缝合到目标图像的相应子带。这样,我们就得到了四个相应的合成子频带。最后,我们利用逆离散小波变换(IDWT)操作将合成子带{Fi}变换为合成图像If。同时,AFS也输出相应的伪造图片。

论文阅读-可泛化深度伪造检测的关键,读论文,论文阅读

④证明AFS合理性:通过人类感知得到的深度伪造图像的人身份位于源脸和目标脸之间。由DF(c23)、DF(c40)和FSh(c23)分别生成的三张假图像虽然保留了源图像的一些特征,但更接近目标标识。不同的伪造方法和后处理操作(如不同的压缩率)可能导致与目标身份的不同程度的相似性。

采用了一个公共平台,可以提供人脸比较服务来计算S(·,·)的面部相似性得分。—>现有的深度伪造方法在不控制相似性的情况下,只能产生少量的样本。为了获得更通用和鲁棒的检测,最好以更多的多样性来增加数据。

论文阅读-可泛化深度伪造检测的关键,读论文,论文阅读

⑤AFS的动机是在图像空间中生成许多质量不同、与目标身份相似程度不同的假样本,以促进表示学习。简单地为四个子波段设置相同的αi,然后计算S(I,Is)和S(I,It)。AFS可以通过调整混合权重αi来模拟与源标识和目标标识具有不同相似性的深度伪造样本。这样,我们就可以在微调阶段丰富假样本的相互多样性。

四、实验

  1. 实验设置

  • 数据集:

①UADFV和DF-TIMIT仅用于训练。FF++,DFD,Celeb-DF,DFDC-p,DFDC,DeeperForensics-1.0 (DFR),WildDeepfake。

②训练过程:

a)预训练阶段:在预训练阶段,将UADFV、DF-TIMIT、FF++/DF(c23和c40)、DFDC、Celeb-DF和DFD(c23和c40)的训练集混合,形成一个复合训练集,名为DF-Mix,作为预训练数据集。这些数据没有注释,就被用于模拟未标记的数据场景。

论文阅读-可泛化深度伪造检测的关键,读论文,论文阅读

b)微调:在此阶段使用标准的监督学习范式来微调模型,该范式使用每个给定数据集的训练和验证集。

  • 评价指标: 采用AUC和EER。

1、定量分析

1)预测Masked Patches:

①mask和预测预训练有助于基于transformer的编码器学习具有代表性的特征,并具有良好的patch间一致性和相关性。

论文阅读-可泛化深度伪造检测的关键,读论文,论文阅读

2)预测伪造Mask

①可以观察到不同的深度伪造方法的ground truth mask的形状和位置是非常不同的。这种多样性增加了可推广的深度假检测的难度。计算结果表明,该方法的伪造掩模估计是可靠的。

论文阅读-可泛化深度伪造检测的关键,读论文,论文阅读

2、与其他方法比较

1)数据集内部评估论文阅读-可泛化深度伪造检测的关键,读论文,论文阅读

2)跨方法验证

论文阅读-可泛化深度伪造检测的关键,读论文,论文阅读

3)跨数据集验证:论文阅读-可泛化深度伪造检测的关键,读论文,论文阅读

3、消融实验

1)Masking and Prediction Pre-Training:

论文阅读-可泛化深度伪造检测的关键,读论文,论文阅读

2)Multi-Task Fine-Tuning:

论文阅读-可泛化深度伪造检测的关键,读论文,论文阅读

五、总结与局限

①工作总结:包括两个阶段的学习,即1)采用mask和预测的预训练阶段,2)采用二值分类和伪造mask估计的多任务微调阶段。

在第一阶段,采用基于MIM的方案来学习大规模未标记面部数据的内一致性代表性特征。然后,对预先训练好的模型进行微调,以利用标记数据进行下行的深度伪造检测。此外,还引入了一种新的小波域伪造数据增强方法。

②局限性:

(1)采用了大规模的预训练数据,对一个庞大的骨干网络进行预训练,以实现SOTA的性能,这导致了较大的计算成本。(2)其次,由于所提出的AFS是为了模拟和增强由深度伪造算法造成的伪造线索,包括人脸混合操作,即人脸交换和人脸再现。然而,这种生成方案在识别由整个面部或头部合成方法生成的面部(不包括面部混合操作)伪造图像时可能表现不佳。文章来源地址https://www.toymoban.com/news/detail-759057.html

到了这里,关于论文阅读-可泛化深度伪造检测的关键的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】基于深度学习的时序异常检测——TimesNet

    系列文章链接 参考数据集讲解:数据基础:多维时序数据集简介 论文一:2022 Anomaly Transformer:异常分数预测 论文二:2022 TransAD:异常分数预测 论文三:2023 TimesNet:基于卷积的多任务模型 论文链接:TimesNet.pdf 代码库链接:https://github.com/thuml/Time-Series-Library 项目介绍:https

    2024年02月13日
    浏览(33)
  • 【论文阅读】基于深度学习的时序异常检测——TransAD

    系列文章链接 数据解读参考:数据基础:多维时序数据集简介 论文一:2022 Anomaly Transformer:异常分数预测 论文二:2022 TransAD:异常分数预测 论文三:2023 TimesNet:基于卷积的多任务模型 论文链接:TransAD.pdf 代码库链接:https://github.com/imperial-qore/TranAD 这篇文章是基于多变量数

    2024年02月14日
    浏览(36)
  • 【论文阅读】基于深度学习的时序异常检测——Anomaly Transformer

    系列文章链接 数据解读参考:数据基础:多维时序数据集简介 论文一:2022 Anomaly Transformer:异常分数预测 论文二:2022 TransAD:异常分数预测 论文三:2023 TimesNet:基于卷积的多任务模型 论文链接:Anomaly Transformer.pdf 代码链接:https://github.com/thuml/Anomaly-Transformer 视频讲解(原

    2024年02月14日
    浏览(25)
  • 【论文阅读】通过解缠绕表示学习提升领域泛化能力用于主题感知的作文评分

    本文工作聚焦于从领域泛化的视角提升AES模型的泛化能力,在该情况下,目标主题的数据在训练时不能被获得。 本文提出了一个主题感知的神经AES模型(PANN)来抽取用于作文评分的综合的表示,包括主题无关(prompt-invariant)和主题相关(prompt-specific)的特征。 为了提升表示

    2024年02月14日
    浏览(37)
  • 『论文阅读|利用深度学习在热图像中实现无人机目标检测』

    论文题目: Object Detection in Thermal Images Using Deep Learning for Unmanned Aerial Vehicles 利用深度学习在热图像中实现无人机目标检测 这项研究提出了一种神经网络模型,能够识别无人驾驶飞行器采集的热图像中的微小物体。模型由三部分组成:骨干、颈部和预测头。骨干基于 YOLOv5 的结

    2024年02月20日
    浏览(25)
  • 【论文阅读】通过组件对齐评估和改进 text-to-SQL 的组合泛化

    NAACL 2022| CCF B 在 text-to-SQL 任务中,正如在许多 NLP 中一样, 组合泛化 是一个重大挑战:神经网络在训练和测试分布不同的情况下难以实现组合泛化。然而,最近改进这一点的尝试都是基于单词级合成数据或特定数据集分割来生成组合偏差。在这项工作中,我们提出了一种 子

    2024年03月24日
    浏览(35)
  • 【论文阅读】一种基于图深度学习的互联网通信故障检测与定位方法

    论文原文:A Graph Deep Learning-Based Fault Detection and Positioning Method for Internet Communication Networks 一种基于图深度学习的 互联网通信故障检测与定位方法         新一代互联网在现代社会中,互联网接入的规模正在逐渐扩大。根据深度学习IC发布的最新报告,近一半已经成为网民

    2024年04月08日
    浏览(42)
  • 【论文阅读】xNIDS:可解释的基于深度学习的网络入侵检测系统的主动入侵响应(USENIX-2023)

      基于深度学习的网络入侵检测系统(DL-NIDS)得到了显著的探索,并显示出卓越的性能,但存在两个问题: 检测结果和可操作的解释之间存在语义差距,不足以对检测到的入侵作出积极的回应 高错误成本使网络运营商不愿意仅仅根据检测结果做出反应(即高误报带来的警

    2024年02月05日
    浏览(32)
  • 一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection

    论文url : https://openaccess.thecvf.com/content/WACV2023W/RWS/html/Vora_Bringing_Generalization_to_Deep_Multi-View_Pedestrian_Detection_WACVW_2023_paper.html 论文提出了一种用于多视角行人检测的深度学习模型,旨在提高模型在不同摄像机数量、不同摄像机配置和新场景下的泛化能力。 $ {N} $ 个校准的RGB摄像

    2024年04月10日
    浏览(31)
  • OCR文本检测论文阅读笔记

    Table of Contents 1      OCR的应用场景............................................................................... 4 2      OCR的技术路线............................................................................... 5 3      DB论文笔记:................................................................................. 6 3.1  

    2024年02月04日
    浏览(23)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包