【论文阅读笔记】Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues

这篇具有很好参考价值的文章主要介绍了【论文阅读笔记】Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.介绍

Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues
频率思考:基于频率感知线索的人脸伪造检测
2020年发表在ECCV上。
Paper
Code

2.摘要

随着人脸仿真伪造技术的发展,社会对这些技术可能被恶意滥用的担忧引发了人脸伪造检测的研究。然而,这是非常具有挑战性的,因为最近的进步能够伪造超越人眼的感知能力的人脸,特别是在压缩图像和视频中。我们发现,用频域挖掘伪造模式可能是一种解决方案,频率提供了一个补充的观点,可以很好描述微小的伪造人脸或压缩错误。为了将频率引入到人脸伪造检测中,提出了一种新的人脸伪造网络中的频率(F3-Net),利用两种不同但互补的频率感知线索:1)频率感知的分解图像分量 2)局部频率统计,通过我们的双流协同学习框架深入挖掘伪造模式。我们应用DCT作为所应用的频域变换。通过全面的研究,我们表明,提出的F3-Net在具有挑战性的FaceForensics++数据集的所有压缩质量上都显着优于竞争的最先进的方法,特别是在低质量媒体上赢得了很大的领先优势。

Keywords:人脸伪造检测,频率,协作学习

3.Introduction

深度学习驱动的生成模型的快速发展使攻击者能够创建,操纵甚至伪造人脸的媒体(即,图像和视频等)即使是人眼也无法分辨。然而,恶意传播伪造媒体会造成安全问题,甚至社会信任危机。因此,研究有效的人脸伪造检测方法显得尤为重要。一系列早期的作品依赖于手工制作的功能,例如,局部模式分析、噪声方差评估和隐写分析特征,以发现伪造模式并放大真实的和伪造图像之间的微弱差异。深度学习引入了另一种解决这一挑战的途径,最近基于学习的伪造检测方法试图使用卷积神经网络(CNN)在特征空间中挖掘伪造模式,在公共数据集上取得了显着进展。

目前最先进的面部操作算法,如DeepFake,FaceSwap,Face2Face和NeuralTextures ,已经能够隐藏伪造伪像,因此发现这些精制的伪造人脸的缺陷变得非常困难。更糟糕的是,如果伪造的人脸的图像或视频质量大大下降,例如用JPEG或H. 264以大的压缩比压缩,伪造人像将被压缩误差污染,并且有时不能再在RGB域中捕获。幸运的是,这些伪影可以在频域中捕获,与真实的面孔相比,这些伪影以不寻常的频率分布的形式存在。

然而,如何将频率感知的线索引入到深度学习的CNN模型中?这个问题也随之而来。传统的频域,如FFT和DCT,不匹配自然图像所具有的移位不变性和局部一致性,因此普通的CNN结构可能是不可行的。因此,如果我们想利用可学习CNN的区分表示能力进行频率感知人脸伪造检测,那么与CNN兼容的频率表示就变得至关重要。

为此,介绍两个频率感知伪造线索,它们与深度卷积网络的知识挖掘兼容。从一个方面来看,可以通过分离图像的频率信号来分解图像,而每个分解的图像分量指示某个频带。因此,第一频率感知伪造线索是通过能直觉发现的,即能够识别稍微突出的细微伪造伪像(即,以不寻常图案的形式)在具有较高频率的分解分量中,如下图中间列中所示的示例。这个线索与CNN结构兼容,并且对压缩伪影具有惊人的鲁棒性。另一方面,分解后的图像分量描述了空间域中的频率感知模式,但没有直接在神经网络中显式地呈现频率信息。第二个频率感知伪造线索作为局部频率统计。在每个密集但规则采样的局部空间块中,通过对每个频带处的平均频率响应进行计数来收集统计数据。这些频率统计重新组合回到多通道空间图,其中通道数与频带数相同。如下图的最后一列所示,尽管伪造的人脸在 RGB 图像中看起来几乎相同,但它们与相应的真实人脸相比具有不同的局部频率统计数据。此外,局部频率统计也遵循输入 RGB 图像的空间布局,因此也享受由 CNN 支持的有效表示学习。同时,由于分解的图像分量和局部频率统计量是互补的,但它们具有本质上相似的频率感知语义,因此它们可以在特征学习过程中逐步融合。

【论文阅读笔记】Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues,论文阅读学习,论文阅读,笔记
因此,本文提出了一种新颖的频率人脸伪造网络(F3Net),它利用了前面提到的频率感知伪造线索。所提出的框架由两个频率感知分支组成,一个旨在通过频率感知图像分解(FAD)学习微妙的伪造模式,另一个希望从局部频率统计(LFS)中提取高级语义来描述真实面孔和伪造面孔之间的频率感知统计差异。这两个分支通过交叉注意力模块(即 MixBlock)进一步逐渐融合,该模块实现 FAD 和 LFS 分支之间丰富的交互。整个人脸伪造检测模型是通过端到端的交叉熵损失来学习的。

整体创新如下:
1)频率感知分解(FAD)旨在通过频率感知图像分解来学习频率感知伪造模式。所提出的 FAD 模块根据可学习的频带在频域中自适应地划分输入图像,并用一系列频率感知组件表示图像。
2)局部频率统计(LFS)提取局部频率统计来描述真假人脸之间的统计差异。局部频率统计不仅揭示了伪造图像在每个频段的异常统计,而且共享自然图像的结构,从而能够通过CNN进行有效挖掘。
3)所提出的框架通过交叉注意力(又名 MixBlock)驱动的双流网络,协作学习来自 FAD 和 LFS 的频率感知线索。所提出的方法在具有挑战性的 FaceForensics++ 数据集上实现了最先进的性能,特别是在低质量伪造检测中取得了巨大领先。

4.网络结构详解

【论文阅读笔记】Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues,论文阅读学习,论文阅读,笔记
整体流程如上图。输入一个图像,通过双分支,一个是频率感知图像分解(FAD)学习微小的伪造,另一个从局部频率统计(LFS)中提取高级语义来描述真实面孔和伪造面孔之间的频率感知统计差异。然后这两个分支的特征通过CNN进行挖掘,然后通过交叉注意力模块(即 MixBlock)进一步逐渐融合。

FAD:频率感知分解

对于频率感知图像分解,以往的研究通常在空间域中应用手工制作的滤波器组,因此无法覆盖完整的频域。同时,固定的过滤配置使得自适应地捕获伪造模式变得困难。为此,本文提出了一种新颖的频率感知分解(FAD),根据一组可学习的频率滤波器在频域中自适应地划分输入图像。分解的频率分量可以逆变换到空间域,从而产生一系列频率感知的图像分量。这些组件沿着通道轴堆叠,然后输入到卷积神经网络(采用 Xception 作为主干)来全面挖掘伪造模式。

具体来说,手动设计 N 个二元基滤波器 { f b a s e i } i = 1 N \{f^i_{base}\}^N_{i=1} {fbasei}i=1N(或称为掩模),将频域明确划分为低、中、高频段。然后将三个可学习的过滤器 { f w i } i = 1 N \{f^i_{w}\}^N_{i=1} {fwi}i=1N添加到这些基本过滤器中。频率滤波是输入图像的频率响应与组合滤波器 f b a s e i + σ ( f w i ) , i = 1 , . 。。 , N f^i_{base} + σ(f^i_w), i = {1, . 。 。 ,N} fbasei+σ(fwi),i=1,.。。,N,其中 σ ( x ) = 1 − e x p ( − x ) 1 + e x p ( − x ) σ(x) = \frac{1−exp(−x)}{1+exp(−x)} σ(x)=1+exp(x)1exp(x) 旨在将 x 压缩在 −1 和 +1 之间的范围内。因此,对于输入图像x,得到分解后的图像分量:
【论文阅读笔记】Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues,论文阅读学习,论文阅读,笔记
⊙ \odot 是逐元素乘积。 D是离散余弦变换(DCT),这样低频响应位于左上角,高频响应位于左上角。
观察自然图像的DCT功率谱,会发现谱分布不均匀,大部分幅度集中在低频区域。应用基本滤波器 fbase 将频谱划分为 N 个频带,从低频到高频,能量大致相等。添加的可学习 { f w i } i = 1 N \{f^i_w\}^N_{i=1} {fwi}i=1N 提供了更多的适应性来选择固定基本滤波器之外的感兴趣频率。根据经验,如下图(b)所示,频段数量N = 3,低频段f1base是整个频谱的前1/16,中频段f2base在1/16和1之间频谱的/8,高频段f3基数是最后的7/8。
【论文阅读笔记】Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues,论文阅读学习,论文阅读,笔记

LFS:局部频率统计

上述FAD提供了与CNN兼容的频率感知表示,但它必须将频率感知线索表示回空间域,因此无法直接利用频率信息。另外,通过直接从频谱表示中提取 CNN 特征来挖掘伪造伪影通常是不可行的,因此提出估计局部频率统计量 (LFS),不仅可以显式地呈现频率统计量,而且还可以匹配属于自然 RGB 图像的移位不变性和局部一致性。然后将这些特征输入到卷积神经网络,即 Xception,以发现高级伪造模式。如下图(a)所示,首先对输入RGB图像应用滑动窗口DCT(Silde Window DCT)(即,在图像的滑动窗口上密集地进行DCT)来提取局部频率响应,然后计算平均值一系列可学习频段的频率响应。这些频率统计数据重新组合回多通道空间图,该图与输入图像共享相同的布局。该 LFS 提供了一个局部孔径来检测详细的异常频率分布。计算一组频带内的统计数据可以减少统计表示,同时产生更平滑的分布,而不受异常值的干扰。
【论文阅读笔记】Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues,论文阅读学习,论文阅读,笔记
具体来说,在每个窗口 p ∈ x 中,经过 DCT 后,在每个频带中收集局部统计量,其构造方式与 FAD 中使用的方式类似。在每个频带中,统计量变为 :
【论文阅读笔记】Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues,论文阅读学习,论文阅读,笔记
请注意,log10 用于平衡每个频带中的幅度。通过按照从低频到高频的顺序将频谱平均划分为 M 个部分来收集频带。类似地, h b a s e i h^i_{base} hbasei 是基础过滤器, h w i h^i_w hwi 是可学习过滤器,i = {1, . 。 。 ,M}。然后将窗口 p 的局部频率统计量 q 转置为 1 × 1 × M 向量。这些从所有窗口收集的统计向量被重新组装成一个具有输入图像的下采样空间大小的矩阵,其通道数等于M。该矩阵将作为后面卷积层的输入。实际上,在实验中,我们根据经验采用窗口大小为 10,滑动步长为 2,波段数为 M = 6,因此如果输入图像为尺寸299×299×3。

双流协作学习框架

FAD 和 LFS 模块从两个不同但本质上相关的方面挖掘频率感知伪造线索。这两种线索是不同但互补的。因此,提出了一个由交叉注意力模块驱动的协作学习框架,以逐步融合两流 FAD 和 LFS 特征。具体来说,F3-Net的整个网络架构由两个配备Xception块的分支组成(即上述的CNN),一个用于FAD生成的分解图像分量,另一个用于LFS生成的局部频率统计。

提出了一个交叉注意力融合模块,用于每隔几个 Xception 块进行特征交互和消息传递。如下图所示,与之前的简单串联不同,这里首先使用两个分支的特征图计算交叉注意力权重,采用交叉注意力矩阵将注意力特征从一个流增强到另一个流。在实验中,对两个分支使用在 ImageNet上预训练的 Xception 网络,每个分支都有 12 个块。新引入的层和块是随机初始化的。裁剪后的人脸尺寸调整为299×299后作为框架的输入。根据经验,在块 7 和块 12 之后采用 MixBlock,根据中层和高层语义融合两种类型的频率感知线索。通过众所周知的交叉熵损失来训练F3-Net,整个系统可以以端到端的方式进行训练。
【论文阅读笔记】Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues,论文阅读学习,论文阅读,笔记

5.实验与结果

在本文的实验中,使用在 ImageNet 上预训练的 Xception 作为所提出的 F3-Net 的主干。新引入的层和块是随机初始化的。网络通过 SGD 进行优化。将基础学习率设置为 0.002 并使用 Cosine 学习率调度器。动量设置为0.9。批量大小设置为 128。我们训练大约 150k 次迭代。为了证明所提出方法的泛化性,还将 LFS 和 FAD 插入到现有的基于视频的方法中,即在 Kinetics-400 上预训练的 Slowfast-R101。网络通过 SGD 进行优化。将基础学习率设置为 0.002。动量设置为0.9。批量大小设置为 64。训练模型约 200k 次迭代。
【论文阅读笔记】Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues,论文阅读学习,论文阅读,笔记
【论文阅读笔记】Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues,论文阅读学习,论文阅读,笔记文章来源地址https://www.toymoban.com/news/detail-833022.html

到了这里,关于【论文阅读笔记】Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读---《Unsupervised Transformer-Based Anomaly Detection in ECG Signals》

    题目:基于Transformer的无监督心电图(ECG)信号异常检测         异常检测是数据处理中的一个基本问题,它涉及到医疗感知数据中的不同问题。技术的进步使得收集大规模和高度变异的时间序列数据变得更加容易,然而,为了确保一致性和可靠性,需要复杂的预测分析模

    2024年02月14日
    浏览(33)
  • 论文阅读 - Social bot detection in the age of ChatGPT: Challenges and opportunities

    论文链接:https://www.researchgate.net/publication/371661341_Social_bot_detection_in_the_age_of_ChatGPT_Challenges_and_opportunities 目录 摘要: 引言 1.1. Background on social bots and their role in society 1.2. The rise of AI-generated chatbots like ChatGPT 1.3. The importance of social bot detection 1.4. Scope and objectives of the paper  2. T

    2024年02月14日
    浏览(38)
  • 《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解

    对身体器官的射线扫描结果图片中展示了详细的结构化信息,充分利用这种身体各个部分之间的结构化信息,对检测出身体存在的异常非常重要; 提出了使用空间感知队列来进行图片绘制和检测图片中存在的异常的方法(称为SQUID); 在两个胸部X射线基准数据集上,本文所

    2024年02月15日
    浏览(29)
  • 论文阅读笔记—— Multi-attentional Deepfake Detection

    来源:CVPR 2021 作者:Hanqing Zhao1 Wenbo Zhou1,† Dongdong Chen2 Tianyi Wei1 Weiming Zhang1,† Nenghai Yu1 单位:University of Science and Technology of China1 Microsoft Cloud AI2 邮箱:{zhq2015@mail, welbeckz@, bestwty@mail, zhangwm@, ynh@}.ustc.edu.cn cddlyf@gmail.com 论文原地址:Multi-attentional Deepfake Detection DF大多二分类 人

    2024年02月22日
    浏览(43)
  • 论文阅读<GDIP: Gated Differentiable Image Processing for Object-Detection in Adverse Conditions>

            这篇文章是在2022年AAAI上发表的一篇文章IA-YOLO上进行改进的,基本思想是一致的,利用的相机ISP的pipeline进行图像增强,和YOLOv3进行联合训练。 论文链接:[2209.14922] GDIP: Gated Differentiable Image Processing for Object-Detection in Adverse Conditions (arxiv.org) 代码链接:GitHub - Gate

    2024年02月04日
    浏览(30)
  • 论文阅读 RRNet: A Hybrid Detector for Object Detection in Drone-captured Images

    Abstract 我们提出了一种名为RRNet的混合检测器,用于在城市场景无人机(UAVs)和无人机拍摄的图像中进行目标检测。在这种具有挑战性的任务中,目标通常呈现出各种不同的大小,并且非常密集。因此,我们将anchor free检测器与re-regression模块相结合。通过摒弃prior anchors,我们

    2024年02月14日
    浏览(29)
  • 论文阅读RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection

    论文:https://arxiv.org/pdf/2103.10039.pdf 代码:https://github.com/tusen-ai/RangeDet 提出了一个名为RangeDet的新型3D物体检测技术,利用激光雷达数据。 RangeDet的核心在于使用了一种紧凑的表示方法,称为范围视图,与其他常用方法相比,它避免了计算误差。 根据论文中的讨论,使用范围视

    2024年04月13日
    浏览(38)
  • 论文阅读:LiDAR-based curb detection for ground truth annotation in automated driving validation

    目录 概要 Motivation 整体架构流程 技术细节 小结 论文地址: LiDAR-based curb detection for ground truth annotation in automated driving validation | IEEE Conference Publication | IEEE Xplore 路沿检测在自动驾驶中是环境感知的关键,因为它通常界定了可驾驶区域和不可驾驶区域。标注的数据对于开发和验

    2024年02月20日
    浏览(32)
  • 《2023 HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》阅读笔记

    借助大语言模型(LLMS)在语言理解生成推理等方面表现出的出色能力,考虑将其作为控制器来管理现有的各种AI模型, 把语言作为通用接口 。基于这一理念,提出了HuggingGPT框架,利用LLMS(ChatGPT)来连接机器学习社区(Hug face)中的各种AI模型,具体来说就是在接收用户请求

    2024年02月02日
    浏览(52)
  • 论文阅读——CRNet: Channel-Enhanced Remodeling-Based Network for Salient Object Detection in Optical

    这篇是老师发的,主要是用来解决遥感显著性检测的边缘问题 期刊 IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING 年份 2023 论文地址 https://ieeexplore.ieee.org/abstract/document/10217013 代码地址 https://github.com/hilitteq/CRNet.git CRNet:一种基于网格增强重构的光学遥感图像显著目标检测网络 除了它

    2024年02月03日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包