1.介绍
Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues
频率思考:基于频率感知线索的人脸伪造检测
2020年发表在ECCV上。
Paper
Code
2.摘要
随着人脸仿真伪造技术的发展,社会对这些技术可能被恶意滥用的担忧引发了人脸伪造检测的研究。然而,这是非常具有挑战性的,因为最近的进步能够伪造超越人眼的感知能力的人脸,特别是在压缩图像和视频中。我们发现,用频域挖掘伪造模式可能是一种解决方案,频率提供了一个补充的观点,可以很好描述微小的伪造人脸或压缩错误。为了将频率引入到人脸伪造检测中,提出了一种新的人脸伪造网络中的频率(F3-Net),利用两种不同但互补的频率感知线索:1)频率感知的分解图像分量 2)局部频率统计,通过我们的双流协同学习框架深入挖掘伪造模式。我们应用DCT作为所应用的频域变换。通过全面的研究,我们表明,提出的F3-Net在具有挑战性的FaceForensics++数据集的所有压缩质量上都显着优于竞争的最先进的方法,特别是在低质量媒体上赢得了很大的领先优势。
Keywords:人脸伪造检测,频率,协作学习
3.Introduction
深度学习驱动的生成模型的快速发展使攻击者能够创建,操纵甚至伪造人脸的媒体(即,图像和视频等)即使是人眼也无法分辨。然而,恶意传播伪造媒体会造成安全问题,甚至社会信任危机。因此,研究有效的人脸伪造检测方法显得尤为重要。一系列早期的作品依赖于手工制作的功能,例如,局部模式分析、噪声方差评估和隐写分析特征,以发现伪造模式并放大真实的和伪造图像之间的微弱差异。深度学习引入了另一种解决这一挑战的途径,最近基于学习的伪造检测方法试图使用卷积神经网络(CNN)在特征空间中挖掘伪造模式,在公共数据集上取得了显着进展。
目前最先进的面部操作算法,如DeepFake,FaceSwap,Face2Face和NeuralTextures ,已经能够隐藏伪造伪像,因此发现这些精制的伪造人脸的缺陷变得非常困难。更糟糕的是,如果伪造的人脸的图像或视频质量大大下降,例如用JPEG或H. 264以大的压缩比压缩,伪造人像将被压缩误差污染,并且有时不能再在RGB域中捕获。幸运的是,这些伪影可以在频域中捕获,与真实的面孔相比,这些伪影以不寻常的频率分布的形式存在。
然而,如何将频率感知的线索引入到深度学习的CNN模型中?这个问题也随之而来。传统的频域,如FFT和DCT,不匹配自然图像所具有的移位不变性和局部一致性,因此普通的CNN结构可能是不可行的。因此,如果我们想利用可学习CNN的区分表示能力进行频率感知人脸伪造检测,那么与CNN兼容的频率表示就变得至关重要。
为此,介绍两个频率感知伪造线索,它们与深度卷积网络的知识挖掘兼容。从一个方面来看,可以通过分离图像的频率信号来分解图像,而每个分解的图像分量指示某个频带。因此,第一频率感知伪造线索是通过能直觉发现的,即能够识别稍微突出的细微伪造伪像(即,以不寻常图案的形式)在具有较高频率的分解分量中,如下图中间列中所示的示例。这个线索与CNN结构兼容,并且对压缩伪影具有惊人的鲁棒性。另一方面,分解后的图像分量描述了空间域中的频率感知模式,但没有直接在神经网络中显式地呈现频率信息。第二个频率感知伪造线索作为局部频率统计。在每个密集但规则采样的局部空间块中,通过对每个频带处的平均频率响应进行计数来收集统计数据。这些频率统计重新组合回到多通道空间图,其中通道数与频带数相同。如下图的最后一列所示,尽管伪造的人脸在 RGB 图像中看起来几乎相同,但它们与相应的真实人脸相比具有不同的局部频率统计数据。此外,局部频率统计也遵循输入 RGB 图像的空间布局,因此也享受由 CNN 支持的有效表示学习。同时,由于分解的图像分量和局部频率统计量是互补的,但它们具有本质上相似的频率感知语义,因此它们可以在特征学习过程中逐步融合。
因此,本文提出了一种新颖的频率人脸伪造网络(F3Net),它利用了前面提到的频率感知伪造线索。所提出的框架由两个频率感知分支组成,一个旨在通过频率感知图像分解(FAD)学习微妙的伪造模式,另一个希望从局部频率统计(LFS)中提取高级语义来描述真实面孔和伪造面孔之间的频率感知统计差异。这两个分支通过交叉注意力模块(即 MixBlock)进一步逐渐融合,该模块实现 FAD 和 LFS 分支之间丰富的交互。整个人脸伪造检测模型是通过端到端的交叉熵损失来学习的。
整体创新如下:
1)频率感知分解(FAD)旨在通过频率感知图像分解来学习频率感知伪造模式。所提出的 FAD 模块根据可学习的频带在频域中自适应地划分输入图像,并用一系列频率感知组件表示图像。
2)局部频率统计(LFS)提取局部频率统计来描述真假人脸之间的统计差异。局部频率统计不仅揭示了伪造图像在每个频段的异常统计,而且共享自然图像的结构,从而能够通过CNN进行有效挖掘。
3)所提出的框架通过交叉注意力(又名 MixBlock)驱动的双流网络,协作学习来自 FAD 和 LFS 的频率感知线索。所提出的方法在具有挑战性的 FaceForensics++ 数据集上实现了最先进的性能,特别是在低质量伪造检测中取得了巨大领先。
4.网络结构详解
整体流程如上图。输入一个图像,通过双分支,一个是频率感知图像分解(FAD)学习微小的伪造,另一个从局部频率统计(LFS)中提取高级语义来描述真实面孔和伪造面孔之间的频率感知统计差异。然后这两个分支的特征通过CNN进行挖掘,然后通过交叉注意力模块(即 MixBlock)进一步逐渐融合。
FAD:频率感知分解
对于频率感知图像分解,以往的研究通常在空间域中应用手工制作的滤波器组,因此无法覆盖完整的频域。同时,固定的过滤配置使得自适应地捕获伪造模式变得困难。为此,本文提出了一种新颖的频率感知分解(FAD),根据一组可学习的频率滤波器在频域中自适应地划分输入图像。分解的频率分量可以逆变换到空间域,从而产生一系列频率感知的图像分量。这些组件沿着通道轴堆叠,然后输入到卷积神经网络(采用 Xception 作为主干)来全面挖掘伪造模式。
具体来说,手动设计 N 个二元基滤波器
{
f
b
a
s
e
i
}
i
=
1
N
\{f^i_{base}\}^N_{i=1}
{fbasei}i=1N(或称为掩模),将频域明确划分为低、中、高频段。然后将三个可学习的过滤器
{
f
w
i
}
i
=
1
N
\{f^i_{w}\}^N_{i=1}
{fwi}i=1N添加到这些基本过滤器中。频率滤波是输入图像的频率响应与组合滤波器
f
b
a
s
e
i
+
σ
(
f
w
i
)
,
i
=
1
,
.
。。
,
N
f^i_{base} + σ(f^i_w), i = {1, . 。 。 ,N}
fbasei+σ(fwi),i=1,.。。,N,其中
σ
(
x
)
=
1
−
e
x
p
(
−
x
)
1
+
e
x
p
(
−
x
)
σ(x) = \frac{1−exp(−x)}{1+exp(−x)}
σ(x)=1+exp(−x)1−exp(−x) 旨在将 x 压缩在 −1 和 +1 之间的范围内。因此,对于输入图像x,得到分解后的图像分量:
⊙
\odot
⊙ 是逐元素乘积。 D是离散余弦变换(DCT),这样低频响应位于左上角,高频响应位于左上角。
观察自然图像的DCT功率谱,会发现谱分布不均匀,大部分幅度集中在低频区域。应用基本滤波器 fbase 将频谱划分为 N 个频带,从低频到高频,能量大致相等。添加的可学习
{
f
w
i
}
i
=
1
N
\{f^i_w\}^N_{i=1}
{fwi}i=1N 提供了更多的适应性来选择固定基本滤波器之外的感兴趣频率。根据经验,如下图(b)所示,频段数量N = 3,低频段f1base是整个频谱的前1/16,中频段f2base在1/16和1之间频谱的/8,高频段f3基数是最后的7/8。
LFS:局部频率统计
上述FAD提供了与CNN兼容的频率感知表示,但它必须将频率感知线索表示回空间域,因此无法直接利用频率信息。另外,通过直接从频谱表示中提取 CNN 特征来挖掘伪造伪影通常是不可行的,因此提出估计局部频率统计量 (LFS),不仅可以显式地呈现频率统计量,而且还可以匹配属于自然 RGB 图像的移位不变性和局部一致性。然后将这些特征输入到卷积神经网络,即 Xception,以发现高级伪造模式。如下图(a)所示,首先对输入RGB图像应用滑动窗口DCT(Silde Window DCT)(即,在图像的滑动窗口上密集地进行DCT)来提取局部频率响应,然后计算平均值一系列可学习频段的频率响应。这些频率统计数据重新组合回多通道空间图,该图与输入图像共享相同的布局。该 LFS 提供了一个局部孔径来检测详细的异常频率分布。计算一组频带内的统计数据可以减少统计表示,同时产生更平滑的分布,而不受异常值的干扰。
具体来说,在每个窗口 p ∈ x 中,经过 DCT 后,在每个频带中收集局部统计量,其构造方式与 FAD 中使用的方式类似。在每个频带中,统计量变为 :
请注意,log10 用于平衡每个频带中的幅度。通过按照从低频到高频的顺序将频谱平均划分为 M 个部分来收集频带。类似地,
h
b
a
s
e
i
h^i_{base}
hbasei 是基础过滤器,
h
w
i
h^i_w
hwi 是可学习过滤器,i = {1, . 。 。 ,M}。然后将窗口 p 的局部频率统计量 q 转置为 1 × 1 × M 向量。这些从所有窗口收集的统计向量被重新组装成一个具有输入图像的下采样空间大小的矩阵,其通道数等于M。该矩阵将作为后面卷积层的输入。实际上,在实验中,我们根据经验采用窗口大小为 10,滑动步长为 2,波段数为 M = 6,因此如果输入图像为尺寸299×299×3。
双流协作学习框架
FAD 和 LFS 模块从两个不同但本质上相关的方面挖掘频率感知伪造线索。这两种线索是不同但互补的。因此,提出了一个由交叉注意力模块驱动的协作学习框架,以逐步融合两流 FAD 和 LFS 特征。具体来说,F3-Net的整个网络架构由两个配备Xception块的分支组成(即上述的CNN),一个用于FAD生成的分解图像分量,另一个用于LFS生成的局部频率统计。
提出了一个交叉注意力融合模块,用于每隔几个 Xception 块进行特征交互和消息传递。如下图所示,与之前的简单串联不同,这里首先使用两个分支的特征图计算交叉注意力权重,采用交叉注意力矩阵将注意力特征从一个流增强到另一个流。在实验中,对两个分支使用在 ImageNet上预训练的 Xception 网络,每个分支都有 12 个块。新引入的层和块是随机初始化的。裁剪后的人脸尺寸调整为299×299后作为框架的输入。根据经验,在块 7 和块 12 之后采用 MixBlock,根据中层和高层语义融合两种类型的频率感知线索。通过众所周知的交叉熵损失来训练F3-Net,整个系统可以以端到端的方式进行训练。
文章来源:https://www.toymoban.com/news/detail-833022.html
5.实验与结果
在本文的实验中,使用在 ImageNet 上预训练的 Xception 作为所提出的 F3-Net 的主干。新引入的层和块是随机初始化的。网络通过 SGD 进行优化。将基础学习率设置为 0.002 并使用 Cosine 学习率调度器。动量设置为0.9。批量大小设置为 128。我们训练大约 150k 次迭代。为了证明所提出方法的泛化性,还将 LFS 和 FAD 插入到现有的基于视频的方法中,即在 Kinetics-400 上预训练的 Slowfast-R101。网络通过 SGD 进行优化。将基础学习率设置为 0.002。动量设置为0.9。批量大小设置为 64。训练模型约 200k 次迭代。
文章来源地址https://www.toymoban.com/news/detail-833022.html
到了这里,关于【论文阅读笔记】Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!