发布于CVPR2022
论文链接:https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_ObjectFormer_for_Image_Manipulation_Detection_and_Localization_CVPR_2022_paper.pdf
摘要
在本文中,我们提出了ObjectFormer来检测和定位图像操作。为了捕捉在RGB域中不再可见的细微操作轨迹,我们提取图像的高频特征,并将其与RGB特征结合,作为多模态补丁嵌入。此外,我们使用一组可学习的对象原型作为中间层表示来建模不同区域之间的对象级一致性,并进一步用于改进补丁嵌入以捕获补丁级一致性。我们在各种数据集上进行了大量的实验,结果验证了所提方法的有效性,优于目前最先进的篡改检测和定位方法。
引言
如图1所示,为了产生在语义上有意义和在感知上有说服力的图像,这些方法经常在对象级对图像进行操作,即在图像中添加/删除对象。虽然最近有一些研究聚焦于图像操作检测,但他们通常使用cnn直接将输入图像映射到二进制标签(即,真实/操作),而没有显式地建模对象级表示。与此相反,我们认为图像处理检测不仅要检查某些像素是否分布不均匀,还要考虑对象之间是否一致。此外,图像编辑所带来的视觉伪影在RGB域中不再被察觉,但在频域通常也会被注意到。这需要一种联合建模RGB域和频域的多模态方法来发现微妙的操作痕迹。
在本文中,我们介绍了ObjectFormer,一个用于图像处理检测和定位的多模态TransFormer框架。ObjectFormer基于TransFormer,因为它在各种视觉任务上的表现令人印象深刻,如图像分类,目标检测,视频分类等。更重要的是,考虑到它们利用自注意来探索不同空间位置之间的相关性,TransFormer是对图像中斑块/像素是否一致进行建模的自然选择。受自动学习对象查询的启发,我们使用一组可学习的参数作为对象原型(作为中层对象表示)来发现对象级的一致性,这将进一步利用补丁嵌入来优化补丁级一致性建模。
考虑到这一点,ObjectFormer首先使用离散余弦变换将图像从RGB域转换到频域,然后通过几个卷积层提取多模态贴片嵌入。将RGB和频率两种斑块嵌入方法进一步串联起来,形成互补。此外,我们使用一组可学习的嵌入作为对象查询/原型,与派生的贴片嵌入交互,以学习不同对象之间的一致性。我们用这些具有交叉注意的对象原型来改进贴片嵌入。通过迭代地这样做,ObjectFormer获得全局特性表示,这些表示显式地编码中级对象特性,可以很容易地用于检测操作工件。最后,利用全局特征以多任务方式预测图像是否被修改和相应的操作掩模。可以以端到端方式训练框架。我们对常用的图像篡改数据集CASIA、Columbia、Coverage、NIST16、IMD20进行了实验。结果表明,ObjectFormer优于最先进的篡改检测和定位方法。
主要贡献
- 我们引入了一个端到端多模态的图像处理检测和定位框架ObjectFormer,结合RGB特征和频率特征来识别篡改工件。
- 我们明确地利用可学习的对象原型作为中间层表示,以建模对象级的一致性和精细的补丁嵌入来捕获补丁级的一致性。
- 我们在多个基准上进行了广泛的实验,证明我们的方法达到了最先进的检测和定位性能。
方法
我们的目标是通过建模中间层表示之间的视觉一致性来检测图像中的操纵对象,中间层表示是通过注意多模态输入自动导出的。 在本节中,我们介绍ObjectFormer,它包括一个高频特征提取模块、一个对象编码器和一个贴片解码器,该编码器使用可学习的对象查询来学习图像中的中层表示是否相干,该贴片解码器产生用于操作检测和定位的精细全局表示。 图2给出了该框架的概述。 输入是可疑图像(H×W×3),输出包括篡改定位结果和预测掩码(H×W×1)。
高频特征提取
由于被操纵的图像通常经过后期处理以隐藏篡改伪影,因此很难在RGB空间中捕捉到细微的伪造痕迹。 因此,我们从频域中提取特征,为操纵检测提供补充线索。 将图像X作为输入,ObjectFormer首先使用离散余弦变换(DCT)将其从RGB域变换到频域:
然后我们通过高通滤波器获得高频分量,并将其转换回RGB域,以保持自然图像的移位不变性和局部一致性:
其中F表示高通滤波器,α是人工设计的阈值,用于控制低频分量的滤除。 然后,将Xh输入到多个卷积层中,提取出与Gr相同大小的频率特征Gf。 然后,我们用Gr和Gf生成相同大小的空间片,并进一步将它们展平为长度为L的C-d向量序列,将这两个序列连接起来,得到一个多峰片向量p∈R2L×C。 将正弦位置嵌入添加到p以提供位置信息。
对象编码器
对象编码器的目的是自动学习Gr/Gf中一组针对特定区域的中层表示,并识别这些区域之间是否一致。 为此,我们使用一组可学习参数o∈R N×C作为对象原型,通过学习这些参数来表示可能出现在图像中的对象。 N是一个手动设计的常量,表示对象的最大数量,在本文中我们根据经验将其设置为16。
具体地说,给定第i层的对象表示,我们首先用层规范化(LN)对其进行规范化,并将其用作注意块的查询。 归一化后的贴片嵌入pi作为键和值。 注意,我们分别设置p0=p,o0=o。 然后用矩阵乘法和一个Softmax函数计算对象-贴片亲和矩阵Ai∈Rn×L:
其中Weq和Wek是两个线性投影层的可学习参数。 然后用另一个线性层将pi投影到值嵌入中,并进一步用人工智能计算其加权平均值,得到注意力矩阵。 最后,通过与注意力矩阵的残差联系更新对象表示,得到oi∈R N×C:
其中Wev为值嵌入层的可学习参数。这样,每个对象表示都可以注入来自所有位置的全局上下文信息。然后,我们进一步使用单一的线性投影实现不同对象之间的交互:
其中Wc是一个可学习的权重矩阵,这从本质上了解了不同的对象原型如何相互作用,以发现对象级的视觉不一致。
由于图像中对象的数量不同,我们还使用线性投影层和激活函数GELU来增强对象的特征。这一过程可以表示为:
其中Wact1和Wact2是可学习参数,δ是GELU函数,oi+1是更新后的对象表示。
补丁解码器
对象编码器允许图像中的不同对象相互交互,以建模中间层表示是否在视觉上是一致的,并关注重要的补丁。除此之外,我们使用来自对象编码器的更新对象表示来进一步细化补丁嵌入。更具体地说,我们使用pi作为查询,oi+1作为键和值,并按照经典的注意范式增强补丁特性。这样,每个贴片嵌入可以进一步从派生的对象原型中吸收有用的信息。
更具体地说,我们首先采用层归一化对pi和oi+1进行归一化,然后将它们输入到一个注意块中进行patch嵌入细化。整个过程可以表述为:
其中,Wdq、Wdk、Wdv为三个嵌入层的可学习参数,MLP表示具有两个线性映射的多层感知器。
在将中层目标特征聚合到图像中的每个patch后,我们进一步应用边界敏感上下文不一致性建模(BCIM)模块来检测像素级的不一致性,以进行细粒度特征建模。特别地,我们首先将pi∈R2N×C重塑为尺寸为RHs×Ws×2Cs的2D特征映射ePi。然后我们计算局部窗口中每个像素与周围像素之间的相似度:
其中,κ表示特征映射Pe i中的一个k × k小窗口,Pe ij为窗口的中心特征向量,Pe ik为其在κ内的邻近特征向量。我们使用的相似度度量函数Sim是余弦相似度。然后计算Si∈RHs×Ws×1与Pe i的元素方向求和,得到尺寸为RHs×Ws×2Cs的边界敏感特征图,得到边界敏感特征图,最后序列化为patch embeddings pi+1∈R2N×C。
注意,我们按顺序使用了堆叠对象编码器和图像解码器I次(在本文中我们将其设置为8次),以交替更新对象表示和补丁特征。最后,我们得到pout∈R2N×C,它包含了对象级和patch级的视觉一致性信息。然后,我们将其重塑为一个二维特征图Gout,然后使用该特征图进行操作检测和定位。
损失函数
对于操作检测,我们在Gout上应用全局平均池化,并使用全连接层计算最终的二进制预测yˆ。而对于操作定位,我们通过交替的卷积层和线性插值操作,逐步上样Gout,以获得预测的掩模Mˆ。给定ground-truth标签y和mask M,我们用以下目标函数训练ObjectFormer:
其中Lcls和Lseg均为二元交叉熵损失,λseg为平衡超参数。默认设置λseg = 1。
实验
我们在两个密切相关的任务上评估我们的模型:操作定位和检测。在前一个任务中,我们的目标是定位图像中经过处理的区域。在后一个任务中,目标是将图像分类为被操纵的或真实的。
实验设置
- 合成预训练数据集:包括Fake-COCO,它是建立在MS COCO上的。FakeParis,它是基于巴黎街景数据集。原始图像,即上述数据集中的原始图像,在生成的数据中随机添加高斯噪声或应用JPEG压缩算法,以达到真实场景中图像的视觉质量。
- 测试集:PSCCNet中的CASIA数据集、Columbia数据集、Carvalho数据集、NIST16数据集和IMD20数据集进行评估。为了微调ObjectFormer,我们使用与SPAN、PSCC-Net相同的训练/测试分割来进行公平的比较。
- 评价标准:对于检测结果,实验AUC和F1分数。对于定位,使用像素级的AUC和操纵mask上的F1评分。由于计算F1分数需要二进制掩码和检测分数,采用了等错误率(EER)阈值对其进行二值化。
- 实现细节:backbone使用了在ImageNet上预先训练的EfficientNet-b4。
- 基线模型:J-LSTM、H-LSTM、RGB-N、MantraNet、SPAN、PSCCNet。
图像篡改定位
在SPAN和PSCCNet之后,将我们的模型与其他最先进的篡改定位方法在两种设置下进行了比较:
- 在合成数据集上进行训练,并在完整的测试数据集上进行评估。
- 对测试数据集训练分割的预训练模型进行微调,并对其测试分割进行评估。
对于预训练模型评估,将ObjectFormer与MantraNet、SPAN和PSCCNet进行比较。在表1中报告了AUC分数(%),从中我们可以看到ObjectFormer在大多数数据集上都实现了最佳的本地化性能。特别是,ObjectFormer在真实数据集IMD20上达到82.1%,比PSCCNet高出1.9%。这表明我们的方法具有较强的篡改特征捕捉能力,并能很好地推广到高质量的篡改图像数据集。在Columbia数据集上,我们超过SPAN和MaTraNet 2.0%和15.9%,但落后PSCCNet 2.7%。我们认为,其原因可能是PSCCNet合成的训练数据与Columbia数据集的分布非常相似。这可以通过表2中的结果进一步验证,表2显示,如果在Columbia数据集上对模型进行优化,ObjectFormer在AUC和F1得分上都优于PSCCNet。此外,值得指出的是,与其他方法相比,ObjectFormer使用较少的训练前数据获得了不错的结果。
对于微调模型,为了弥补合成数据集和标准数据集在视觉质量上的差异,我们进一步对特定数据集上的预训练模型进行了微调,并与表2中的其他方法进行了比较。我们可以观察到显著的性能提高,这说明ObjectFormer可以通过对象级和补丁级一致性建模以及多模式设计来捕获细微的篡改工件。
图像篡改检测
表3显示了在CASIA-D上用于检测篡改图像的AUC和F1分数(%)。结果表明,我们的模型达到了最先进的性能,即在AUC方面达到了99.70%,在F1中达到了97.34%,这证明了我们的方法捕获操纵伪迹的有效性。
鲁棒性评价
1)不同尺度的图像缩放,2)核大小为k的高斯模糊,3)标准差为σ的高斯噪声,4)质量因子为q的JPEG压缩。性能比较如表4所示,ObjectFormer对各种失真技术显示了更好的鲁棒性,特别是在压缩图像上(当质量因子为100时比PSCCNet高1.1%,当质量因子为50时比PSCCNet高1.0%)。
消融分析
该方法设计了高频特征提取(HFE)模块来提取频域的异常伪造特征,利用边界灵敏度上下文不相干建模(BCIM)模块来提高预测篡改掩模的清晰度。为了评估HFE和BCIM的有效性,我们将它们分别从ObjectFormer中去除,并在CASIA和NIST16数据集上评估篡改定位性能。
定量结果见表5。我们可以看到,在没有HFE的情况下,CASIA的AUC评分下降14.6%,NIST16的AUC评分下降11.0%,而在没有BCIM的情况下,CASIA的AUC评分下降6.2%,NIST16的AUC评分下降2.4%。性能的下降验证了HFE和BCIM的使用有效地提高了模型的性能。此外,为了说明ObjectFormer学习的表示的有效性,我们抛弃了对象表示,并用普通的自我注意块替换堆叠的对象编码器和图像解码器。我们可以在表5的第三行中看到明显的性能下降,即在NIST16数据集上,AUC下降了5%,F1下降了12.5%。
部署对象原型来表示可能出现在图像中的虚拟元素,这有助于ObjectFormer学习对象级一致性建模的中级语义特征。我们进一步进行了实验来研究原型数量(N)对模型性能的影响。如图3所示,随着原型数量的增加,篡改位置性能总体上呈递增趋势,当N设置为16时,在Columbia和CASIA数据集上表现最好。
可视化结果
对象编码器的可视化。我们进一步定性地研究了客体前者的行为。具体来说,我们在第一个对象编码器中平均亲和矩阵Ai (Eqn. 3)的所有头,然后将其归一化为[0,255]。对于每幅图像,我们将原始图像(第1列)和由不同的对象原型所关注的区域可视化,例如,第2列和第3列是两个原型对应两个前景对象,而第4列和第5列则与背景的地面对象相关。图4的结果表明,通过迭代更新,对象表示对应于图像中有意义的区域,从而有助于对象一致性建模。
定性结果。在图5中,我们提供了不同方法的预测操纵掩码。因为PSCCNet的源代码不可用,所以他们的预测不可用。结果表明,利用ObjectFormer的不一致性建模能力和边界敏感性,该方法不仅可以更准确地定位篡改区域,而且可以得到更清晰的边界。
高频特征的可视化。为了验证频率特征对篡改检测的有效性,我们使用GradCAM将高频分量和HFE特征可视化,如图6所示。实验结果表明,虽然伪造图像在视觉上是自然的,但在频域上处理后的区域与未处理区域的AUC是可区分的。
局限性
在使用预训练模型评估Columbia上篡改定位的性能时,ObjectFormer在AUC得分方面比PSCCNet低2.7%。可能的原因是他们使用的训练前数据与Columbia数据集中的数据分布非常相似。因此,我们认为这个问题可以通过使用更多的训练前数据来解决。文章来源:https://www.toymoban.com/news/detail-758789.html
总结
介绍了ObjectFormer,一个用于图像篡改检测和定位的端到端多模态框架。为了检测在RGB域中不再可见的细微操纵伪影,ObjectFormer在频域提取伪影特征作为补充信息,进一步与RGB特征相结合,生成多模态patch嵌入。此外,ObjectFormer利用可学习的对象原型作为中层表示,并交替地使用堆叠的对象编码器和补丁解码器更新对象原型和补丁嵌入,以在图像中建模对象级和补丁级的视觉一致性。在不同数据集上的大量实验证明了该方法的有效性。文章来源地址https://www.toymoban.com/news/detail-758789.html
到了这里,关于【论文笔记】ObjectFormer for Image Manipulation Detection and Localization的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!