摘要
AR-Net使用自适应注意力机制来融合位置和通道维度的特征,使网络能够充分利用不同维度的被篡改特征,此外,AR-Net 改进了预测掩模,并在 像素级别定位了被篡改的区域和相应的真实区域,在 CASIAII、COVERAGE 和 CoMoFoD 数据集上进行评估的大量实验表明,AR-Net 的性能优于最先进的算法,并且可以在像素级别定位被篡改的区域和相应的真实区域。本文将详细分析AR-Net网络架构
Abstract
AR-Net uses an adaptive attention mechanism to fuse features in the position and channel dimensions, allowing the network to fully utilize tampered features in different dimensions, in addition, AR-Net improves the prediction mask and localizes tampered regions and corresponding true regions at the pixel level, extensive experiments evaluated on the CASIAII, COVERAGE and CoMoFoD datasets show that AR-Net outperforms state-of-the-art algorithms and can localize tampered regions and corresponding real regions at the pixel level. In this paper, we analyze the AR-Net network architecture in detail
AR-Net
文献来源:AR-Net: Adaptive Attention and Residual
Refinement Network for Copy-Move
Forgery Detection
1. 文献摘要
在复制移动伪造中,篡改区域和真实区域的照明和对比度高度一致,本文提出了一种基于自适应注意力和残差细化网络(AR-Net)的端到端神经网络。具体来说,位置和通道注意力特征通过自适应注意力机制融合,以充分捕获上下文信息并丰富特征的表示。其次,采用深度匹配来计算特征图之间的自相关性,并且多孔空间金字塔池化融合缩放的相关图以生成粗掩模。最后,通过残差细化模块对粗掩模进行优化,保留了对象边界的结构。在 CASIAII、COVERAGE 和 CoMoFoD 数据集上进行评估的大量实验表明,AR-Net 的性能优于最先进的算法,并且可以在像素级别定位被篡改的区域和相应的真实区域。此外,AR-Net 对噪声、模糊和 JPEG 重新压缩等后处理操作具有很高的鲁棒性。
2. 研究背景
随着图像编辑工具的快速发展,可以很容易地修改数字图像,从而达到一定程度的真实感。因此,应保护数字图像的真实性和完整性,避免误导性更改、欺诈和版权纠纷。复制移动是图像伪造中最常见的操作,它可以在同一图像中隐藏或添加有意义的对象,复制移动的痕迹也被噪声、模糊、旋转和压缩等隐藏,这使得识别它成为一项非常具有挑战性的任务。
传统的复制移动伪造检测(CMFD)算法可以分为两类:基于重叠块和基于关键点。 基于重叠块计算复杂度高且对几何变换无效。基于关键点的算法提取鲁棒的关键点特征并通过相似性匹配定位篡改区域,对几何变换具有更好的鲁棒性,但是当篡改区域光滑时会失败。
堆叠式自动编码器(SAE) 首先用于执行拼接伪造检测,它学习了每个块的复杂上下文特征,但像素精度较差,环形残差U-Net(RRU-Net) 更好地利用了上下文空间信息,解决了拼接伪造检测的梯度退化问题。
由于CNN很容易发现篡改痕迹。虽然复制移动伪造中源区域和目标区域源自同一图像,但照明和对比度将高度一致,这对基于CNN的CMFD造成更大的挑战。应用 CNN和长短期记忆(LSTM)提取空间特征,对 Detection and localiza-tion of image forgeries using resampling features and deep learning(使用重采样特征和深度学习检测和定位图像伪造) 论文中的特征进行重采样。
在CVPR2018中提出了基于RGB和噪声的双流网络。双流由双线性池层融合,该层在像素级定位因拼接、复制移动和删除而篡改的区域。
BusterNet 是第一个基于 CNN 的专门用于复制移动伪造的框架,其中融合操作和相似性分支来对源和目标篡改区域进行分类和定位,但它不利于检测小的篡改区域。
3. 创新点
CMFD通常指的是"Convolutional Mixture Density
Network",即卷积混合密度网络。这是一种神经网络模型,结合了卷积神经网络(CNN)和混合密度网络(MDN)的特点,用于处理具有多模态输出的回归问题。
在传统的回归问题中,我们通常希望模型输出一个确定的数值作为预测结果。但在某些情况下,输出可能是多个不同的模态(或者说是多个可能的值),例如在生成任务中或者处理不确定性较大的数据时。这时候,传统的回归模型可能无法很好地处理这种多模态输出的情况。
大多数方法在 CMFD 任务中仍然存在缺陷,整体像素之间的相互关系没有很好地建模,并且上下文信息在 BusterNet 中丢失。因此在本文中,作者提出了一种基于自适应注意力和残差细化网络的端到端网络(AR-Net),输入后可以直接得到预测掩模。
- 作者提出了一种新颖的 自适应注意机制 来提取所表示的篡改特征,可以将其添加到任何伪造检测框架中 以提高篡改位置的准确性。
- 作者使用 残差细化模块来优化预测边界 ,从而实现了完整的篡改对象。
通过结合上述两个模块,提出了一种新颖的CMFD网络。实验证明,AR-Net 可以有效检测被篡改的区域和相应的真实区域,并且对于常见的后处理操作非常鲁棒。CCNet 使用交叉注意力来减少参数数量,然而,这些算法仅在单一维度上使用注意力机制,忽略了其他维度的信息。 DANet 虽然采用了多维度的自注意力机制,但它只是简单地融合了多特征,很容易受到单维度特征的影响。
作者利用自注意力机制获得位置和通道维度的注意力图,通过自适应融合方法将它们融合以获得更适合篡改区域检测的注意力图。大多数研究人员都专注于可靠的篡改特征表示,而没有考虑分割图的细化。在本文中,作者提出添加残差细化模块来细化预测的粗掩模,这使得最终掩模保留了对象边界的结构,并提高了篡改区域的准确性。
4. AR-Net 网络架构
作者提出的 AR-Net 在像素级别定位同一图像中的被篡改区域和相应的真实区域。如下图所示,
AR-Net 中有两个主要模块——检测模块和残差细化模块。检测模块由两个主要部分组成:具有自适应注意力的特征提取网络,以及通过自相关和通过空洞空间金字塔池化(ASPP)融合进行的深度匹配。
池化层可以减少网络参数的数量,但会降低空间分辨率。为了丰富深层特征的空间信息并生成高分辨率特征图,我们在第四个卷积层之后采用扩展率为“2”的空洞卷积。
空洞卷积(Dilated Convolution),也称为膨胀卷积,是一种卷积神经网络中的特殊卷积操作,通过在卷积核中引入间隔(或称为膨胀率)来增大感受野,而不改变参数数量的情况下,增加输出特征图的尺寸。空洞卷积可以有效地捕获输入特征图中更大范围的上下文信息,有助于提升网络对于全局信息的理解能力,从而提升模型的性能。文章来源:https://www.toymoban.com/news/detail-849181.html
然后利用自适应注意模块来提取全局特征,如下图所示。作者在位置和通道维度中使用自适应注意机制来捕获全局像素的长程依赖性,突出显示被篡改区域和真实区域之间的差异。
其中 E P = α ( V ∗ A ) + X E_{P}=\alpha(V*A)+X EP=α(V∗A)+X, E C = α ′ ( V ′ ∗ A ′ ) + X E_{C}=\alpha'(V'*A')+X EC=α文章来源地址https://www.toymoban.com/news/detail-849181.html
到了这里,关于AR-Net网络(图像篡改检测)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!