【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing-Toy模板网

这篇具有很好参考价值的文章主要介绍了【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

CAT-Net:用于图像拼接检测和定位的压缩伪迹跟踪网络
发布于WACV2021
代码链接：https://github.com/mjkwon2021/CAT-Net

摘要

检测和定位图像拼接已经成为打击恶意伪造的重要手段。局部拼接区域的一个主要挑战是区分真实和篡改的区域的固有属性，如压缩伪迹。我们提出了CAT-Net，一个包含RGB和DCT流的端到端全卷积神经网络，以共同学习RGB和DCT域压缩伪影的取证特征。每个流考虑多重分辨率来处理拼接对象的各种形状和大小。DCT流在双JPEG检测时被预先训练以利用JPEG伪影。该方法在JPEG或非JPEG图像的局部拼接区域的定位上优于最先进的神经网络。

引言

给定一个可能被拼接的图像(图1©)，我们的目标是生成一个掩码来定位可能被篡改的图像部分(图1(d))。为了区分拼接区域和真实区域，重要的是分析相机或图像编辑软件内部处理引起的统计指纹(如传感器图案噪声、彩色滤波器阵列的插值迹、压缩伪影等)。现代数码相机通常压缩图像以减少存储空间，JPEG压缩由于其效率，在大多数情况下被使用。然而，由于信息丢失，这会生成各种JPEG伪迹，尽管它们通常是肉眼不可见的。因此，分析JPEG压缩构件可以帮助定位伪造区域。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
双JPEG检测，即，确定一个JPEG图像是否被压缩了一两次，可以帮助识别拼接伪造。与真实区域相比，拼接到另一幅图像上的区域在y通道上的DCT系数分布可能有统计学上的差异(图2)。真实区域被双重压缩:首先在相机中，然后作为伪造的一部分再次压缩，在直方图中留下周期性的模式。拼接区域的行为类似于单个压缩，位于次级量化表之后。传统上，DCT直方图被用来检测双JPEG压缩。即使在深度学习时代，深度神经网络也倾向于要求将经过预处理的直方图作为输入，因为与像素不同，由于DCT系数去相关性较大，天真地给出DCT系数作为输入通常效果不佳。由于使用直方图，所有这些方法都产生小块预测。因此，我们采用DCT系数的二值体表示来获得像素预测，这最初是为隐写分析设计的。这允许将语义分割网络与双JPEG检测概念相结合，提供像素级预测。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉

本文提出压缩伪迹跟踪网络(CAT-Net)，一种端到端的全卷积神经网络，用于检测和定位拼接区域。该网络包括RGB流、DCT流和最终融合阶段。RGB流学习视觉伪影，DCT流学习压缩伪影(即DCT系数分布)。我们预训练DCT流用于双JPEG检测，并使用它作为拼接定位的初始化。融合阶段融合来自两个流的多个分辨率特征，生成最终的掩模。

主要贡献

CAT-Net首次结合RGB和DCT域对拼接对象进行局部定位。使用不同基准数据集进行的大量实验表明，与基线相比，CAT-Net取得了最先进的性能，并且对于JPEG和非JPEG图像具有稳定的性能。
设计了DCT流来学习压缩伪迹，这些伪迹是基于DCT系数的二进制体积表示来跟踪双压缩线索的。在检测双JPEG压缩方面，该方法优于使用直方图表示的最先进的网络。

提出的方法

网络结构

图3显示CAT-Net由RGB流、DCT流和最终融合阶段组成。从JPEG文件输入中提取RGB像素值、量化的y通道DCT系数和y通道量化表。RGB像素值被送入RGB流，其他数据被送入DCT流。RGB流专注于视觉线索，而DCT流专注于压缩伪影。然后将流输出融合生成最终输出。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
我使用HRNet作为CAT-Net的backbone，它最初是为计算机视觉问题而设计的。我们将HRNet引入到取证问题中，因为它在整个过程中保持了高分辨率的表示，并采用了一种新的融合方法来结合多个分辨率特征并捕获整体图像。这有助于在不丢失取证调查所需的精细伪影的情况下捕捉整体结构。此外，HRNet使用步长为2的卷积来下采样特征图，而不使用池化层。最近的研究表明，对于需要微妙信号的任务来说，池化是不可取的，因为池化强化了内容并抑制了类似噪声的信号。虽然这种行为对计算机视觉任务是可取的，但它不适合取证任务，因为噪声是一个重要的线索。

该网络包括两个要素：卷积单元和融合单元。图3中的每个卷积单元由图4（a）中所示的四个连续基本块组成，只有少数例外，如第一部分和最后一部分。图4（b）示出了融合单元，其在通过双线性内插（上采样）或步长卷积（下采样）匹配分辨率之后通过对多分辨率特征求和来融合多分辨率特征图。

【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
RGB流结构与HRNet相同，只是删除了最后一部分。RGB流采用RGB像素值作为输入，并且第一卷积单元将分辨率降低4倍。从高分辨率路径开始，逐步经历由高到低逐个添加分辨率路径、多分辨率路径并联的网络。每个决议保留到最后，产生1/4、1/8、1/16和1/32个决议。

DCT流捕获压缩伪影，即y通道DCT系数的统计分布。该结构是HRNet的三分辨率变体，其中第一个卷积单元被JPEG伪迹学习模块替换(图5)。该流中的所有卷积单元都由四个基本块组成(图4(a))，无一例外。JPEG伪迹学习模块首先使用f: ZH×W→{0,1}(T+1)×H×W转换DCT系数的输入数组M为一个二进制体积，即
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
其中clip(·)将数组元素剪辑到区间[−T, T]，而abs(·)是元素的绝对值。我们通过实验确定最佳的T值为20。这种二值体表示类似于DCT直方图，但允许网络学习相邻DCT系数之间的关系。DCT直方图以小块的方式合并信息，而这种表示方式保持了适合于分割的图像分辨率。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
对二进制体应用连续卷积。这里使用的是扩展卷积，它原本是为了增加CNN的感受野而设计的。然而，本文提出的网络使用8-扩展卷积，以提取相同频率基衍生的DCT系数中的特征。通过1 × 1卷积，feature map通道的数量减少到4个，feature map是分叉的。对于分叉的路径，将JPEG报头得到的8 × 8量化表乘以相应的频率分量。这类似于JPEG解码中DCT系数的去量化过程。对于另一条路径，表不相乘。两个路径的每个64 (= 8 × 8)频率分量被分离。注意，前面的操作是按频率进行的，因此8 × 8块中的每个值代表一个频率分量。分离组件的形状从4 ×H ×W变为256 × h/8 × w/8，大大降低了分辨率。最后，在该模块中，将两条路径的特征映射进行通道维级联。输出传递DCT流的剩余路径。

在训练过程中，将输入图像裁剪成固定的尺寸以构造一个具有批处理维的张量。值得注意的是，矩形裁剪区域必须与8 × 8网格对齐，因为JPEG将图像编码为8 × 8块。这使得通道分离张量的每个通道代表一个频率分量。这也允许RGB流学习JPEG阻塞工件和可视化工件。输出特征图的分辨率分别为(1/4,1/8,1/16,1/32)和(1/8,1/16,1/32)的RGB和DCT流。两流特征映射在通道维度上按分辨率级联，并传递到最终融合阶段(图3)，其结构与最终HRNet阶段相同，但通道数量不同。所有四个分辨率特征图最终都以双线性提前上采样，以匹配最高分辨率，并连接，并通过最后的卷积层。最终的输出是每一类的2 × H/4 × w/4对数数组(真实的和篡改的)。

处理非JPEG图像

虽然我们的网络使用量化表作为输入，但网络也可以处理非JPEG图像。由于非JPEG图像不包含量化的DCT系数，它们是从RGB像素计算出来的，类似于JPEG编码器。我们认为这些图像的量化表都是1，对应JPEG质量为100。为了实现一个简单的实现，我们在网络前端放置了一个JPEG编码器，并使用质量因子100将非JPEG图像压缩为JPEG图像，而不使用色度子采样。这将自动创建量化的DCT系数和一个全为1的量化表。

这是基于压缩假设的:虽然拼接的图像以未压缩的图像格式保存，但用于拼接伪造的两个源(真实)图像在获取过程中最初在相机中压缩。处理后的图像的文件扩展名无关紧要，也就是说，我们不假设伪造者以特定格式保存伪造的图像。

双JPEG检测的训练

DCT流权值通过双JPEG检测的预训练初始化。任务是对给定的JPEG图像是否被压缩过一次或两次进行分类。图6显示了分类头被附加在DCT流的末尾，因为这是一个二元分类任务。关于此任务的预训练有助于流捕获丰富的压缩伪迹。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
我们在包含1.054M单压缩和双压缩JPEG图像的数据集上训练和测试DCT流，该数据集具有混合质量参数。他们使用1120个量化表压缩的原始图像，其中不仅包括51个标准表(Q50-Q100)，还包括从公共取证web服务中请求的图像获得的非标准表。表1显示了本文提出的DCT流(93.93%)的双JPEG检测性能，与基线相比，这是最先进的性能。虽然我们使用的系数范围更小，但我们提出的网络优于使用直方图的最先进的神经网络。因此，对于双JPEG检测，二进制体表示是DCT直方图的一个很好的替代方案。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
我们也研究了没有量化表乘法的网络，以评估使用量化表的有效性。这与原始DCT流的不同之处在于，图5中的量化表路径和连接被删除了。使用量化表提高了双JPEG检测精度。因此，我们首次采用量化表进行伪造定位。

实验

数据集

表2总结了实验中使用的拼接数据集。我们还首次报告了y通道量化表的数量。使用各种量化表(包括标准表和自定义表)来模拟真实世界的伪造。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
使用CASIA v2 (auth./tamp.)、Fantastic Reality (auth./tamp.)、IMD2020 (tamp.)和Spliced COCO (tamp.)作为训练集;剩下的数据集只用于测试。表2中最右边的一列显示了用于测试的图像数量。与之前的图像伪造定位研究相比，我们也使用了真实的图像。我们希望这能帮助网络学习篡改区域和真实区域之间的绝对边界，而不是相对边界来预测每幅图像中最可疑的区域。

实现细节

我们对RGB流进行ImageNet分类的预训练，对DCT流进行双JPEG分类，从而初始化网络的权值。为了更好地处理数据集大小的多样性，我们在每个数据集中采样了均衡数量的图像来构造一个epoch。训练图像被裁剪成512×512补丁，并与8×8网格对齐。使用全分辨率图像进行测试，这是可能的，因为所提出的网络是完全卷积的。

评价指标

mIoU、p-mIoU衡量篡改图像，像素精度Acc(G,P)、p-Acc(G,P)来检测真实图像。

结果

【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
表3和表4分别显示了测试拼接和完全不可见图像的结果。我们测试了ManTra-Net和EXIF的一致性，以将CAT-Net与当前最先进的图像处理检测器进行比较。这两个网络的结果只报告完全看不见的数据集，以确保公平比较。我们还报告了用于消融研究的两个CAT-Net子流的性能，并对JPEG压缩进行了鲁棒性测试(图7)。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
图8和9显示了一些典型的预测结果。

表4和图8显示，与目前最先进的神经网络相比，CAT-Net在几乎所有的数据集上在真实和篡改的图像表现都要好。比较网络总是检测到一些区域被篡改，因为它们是异常检测器，即使是真实的图像。然而，由于CAT-Net是一个分割模型，并且我们在训练中使用了真实的图像，因此产生的假阳性较少。对于被篡改的图像，CAT-Net和其他网络之间的差异要大得多。因此，即使压缩了伪造图像，如NC16拼接，CAT-Net也能非常有效地跟踪精细轨迹。因此，CAT-Net在检测和定位真实世界图像拼接伪造方面取得了最先进的性能。

表3、4和图9显示了RGB流和DCT流互补配合提高网络性能。例如，在Carvalho(tamp.)中，DCT流表现更好;而在NC16 Splicing(tamp.)中，RGB流表现更好。在这两种情况下，全网络表现最好。如4.1节所述，Columbia违反了压缩假设。在这里，DCT流不能很好地预测，因为图像在开始时没有压缩，没有留下压缩伪影。然而，在RGB流的帮助下，全网络(CAT-Net)在这个数据集上表现良好。

图7显示了使用质量系数60-90压缩Columbia和Carvalho对JPEG压缩的鲁棒性。当应用额外的压缩时，Columbia的三种网络性能都降低了，因为它是由两个不同的摄像机在没有压缩的情况下进行拼接的。在Carvalho中，额外的压缩肯定会降低性能，但变化较小，因为图像有初始压缩痕迹，这有助于网络检测拼接的对象。CAT-Net在各种质量因素上都取得了良好的性能。

总结

提出了对给定图像上的拼接区域进行定位的CAT-Net。CAT-Net首次尝试同时考虑RGB和DCT域，从而有效地学习通过RGB和DCT流保留在每个域的视觉和压缩伪影的取证特征。特别是DCT流，包含JPEG工件学习模块，在检测双JPEG压缩时取得了出色的性能。我们首次将迁移学习从双JPEG检测任务应用到图像伪造定位任务中。这有助于网络区分拼接区域和真实区域之间的统计指纹。与目前的网络相比，CAT-Net在不同数据集上实现了JPEG或非JPEG图像的局部拼接区域的最先进的性能。文章来源地址https://www.toymoban.com/news/detail-689049.html

到了这里，关于【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！