【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing

这篇具有很好参考价值的文章主要介绍了【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

CAT-Net:用于图像拼接检测和定位的压缩伪迹跟踪网络
发布于WACV2021
代码链接:https://github.com/mjkwon2021/CAT-Net

摘要

检测和定位图像拼接已经成为打击恶意伪造的重要手段。局部拼接区域的一个主要挑战是区分真实和篡改的区域的固有属性,如压缩伪迹。我们提出了CAT-Net,一个包含RGB和DCT流的端到端全卷积神经网络,以共同学习RGB和DCT域压缩伪影的取证特征。每个流考虑多重分辨率来处理拼接对象的各种形状和大小。DCT流在双JPEG检测时被预先训练以利用JPEG伪影。该方法在JPEG或非JPEG图像的局部拼接区域的定位上优于最先进的神经网络。

引言

给定一个可能被拼接的图像(图1©),我们的目标是生成一个掩码来定位可能被篡改的图像部分(图1(d))。为了区分拼接区域和真实区域,重要的是分析相机或图像编辑软件内部处理引起的统计指纹(如传感器图案噪声、彩色滤波器阵列的插值迹、压缩伪影等)。现代数码相机通常压缩图像以减少存储空间,JPEG压缩由于其效率,在大多数情况下被使用。然而,由于信息丢失,这会生成各种JPEG伪迹,尽管它们通常是肉眼不可见的。因此,分析JPEG压缩构件可以帮助定位伪造区域。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
双JPEG检测,即,确定一个JPEG图像是否被压缩了一两次,可以帮助识别拼接伪造。与真实区域相比,拼接到另一幅图像上的区域在y通道上的DCT系数分布可能有统计学上的差异(图2)。真实区域被双重压缩:首先在相机中,然后作为伪造的一部分再次压缩,在直方图中留下周期性的模式。拼接区域的行为类似于单个压缩,位于次级量化表之后。传统上,DCT直方图被用来检测双JPEG压缩。即使在深度学习时代,深度神经网络也倾向于要求将经过预处理的直方图作为输入,因为与像素不同,由于DCT系数去相关性较大,天真地给出DCT系数作为输入通常效果不佳。由于使用直方图,所有这些方法都产生小块预测。因此,我们采用DCT系数的二值体表示来获得像素预测,这最初是为隐写分析设计的。这允许将语义分割网络与双JPEG检测概念相结合,提供像素级预测。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉

本文提出压缩伪迹跟踪网络(CAT-Net),一种端到端的全卷积神经网络,用于检测和定位拼接区域。该网络包括RGB流、DCT流和最终融合阶段。RGB流学习视觉伪影,DCT流学习压缩伪影(即DCT系数分布)。我们预训练DCT流用于双JPEG检测,并使用它作为拼接定位的初始化。融合阶段融合来自两个流的多个分辨率特征,生成最终的掩模

主要贡献

  • CAT-Net首次结合RGB和DCT域对拼接对象进行局部定位。使用不同基准数据集进行的大量实验表明,与基线相比,CAT-Net取得了最先进的性能,并且对于JPEG和非JPEG图像具有稳定的性能。
  • 设计了DCT流来学习压缩伪迹,这些伪迹是基于DCT系数的二进制体积表示来跟踪双压缩线索的。在检测双JPEG压缩方面,该方法优于使用直方图表示的最先进的网络。

相关工作

图像伪造定位方法可分为分块分类、补丁匹配和端到端神经网络方法。

按块分类发现了使用每个块分类进行特定操作的伪造分布,例如双重JPEG压缩、图像重采样、对比度增强和多次操作。将图像分割成几个固定大小的块,对操作区域进行定位,并对每个块的检测结果进行组合。对每个块进行独立的检测,因此不能得到整体的图像统计数据。

块匹配从图像块中提取统计特征,并度量块之间的一致性。高度不一致的补丁被认为是被操作过的(例如,从另一个图像拼接)。预定义的特征提取器或神经网络用于提取合适的特征进行匹配。Huh et al.提出了一种自监督的方法来训练模型,以确定图像在EXIF元数据方面是否一致。但是,块匹配定位需要对每个块对计算一致性,并且通过聚合所有块对的结果来得到实际的伪造位置,需要花费大量的时间进行后期处理

神经网络极大地改进了目标检测和语义分割的性能,因此使用这些技术开发了图像伪造定位方法。在RGB-N中,将SRM内核添加到对象检测模型中,提取拼接、复制-移动和删除伪造的边界框。Bi等人提出了一种基于U-Net的分割网络来对图像拼接进行定位。它与一般的语义分割网络一样,只使用RGB像素域信息。Wu et al.利用SRM核进行特征提取,利用约束卷积进行像素级异常检测,提出ManTraNet尽管他们认为JPEG压缩是一种训练特征提取器的操作,但它无法区分单个和双JPEG压缩。因此,JPEG图像的定位性能降低。

我们提出了一种新的方法来检测和定位JPEG图像上的图像拼接,克服了以往工作的局限性。为了快速推理和像素预测,我们采用了一个考虑多分辨率特征的分割网络。为了使网络对JPEG压缩具有鲁棒性,我们利用量化DCT系数的二值体表示在DCT域提取JPEG伪图像。

提出的方法

网络结构

图3显示CAT-Net由RGB流、DCT流和最终融合阶段组成。从JPEG文件输入中提取RGB像素值、量化的y通道DCT系数和y通道量化表。RGB像素值被送入RGB流,其他数据被送入DCT流。RGB流专注于视觉线索,而DCT流专注于压缩伪影。然后将流输出融合生成最终输出。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
我使用HRNet作为CAT-Net的backbone,它最初是为计算机视觉问题而设计的。我们将HRNet引入到取证问题中,因为它在整个过程中保持了高分辨率的表示,并采用了一种新的融合方法来结合多个分辨率特征并捕获整体图像。这有助于在不丢失取证调查所需的精细伪影的情况下捕捉整体结构。此外,HRNet使用步长为2的卷积来下采样特征图,而不使用池化层。最近的研究表明,对于需要微妙信号的任务来说,池化是不可取的,因为池化强化了内容并抑制了类似噪声的信号。虽然这种行为对计算机视觉任务是可取的,但它不适合取证任务,因为噪声是一个重要的线索。

该网络包括两个要素:卷积单元和融合单元。图3中的每个卷积单元由图4(a)中所示的四个连续基本块组成,只有少数例外,如第一部分和最后一部分。图4(b)示出了融合单元,其在通过双线性内插(上采样)或步长卷积(下采样)匹配分辨率之后通过对多分辨率特征求和来融合多分辨率特征图。

【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
RGB流结构与HRNet相同,只是删除了最后一部分。RGB流采用RGB像素值作为输入,并且第一卷积单元将分辨率降低4倍。从高分辨率路径开始,逐步经历由高到低逐个添加分辨率路径、多分辨率路径并联的网络。每个决议保留到最后,产生1/4、1/8、1/16和1/32个决议。

DCT流捕获压缩伪影,即y通道DCT系数的统计分布。该结构是HRNet的三分辨率变体,其中第一个卷积单元被JPEG伪迹学习模块替换(图5)。该流中的所有卷积单元都由四个基本块组成(图4(a)),无一例外。JPEG伪迹学习模块首先使用f: ZH×W→{0,1}(T+1)×H×W转换DCT系数的输入数组M为一个二进制体积,即
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
其中clip(·)将数组元素剪辑到区间[−T, T],而abs(·)是元素的绝对值。我们通过实验确定最佳的T值为20。这种二值体表示类似于DCT直方图,但允许网络学习相邻DCT系数之间的关系。DCT直方图以小块的方式合并信息,而这种表示方式保持了适合于分割的图像分辨率。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
对二进制体应用连续卷积。这里使用的是扩展卷积,它原本是为了增加CNN的感受野而设计的。然而,本文提出的网络使用8-扩展卷积,以提取相同频率基衍生的DCT系数中的特征。通过1 × 1卷积,feature map通道的数量减少到4个,feature map是分叉的。对于分叉的路径,将JPEG报头得到的8 × 8量化表乘以相应的频率分量。这类似于JPEG解码中DCT系数的去量化过程。对于另一条路径,表不相乘。两个路径的每个64 (= 8 × 8)频率分量被分离。注意,前面的操作是按频率进行的,因此8 × 8块中的每个值代表一个频率分量。分离组件的形状从4 ×H ×W变为256 × h/8 × w/8,大大降低了分辨率。最后,在该模块中,将两条路径的特征映射进行通道维级联。输出传递DCT流的剩余路径。

在训练过程中,将输入图像裁剪成固定的尺寸以构造一个具有批处理维的张量。值得注意的是,矩形裁剪区域必须与8 × 8网格对齐,因为JPEG将图像编码为8 × 8块。这使得通道分离张量的每个通道代表一个频率分量。这也允许RGB流学习JPEG阻塞工件和可视化工件。输出特征图的分辨率分别为(1/4,1/8,1/16,1/32)和(1/8,1/16,1/32)的RGB和DCT流。两流特征映射在通道维度上按分辨率级联,并传递到最终融合阶段(图3),其结构与最终HRNet阶段相同,但通道数量不同。所有四个分辨率特征图最终都以双线性提前上采样,以匹配最高分辨率,并连接,并通过最后的卷积层。最终的输出是每一类的2 × H/4 × w/4对数数组(真实的和篡改的)。

处理非JPEG图像

虽然我们的网络使用量化表作为输入,但网络也可以处理非JPEG图像。由于非JPEG图像不包含量化的DCT系数,它们是从RGB像素计算出来的,类似于JPEG编码器。我们认为这些图像的量化表都是1,对应JPEG质量为100。为了实现一个简单的实现,我们在网络前端放置了一个JPEG编码器,并使用质量因子100将非JPEG图像压缩为JPEG图像,而不使用色度子采样。这将自动创建量化的DCT系数和一个全为1的量化表。

这是基于压缩假设的:虽然拼接的图像以未压缩的图像格式保存,但用于拼接伪造的两个源(真实)图像在获取过程中最初在相机中压缩。处理后的图像的文件扩展名无关紧要,也就是说,我们不假设伪造者以特定格式保存伪造的图像。

双JPEG检测的训练

DCT流权值通过双JPEG检测的预训练初始化。任务是对给定的JPEG图像是否被压缩过一次或两次进行分类。图6显示了分类头被附加在DCT流的末尾,因为这是一个二元分类任务。关于此任务的预训练有助于流捕获丰富的压缩伪迹。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
我们在包含1.054M单压缩和双压缩JPEG图像的数据集上训练和测试DCT流,该数据集具有混合质量参数。他们使用1120个量化表压缩的原始图像,其中不仅包括51个标准表(Q50-Q100),还包括从公共取证web服务中请求的图像获得的非标准表。表1显示了本文提出的DCT流(93.93%)的双JPEG检测性能,与基线相比,这是最先进的性能。虽然我们使用的系数范围更小,但我们提出的网络优于使用直方图的最先进的神经网络。因此,对于双JPEG检测,二进制体表示是DCT直方图的一个很好的替代方案。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
我们也研究了没有量化表乘法的网络,以评估使用量化表的有效性。这与原始DCT流的不同之处在于,图5中的量化表路径和连接被删除了。使用量化表提高了双JPEG检测精度。因此,我们首次采用量化表进行伪造定位。

实验

数据集

表2总结了实验中使用的拼接数据集。我们还首次报告了y通道量化表的数量。使用各种量化表(包括标准表和自定义表)来模拟真实世界的伪造。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
使用CASIA v2 (auth./tamp.)、Fantastic Reality (auth./tamp.)、IMD2020 (tamp.)和Spliced COCO (tamp.)作为训练集;剩下的数据集只用于测试。表2中最右边的一列显示了用于测试的图像数量。与之前的图像伪造定位研究相比,我们也使用了真实的图像。我们希望这能帮助网络学习篡改区域和真实区域之间的绝对边界,而不是相对边界来预测每幅图像中最可疑的区域。

实现细节

我们对RGB流进行ImageNet分类的预训练,对DCT流进行双JPEG分类,从而初始化网络的权值。为了更好地处理数据集大小的多样性,我们在每个数据集中采样了均衡数量的图像来构造一个epoch。训练图像被裁剪成512×512补丁,并与8×8网格对齐。使用全分辨率图像进行测试,这是可能的,因为所提出的网络是完全卷积的。

评价指标

mIoU、p-mIoU衡量篡改图像,像素精度Acc(G,P)、p-Acc(G,P)来检测真实图像。

结果

【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
表3和表4分别显示了测试拼接和完全不可见图像的结果。我们测试了ManTra-Net和EXIF的一致性,以将CAT-Net与当前最先进的图像处理检测器进行比较。这两个网络的结果只报告完全看不见的数据集,以确保公平比较。我们还报告了用于消融研究的两个CAT-Net子流的性能,并对JPEG压缩进行了鲁棒性测试(图7)。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
图8和9显示了一些典型的预测结果。
【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing,篡改检测论文阅读,论文阅读,计算机视觉
表4和图8显示,与目前最先进的神经网络相比,CAT-Net在几乎所有的数据集上在真实和篡改的图像表现都要好。比较网络总是检测到一些区域被篡改,因为它们是异常检测器,即使是真实的图像。然而,由于CAT-Net是一个分割模型,并且我们在训练中使用了真实的图像,因此产生的假阳性较少。对于被篡改的图像,CAT-Net和其他网络之间的差异要大得多。因此,即使压缩了伪造图像,如NC16拼接,CAT-Net也能非常有效地跟踪精细轨迹。因此,CAT-Net在检测和定位真实世界图像拼接伪造方面取得了最先进的性能。

表3、4和图9显示了RGB流和DCT流互补配合提高网络性能。例如,在Carvalho(tamp.)中,DCT流表现更好;而在NC16 Splicing(tamp.)中,RGB流表现更好。在这两种情况下,全网络表现最好。如4.1节所述,Columbia违反了压缩假设。在这里,DCT流不能很好地预测,因为图像在开始时没有压缩,没有留下压缩伪影。然而,在RGB流的帮助下,全网络(CAT-Net)在这个数据集上表现良好。

图7显示了使用质量系数60-90压缩Columbia和Carvalho对JPEG压缩的鲁棒性。当应用额外的压缩时,Columbia的三种网络性能都降低了,因为它是由两个不同的摄像机在没有压缩的情况下进行拼接的。在Carvalho中,额外的压缩肯定会降低性能,但变化较小,因为图像有初始压缩痕迹,这有助于网络检测拼接的对象。CAT-Net在各种质量因素上都取得了良好的性能。

总结

提出了对给定图像上的拼接区域进行定位的CAT-Net。CAT-Net首次尝试同时考虑RGB和DCT域,从而有效地学习通过RGB和DCT流保留在每个域的视觉和压缩伪影的取证特征。特别是DCT流,包含JPEG工件学习模块,在检测双JPEG压缩时取得了出色的性能。我们首次将迁移学习从双JPEG检测任务应用到图像伪造定位任务中。这有助于网络区分拼接区域和真实区域之间的统计指纹。与目前的网络相比,CAT-Net在不同数据集上实现了JPEG或非JPEG图像的局部拼接区域的最先进的性能。文章来源地址https://www.toymoban.com/news/detail-689049.html

到了这里,关于【论文笔记】CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文笔记】《Learning Deconvolution Network for Semantic Segmentation》

    重要说明: 严格来说,论文所指的反卷积并不是真正的 deconvolution network 。 关于 deconvolution network 的详细介绍,请参考另一篇博客:什么是Deconvolutional Network? Learning Deconvolution Network for Semantic Segmentation deconvolution network 是卷积网络( convolution network ) 的镜像,由反卷积层( dec

    2024年02月20日
    浏览(30)
  • 论文笔记--Distilling the Knowledge in a Neural Network

    标题:Distilling the Knowledge in a Neural Network 作者:Hinton, Geoffrey, Oriol Vinyals, Jeff Dean 日期:2015 期刊:arxiv   文章提出了一种将大模型压缩的新的思路:蒸馏distillation。通过蒸馏,可以将很大的模型压缩为轻量级的模型,从而提升推理阶段的速率。   随着模型的参数量越来越

    2024年02月15日
    浏览(34)
  • 【论文笔记】KDD2019 | KGAT: Knowledge Graph Attention Network for Recommendation

    为了更好的推荐,不仅要对user-item交互进行建模,还要将关系信息考虑进来 传统方法因子分解机将每个交互都当作一个独立的实例,但是忽略了item之间的关系(eg:一部电影的导演也是另一部电影的演员) 高阶关系:用一个/多个链接属性连接两个item KG+user-item graph+high orde

    2024年02月16日
    浏览(30)
  • Lightening Network for Low-Light Image Enhancement 论文阅读笔记

    这是2022年TIP期刊的一篇有监督暗图增强的文章 网络结构如图所示: LBP的网络结构如下: 有点绕,其基于的理论如下。就是说,普通的暗图增强就只是走下图的L1红箭头,从暗图估计一个亮图。但是其实这个亮图和真实的亮图还是有一些差距,怎么弥补呢,可以再进一步学习

    2024年02月16日
    浏览(35)
  • 【论文阅读笔记】PraNet: Parallel Reverse Attention Network for Polyp Segmentation

    PraNet: Parallel Reverse Attention Network for Polyp Segmentation PraNet:用于息肉分割的并行反向注意力网络 2020年发表在MICCAI Paper Code 结肠镜检查是检测结直肠息肉的有效技术,结直肠息肉与结直肠癌高度相关。在临床实践中,从结肠镜图像中分割息肉是非常重要的,因为它为诊断和手术

    2024年01月20日
    浏览(43)
  • 论文笔记:Traffic Flow Prediction via Spatial Temporal Graph Neural Network

    WWW 2020 图神经网络+图注意力——空间依赖关系 RNN+Transformer——短期长期依赖关系 缺点:运用RNN于较长序列仍然会带来误差积累,并且RNN模型的运算效率并不高   

    2024年02月12日
    浏览(32)
  • END-TO-END OPTIMIZED IMAGE COMPRESSION论文阅读

    END-TO-END OPTIMIZED IMAGE COMPRESSION 单词 image compression 图像压缩 quantizer 量化器 rate–distortion performance率失真性能 a variant of 什么什么的一个变体 construct 构造 entropy 熵 discrete value 离散值 摘要: We describe an image compression method, consisting of a nonlinear analysis transformation, a uniform quantizer,

    2024年02月12日
    浏览(39)
  • Cross-Drone Transformer Network for Robust Single Object Tracking论文阅读笔记

    无人机在各种应用中得到了广泛使用,例如航拍和军事安全,这得益于它们与固定摄像机相比的高机动性和广阔视野。多 无人机追踪系统可以通过从不同视角收集互补的视频片段 ,为目标提供丰富的信息,特别是当目标在某些视角中被遮挡或消失时。然而,在多无人机视觉

    2024年01月25日
    浏览(47)
  • 论文笔记:Adaptive Graph Spatial-Temporal Transformer Network for Traffic Flow Forecasting

    论文地址 空间图中一个节点对另一个节点的影响可以跨越多个时间步,分别处理空间维度和时间维度数据的方法对直接建模 跨时空效应 可能是无效的。(在图形建模过程中需要考虑这种跨时空效应) 以前的工作通常使用从距离度量或其他地理联系构建的预定图结构,并使用

    2023年04月08日
    浏览(31)
  • 论文笔记:DCRNN (Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting)

    ICLR 2018 交通预测是一项具有挑战的任务 对道路网络的复杂空间依赖性 随道路条件变化的非线性时间动态 长期预测的固有困难 ——将交通流建模为有向图上的扩散过程 ——引入扩散卷积递归神经网络 (DCRNN) 使用图上的双向随机游走来捕获空间依赖性 使用具有计划采样(sc

    2024年02月01日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包