《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解

这篇具有很好参考价值的文章主要介绍了《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解

领域:用于医学图像的异常检测

论文地址:SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection

1 主要动机

对身体器官的射线扫描结果图片中展示了详细的结构化信息,充分利用这种身体各个部分之间的结构化信息,对检测出身体存在的异常非常重要;

2 主要贡献

  1. 提出了使用空间感知队列来进行图片绘制和检测图片中存在的异常的方法(称为SQUID);
  2. 在两个胸部X射线基准数据集上,本文所提出的SQUID在无监督异常检测方面超过了13种最先进的方法至少5个百分点;
  3. 本文还创建了一个新的数据集(DigitAnatomy),综合了胸部解剖的空间相关性和一致形状;

3 方法概述

3.1 训练过程

提出的模型可以根据递归解剖模式的空间位置对其进行分类,从而动态地维护视觉模式词典。文中指出,由于解剖学的一致性,健康图像中相同的身体区域有望表达相似的视觉模式,这使得异常模式的总数可以限定在一定范围内。

3.2 推理过程

训练过程得到的字典中不存在异常模式,因此,如果在推理时存在异常,那么所生成的射线图像是不符合常理的。

4 方法详述

流程详述
本文提出的方法大致可以总结为如下:
《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解,研1沉淀,医学图像无监督方法异常检测,SQUID,transformer模块编码,记忆队列
首先,将输入图像划分为 N × N N\times N N×N个不重叠的块,并将它们输入编码器进行特征提取。

然后,训练两个生成器来重建原始的图像,重建的同时,创建一个解剖模式字典,并通过一个新的记忆队列动态更新;其中,教师生成器直接使用编码器提取的特征,而学生生成器则使用由绘制块增强的特征;教师生成器和学生生成器通过知识蒸馏的方式进行耦合。

最后,使用鉴别器来评估学生生成器重建得到的图像的真假。

上述过程经过训练之后可以用于检测图像中是否存在缺陷。

4.1 总述

4.1.1 特征提取

特征提取模块可以是任何骨干网络,文中使用了基本的卷积和池化层。

4.1.2 图像重建

文中引入教师T和学生S生成器来重建原始图像。在重建的过程中,解剖模式的字典将被创建并用于动态更新记忆队列。

具体来说,教师生成器使用编码器(使用了自动编码器[1])提取的特征直接重建图像。另一方面,学生生成器使用了在绘制模块中增强的特征。教师和学生生成器通过知识提取范式[2]在所有上采样水平上耦合。学生生成器的目标是根据增强特征重建正常图像,然后将其用于异常判别器中;而教师生成器则是用作防止学生不断生成相同正常图像的正则化器。

4.1.3 异常判别

使用鉴别器来评估生成的图像是真的还是假的,值得注意的是,只有学生生成器进行梯度下降优化,教师生成器和学生生成器鉴别器同时竞争,直到两个生成器在训练过程中收敛。经过训练的鉴别器可用于检测测试图像中的异常。

4.2 将记忆队列用作词典

4.2.1 使用动机

记忆队列经常被用作异常检测任务,为了创造“正常”外观,通过对记忆队列中的相似模式进行加权平均来增强特征。但是这种增强忽略了图像中的空间信息而无法感知解剖图像的一致性。

4.2.2 空间感知记忆机制

因此,为了解决上述存在的模型对空间感知能力不足的问题,将分割的小块patch传入到模型中,这些patch块与原始图像的唯一位置标识符相关联。

同时,文中指出,为了保证位置信息的唯一编码,将每个patch块限制为只能由内存矩阵中的非重叠区域访问。即特定位置的patch快只能访问记忆矩阵中的相应段。如图3所示。
《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解,研1沉淀,医学图像无监督方法异常检测,SQUID,transformer模块编码,记忆队列

4.2.3 内存队列

由于在记忆矩阵中“正常模式”的特征是通过组合矩阵中的学习基础而形成的。但是,这种组合形成的正常特征实际上和实际图像特征之间还存在一定的分布上的差异。

文中为了解决上述的问题,提出了一个内存队列来存储模型训练期间的真实图像特征,从而实现真实分布。在训练期间直接将之前输入的特征复制到队列结构中,经过训练之后,记忆队列用作正常解剖模式的字典。为了验证该说法的准确性,文中还提供了t-SNE可视化图,来验证记忆矩阵中的学习基础(蓝色点)和训练集的实际图像特征(灰色点)的分布不同。从图4中可以看出,内存队列中存储的红色特征点和实际图像特征具有相同的分布。
《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解,研1沉淀,医学图像无监督方法异常检测,SQUID,transformer模块编码,记忆队列

4.2.4 Gumbel shrinkage

文中指出,控制记忆存储中的激活模式的数量对异常检测是有利的。但是,单纯使用topk个存储中的模式进行激活时,存储中剩下的模式将无法进行梯度下降更新。为了实现所有存储中的模式梯度得到更新,文中提出了一个Gumbel收缩模式:
w ′ = s g ( h s ( w , t o p k ( w ) ) − ϕ ( w ) ) + ϕ ( w ) w'=sg(hs(w,topk(w))-\phi(w))+\phi(w) w=sg(hs(w,topk(w))ϕ(w))+ϕ(w)
其中, w w w表示图像特征与存储中的条目之间的相似度, s g ( ⋅ ) sg(\cdot) sg()
表示停止梯度操作算子。 h s ( ⋅ , t ) hs(\cdot,t) hs(,t)表示具有阈值t的硬收缩操作算子, ϕ ( ⋅ ) \phi(\cdot) ϕ()表示Softmax函数。

如此,在前向传播中,Gumbel收缩确保了存储中前k个最相似的条目的组合;在反向传播过程中,Gumbel收缩起到Softmax的作用。在文中提出的框架中,将Gumbel收缩应用于内存队列和内存矩阵。

4.3 公式化基于图像修复的异常检测流程

4.3.1 动机

由于经典的图像恢复工作中会将待修复区域与周围存在的边界伪影相关联,这样恢复出来的图像会使得后期的异常检测不准确。为了解决该问题,文中提出了在图像的特征级别上进行恢复重建。

4.3.2 图像特征级恢复模块

文中将内存队列集成到一个新颖的图像修复块中,以执行图像修复中的特征空间。

该模块从记忆队列开始,该内存队列将 w × h w\times h w×h非重叠patch特征 F ( 1 , 1 ) , . . . , ( w , h ) F_{(1,1),...,(w,h)} F(1,1),...,(w,h)补充为和他们最接近的“正常”特征 N ( 1 , 1 ) , . . . , ( w , h ) N_{(1,1),...,(w,h)} N(1,1),...,(w,h)。由于 N N N是从先前训练数据中提取的特征组合而成的,因此 N N N不受当前输入图像的影响。

为了聚合输入图像的特征,文中使用transformer块来聚合patch特征 F F F和增强后的特征 N N N。详细来说,对于每个patch块 F i , j F_{i,j} Fi,j,其空间上相邻的8个增强的 N ( i − 1 , j − 1 ) , . . . , ( i + 1 , j + 1 ) N_{(i-1,j-1),...,(i+1,j+1)} N(i1,j1),...,(i+1,j+1)被用作细化 F i , j 的条件 F_{i,j}的条件 Fi,j的条件

其中,transformer块中的query token为展平处理之后的 F ( i , j ) ∈ R 1 × ∗ F_{(i,j)}\in R^{1\times *} F(i,j)R1×∗,同时,key/value tokens为 N ( i − 1 , j − ) , . . . , ( i + 1 , j + 1 ) ∈ R 8 × ∗ N_{(i-1,j-),...,(i+1,j+1)}\in R^{8\times *} N(i1,j),...,(i+1,j+1)R8×∗

在上述图像修复模块中,文中还应用了一对额外的 1 × 1 1\times1 1×1卷积。
《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解,研1沉淀,医学图像无监督方法异常检测,SQUID,transformer模块编码,记忆队列

4.3.3 带有掩膜的shortcut快捷连接

文中还在图像恢复模块的开始,对输入的特征添加掩膜之后,直接连接到图像恢复模块中transformer块的输出上,共同作为后边学生重建模块的输入。

文中指出,随即使用二进制掩膜来门控shortcut特征。

总的来说,上述过程可以表示为如下公式:
F ′ = ( 1 − σ ) ⋅ F + σ ⋅ i n p a n t ( F ) F'=(1-\sigma)\cdot F+\sigma \cdot inpant(F) F=(1σ)F+σinpant(F)
其中, i n p a n t ( ⋅ ) inpant(\cdot) inpant()即为上述描述的图像恢复模块。 σ   B e r n o u l l i ( ρ ) \sigma ~ Bernoulli(\rho) σ Bernoulli(ρ),其中 ρ \rho ρ为门控概率。在每个训练步骤得到 F ′ F' F之后,初始的 F F F被复制以更新记忆队列,见图5c。

在推理时,完全禁用shortcut方式, F ′ = i n p a i n t ( F ) F'=inpaint(F) F=inpaint(F)用于确定性的预测。

4.4 异常判别

由于训练的时候使用的只有正常样本特征,那么在推理测试的时候使用的带有异常特征的图像在重建之后,看起来不是很自然,那么这个时候就可以在重建后的图像上定位缺陷点。

文中提出的图像恢复模块专注于将任何patch块特征(正常或异常)增强为类似的“正常”特征。学生生成器根据这些“正常”特征重建“正常”图像,而教师生成器用于防止学生生成与输入无关的相同图像。

那么,经过训练之后,学生生成器得到的重建图像和原始的输入图像之间的语义差异会很小,如果原始输入为正常图像;相反地,如果原始输入为异常图像,那么,语义差异会很大。然后,使用鉴别器网络来感知原始输入和学生生成器重建之后的图像之间的差异,来获得异常点情况。

上述过程可以表示为如下公式形式,一个图像的异常分数 A A A可以通过如下公式获得,其中,编码器、教师生成器、学生生成器和鉴别器分别标记为 E , G t , G s , D E,G_t,G_s,D E,Gt,Gs,D
A = ϕ ( D ( G s ( E ( I ) ) ) − u σ ) A=\phi(\frac{D(G_s(E(I)))-u}{\sigma}) A=ϕ(σD(Gs(E(I)))u)
其中, ϕ ( ⋅ ) \phi(\cdot) ϕ()表示Sigmoid函数, u u u σ \sigma σ分别表示在训练集上计算的异常分数的平均值和标准差。

4.5 损失函数

文中提出的模型使用5个loss函数来进行约束。重建图像与原始输入图像之间的均方误差(MSE)使用在教师生成器和学生生成器之间。
L s L_s Ls L t L_t Lt

同时,使用 L d i s t = ∑ i = 1 l ( F t i − F s i ) 2 L_{dist}=\sum_{i=1}^l(F_t^i-F_s^i)^2 Ldist=i=1l(FtiFsi)2作为教师生成器与学生生成器之间在图像 l l l个特征层上的距离约束函数,其中 l l l表示特征层总数。

此外,文中还是用了类似于DCGAN[3]中间的对抗损失函数去改进学生生成器生成的图像质量。具体来说,使用如下函数:
L g e n = l o g ( 1 − D ( G s ( E ( I ) ) ) ) L_{gen}=log(1-D(G_s(E(I)))) Lgen=log(1D(Gs(E(I))))
鉴别器使得真实图像的平均概率和生成图像的反转概率最大化,使用如下公式:
L d i s = l o g ( D ( I ) ) + l o g ( 1 − D ( G s ( E ( I ) ) ) ) L_{dis}=log(D(I))+log(1-D(G_s(E(I)))) Ldis=log(D(I))+log(1D(Gs(E(I))))

总的来说,基于文中提出模型的5个损失函数,需要最小化生成损失 ( λ t L t + λ s L s + λ d i s t L d i s t + λ g e n L g e n ) (\lambda_tL_t+\lambda_sL_s+\lambda_{dist}L_{dist}+\lambda_{gen}L_{gen}) (λtLt+λsLs+λdistLdist+λgenLgen),同时最大化鉴别损失 ( λ d i s L d i s ) (\lambda_{dis} L_{dis}) (λdisLdis)

5 实验

5.1 数据集

文中使用了自行创建数据集(DigitAnatomy)和公共数据集(ZhangLab Chest X-ray[4]、Stanford CheXpert[5])

5.2 选择的Baselines和评价指标

文中使用13个主要基线与本文提出的模型进行直接比较:Auto-Encoder、VAE;Ganomaly,f-AnoGAN,IF,SALAD;以及MemAE、CutPaste、M-KD、PANDA、PaDiM、IGD。

文中使用标准指标评估性能:受试者工作特征(ROC)曲线、ROC曲线下面积(AUC)、准确度(Acc)和F1分数(F1)。

文中指出,对所有模型都在训练集上从头开始训练3次。

6 实验结果

图6展示了文中提出的SQUID模型与其他基线模型的实验结果对比。其中,使用文中所提出的图像恢复方法在自主创造的数据集上更具有鲁棒性。
《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解,研1沉淀,医学图像无监督方法异常检测,SQUID,transformer模块编码,记忆队列

表1展示了文中所提模型SQUID在公共数据集上与其他基线模型的实验结果对比。
《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解,研1沉淀,医学图像无监督方法异常检测,SQUID,transformer模块编码,记忆队列
图7显示SQUID在两个公共数据集上的ROC曲线,表明文中提出的方法在灵敏度和特异性之间产生了最佳的权衡。
《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解,研1沉淀,医学图像无监督方法异常检测,SQUID,transformer模块编码,记忆队列
图8展示了文中所提模型在两个公共数据集上对正常样本和异常样本进行重建的结果。
《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解,研1沉淀,医学图像无监督方法异常检测,SQUID,transformer模块编码,记忆队列

文章局限性:无法精确定位像素级的异常。只能在图像层面提供分类的AUROC指标。

参考文献

[1] David E Rumelhart, Geoffrey E Hinton, and Ronald J Williams. Learning internal representations by error propagation. Technical report, California Univ San Diego La Jolla Inst for Cognitive Science, 1985. 3
[2] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015. 3
[3] Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434, 2015. 5
[4] Daniel S Kermany, Michael Goldbaum, Wenjia Cai, Carolina CS Valentim, Huiying Liang, Sally L Baxter, Alex McKeown, Ge Yang, Xiaokang Wu, Fangbing Yan, et al. Identifying medical diagnoses and treatable diseases by image-based deep learning. Cell, 172(5):1122–1131, 2018. 2, 6
[5] Jeremy Irvin, Pranav Rajpurkar, Michael Ko, Yifan Yu, Silviana Ciurea-Ilcus, Chris Chute, Henrik Marklund, Behzad Haghgoo, Robyn Ball, Katie Shpanskaya, et al. Chexpert: A large chest radiograph dataset with uncertainty labels and expert comparison. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 590–597, 2019. 2, 6文章来源地址https://www.toymoban.com/news/detail-617832.html

到了这里,关于《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • Generative Cooperative Learning for Unsupervised Video Anomaly Detection 论文阅读

    Generative Cooperative Learning for Unsupervised Video Anomaly Detection 论文阅读

    文章信息: 发表于:CVPR 2022 原文链接:https://openaccess.thecvf.com/content/CVPR2022/papers/Zaheer_Generative_Cooperative_Learning_for_Unsupervised_Video_Anomaly_Detection_CVPR_2022_paper.pdf 视频异常检测在弱监督和单类别分类(OCC)设置下已经得到很好的研究。然而,无监督视频异常检测方法相对较少,可

    2024年01月25日
    浏览(12)
  • 论文解读:(UPL)Unsupervised Prompt Learning for Vision-Language Models

    论文解读:(UPL)Unsupervised Prompt Learning for Vision-Language Models

    存在的问题 之前的来自目标数据集的标记数据(有监督学习)可能会限制可伸缩性。 动机 通过无监督提示学习(UPL)方法,以避免提示工程,同时提高类clip视觉语言模型的迁移性能。 主张top-k而不是top-p 注:top-k是指挑选概率最大的k个,top-p是指挑选预测概率大于p的那些数据 看

    2024年04月23日
    浏览(32)
  • 【论文阅读笔记】UNSUPERVISED REPRESENTATION LEARNING FOR TIME SERIES WITH TEMPORAL NEIGHBORHOOD CODING

     本文提出了一种自监督框架,名为“时间邻域编码”(Temporal Neighborhood Coding,TNC),用于学习非平稳时间序列的可泛化表示。该方法利用信号生成过程的局部平滑性来定义具有平稳性质的时间邻域。通过使用去偏差对比目标,该框架通过确保在编码空间中,来自邻域内的信

    2024年02月21日
    浏览(9)
  • Spectral Adversarial MixUp for Few-Shot Unsupervised Domain Adaptation论文速读

    Spectral Adversarial MixUp for Few-Shot Unsupervised Domain Adaptation论文速读

    域偏移是临床应用中的常见问题,其中训练图像(源域)和测试图像(目标域)处于不同的分布下。已经提出了无监督域适应 (UDA) 技术,以使在源域中训练的模型适应目标域。但是,这些方法需要来自目标域的大量图像进行模型训练。 本文提出了一种新的少样本无监督域

    2024年04月28日
    浏览(11)
  • 【图像拼接/视频拼接】论文精读:Eliminating Warping Shakes for Unsupervised Online Video Stitching(StabStitch)

    第一次来请先看这篇文章:【图像拼接(Image Stitching)】关于【图像拼接论文精读】专栏的相关说明,包含专栏使用说明、创新思路分享等(不定期更新) Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation Adaptive As-Natural-As-Possible Image Stitching Shape-Preserving Half

    2024年03月24日
    浏览(12)
  • Feature Pyramid Networks for object detection

    Feature Pyramid Networks for object detection

    下图中,蓝色边框表示的是特征图, 边框越粗表示该特征图的语义信息越丰富 ,即在特征层次结构中位置越高。 这四个子图展示了如何在不同层级上提取和融合特征,以便于在不同尺度上进行有效的对象检测。 a) Featurized image pyramid (特征化图像金字塔): 这是传统方法,通

    2024年04月10日
    浏览(7)
  • [论文阅读] Revisiting Feature Propagation and Aggregation in Polyp Segmentation

    [论文阅读] Revisiting Feature Propagation and Aggregation in Polyp Segmentation

    [论文地址] [代码] [MICCAI 23] Abstract 息肉的准确分割是筛查过程中有效诊断结直肠癌的关键步骤。 由于能够有效捕获多尺度上下文信息,普遍采用类似UNet 的编码器-解码器框架。 然而,两个主要限制阻碍了网络实现有效的特征传播和聚合。 首先,跳跃连接仅将单个尺度特征传

    2024年02月02日
    浏览(11)
  • 解读 Centralized Feature Pyramid for Object Detection

    解读 Centralized Feature Pyramid for Object Detection

    视觉特征金字塔在广泛的应用中显示出其有效性和效率的优越性。 然而,现有的方法过分地 集中于层间特征交互,而忽略了层内特征规则 ,这是经验证明是有益的。 尽管一些方法试图在注意力机制或视觉变换器的帮助下学习紧凑的层内特征表示,但它们忽略了对密集预测任

    2024年02月04日
    浏览(8)
  • Centralized Feature Pyramid for Object Detection解读

    Centralized Feature Pyramid for Object Detection解读

    主流的特征金字塔集中于层间特征交互,而 忽略了层内特征规则 。尽管一些方法试图在注意力机制或视觉变换器的帮助下学习紧凑的层内特征表示,但它们忽略了对密集预测任务非常重要的被忽略的角点区域。 提出了一种基于全局显式集中式特征规则的中心化特征金字塔(

    2024年02月05日
    浏览(9)
  • 论文阅读《Addressing Confounding Feature Issue for Causal Recommendation》

    论文阅读《Addressing Confounding Feature Issue for Causal Recommendation》

    该文章由中科大的何向南教授发表在TOIS 2022(ccf A类)上。是我目前读过的因果推断推荐相关的文章中细节描述最为详细并且原理介绍详略得当、解释的最合理的一篇文章。如果大家有兴趣的话非常推荐大家进行研读。 在推荐系统中,有一些特性会直接影响交互是否发生,这

    2024年02月02日
    浏览(16)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包