《Masked Image Training for Generalizable Deep Image Denoising》——CVPR23论文阅读笔记

这篇具有很好参考价值的文章主要介绍了《Masked Image Training for Generalizable Deep Image Denoising》——CVPR23论文阅读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Project page: https://github.com/haoyuc/MaskedDenoising

前提:在捕获和存储图像时,设备不可避免地会引入噪声。减少这种噪声是一项关键任务,称为图像去噪。深度学习已经成为图像去噪的事实方法,尤其是随着基于Transformer的模型的出现,这些模型在各种图像任务上都取得了显著的最新成果。

核心问题:基于深度学习的方法去噪缺乏泛化能力。如何提高深度学习去噪泛化能力,使适应更广泛的场景。

方法:提出一种新的方法来提高去噪网络的泛化性能,称为掩码训练。其包括在训练期间掩蔽输入图像的随机像素并重建丢失的信息,屏蔽了自我注意层中的特征,以避免训练-测试不一致性的影响。

masked image training for generalizable deep image denoising,论文阅读,笔记

该图说明了去噪网络的泛化问题。在σ = 15的高斯噪声上训练SwinIR模型。在相同噪声条件下测试时,SwinIR表现出出色的性能。然而,当应用于分布外噪声时,例如,各种噪音的混合。SwinIR遭受了巨大的性能下降。

在这种场景下,更具体地说,大多数现有的去噪工作在被高斯噪声破坏的图像上训练和评估模型,将它们的性能限制在单个噪声分布上。当这些模型被应用于去除从其他分布中提取的噪声时,它们的性能急剧下降。

近年来,针对深度模型的泛化问题,一些方法假设特定噪声类型的噪声水平是未知的,而另一些方法试图通过合成或收集更接近目标噪声的训练数据或直接对目标噪声执行无监督训练来改善真实世界场景中的性能。然而,这些方法都没有实质性地提高去噪网络的泛化性能,并且当噪声分布不匹配时,它们仍然很难实现。深度去噪的泛化问题仍然对这些方法的广泛应用提出了挑战。

模型在噪声上的表现与训练期间观察到的不同。作者认为深度去噪的泛化问题是由于训练噪声的过拟合。现有的训练策略直接优化去噪图像和地面真实值之间的相似性。这背后的意图是,网络应该学会正确地重建自然图像的纹理和语义。然而,经常被忽视的是,网络也可以简单地通过过拟合噪声模式来减少损失,这比学习图像内容更容易。这是泛化问题的核心。作者的研究试图通过指导深度去噪网络学习图像内容重建而不是过度拟合训练噪声来提高深度去噪网络的泛化性能。从最近的掩蔽建模方法中汲取灵感,采用掩蔽训练策略来显式学习图像内容重建的表示,而不是训练噪声。利用图像处理变换器的特性,引入了两种掩蔽机制:输入掩码和注意力掩码。在训练过程中,输入掩码随机删除输入图像像素,网络重建删除的像素。注意力掩码在Transformer的每个自注意力层中实现,使其能够动态地学习掩码特征的完成,并减轻掩码学习中训练和测试之间的分布偏移。

动机:

masked image training for generalizable deep image denoising,论文阅读,笔记

目标是创建能够推广到训练集中未遇到的噪声的去噪模型。当在大量图像上训练深度网络时,期望网络能够学习从受噪声污染的测试用例中识别自然图像的丰富语义。作者认为去噪模型的泛化能力差是由训练方法造成的,这导致模型专注于过拟合训练噪声,而不是学习图像重建。

使用与自然图像差异很大的图像训练了SwinIR去噪网络,使用高斯噪声合成训练数据对,然后评估模型在具有高斯噪声的自然图像上的性能。根据假设,如果模型从训练集中学习图像语义的内容和重建,它在自然图像上的表现应该不会很好,因为它没有接触过任何图像。如果模型只是过拟合噪声,即使图像不同,模型也可以去除噪声,因为模型主要依赖于检测噪声进行去噪。结果如图所示。很明显,该方法试图从测试自然图像的训练集重建免疫组织化学图像纹理,而不是依赖于噪声过拟合去噪。这证明了这种想法在提高泛化性能方面的潜力。通过在自然图像上训练该方法,它将专注于重建自然图像的内容,这与将深度学习用于低级视觉任务的核心概念相一致。

正如所观察到的,在免疫组织化学图像上训练的SwinIR仍然可以去噪和再现自然图像。这支持了作者关于泛化能力的猜想,表明大多数现有方法通过过拟合训练噪声来进行去噪。因此,当噪声偏离训练条件时,这些模型的去噪性能显著下降。我们的目标是让模型学习图像纹理和结构的重建,而不是只关注噪声

masked image training for generalizable deep image denoising,论文阅读,笔记

在本文中提出了一种新的去噪网络的掩蔽训练策略。在训练过程中,屏蔽掉一部分输入像素,然后训练深度网络来完成它们,如上图所示。强调重建自然的图像纹理和图像中观察到的边缘,而不是过拟合噪声。

模型:

masked image training for generalizable deep image denoising,论文阅读,笔记

首先进行噪声输入,使用1*1卷积层作为特征嵌入模块,1*1卷积层可确保像素在特征嵌入过程中不会相互影响,这有利于后续的掩蔽操作。特征提取进行掩蔽后送入Mask STLB中(4个Mask STLB,每个Mask STLB包含6个Masked STL和1个卷积层),最后一个Mask STLB后也有一个卷积层。

imput mask:随机屏蔽第一个卷积层嵌入的特征令牌,并鼓励网络在训练期间完成屏蔽信息。输入掩码显式地构造了一个非常具有挑战性的修复问题,即使高达90%的像素信息被破坏,网络仍然可以在一定程度上重建目标图像。

给定特征token张量,以概率pIM将token随机替换为[mask token]∈ RC,其中pIM称为输入掩码比。该网络是在重建图像的L1范数和地面实况的监督下训练的。[mask token]可以是可学习的,并可以用0向量初始化。但实际上发现0向量本身已经是一个合适的选择。输入掩码的存在迫使网络学习从非常有限的信息中识别和重建图像的内容。

attention mask:

masked image training for generalizable deep image denoising,论文阅读,笔记

不能仅仅依靠输入掩码操作来构建可用的图像处理网络。因为在测试过程中将输入未损坏的图像以保留足够的信息。此时,由于训练和测试之间的不一致性,网络会倾向于增加输出图像的亮度。例如图中的示例。由于Transformer使用自注意操作来处理空间信息,可以通过在自注意过程中执行相同的掩码操作来缩小训练和测试之间的差距。具体的掩码操作类似于输入掩码,但使用不同的注意掩码比率pAM和[mask token]。当自我注意中的某些标记被屏蔽时,注意操作将适应这些标记的信息不再可靠的事实。自我注意力将集中在每一层中未屏蔽的标记上,并完成屏蔽信息。这种操作很难在卷积网络上实现。上图显示了注意力遮罩的效果。可以看出,注意力掩模成功地使掩蔽的训练网络在未掩蔽的输入图像上工作。

实验:

消融实验

masked image training for generalizable deep image denoising,论文阅读,笔记

表显示了不同输入掩码比的影响,从均匀分布中测试固定比率和随机比率。从实验来看,固定的比率对于训练来说不如从一个范围内随机选择的稳定,并且性能也更差。在75%至85%之间的随机抽样率下,可以实现最佳的定量性能。这是去噪泛化能力和图像细节保留之间的权衡。

masked image training for generalizable deep image denoising,论文阅读,笔记

如图所示,较小的比率不足以让网络学习图像的分布,因为保留了更多的噪声模式。较大的比率提高了模型的泛化能力,因为模型更关注重建。但与此同时,一些图像细节可能会丢失。对于注意掩模比率在表中显示了效果。最佳比例在75%左右。

结果:

不同噪声类型和声级的测试曲线:

masked image training for generalizable deep image denoising,论文阅读,笔记

局限性:

总之,掩码训练方法提供了一种很有前途的方法来提高基于深度学习的图像去噪模型的泛化性能。局限性在于掩码操作不可避免地丢失信息。如何保留更多的细节需要在今后的工作中探索。文章来源地址https://www.toymoban.com/news/detail-840075.html

到了这里,关于《Masked Image Training for Generalizable Deep Image Denoising》——CVPR23论文阅读笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读【自然语言处理-预训练模型2】BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation

    BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension BART: 用于自然语言生成、翻译和理解的去噪序列对序列预训练 【机构】:Facebook AI 【作者】:Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoye

    2024年02月03日
    浏览(34)
  • 【论文精读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    自然语言处理(Natural Language Processing,NLP)领域内的 预训练语言模型 ,包括基于RNN的ELMo和ULMFiT,基于Transformer的OpenAI GPT及Google BERT等。预训练语言模型的成功,证明了我们可以从海量的无标注文本中学到潜在的语义信息,而无需为每一项下游NLP任务单独标注大量训练数据。

    2024年02月14日
    浏览(35)
  • Neural Architecture Search for Deep Image Prior

    论文链接:https://arxiv.org/abs/2001.04776 项目链接:https://github.com/Pol22/NAS_DIP 在最近提出的深度图像先验算法(DIP)下,我们提出了一种神经结构搜索(NAS)技术来提高无监督图像去噪、修复和超分辨率的性能。我们发现,进化搜索可以自动优化DIP网络的编码器-解码器(E-D)结构和元参数

    2024年02月03日
    浏览(29)
  • 论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

    论文地址:https://arxiv.org/pdf/2303.14123.pdf 这是一篇2023年发表在CVPR上的论文,论文题目是Semantic Prompt for Few-Shot Image Recognitio,即用于小样本图像识别的语义提示。 第一,最近几项研究利用 语义信息 来进行小样本学习的研究。 一方面因为通过少量样本去识别新类别很难,就想使

    2024年02月04日
    浏览(34)
  • CVPR2021 | VQGAN+:Taming Transformers for High-Resolution Image Synthesis

    原文标题:Taming Transformers for High-Resolution Image Synthesis 主页: Taming Transformers for High-Resolution Image Synthesis 代码: https://github.com/CompVis/taming-transformers transformer比CNN缺少了归纳偏置和局部性,但是更具表现力,但对于长序列(高分辨率图像),在计算上是不可性的。作者就是解决

    2023年04月08日
    浏览(82)
  • Curricular Contrastive Regularization for Physics-aware Single Image Dehazing (CVPR2023) 论文记录

    原文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Zheng_Curricular_Contrastive_Regularization_for_Physics-Aware_Single_Image_Dehazing_CVPR_2023_paper.pdf 在单幅图像去雾领域,考虑到图像去雾问题的不适定性,Wu 1 提出了对比正则化方法,将负样本图像的信息引入作为下界。(本文主要是基于该方

    2024年02月16日
    浏览(38)
  • 跨模态检索论文阅读:Dissecting Deep Metric Learning Losses for Image-Text Retrieval(GOAL)

    Dissecting Deep Metric Learning Losses for Image-Text Retrieval 剖析图像文本检索中的深度度量学习损失 2022.10 视觉语义嵌入(VSE)是图像-文本检索中的一种流行的应用方法,它通过学习图像和语言模式之间的联合嵌入空间来保留语义的相似性。三元组损失与硬负值的挖掘已经成为大多数

    2024年02月09日
    浏览(24)
  • 【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution

    论文地址:https://doi.org/10.48550/arXiv.2109.14335 单幅图像超分辨率(SISR)是图像处理中的一项重要任务,旨在提高成像系统的分辨率。近年来,在深度学习(DL)的帮助下,SISR取得了巨大的飞跃,并取得了可喜的成果。在本综述中,我们对基于dl的SISR方法进行了概述,并根据重建效率

    2024年02月08日
    浏览(34)
  • 【OpenCV-Python】教程:8-1 图像去噪 Image Denoising

    非局部均值去噪算法去除图像中的噪声。 cv2.fastNlMeansDenoising() , cv2.fastNlMeansDenoisingColored() etc. 在前面的章节中,我们已经看到了许多图像平滑技术,如 高斯模糊,中值模糊 等,它们在一定程度上很好地去除少量的噪声。在这些技术中,我们在像素周围取一个小的邻域,并进

    2024年02月11日
    浏览(28)
  • On Data Scaling in Masked Image Modelin

    论文名称:On Data Scaling in Masked Image Modeling 发表时间:CVPR2023 作者及组织:Zhenda Xie, ZhengZhang, Hu Han等,来自清华,西安交大,微软亚洲研究院。  本文验证SIMMIM无监督预训练方法,是否会出现与NLP类似的拓展法则现象。  这篇论文做了大量的对比实验,因此,先说结论:  

    2024年01月22日
    浏览(24)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包