Deep Frequency Filtering for Domain Generalization论文阅读笔记

这篇具有很好参考价值的文章主要介绍了Deep Frequency Filtering for Domain Generalization论文阅读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Deep Frequency Filtering for Domain Generalization论文阅读笔记

这是CVPR2023的一篇论文,讲的是在频域做domain generalization,找到频域中generalizable的分量enhance它,suppress那些影响generalization的分量

  • DG是一个研究模型泛化性的领域,尝试通过各自方法使得模型在未见过的测试集上有良好的泛化性。
  • intro部分指出,低频分量更好泛化,而高频分量的拟合则是泛化性和准确率的trade off,当对高频分量拟合得更好,在相同domain的测试集上准确率会越高,但是在不同domian的测试集上准确率则下降。我的理解是,不同domain的差别在高频分量上是很复杂的,从而使得对高频分量进行拟合降低了泛化性。而低频分量上的差距主要是亮度上的差距,总体来说是比较简单的线性映射,很容易泛化。但也有例外,low-light image enhancement主要处理的应该就是低频分量的泛化吧,还得通过实验确定。

方法部分

  • 文章的模型基于Fast Fourier Convolution(FFC)进行修改

  • related works的第二段介绍了很多基于频率域的研究,有时间可以集中看一看

  • 对空间域特征图做傅里叶变换,然后再进行处理,网络结构图如下:
    Deep Frequency Filtering for Domain Generalization论文阅读笔记

  • 首先上述的网络结构图仅仅是示意,并非最终的网络结构图。文章把设计的DFF Module用到了FFC的网络结构上。首先,经过傅里叶变换后的特征图先用1x1的卷积、BN和ReLU处理特征,得到embedding,然后用一个简单的注意力机制提取注意力图,并把得到的注意力图复制到不同的channel和embedding进行element-wise地相乘,得到了最终的频域输出,再反傅里叶变换变回空间域特征。

  • 有两点要注意的,一是注意力机制是可以换的,文章只是用了最简单的注意力机制,先做通道上的maxpooling和average pooling得到两通道的特征图,然后做7x7的卷积接一个sigmoid得到注意力图。二是,从图上看起来好像你一直空间域频率域变来变去有点笨比,一直在频率域处理不就行了,是因为这个图只是示意图,最终其实是在FFC的网络结构上的,这个网络结构是two-branch的,有空间域的卷积也有频率域的卷积,所以才需要一直变来变去。

  • FFC的网络结构大概是这样的,可以直接在普通的卷积神经网络上修改而成(如resnet),文章认为傅里叶频域的特征是全局特征,所以把特征图按通道分了两个branch,一个branch是全局特征branch,一个branch是局部特征branch,然后全局特征branch用傅里叶卷积处理(其实就是先傅里叶变换再卷积再反傅里叶变换),局部特征branch则用普通卷积。同时,还有两个branch之间的交互,交互的处理用普通卷积,因此大概就是如下公式(四个f中3个是普通卷积一个是傅里叶卷积,l是local,g是global):
    Deep Frequency Filtering for Domain Generalization论文阅读笔记

  • 网络的训练则是用了DG的训练方式,两个loss,一个是要预测正确的domain,一个是要预测正确的label(分类任务)

实验部分

  • 实验设置:衡量DG的性能一般是在某个任务上找一些不同domain的数据集,比如N个数据集,选其中N-1个作为训练集,第N个作为测试集,衡量在测试集上的性能。文章选的是两个任务,一个是分类任务,一个是行人重识别任务,
  • 可以看到,消融实验部分,相比FFC,加了DDF的确实是有提高,而且频率域的才有提高也说明了模块确实是按设想的在工作:
    Deep Frequency Filtering for Domain Generalization论文阅读笔记

Deep Frequency Filtering for Domain Generalization论文阅读笔记文章来源地址https://www.toymoban.com/news/detail-465746.html

  • 还有一个实验,作者可视化了attention map,发现确实如前面所说,低频的注意力比较高,高频的注意力比较低:
    Deep Frequency Filtering for Domain Generalization论文阅读笔记

到了这里,关于Deep Frequency Filtering for Domain Generalization论文阅读笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】Deep learning for unmanned aerial vehicles detection: A review.

    Al-lQubaydhi, N., Alenezi, A., Alanazi, T., Senyor, A., Alanezi, N., Alotaibi, B., Alotaibi, M., Razaque, A., Hariri, S. (2024). Deep learning for unmanned aerial vehicles detection: A review. Computer Science Review, 51(100614), 100614. https://doi.org/10.1016/j.cosrev.2023.100614 深度学习用于无人机检测:综述。 摘要: 无人机作为一种新

    2024年01月16日
    浏览(31)
  • 【论文阅读】ELA: Efficient Local Attention for Deep Convolutional Neural Networks

    论文链接 :ELA: Efficient Local Attention for Deep Convolutional Neural Networks (arxiv.org) 作者 :Wei Xu, Yi Wan 单位 :兰州大学信息科学与工程学院,青海省物联网重点实验室,青海师范大学 引用 :Xu W, Wan Y. ELA: Efficient Local Attention for Deep Convolutional Neural Networks[J]. arXiv preprint arXiv:2403.01123,

    2024年04月15日
    浏览(36)
  • 《Masked Image Training for Generalizable Deep Image Denoising》——CVPR23论文阅读笔记

    Project page: https://github.com/haoyuc/MaskedDenoising 前提:在捕获和存储图像时,设备不可避免地会引入噪声。减少这种噪声是一项关键任务,称为图像去噪。深度学习已经成为图像去噪的事实方法,尤其是随着基于Transformer的模型的出现,这些模型在各种图像任务上都取得了显著的最

    2024年03月15日
    浏览(46)
  • 【论文阅读】Multi-ConDoS: Multimodal Contrastive Domain Sharing Generative Adversarial Networks for Self-S

    paper:Multi-ConDoS: Multimodal Contrastive Domain Sharing Generative Adversarial Networks for Self-Supervised Medical Image Segmentation         现有的自监督医学图像分割通常会遇到域偏移问题(也就是说,预训练的输入分布不同于微调的输入分布)和/或多模态问题(也就是说,它仅基于单模态数据,无法利

    2024年02月03日
    浏览(29)
  • 零知识证明论文阅读---Blockchain-Assisted Transparent Cross-Domain Authorization and Authentication for Smart

    系统由五类实体组成: Identity committee members (ICMs) , Identity issuers (IIs) , Identity holders (IHs) , Identity verifiers (IVs) , Identity auditor (IA) 。详细的介绍可以阅读这篇论文 Blockchain-Assisted Transparent Cross-Domain Authorization and Authentication for Smart City Service Entity Registration Identity Issuers Registration 在

    2024年01月16日
    浏览(31)
  • 【论文阅读】A Deep Behavior Path Matching Network for Click-ThroughRate Prediction

    用于点击率预测的深度行为路径匹配网络 用户在电子商务应用程序上的行为不仅包含对商品的各种反馈,有时还隐含着用户决策的认知线索。为了解用户决策背后的心理过程,我们提出了行为路径,并建议将用户当前行为路径与历史行为路径相匹配,以预测用户在应用程序上

    2024年03月28日
    浏览(35)
  • 《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解

    对身体器官的射线扫描结果图片中展示了详细的结构化信息,充分利用这种身体各个部分之间的结构化信息,对检测出身体存在的异常非常重要; 提出了使用空间感知队列来进行图片绘制和检测图片中存在的异常的方法(称为SQUID); 在两个胸部X射线基准数据集上,本文所

    2024年02月15日
    浏览(28)
  • 论文阅读《thanking frequency fordeepfake detection》

    项目链接:https://github.com/yyk-wew/F3Net 这篇论文从频域的角度出发,提出了频域感知模型用于deepfake检测的模型 整体架构图: 1.FAD: 频域感知分解,其实就是利用DCT变换,将空间域转换为频域,变换后的图像低频信息在左上角,高频信息在右下角,同时高频表示细粒度的伪造痕

    2024年02月20日
    浏览(24)
  • 【论文阅读】D2Match: Leveraging Deep Learning and Degeneracy for Subgraph Matching

    Xuanzhou Liu, Lin Zhang, Jiaqi Sun, Yujiu Yang, and Haiqin Yang. 2023. D2Match: leveraging deep learning and degeneracy for subgraph matching. In Proceedings of the 40th International Conference on Machine Learning (ICML’23), Vol. 202. JMLR.org, Article 933, 22454–22472. 子图匹配是基于图的应用程序的基本组成部分,由于其高阶组合特

    2024年02月03日
    浏览(29)
  • 论文阅读:Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

    要弄清MAML 怎么做,为什么这么做 ,就要看懂这两张图。 先说MAML**在做什么?**它是打着Mate-Learing的旗号干的是few-shot multi-task Learning的事情。具体而言就是想训练一个模型能够使用很少的新样本,快速适应新的任务。 我们定义一个模型 f f f , 输入 x x x 输出 a a a 。 -定义每一

    2024年02月11日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包