【论文阅读】DQnet: Cross-Model Detail Querying for Camouflaged Object Detection

这篇具有很好参考价值的文章主要介绍了【论文阅读】DQnet: Cross-Model Detail Querying for Camouflaged Object Detection。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

DQnet: Cross-Model Detail Querying for Camouflaged Object Detection

DQnet:伪装目标检测中的跨模型细节查询

论文地址:https://arxiv.org/abs/2212.08296

这篇文章提出了一个交叉模型框架(CNN-Transformer并行)来检测伪装目标

出发点还是:CNN局部感知,感受野受限 ,Transformer全局信息丰富但细节信息不足。希望结合二者优势

这个思路目前做的挺多的,不算是很新颖,很多图像分割方向的都有这样做的

最主要的创新还是作者提出了一个 Relation-Based Querying (RBQ) module

下面详细解释下:

整体框架如图所示,这个图画的不是很清楚

整体框架分为两个分支左边是ViT,也就是Transformer分支,右边的ResNet,也就是CNN分支

关于Transformer和CNN的优缺点,作者给出的说法是:

Transformer将图像块投影到向量中,导致局部细节的丢失。同时Transformer编码器能够获得准确的全局感知信息。

CNN中卷积核在具有重叠的特征图上滑动,这保留了细粒度的局部细节,但缺乏获得连续语义的能力。

将这两者结合在一起,使得特征提取器不仅可以继承全局信息,还可以弥补ViT的缺陷(缺乏空间归纳偏置)

所以关键问题就是如何结合CNN和Transformer的特征

作者说他们设计了一种多尺度细节查询机制(multi-scale detail querying mechanism),以交互的方式消除这两种特征之间的不一致。

【论文阅读】DQnet: Cross-Model Detail Querying for Camouflaged Object Detection,# 论文阅读,论文阅读,目标检测,人工智能

具体做法就是,首先讲ResNet提取的特征与Transformer做对齐,就是图中右侧的Alignment

具体地说,特征图首先需要通过最大池化下采样来将空间尺度与ViT patch embeddings对齐。然后使用1x1卷积来完成通道维度对齐,然后使用LayerNorm层来正则化特征。

对齐之后的特征送入RBQ模块,从RBQ出来的特征,再用同样的方法去与ResNet对齐, 再送入ResNet下一层继续运算

这里注意一个问题

ViT的大小是不变的,ResNet则是金字塔结构的(也就是每一层尺寸不一),所以确定在哪个位置进行对齐是一个重要的问题。

本文所提出的对齐机制是在ResNet四个阶段每个阶段的开始。

下面说下RBQ Relation-Based Querying.

作者说,传统方法,直接使用逐元素相加来融合对齐的特征。然而他们认为,在COD场景中,低级细节和高级语义的直接融合可能会导致细粒度的细节很容易被周围的上下文信息淹没的现象。

所以他们采用的方法是:通过计算两种特征的逐像素关系并将基于关系的结果添加到原始融合中,来弥合跨模型的语义差距。

如何计算关系呢,作者说他们使用基window-based cross attention来推理空间相邻元素之间的逐像素关系。

具体来说就是ResNet的特征记作Y,ViT的特征记作Z。然后Q由Z产生,K和V由Y产生

下面这个图画的很清楚,得到的QKV就做正常的多头自注意力就好了,然后每一层的输出是由这一层的ViT特征+ResNet特征+RBQ的结果得到的。做法还是蛮简单的。

【论文阅读】DQnet: Cross-Model Detail Querying for Camouflaged Object Detection,# 论文阅读,论文阅读,目标检测,人工智能

最后说下loss

主要还是用的wBCE Loss和wIoU

作者加了个SAL Significance Aware Loss

感觉说的不是很清楚,贴个图看下吧。
【论文阅读】DQnet: Cross-Model Detail Querying for Camouflaged Object Detection,# 论文阅读,论文阅读,目标检测,人工智能文章来源地址https://www.toymoban.com/news/detail-599826.html

到了这里,关于【论文阅读】DQnet: Cross-Model Detail Querying for Camouflaged Object Detection的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • DUET: Cross-Modal Semantic Grounding for Contrastive Zero-Shot Learning论文阅读

    原文链接: https://ojs.aaai.org/index.php/AAAI/article/view/25114/24886 该论文设计了一种 新的零样本学习范式,通过迁移语言模型中的先验语义知识,与视觉模型的特征感知能力进行对齐,以增强后者对于未见过图像的识别能力。 零样本学习(ZSL)旨在预测在训练期间从未出现样本的未

    2024年01月17日
    浏览(51)
  • 论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment

    Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment 这篇文章的主要内容是关于多模态语义理解的研究,特别是通过对比学习进行跨模态特征对齐的方法。文章提出了一种新的CLIP(Contrastive Language-Image Pre-training)引导的对比学习方法,用于多模态特征对齐(CLFA,

    2024年04月11日
    浏览(37)
  • 论文阅读 - Few-shot Network Anomaly Detection via Cross-network Meta-learning

    论文链接:https://arxiv.org/pdf/2102.11165.pdf   目录 摘要: 引言 问题定义 方法 Graph Deviation Networks Cross-network Meta-learning         网络异常检测旨在找到与绝大多数行为显着不同的网络元素(例如节点、边、子图)。它对从金融、医疗保健到社交网络分析等各种应用产生了深远

    2024年02月14日
    浏览(49)
  • ChatGLM基座:GLM(General Language Model)论文阅读笔记

    现在有很多Pretrain model 的架构, 如Bert、GPT、T5等,但是当时没有一种模型能在NLU、有条件文本生成、无条件文本生成都有很好的表现。 一般预训练模型架构分为三种:自回归(GPT系列)、自编码(Bert系列)、编码器-解码器(T5)。 作者概述了它们目前存在的问题·: GPT:单

    2024年02月02日
    浏览(42)
  • 【论文阅读】 Model Sparsity Can Simplify Machine Unlearning

    Machine Unlearning(MU)是指出于对数据隐私保护的目的以及对\\\"RTBF\\\"(right to be forgotten)等数据保护方案的响应,而提出的一种数据遗忘的方法。在现实中,用户有权请求数据收集者删除其个人数据,但是仅将用户数据从数据集中删除是不够的。 原因:对model的攻击,比如成员推

    2024年02月12日
    浏览(40)
  • 零知识证明论文阅读---Blockchain-Assisted Transparent Cross-Domain Authorization and Authentication for Smart

    系统由五类实体组成: Identity committee members (ICMs) , Identity issuers (IIs) , Identity holders (IHs) , Identity verifiers (IVs) , Identity auditor (IA) 。详细的介绍可以阅读这篇论文 Blockchain-Assisted Transparent Cross-Domain Authorization and Authentication for Smart City Service Entity Registration Identity Issuers Registration 在

    2024年01月16日
    浏览(44)
  • 论文阅读 - Learning Human Interactions with the Influence Model

    NIPS\\\'01 早期模型 要求知识背景: 似然函数,极大似然估计、HMM、期望最大化 目录 1 Introduction 2 The Facilitator Room 3 T h e I n f l u e n c e M o d e l 3 . 1 ( R e ) i n t r o d u c i n g t h e I n f l u e n c e M o d e l 3 . 2 L e a r n i n g f o r t h e I n f l u e n c e M o d e l 3. 2. 1 期望——影响力最大化模型 3

    2024年02月07日
    浏览(46)
  • 论文阅读:TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章内容阅读

    论文标题: TinySAM: 极致高效的分割一切模型 论文地址:https://arxiv.org/pdf/2312.13789.pdf 代码地址(pytorch):https://github.com/xinghaochen/TinySAM 详细论文解读:TinySAM:极致高效压缩,手机就能实时跑的分割一切模型 - 知乎 (zhihu.com)  目录 文章内容解析  概括 文章的观点 技术创新解

    2024年01月17日
    浏览(50)
  • 论文阅读--EFFICIENT OFFLINE POLICY OPTIMIZATION WITH A LEARNED MODEL

    作者:Zichen Liu, Siyi Li, Wee Sun Lee, Shuicheng YAN, Zhongwen Xu 论文链接:Efficient Offline Policy Optimization with a Learned Model | OpenReview 发表时间:  ICLR   2023年1月21日  代码链接:https://github.com/sail-sg/rosmo MuZero的离线版本算法(MuZero Unplugged)为基于日志数据的离线策略学习提供了一种很

    2024年02月03日
    浏览(51)
  • 论文阅读《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》

    就上一篇博客如何写论文、读(分享汇报)论文,在《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》进行实践。 《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》是一篇由Mingxing Tan和Quoc V. Le等人于2019年提出的论文,主要关注卷积神经网络(CNN)的模型缩

    2024年02月03日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包