论文笔记:MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes

这篇具有很好参考价值的文章主要介绍了论文笔记:MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文地址:MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes | IEEE Journals & Magazine | IEEE Xploreb

该论文没有公布源码

manet原论文,论文阅读,深度学习,图像处理

废话不多说,这篇文章就目前航天遥感所面对的挑战:场景和物体尺度的剧烈变化,提出了自己的模型。遥感图像变化剧烈主要是因为航拍角度、航拍设备等等引起的,比如你无人机不可能每次拍照片都是一个角度吧,一张照片里面可能包含很多的场景如公园、工业区、湖泊等等,物体尺度就更好理解了,一张图像里面小车子和大楼就属于物体尺度变化太大。

为啥提出这个模型呢,因为目前多尺度信息来训练神经网络是一个大热点,但是你前面多尺度了,后面总得融合吧,那么作者就通过人类感知这一块提出了MANet,模型里面提出了一种类间和类内区域细化(IIRR)方法来减少融合引起的特征冗余。 IIRR 利用具有类内和类间尺度变化的细化图来指导 MS 细粒度特征。不知道的读者不用担心,读到后面你就知道了

manet原论文,论文阅读,深度学习,图像处理
这张图里面,(a)是目前的融合方法,直接融合导致之间出现了混淆,就那个三角形状(b)则是作者提出的,IIRR框架能够将他们分开来,通过MCL就能做到很好的融合
manet原论文,论文阅读,深度学习,图像处理
这是网络的总框图,后续我会把模块截图出来单独讲

接下来讲一下论文的主要方法

一、MS Feature Extraction

manet原论文,论文阅读,深度学习,图像处理
这是特征提取模块

这里采用了传统的多尺度方法,中间是原始图像,上下为分别下采样一倍和上采样一倍的图片,公式在下面:manet原论文,论文阅读,深度学习,图像处理

E、G分别是编码层encoder和解码曾deconder,则是编码器的最后一层的特征图,是解码输出,值得注意的是,这三个train网络不共享特征。编码器采用resnet34,解码器采用modified U-Net,对我来说就是传统的U-Net加了点调整

二、Inter-Class and Intra-Class Region Refinement

这是文章的重点之一,他利用逐区域语义分割来指导逐像素语义分割。大家是不是在想什么是逐区域?其实很简单,上面我提到是编码器的最后一层的特征图,那么这特征图是原始图像经过多层卷积等等网络编码后的,感受野是不是增大了,图像是不是变小了,那么每一个像素是不是代表的就是原始图像的一个区域(我是这么理解的)

manet原论文,论文阅读,深度学习,图像处理
左图绿线为逐区域,是不是指向区域为框框;蓝线为逐像素;右图则是类内和类间的例子

一般特征提取器只能感知特定范围,太大或太小的陆地物体会使网络产生模糊的特征。作者考虑到类内和类间的尺度变换,直接将类内细化和类间细化建模为DA模块(其实我也没有想到居然能这么做)

接下来我会将一下DA模块是一个什么东西,里面没有讲到关于类内和类间的东西,不知道这个东西的建议先看懂,后面我会解释两者是怎么扯上关系的

DA模块来自于一篇2019年发表于CVPR会议上的论文Dual Attention Network for Scene Segmentation,论文地址为:Dual Attention Network for Scene Segmentation (thecvf.com)

manet原论文,论文阅读,深度学习,图像处理
这是DA模块的主要框图,分为空间和提到注意力模块
manet原论文,论文阅读,深度学习,图像处理
空间注意力模块

A是原图,经过三个卷积后生成B、C、D,后续操作很简单这里我就不赘叙了

manet原论文,论文阅读,深度学习,图像处理
通道注意力模块

可以看到,通道注意力一个卷积都没有,过于简单我也就不赘叙了

我这里只是简单的介绍一下这个模块,想详细了解可以移步这篇文章:

其实通道注意力就相当于类间注意力,空间注意力就相当于类内注意力。我是这么理解的,语义分割最后不是几个类就输出几个通道吗,一个通道一个类,那么类间注意力不就是通道注意力吗。空间注意力也一样,一个通道里面只有你这一个类,那么类间注意力不就是空间注意力吗。

manet原论文,论文阅读,深度学习,图像处理
IIRR

manet原论文,论文阅读,深度学习,图像处理

这是原文的式子,第二个等式就是类内,第三个就是类间,第一个就是后面两个相加再点乘zs。

其中fR是重塑操作,表示元素乘法,zs是分支的密集logits特征。

这里的C(.)我放在第三部分讲,图中三个C其实是不同的三个分类器,后面会讲为什么不同

三、MS Collaborative Learning

manet原论文,论文阅读,深度学习,图像处理

这里作者定义了三个损失函数。我先讲Parameter Discrepancy Loss,也就是,它能够强制约束三个分类器的参数不一样,以便根据协同训练策略提供不同的视图。manet原论文,论文阅读,深度学习,图像处理

这个式子中,和分别是两个卷积滤波器的参数,这个loss就能够约束这两个参数不要一样,从而达到三个分类器参数不一样的效果。

后面的特征p是采取三个特征相加得到的,作者对为什么采用相加做出了解释

因为受损失反向传播的影响,限制了模型的多样性,但是后面的自适应损失(Adaptive Rectify Loss)能够做到像素级对不确定进行修正,因此直接相加是一个方便且可行的方法。

manet原论文,论文阅读,深度学习,图像处理manet原论文,论文阅读,深度学习,图像处理

manet原论文,论文阅读,深度学习,图像处理

这两张图其实是在建模一个损失,那就是前面提到的自适应损失(Adaptive Rectify Loss),eq6,7计算了两个特征图(也就是前面提到三个尺度生成的三个特征图),计算距离度量 D来测量预测两者之间的像素差异。

O则是偏移量,这个则是通过KL散度来计算truth distribution(这里我理解为Ground Truth)和预测图像P的差值

最后O和D做一个点乘即可文章来源地址https://www.toymoban.com/news/detail-763738.html

到了这里,关于论文笔记:MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Res2Net: 一种新的多尺度主干体系结构(Res2Net: A New Multi-scale Backbone Architecture )

    如图1所示,视觉模式在自然场景中以多尺度出现。首先, 对象可以在单个图像中以不同的尺寸 出现,例如,沙发和杯子具有不同的尺寸。其次, 对象的基本上下文信息可能比对象本身占据更大的区域 。例如,我们需要依靠大桌子作为上下文,以更好地判断放置在桌子上的

    2024年02月13日
    浏览(39)
  • 论文阅读笔记—— AdvFilter: Predictive Perturbation-aware Filtering against Adversarial Attack via Multi-d L

    来源:ACM MM 2021 作者:Yihao Huang1, Qing Guo2†, Felix Juefei-Xu3, Lei Ma4, Weikai Miao1, Yang Liu2,5, Geguang Pu1 单位:1East China Normal University, China 2Nanyang Technological University, Singapore 3Alibaba Group, USA 4University of Alberta, Canada 5 Zhejiang Sci-Tech University, China 邮箱:Yihao Huang’s email: huangyihao22@gmail.com ;

    2024年02月01日
    浏览(30)
  • 论文阅读-《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》

     目录 一、总述 1. 要解决的问题 2. 使用的方法 3. 取得的成果 二、摘要 三、介绍 四、相关工作 五、高分辨率网络 1. HigherHRNet i. HRNet ii. HigherHRNet 2. 分组 3. 反卷积模块 4. 多分辨率监督 5. 热图聚合策略 六、实验 1. COCO数据集关键点预测 2. 消融实验 3. CrowdPose 七、结论      

    2024年04月12日
    浏览(39)
  • 【论文简述】Multi-View Stereo Representation Revisit: Region-Aware MVSNet(CVPR 2023)

    1. 第一作者: Yisu Zhang 2. 发表年份: 2023 3. 发表期刊: CVPR 4. : MVS、3D重建、符号距离场 5. 探索动机: 像素深度估计仍存在两个棘手的缺陷。一是无纹理区域的估计置信度较低。二是物体边界附近的许多异常值。这主要是因为表面通常被视为一组不相关的采样点,而

    2024年02月10日
    浏览(41)
  • 【论文阅读】Automated Runtime-Aware Scheduling for Multi-Tenant DNN Inference on GPU

    该论文发布在 ICCAD’21 会议。该会议是EDA领域的顶级会议。 Author Hardware Problem Perspective Algorithm/Strategy Improvment/Achievement Fuxun Yu GPU Resource under-utilization Contention SW Scheduling Operator-level scheduling ML-based scheduling auto-search Reduced inference makespan Fuxun Yu 是一名来自微软的研究员。主要研究

    2024年01月24日
    浏览(31)
  • 【ICCV2023】Scale-Aware Modulation Meet Transformer

    论文:https://arxiv.org/abs/2307.08579 代码:https://github.com/AFeng-x/SMT 解读:ICCV2023 | 当尺度感知调制遇上Transformer,会碰撞出怎样的火花? - 知乎 (zhihu.com) 本文提出了一种新的视觉变换器——尺度感知调制变换器(Scale-Aware Modulation Transformer, SMT),通过将CNN和ViT相结合,可以有效

    2024年02月15日
    浏览(33)
  • YOLOV7改进-空洞卷积+共享权重的Scale-Aware RFE

    代码 1、先把文件复制到common.py中 2、yolo.py添加类名 3、下半部分进行添加修改 4、cfg-training:新建配置文件 加了一行,后面对于序号+1 5、这里选择12层替代

    2024年02月09日
    浏览(24)
  • 论文阅读笔记—— Multi-attentional Deepfake Detection

    来源:CVPR 2021 作者:Hanqing Zhao1 Wenbo Zhou1,† Dongdong Chen2 Tianyi Wei1 Weiming Zhang1,† Nenghai Yu1 单位:University of Science and Technology of China1 Microsoft Cloud AI2 邮箱:{zhq2015@mail, welbeckz@, bestwty@mail, zhangwm@, ynh@}.ustc.edu.cn cddlyf@gmail.com 论文原地址:Multi-attentional Deepfake Detection DF大多二分类 人

    2024年02月22日
    浏览(43)
  • 【论文阅读笔记】Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues

    Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues 频率思考:基于频率感知线索的人脸伪造检测 2020年发表在ECCV上。 Paper Code 随着人脸仿真伪造技术的发展,社会对这些技术可能被恶意滥用的担忧引发了人脸伪造检测的研究。然而,这是非常具有挑战性的,因为最近

    2024年02月21日
    浏览(29)
  • 【自监督论文阅读笔记】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

            本文推出了 EVA ,这是一个 以视觉为中心 的基础模型,旨在仅使用可公开访问的数据来 探索大规模 视觉表示的 局限性 。EVA 是一种经过预训练的普通 ViT,用于 重建 以可见图像块为条件的 屏蔽掉的 图像-文本对齐(image-text aligned)的视觉特征 。通过这个前置任

    2024年02月06日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包