论文笔记：MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes-Toy模板网

这篇具有很好参考价值的文章主要介绍了论文笔记：MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

论文地址：MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes | IEEE Journals & Magazine | IEEE Xploreb

该论文没有公布源码

manet原论文,论文阅读,深度学习,图像处理

废话不多说，这篇文章就目前航天遥感所面对的挑战：场景和物体尺度的剧烈变化，提出了自己的模型。遥感图像变化剧烈主要是因为航拍角度、航拍设备等等引起的，比如你无人机不可能每次拍照片都是一个角度吧，一张照片里面可能包含很多的场景如公园、工业区、湖泊等等，物体尺度就更好理解了，一张图像里面小车子和大楼就属于物体尺度变化太大。

为啥提出这个模型呢，因为目前多尺度信息来训练神经网络是一个大热点，但是你前面多尺度了，后面总得融合吧，那么作者就通过人类感知这一块提出了MANet，模型里面提出了一种类间和类内区域细化（IIRR）方法来减少融合引起的特征冗余。 IIRR 利用具有类内和类间尺度变化的细化图来指导 MS 细粒度特征。不知道的读者不用担心，读到后面你就知道了

manet原论文,论文阅读,深度学习,图像处理 — 这张图里面，（a）是目前的融合方法，直接融合导致之间出现了混淆，就那个三角形状（b）则是作者提出的，IIRR框架能够将他们分开来，通过MCL就能做到很好的融合

接下来讲一下论文的主要方法

一、MS Feature Extraction

这里采用了传统的多尺度方法，中间是原始图像，上下为分别下采样一倍和上采样一倍的图片，公式在下面： manet原论文,论文阅读,深度学习,图像处理

E、G分别是编码层encoder和解码曾deconder，则是编码器的最后一层的特征图，是解码输出，值得注意的是，这三个train网络不共享特征。编码器采用resnet34,解码器采用modified U-Net，对我来说就是传统的U-Net加了点调整

二、Inter-Class and Intra-Class Region Refinement

这是文章的重点之一，他利用逐区域语义分割来指导逐像素语义分割。大家是不是在想什么是逐区域？其实很简单，上面我提到是编码器的最后一层的特征图，那么这特征图是原始图像经过多层卷积等等网络编码后的，感受野是不是增大了，图像是不是变小了，那么每一个像素是不是代表的就是原始图像的一个区域（我是这么理解的）

一般特征提取器只能感知特定范围，太大或太小的陆地物体会使网络产生模糊的特征。作者考虑到类内和类间的尺度变换，直接将类内细化和类间细化建模为DA模块（其实我也没有想到居然能这么做）

接下来我会将一下DA模块是一个什么东西，里面没有讲到关于类内和类间的东西，不知道这个东西的建议先看懂，后面我会解释两者是怎么扯上关系的

DA模块来自于一篇2019年发表于CVPR会议上的论文Dual Attention Network for Scene Segmentation，论文地址为：Dual Attention Network for Scene Segmentation (thecvf.com)

A是原图，经过三个卷积后生成B、C、D，后续操作很简单这里我就不赘叙了

可以看到，通道注意力一个卷积都没有，过于简单我也就不赘叙了

我这里只是简单的介绍一下这个模块，想详细了解可以移步这篇文章：

其实通道注意力就相当于类间注意力，空间注意力就相当于类内注意力。我是这么理解的，语义分割最后不是几个类就输出几个通道吗，一个通道一个类，那么类间注意力不就是通道注意力吗。空间注意力也一样，一个通道里面只有你这一个类，那么类间注意力不就是空间注意力吗。

manet原论文,论文阅读,深度学习,图像处理

这是原文的式子，第二个等式就是类内，第三个就是类间，第一个就是后面两个相加再点乘zs。

其中fR是重塑操作，表示元素乘法，zs是分支的密集logits特征。

这里的C(.)我放在第三部分讲，图中三个C其实是不同的三个分类器，后面会讲为什么不同

三、MS Collaborative Learning

manet原论文,论文阅读,深度学习,图像处理

这里作者定义了三个损失函数。我先讲Parameter Discrepancy Loss,也就是,它能够强制约束三个分类器的参数不一样，以便根据协同训练策略提供不同的视图。 manet原论文,论文阅读,深度学习,图像处理

这个式子中，和分别是两个卷积滤波器的参数，这个loss就能够约束这两个参数不要一样，从而达到三个分类器参数不一样的效果。

后面的特征p是采取三个特征相加得到的，作者对为什么采用相加做出了解释

因为受损失反向传播的影响，限制了模型的多样性，但是后面的自适应损失（Adaptive Rectify Loss）能够做到像素级对不确定进行修正，因此直接相加是一个方便且可行的方法。

manet原论文,论文阅读,深度学习,图像处理

这两张图其实是在建模一个损失，那就是前面提到的自适应损失（Adaptive Rectify Loss）,eq6,7计算了两个特征图（也就是前面提到三个尺度生成的三个特征图）,计算距离度量 D来测量预测两者之间的像素差异。

O则是偏移量，这个则是通过KL散度来计算truth distribution（这里我理解为Ground Truth）和预测图像P的差值

最后O和D做一个点乘即可文章来源地址https://www.toymoban.com/news/detail-763738.html

到了这里，关于论文笔记：MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！