论文地址:MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes | IEEE Journals & Magazine | IEEE Xploreb
该论文没有公布源码
废话不多说,这篇文章就目前航天遥感所面对的挑战:场景和物体尺度的剧烈变化,提出了自己的模型。遥感图像变化剧烈主要是因为航拍角度、航拍设备等等引起的,比如你无人机不可能每次拍照片都是一个角度吧,一张照片里面可能包含很多的场景如公园、工业区、湖泊等等,物体尺度就更好理解了,一张图像里面小车子和大楼就属于物体尺度变化太大。
为啥提出这个模型呢,因为目前多尺度信息来训练神经网络是一个大热点,但是你前面多尺度了,后面总得融合吧,那么作者就通过人类感知这一块提出了MANet,模型里面提出了一种类间和类内区域细化(IIRR)方法来减少融合引起的特征冗余。 IIRR 利用具有类内和类间尺度变化的细化图来指导 MS 细粒度特征。不知道的读者不用担心,读到后面你就知道了
接下来讲一下论文的主要方法
一、MS Feature Extraction
这里采用了传统的多尺度方法,中间是原始图像,上下为分别下采样一倍和上采样一倍的图片,公式在下面:
E、G分别是编码层encoder和解码曾deconder,则是编码器的最后一层的特征图,是解码输出,值得注意的是,这三个train网络不共享特征。编码器采用resnet34,解码器采用modified U-Net,对我来说就是传统的U-Net加了点调整
二、Inter-Class and Intra-Class Region Refinement
这是文章的重点之一,他利用逐区域语义分割来指导逐像素语义分割。大家是不是在想什么是逐区域?其实很简单,上面我提到是编码器的最后一层的特征图,那么这特征图是原始图像经过多层卷积等等网络编码后的,感受野是不是增大了,图像是不是变小了,那么每一个像素是不是代表的就是原始图像的一个区域(我是这么理解的)
一般特征提取器只能感知特定范围,太大或太小的陆地物体会使网络产生模糊的特征。作者考虑到类内和类间的尺度变换,直接将类内细化和类间细化建模为DA模块(其实我也没有想到居然能这么做)
接下来我会将一下DA模块是一个什么东西,里面没有讲到关于类内和类间的东西,不知道这个东西的建议先看懂,后面我会解释两者是怎么扯上关系的
DA模块来自于一篇2019年发表于CVPR会议上的论文Dual Attention Network for Scene Segmentation,论文地址为:Dual Attention Network for Scene Segmentation (thecvf.com)
A是原图,经过三个卷积后生成B、C、D,后续操作很简单这里我就不赘叙了
可以看到,通道注意力一个卷积都没有,过于简单我也就不赘叙了
我这里只是简单的介绍一下这个模块,想详细了解可以移步这篇文章:
其实通道注意力就相当于类间注意力,空间注意力就相当于类内注意力。我是这么理解的,语义分割最后不是几个类就输出几个通道吗,一个通道一个类,那么类间注意力不就是通道注意力吗。空间注意力也一样,一个通道里面只有你这一个类,那么类间注意力不就是空间注意力吗。
这是原文的式子,第二个等式就是类内,第三个就是类间,第一个就是后面两个相加再点乘zs。
其中fR是重塑操作,表示元素乘法,zs是分支的密集logits特征。
这里的C(.)我放在第三部分讲,图中三个C其实是不同的三个分类器,后面会讲为什么不同
三、MS Collaborative Learning
这里作者定义了三个损失函数。我先讲Parameter Discrepancy Loss,也就是,它能够强制约束三个分类器的参数不一样,以便根据协同训练策略提供不同的视图。
这个式子中,和分别是两个卷积滤波器的参数,这个loss就能够约束这两个参数不要一样,从而达到三个分类器参数不一样的效果。
后面的特征p是采取三个特征相加得到的,作者对为什么采用相加做出了解释
因为受损失反向传播的影响,限制了模型的多样性,但是后面的自适应损失(Adaptive Rectify Loss)能够做到像素级对不确定进行修正,因此直接相加是一个方便且可行的方法。
这两张图其实是在建模一个损失,那就是前面提到的自适应损失(Adaptive Rectify Loss),eq6,7计算了两个特征图(也就是前面提到三个尺度生成的三个特征图),计算距离度量 D来测量预测两者之间的像素差异。
O则是偏移量,这个则是通过KL散度来计算truth distribution(这里我理解为Ground Truth)和预测图像P的差值文章来源:https://www.toymoban.com/news/detail-763738.html
最后O和D做一个点乘即可文章来源地址https://www.toymoban.com/news/detail-763738.html
到了这里,关于论文笔记:MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!