0 简介
论文:基于并行注意力 UNet的裂缝检测方法(Parallel Attention Based UNet for Crack Detection);
发表:2021年发表在《计算机研究与发展》上。
1 问题分析
问题:裂缝图像中存在噪声、光线、阴影等因素干扰;
解决方法:比较流行的解决方案是嵌入注意力机制以抑制各种干扰;
缺点:现有的注意力机制大都采用串行结构,能有效抑制大部分干扰,但仍受到明亮噪声的影响,导致效果降低;
本文的方法:设计一种并行注意力机制,从空间和通道2个维度抑制干扰,通过并行结构融合两者特征以获取更具互补性的裂缝特征,有效抑制了各种干扰。
2 具体方案
三个部分组成:
- 网络的编码层,由卷积和池化组成;
- 网络的解码层,由卷 积、反卷积和sigmoid函数组成;
- 注意力模块。
并行注意力机制分为三条线来说明。
第一条线:
- 输入:特征图 F ∈ R H × W × C F \in \mathbb{R}^{H \times W \times C} F∈RH×W×C;
- 输出:特征图 Q ∈ R H × W × C Q \in \mathbb{R}^{H \times W \times C} Q∈RH×W×C;
- 处理:
– 利用最大池化提取全局特征 M ∈ R 1 × 1 × C M \in \mathbb{R}^{1 \times 1 \times C} M∈R1×1×C
– 利用下面的公式计算得到权重图 N ∈ R 1 × 1 × C N \in \mathbb{R}^{1 \times 1 \times C} N∈R1×1×C,第 i i i通道的权重值 e i e_i ei为:
e i = σ ( ∑ j = 1 k w i j z i j ) , z i j ∈ Ω i k e_{i}=\sigma\left(\sum_{j=1}^{k} w_{i}^{j} z_{i}^{j}\right), z_{i}^{j} \in \Omega_{i}^{k} ei=σ(j=1∑kwijzij),zij∈Ωik
其中 w i j w_{i}^{j} wij表示第 i i i个通道的第 j ∈ [ 1 , k ] j \in [1, k] j∈[1,k]个权重参数, Ω i k \Omega_{i}^{k} Ωik表示第 i i i个通道的 k k k个相邻通道全局特征的集合;【这个公式有两个问题:(1) w i j w_{i}^{j} wij是通过学习得到的吗?(2) z i j ∈ Ω i k z_{i}^{j} \in \Omega_{i}^{k} zij∈Ωik是从 Ω i k \Omega_{i}^{k} Ωik中任取一个,还是遍历所有特征点,由于作者没有提供源代码,我们只能猜,如果是遍历,我觉得这个公式还应该有一层循环才对。】
第二条线:
- 输入:特征图 F ∈ R H × W × C F \in \mathbb{R}^{H \times W \times C} F∈RH×W×C;
- 输出:特征图 P ∈ R H × W × C P \in \mathbb{R}^{H \times W \times C} P∈RH×W×C;
- 处理:
– 利用最大池化得到 F m a x s ∈ R H × W × 1 F_{\mathrm{max}}^s \in \mathbb{R}^{H \times W \times 1} Fmaxs∈RH×W×1;
– 利用平均池化得到 F a v g s ∈ R H × W × 1 F_{\mathrm{avg}}^s \in \mathbb{R}^{H \times W \times 1} Favgs∈RH×W×1;
– 权重图 H H H:将这2个单通道的特征图结合,生成一个权重图【具体怎么做的没说?】
第三条线:
- 输入:特征图 P ∈ R H × W × C P \in \mathbb{R}^{H \times W \times C} P∈RH×W×C和特征图 Q ∈ R H × W × C Q \in \mathbb{R}^{H \times W \times C} Q∈RH×W×C;
- 输出:特征图 G ∈ R H × W × C G \in \mathbb{R}^{H \times W \times C} G∈RH×W×C;
- 处理:融合。
3 训练过程(我的理解)
-
通过软件对原图进行标注,得到带裂缝标注的数据作为训练集【这个过程实际上比较难理解,这个标注过程是手动还是自动,如果是手动就很好理解,如果是自动就比较难理解了】;
文章来源:https://www.toymoban.com/news/detail-422899.html -
训练网络,像素级二分类问题,利用二值交叉熵损失函数
loss = − ∑ i = 1 n ( y i log y ^ i + ( 1 − y ) log ( 1 − y ^ i ) ) \operatorname{loss}=-\sum_{i=1}^{n}\left(y_{i} \log \hat{y}_{i}+(1-y) \log \left(1-\hat{y}_{i}\right)\right) loss=−i=1∑n(yilogy^i+(1−y)log(1−y^i))
其中, y i y_i yi 是像素点 i i i 在标注数据中的像素值, y ^ i \hat{y}_i y^i 是像素点 i i i在预测结果 Y ^ \hat{Y} Y^ 中的像素值,预测结果 Y ^ \hat{Y} Y^是通过原始图像 X X X经过先编码后解码得到的。文章来源地址https://www.toymoban.com/news/detail-422899.html
到了这里,关于论文笔记:基于并行注意力 UNet的裂缝检测方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!