深度学习之边缘检测算法论文解读（EDTER: Edge Detection with Transformer）-Toy模板网

这篇具有很好参考价值的文章主要介绍了深度学习之边缘检测算法论文解读（EDTER: Edge Detection with Transformer）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

引言

边缘检测是计算机视觉中最基本的问题之一，具有广泛的应用，例如图像分割、对象检测和视频对象分割。给定输入图像，边缘检测旨在提取精确的对象边界和视觉上显著的边缘。由于许多因素，包括复杂的背景、不一致的注释等等，这是具有挑战性的

边缘检测与图像的上下文和语义线索密切相关。因此，获得适当的表征来捕捉高和低水平的视觉线索是至关重要的。传统方法大多基于低级局部线索，例如颜色和纹理来获得边缘。受益于卷积神经网络(CNN)在学习语义特征方面的有效性，边缘检测已经取得了重大进展。随着感受野的扩大，CNN的特征逐渐捕捉全局的和有语义意识的视觉概念，同时许多重要的细节不可避免地逐渐丢失。为了包括更多的细节，在中的方法集合了深层和浅层的特征。然而，这种浅层特征主要反映局部强度变化，而没有考虑语义上下文，导致噪声边缘。

受视觉变形器最近成功的启发，特别是它们模拟远程上下文信息的能力，我们建议为边缘检测定制变形器。然而，有两个主要挑战需要解决。首先，由于计算方面的考虑，变换器通常应用于相对较大尺寸的面片，而粗粒度的面片不利于学习边缘的精确特征。在不增加计算负担的情况下对细粒度补丁执行自关注是至关重要的。第二，如图1 (d)所示，从相交的薄物体中提取精确的边缘是具有挑战性的。所以有必要设计一个有效的用于生成边缘感知高分辨率特征的编码器。

为了解决上述问题，我们开发了一个两阶段框架(图2)，称为边缘检测转换器(EDTER)，以探索全局上下文信息和挖掘局部区域中的细粒度线索。在第一阶段，我们将图像分割成粗粒度的小块，并在其上运行全局转换器编码器来捕获大范围的全局上下文。然后，我们开发了一种新的双向多级聚合(BiMLA)解码器来产生高分辨率的边缘检测表示。在第二阶段，我们首先通过使用非重叠滑动窗口进行采样，将整个图像分成多个细粒度块序列。然后，局部变换器依次对每个序列进行工作，以探索短程局部线索。之后，所有局部线索被整合并馈入局部BiMLA解码器以获得像素级特征图。最后，来自两个阶段的信息通过特征融合模块(FFM)进行融合，然后被送入决策头以预测最终的边缘图。通过以上努力，EDTER可以生成清晰、噪音更少的边缘图。
深度学习之边缘检测算法论文解读（EDTER: Edge Detection with Transformer）
在第一阶段，我们首先将图像输入到全局变换编码器中，以计算全局关注度。然后，全局BiMLA解码器(见图3)生成高分辨率特征，用于通过决策头预测边缘图。在阶段II中，类似于阶段I，分块的补丁被输入到局部变换编码器中以产生局部关注。连接的注意力被用于解码高分辨率特征。最后，决策头预测融合了FFM第一阶段和第二阶段特征的边缘图。

我们的贡献概括如下:(1)我们提出了一种新的基于变换的边缘检测器——边缘检测变换(EDTER ),用于检测自然图像中的物体轮廓和有意义的边缘。据我们所知，这是第一个基于变压器的边缘检测模型。(2) EDTER被设计成有效地探索长范围的全球背景(阶段I)和捕捉细粒度的局部线索(阶段II)。此外，我们提出了一种新的双向多级聚合(BiMLA)解码器来提高变压器中的信息流。(3)为了有效地整合全局和局部信息，我们使用一个特征融合模块(FFM)来融合从阶段I和阶段II提取的线索。(4)在三个著名的边缘检测基准上，包括BSDS500、NYUDv2和Multicue，大量的实验证明了EDTER的优越性

相关工作

最近，卷积神经网络(CNN)被成功地引入边缘检测研究[3，4，11，12，26，29，40，46，48，52，66]。DeepEdge [3]利用多级CNN提取的物体感知线索进行轮廓检测。[48]中的方法首先将轮廓面片划分为子类，然后学习模型参数以适合每个子类。最近，一些方法通过使用分级多尺度特征来改进边缘检测[22，36，37，65，66]、分割[8，54，70]和对象检测[35]。受[65]开创性工作的启发，大多数边缘检测器[22，36，37，66]通过多级学习从分层特征中生成对象边界。具体来说，HED [65]通过对侧输出层执行监督来学习丰富的分层特征，这提高了边缘检测的性能。RCF [36]将所有卷积层的分层特征组合成一个整体架构。为了获得有效的结果，BDCN [22]使用从双向级联结构推断出的特定层监督来指导每一层的训练。PiDiNet [53]将传统的边缘检测算子集成到CNN模型中，以提高性能。
视觉变压器。transformer最初被引入来处理自然语言任务，后来扩展到视觉任务，因为它能够对包括图像分类、语义分割和对象检测在内的长期依赖性进行建模。最近，它与DETR的CNN和其他变体一起使用。最近，视觉转换器(ViT) 直接将转换器用于图像补片序列，并实现了最先进的技术。这种架构为其他计算机视觉任务带来了直接的灵感。例如，SETR 显示了在图像补片上使用纯变换器的语义分割的优越的准确性。这些工作证明了变压器在捕捉长程相关性和全球背景的有效性。
我们的工作受到上述先驱研究的启发，但在两个方面有显著不同。首先，就我所知，所提出的EDTER是第一次将transformer用于一般的边缘检测。第二，我们的核心思想是通过一个两阶段的框架，以可承受的计算成本来学习包含全局图像上下文和细粒度局部线索的特征。由于融合了全局上下文和局部线索，EDTER在边缘检测方面更有优势。
Review Vision Transformer

1、BiMLA解码器

在BiMLA中，设计了双向特征聚合策略，包括自顶向下路径和自底向上路径，以促进变压器编码器中的信息流。更具体地说，我们首先将Lg变换块均匀分成四组，取每组最后一个块的嵌入特征{z6 g，z12 g，z18 g，z24 g}作为输入。然后，我们将它们整形为尺寸为H 16×W 16× C的3D特征。对于自上而下的路径，我们将相同的设计(一个1×1卷积层和一个3×3卷积层)附加到每个整形后的特征，并获得四个输出特征t6、t12、t18、t24，遵循SETR-MLA的方式[72]。同样，自底向上的路径从最低层(即z6 g)开始，通过在多级特征上附加一个3×3卷积层，逐渐接近顶层(即z24 g)，最终产生另外四个输出特征b6、b12、b18、b24。此外，与SETRMLA [72]通过双线性运算对特征进行上采样不同，我们的BiMLA通过一个解卷积块传递每个聚合特征，包含两个分别具有4×4核和16×16核的解卷积层。每个去卷积层之后都是批量归一化(BN)和ReLU操作。来自双向路径的八个上采样特征然后被连接成一个张量。此外，BiMLA使用额外的卷积层堆栈来平滑连接的要素。该堆栈由三个3×3卷积层和一个1×1卷积层以及BN和ReLU组成。BiMLA解码器的过程被公式化为
深度学习之边缘检测算法论文解读（EDTER: Edge Detection with Transformer）文章来源地址https://www.toymoban.com/news/detail-427535.html