深度学习之边缘检测算法论文解读(EDTER: Edge Detection with Transformer)

这篇具有很好参考价值的文章主要介绍了深度学习之边缘检测算法论文解读(EDTER: Edge Detection with Transformer)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

引言

边缘检测是计算机视觉中最基本的问题之一,具有广泛的应用,例如图像分割、对象检测和视频对象分割。给定输入图像,边缘检测旨在提取精确的对象边界和视觉上显著的边缘。由于许多因素,包括复杂的背景、不一致的注释等等,这是具有挑战性的

边缘检测与图像的上下文和语义线索密切相关。因此,获得适当的表征来捕捉高和低水平的视觉线索是至关重要的。传统方法大多基于低级局部线索,例如颜色和纹理来获得边缘。受益于卷积神经网络(CNN)在学习语义特征方面的有效性,边缘检测已经取得了重大进展。随着感受野的扩大,CNN的特征逐渐捕捉全局的和有语义意识的视觉概念,同时许多重要的细节不可避免地逐渐丢失。为了包括更多的细节,在中的方法集合了深层和浅层的特征。然而,这种浅层特征主要反映局部强度变化,而没有考虑语义上下文,导致噪声边缘

受视觉变形器最近成功的启发,特别是它们模拟远程上下文信息的能力,我们建议为边缘检测定制变形器。然而,有两个主要挑战需要解决。首先,由于计算方面的考虑,变换器通常应用于相对较大尺寸的面片,而粗粒度的面片不利于学习边缘的精确特征。在不增加计算负担的情况下对细粒度补丁执行自关注是至关重要的。第二,如图1 (d)所示,从相交的薄物体中提取精确的边缘是具有挑战性的。所以有必要设计一个有效的用于生成边缘感知高分辨率特征的编码器

为了解决上述问题,我们开发了一个两阶段框架(图2),称为边缘检测转换器(EDTER),以探索全局上下文信息和挖掘局部区域中的细粒度线索。在第一阶段,我们将图像分割成粗粒度的小块,并在其上运行全局转换器编码器来捕获大范围的全局上下文。然后,我们开发了一种新的双向多级聚合(BiMLA)解码器来产生高分辨率的边缘检测表示。在第二阶段,我们首先通过使用非重叠滑动窗口进行采样,将整个图像分成多个细粒度块序列。然后,局部变换器依次对每个序列进行工作,以探索短程局部线索。之后,所有局部线索被整合并馈入局部BiMLA解码器以获得像素级特征图。最后,来自两个阶段的信息通过特征融合模块(FFM)进行融合,然后被送入决策头以预测最终的边缘图。通过以上努力,EDTER可以生成清晰、噪音更少的边缘图。
深度学习之边缘检测算法论文解读(EDTER: Edge Detection with Transformer)
在第一阶段,我们首先将图像输入到全局变换编码器中,以计算全局关注度。然后,全局BiMLA解码器(见图3)生成高分辨率特征,用于通过决策头预测边缘图。在阶段II中,类似于阶段I,分块的补丁被输入到局部变换编码器中以产生局部关注。连接的注意力被用于解码高分辨率特征。最后,决策头预测融合了FFM第一阶段和第二阶段特征的边缘图。

我们的贡献概括如下:(1)我们提出了一种新的基于变换的边缘检测器——边缘检测变换(EDTER ),用于检测自然图像中的物体轮廓和有意义的边缘。据我们所知,这是第一个基于变压器的边缘检测模型。(2) EDTER被设计成有效地探索长范围的全球背景(阶段I)和捕捉细粒度的局部线索(阶段II)。此外,我们提出了一种新的双向多级聚合(BiMLA)解码器来提高变压器中的信息流。(3)为了有效地整合全局和局部信息,我们使用一个特征融合模块(FFM)来融合从阶段I和阶段II提取的线索。(4)在三个著名的边缘检测基准上,包括BSDS500、NYUDv2和Multicue,大量的实验证明了EDTER的优越性

相关工作

最近,卷积神经网络(CNN)被成功地引入边缘检测研究[3,4,11,12,26,29,40,46,48,52,66]。DeepEdge [3]利用多级CNN提取的物体感知线索进行轮廓检测。[48]中的方法首先将轮廓面片划分为子类,然后学习模型参数以适合每个子类。最近,一些方法通过使用分级多尺度特征来改进边缘检测[22,36,37,65,66]、分割[8,54,70]和对象检测[35]。受[65]开创性工作的启发,大多数边缘检测器[22,36,37,66]通过多级学习从分层特征中生成对象边界。具体来说,HED [65]通过对侧输出层执行监督来学习丰富的分层特征,这提高了边缘检测的性能。RCF [36]将所有卷积层的分层特征组合成一个整体架构。为了获得有效的结果,BDCN [22]使用从双向级联结构推断出的特定层监督来指导每一层的训练。PiDiNet [53]将传统的边缘检测算子集成到CNN模型中,以提高性能。
视觉变压器。transformer最初被引入来处理自然语言任务,后来扩展到视觉任务,因为它能够对包括图像分类、语义分割和对象检测在内的长期依赖性进行建模。最近,它与DETR的CNN和其他变体一起使用。最近,视觉转换器(ViT) 直接将转换器用于图像补片序列,并实现了最先进的技术。这种架构为其他计算机视觉任务带来了直接的灵感。例如,SETR 显示了在图像补片上使用纯变换器的语义分割的优越的准确性。这些工作证明了变压器在捕捉长程相关性和全球背景的有效性。
我们的工作受到上述先驱研究的启发,但在两个方面有显著不同。首先,就我所知,所提出的EDTER是第一次将transformer用于一般的边缘检测。第二,我们的核心思想是通过一个两阶段的框架,以可承受的计算成本来学习包含全局图像上下文和细粒度局部线索的特征。由于融合了全局上下文和局部线索,EDTER在边缘检测方面更有优势。
Review Vision Transformer

1、BiMLA解码器

在BiMLA中,设计了双向特征聚合策略,包括自顶向下路径和自底向上路径,以促进变压器编码器中的信息流。更具体地说,我们首先将Lg变换块均匀分成四组,取每组最后一个块的嵌入特征{z6 g,z12 g,z18 g,z24 g}作为输入。然后,我们将它们整形为尺寸为H 16×W 16× C的3D特征。对于自上而下的路径,我们将相同的设计(一个1×1卷积层和一个3×3卷积层)附加到每个整形后的特征,并获得四个输出特征t6、t12、t18、t24,遵循SETR-MLA的方式[72]。同样,自底向上的路径从最低层(即z6 g)开始,通过在多级特征上附加一个3×3卷积层,逐渐接近顶层(即z24 g),最终产生另外四个输出特征b6、b12、b18、b24。此外,与SETRMLA [72]通过双线性运算对特征进行上采样不同,我们的BiMLA通过一个解卷积块传递每个聚合特征,包含两个分别具有4×4核和16×16核的解卷积层。每个去卷积层之后都是批量归一化(BN)和ReLU操作。来自双向路径的八个上采样特征然后被连接成一个张量。此外,BiMLA使用额外的卷积层堆栈来平滑连接的要素。该堆栈由三个3×3卷积层和一个1×1卷积层以及BN和ReLU组成。BiMLA解码器的过程被公式化为
深度学习之边缘检测算法论文解读(EDTER: Edge Detection with Transformer)文章来源地址https://www.toymoban.com/news/detail-427535.html

2、Stage II: Local Refinement

到了这里,关于深度学习之边缘检测算法论文解读(EDTER: Edge Detection with Transformer)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 目标检测论文解读复现之十六:基于改进YOLOv5的小目标检测算法

    前言 此前出了目标改进算法专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读最新目标检测算法论文,帮助大家解答疑惑。解读的系列文章,本人已进行创

    2024年02月03日
    浏览(54)
  • 深度学习之目标检测Fast-RCNN模型算法流程详解说明(超详细理论篇)

    1.Fast-RCNN论文背景 2. Fast-RCNN算法流程 3.Fast R-CNN 问题和缺点 这篇以对比RCNN来说明,如果你对RCNN网络没太熟悉,可访问这链接,快速了解,点下面链接 深度学习之目标检测R-CNN模型算法流程详解说明(超详细理论篇) 论文地址https://arxiv.org/abs/1504.08083   Fast R-CNN 是一篇由R

    2024年02月11日
    浏览(36)
  • 深度学习之目标检测R-CNN模型算法流程详解说明(超详细理论篇)

    1.R-CNN论文背景 2. R-CNN算法流程 3. R-CNN创新点 论文网址https://openaccess.thecvf.com/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf   RCNN(Region-based Convolutional Neural Networks)是一篇由Ross Girshick等人于2014年发表的论文,题为《Rich feature hierarchies for accurate object detection

    2024年02月11日
    浏览(70)
  • 融合transformer和对抗学习的多变量时间序列异常检测算法TranAD论文和代码解读...

    今天的文章来自VLDB TranAD: Deep Transformer Networks for Anomaly Detection in Multivariate Time Series Data 论文链接:https://arxiv.org/pdf/2201.07284v6.pdf 代码地址:https://github.com/imperial-qore/TranAD 在文章中提出了对于多变量异常检测的几个有挑战性的问题 缺乏异常的label 大数据量 在现实应用中需要尽

    2023年04月09日
    浏览(90)
  • 一文深度解读边缘计算产业发展前景

    算力在云端澎湃,云计算技术日新月异。 过去十年间,全球云计算市场快速扩张,市场规模爆发性增长。 中心化的云计算架构提供了集中、大规模的计算、网络和存储等资源,解决了泛互联网行业在前二十年快速发展所面临的业务迅速增长、流量急剧扩张和大规模计算需求

    2024年02月02日
    浏览(70)
  • 通过OpenCV来进行边缘检测,并将其应用到实例分割、对象跟踪以及景深拍摄等场景 Edge Detection Using OpenCV

    作者:禅与计算机程序设计艺术 图像处理在科技行业中占据着重要的一席之地,从古至今,图像处理始终都是计算机视觉领域的基础课题。如何提取图像中的有效特征作为机器学习模型的输入,是一个在深度学习、模式识别、图像处理等多个领域都十分重要的问题。过去几年

    2024年02月07日
    浏览(48)
  • openCV实战-系列教程5:边缘检测(Canny边缘检测/高斯滤波器/Sobel算子/非极大值抑制/线性插值法/梯度方向/双阈值检测 )、原理解析、源码解读 ?????OpenCV实战系列总目录

    打印一个图片可以做出一个函数: Canny是一个科学家在1986年写了一篇论文,所以用自己的名字来命名这个检测算法,Canny边缘检测算法这里写了5步流程,会用到之前《openCV实战-系列教程》的内容。  使用高斯滤波器,以平滑图像,滤除噪声。 计算图像中每个像素点的梯度强

    2024年02月11日
    浏览(53)
  • 深度学习目标检测模型常用于部署在边缘计算设备上,常用于部署的边缘计算设备有哪些。

    问题描述:深度学习目标检测模型常用于部署在边缘计算设备上,常用于部署的边缘计算设备有哪些。 问题解答: 在边缘计算设备上部署深度学习目标检测模型通常需要考虑设备的计算能力、内存、功耗等因素。以下是一些常用于部署深度学习目标检测模型的边缘计算设备

    2024年02月02日
    浏览(46)
  • Canny边缘检测算法

    Canny是目前最优秀的边缘检测算法之一,在传统机器学习算法当中,Canny是最优秀的算法,但是有深度学习的方法要比Canny好。Canny算法的目标是找到一个最优的边缘,其最优边缘的定义为: 好的检测:算法能够尽可能的标出图像中的实际边缘 好的定位:标识出的边缘要与实际

    2024年02月09日
    浏览(48)
  • 【深度学习】关系抽取概念及相关论文解读

            信息抽取是构建知识图谱的必要条件。知识图谱中以(subject,relation,object)三元组的形式表示数据。信息抽取分为两大部分,一部分是命名实体识别,识别出文本中的实体,另外就是关系抽取,对识别出来的实体构建对应的关系,两者便是构建三元组的基本组成

    2024年02月04日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包