计算机视觉——day 90 基于级联卷积神经网络和对抗学习的显著目标检测

这篇具有很好参考价值的文章主要介绍了计算机视觉——day 90 基于级联卷积神经网络和对抗学习的显著目标检测。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

I. INTRODUCTION

显著目标检测在过去的几年中受到了广泛的关注并取得了巨大的成功。要获得清晰的边界和一致的显著性仍然是一个挑战,这可以被认为是显着对象的结构信息。流行的解决方案是进行一些后处理(例如,条件随机场(CRF))来细化这些结构信息。

在本工作中,我们提出了一种新的基于级联卷积神经网络和对抗学习的显著目标检测方法(CCAL)。

综上所述,本文的主要贡献如下:

1)设计了一种新颖的显著性目标检测网络框架,该框架包含两个卷积神经网络,并以级联方式结合。它们分别关注全局显著性估计和局部显著性细化。在逐步的帮助下,检测结果逐步提高。

2)采用CGAN算法进行显著性目标检测,通过引入对抗损失隐式学习结构信息(即清晰的边界和一致的显著性)来提高性能。

3)我们在8个基准数据集上评估了所提出的方法。综合实验结果表明,该方法能够生成边界清晰、显著性一致的高质量显著图,显著优于现有方法。

II. 网路架构

计算机视觉——day 90 基于级联卷积神经网络和对抗学习的显著目标检测

所提出的显著性目标检测模型中包含两个分量,即产生器G和判别器D,如图1所示。

A. 基于级联卷积神经网络的生成器G

全局显著性估计器 E

显著性目标检测可以看作是像素标记问题,对于显著性目标赋大值(如1),对于非显著性区域赋小值(如0)。本文借鉴了编码器-解码器网络的成功经验,构建了一个用于初始显著图估计的编码器-解码器网络(全局显著性估计器E),该网络包括编码器和解码器两部分。

具体来说,我们使用4 × 4的卷积核 和 步长为 2的卷积来代替3 × 3和stride 1的卷积和2 × 2和stride 2的pooling的组合,这是VGGNet[30]中的一个经典设置

这里,我们的编码器有n1 =8个卷积层,每一层的卷积核数分别为64、128、256、512、512、512、512、512、512。

对于解码器,它执行与编码器相反的过程,扩大特征图的大小。采用核大小为4 × 4、步幅为2的反卷积运算对特征图进行上进。此外,我们还使用跳跃连接来结合解码器的高级特征和编码器的低级特征,以促进特征学习。

最后一层是tanh激活函数。

从图1中,给定一个输入图像,e的输出是一个与输入图像大小相同的概率图,被认为是初始显著图,显著目标被突出,背景被抑制

局部显著性精炼器 R

有必要利用初始显著图提供的信息来修正这些差的估计。因此,我们设计了一种深度残差网络(称为局部显著性细化器R)进行局部显著性细化,其中输入为显著性估计器E生成的RGB图像和初始显著性图的组合,输出为优化后的显著性图作为最终的性能评估结果。

B.鉴别器 D

如上所述,给定一个输入图像I,其最终显著图X的生成过程可以表示为X = G(I)= R(I,E(I))。

生成对抗网络(GAN)中的鉴别器可以被看作是探索结构化损失函数的尝试。

因此,为了使生成器G能够很好地学习显著物的结构信息,我们设计了一个鉴别器D,它的作用是按照条件GAN (CGAN)的策略,将生成器G生成的假显著图与真实显著图(ground truth)进行区分。CGAN是GAN的条件版本。

计算机视觉——day 90 基于级联卷积神经网络和对抗学习的显著目标检测

图2给出了不同模型配置产生的显著性目标检测结果的三个例子,直观地验证了我们的局部显著性细化器R和判别器D的优点。(e)就是本文提出的模型。

Iv. 实验

A. 数据集和评价标准

对八个标准基准数据集进行性能评价:SED1[64]、SED2[64]、ECSSD[4]、PASCAL-S[65]、HKU-IS[20]、SOD[66]、DUT-OMRON[67]和DUTS-TE[32]。

B. 实验结果

计算机视觉——day 90 基于级联卷积神经网络和对抗学习的显著目标检测

不同显著性检测方法与我们的方法(CCAL)在各种具有挑战性的场景下的视觉比较。

V. 结论

本文提出了一种基于级联卷积神经网络和对抗学习的端到端显著性目标检测模型(CCAL)。设计了由级联cnn组成的编码器-解码器网络和深度残差网络,分别完成了全局显著性估计和局部显著性细化。采用由粗到细的级联方式,显著目标检测的性能可以逐步提高。作为一种结构化的损耗函数,识别器引入的对抗性损耗有助于CCAL更好地学习突出目标的结构信息,实验结果说明了它对提高性能的重要性。该方法无需任何后处理,即可产生准确的显著性目标检测结果。实验表明,CCAL不仅在8个基准数据集上获得了最先进的性能,而且在GPU上达到了17帧/秒的速度。文章来源地址https://www.toymoban.com/news/detail-460771.html

到了这里,关于计算机视觉——day 90 基于级联卷积神经网络和对抗学习的显著目标检测的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 计算机视觉的应用11-基于pytorch框架的卷积神经网络与注意力机制对街道房屋号码的识别应用

    大家好,我是微学AI,今天给大家介绍一下计算机视觉的应用11-基于pytorch框架的卷积神经网络与注意力机制对街道房屋号码的识别应用,本文我们借助PyTorch,快速构建和训练卷积神经网络(CNN)等模型,以实现街道房屋号码的准确识别。引入并注意力机制,它是一种模仿人类

    2024年02月12日
    浏览(51)
  • 计算机视觉:转置卷积

    转置卷积(Transposed Convolution),也称为反卷积(Deconvolution),是卷积神经网络(CNN)中的一种操作,它可以将一个低维度的特征图(如卷积层的输出)转换为更高维度的特征图(如上一层的输入)。转置卷积操作通常用于图像分割、生成对抗网络(GAN)和语音识别等任务中

    2024年02月08日
    浏览(78)
  • 计算机视觉:卷积步长(Stride)

    我们前面学习了卷积操作,也学习了填充,本节课程我们学习卷积步长,之前我们使用卷积核进行卷积操作都是在图像的左上角开始,从左到右、从上到下每次移动一步,其实移动多少步是可以变化的,这个移动步数称为步长。 卷积操作中的步长(Stride)是指卷积核在图像上

    2024年02月11日
    浏览(39)
  • 计算机视觉-卷积神经网络

    目录 计算机视觉的发展历程 卷积神经网络 卷积(Convolution) 卷积计算 感受野(Receptive Field) 步幅(stride) 感受野(Receptive Field) 多输入通道、多输出通道和批量操作 卷积算子应用举例 计算机视觉作为一门让机器学会如何去“看”的学科,具体的说,就是让机器去识别摄

    2024年02月10日
    浏览(46)
  • 计算机视觉 - 理论 - 从卷积到识别

    Vue框架: 从项目学Vue OJ算法系列: 神机百炼 - 算法详解 Linux操作系统: 风后奇门 - linux C++11: 通天箓 - C++11 Python常用模块: 通天箓 - python 计算机视觉系列博客分两条主线:算法理论 + opencv实操 理论来源于[计算机视觉(本科) 北京邮电大学 鲁鹏 清晰完整合集](https://www.

    2024年02月11日
    浏览(49)
  • 计算机视觉——day 91基于双网络的鲁棒特征高光谱目标检测(偏门且很水啊)

    用于高光谱目标检测的深度网络训练通常面临样本有限的问题,在极端情况下,可能只有一个目标样本可用。为了解决这一挑战,我们提出了一种新的双网络方法。针对高光谱图像的光谱和空间特征,利用生成对抗网络(GAN)和卷积神经网络(CNN)两种神经网络对目标进行检测。然

    2024年02月04日
    浏览(88)
  • 7.卷积神经网络与计算机视觉

    计算机视觉是一门研究如何使计算机识别图片的学科,也是深度学习的主要应用领域之一。 在众多深度模型中,卷积神经网络“独领风骚”,已经被称为计算机视觉的主要研究根据之一。 卷积神经网络最初由 Yann LeCun(杨立昆)等人在1989年提出,是最初取得成功的深度神经

    2024年04月10日
    浏览(78)
  • 计算机视觉:深层卷积神经网络的构建

    上一节课程中我们学习了单卷积层的前向传播,本次课程我们构建一个具有三个卷积层的卷积神经网络,然后从输入(39*39*3)开始进行三次卷积操作,我们来看一下每次卷积的输入和输出维度的变化。 第一层使用3*3*3的过滤器来提取特征,那么f[1]=3,然后步长s[1]=1,填充p[1]

    2024年02月10日
    浏览(52)
  • 【计算机视觉】万字长文详解:卷积神经网络

    以下部分文字资料整合于网络,本文仅供自己学习用! 如果输入层和隐藏层和之前一样都是采用全连接网络,参数过多会导致 过拟合 问题,其次这么多的参数存储下来对计算机的内存要求也是很高的 解决这一问题,就需要用到——卷积神经网络 这是一种理解卷积的角度(

    2024年02月19日
    浏览(58)
  • 【深度学习】计算机视觉(五)——卷积神经网络详解

    卷积神经网络(CNN) 卷积神经网络基本上应用于图像数据。假设我们有一个输入的大小(28 * 28 * 3),如果我们使用正常的神经网络,将有2352(28 * 28 * 3)参数。并且随着图像的大小增加参数的数量变得非常大。我们“卷积”图像以减少参数数量。 CNN的输入和输出没什么特别

    2024年02月06日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包