目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN

这篇具有很好参考价值的文章主要介绍了目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

网上关于两阶段目标检测(two-stage object detection)的几个经典工作R-CNN,SPPNet,Fast R-CNN,Faster R-CNN的发展,各自的优缺点缺乏一个比较清楚的描述,大部分文章讲的比较细节,虽然有助于更为详细地了解文章,但是让读者在短时间内对各个文章有一个详细的理解。本文主要对网上的资料进行整合,希望让读者能较快地理解几篇文章的优劣。

R-CNN

本节会介绍R-CNN基本流程以及文章的缺点。最后对其中几个重要步骤进行补充说明

基本流程

R-CNN的基本流程如下,主要的步骤如下:
目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN

  1. 提取区域候选(extract region proposals):使用selective search方法提取2000个候选目标

  2. 对每个候选目标warp到一个固定的大小(例如224x224),主要包括直接对图像进行resize,或者是进行crop,然后对空白部分进行填充。

CNN本身实际上是能适应不同大小的图片输入,但是特征最后要过fc,因此需要固定的大小。这一点之后在SPPNet中进行解决

  1. 计算CNN特征(compute CNN features):用神经网络计算经过warp的区域候选的特征图
  2. 分类(classify regions):对提取到的特征输入到SVM中进行分类

可能会产生疑问:直接在网络最后接softmax输出分类概率不行吗?为什么需要重新训练一个SVM进行分类呢?回答:论文中说加SVM效果好!(但是实际上在Fast-RCNN之后都用不上嘞!啊哈哈)

  1. 非极大值抑制(NMS,non-maximum suppression):删除重复的候选框

  2. 位置精修(bounding box regression):使用一个回归器(几层fc)来修正候选框的位置

为什么直接使用selective search得到的region proposals的结果作为最终的bounding box呢?当然是因为结果不准确啦,拿个网络来精细调整一下位置肯定不亏,嘿嘿

以上就讲完了RCNN整体的流程,最后用一张更直观的图来展示:
目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN

补充内容

选择性搜索

这部分介绍第一个步骤中使用的提取region proposals的方法——selective search,其属于传统算法,速度很慢,这一个部分在Faster-RCNN中被替换成神经网络。下面是其具体步骤:

  1. 对图像进行oversegmented 的图像分割
  2. 计算邻近区域的相似性,包括颜色、纹理等等
  3. 合并相似性高的区域,得到更大的区域并假如到区域集合中
  4. 重复2、3过程直到图片变成一个区域。至此得到的区域集合就是我们要的region proposals

详细过程可以参考: https://www.jianshu.com/p/99e121c3beb8目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN

非极大值抑制

这一部分介绍第五步用到的非极大值抑制方法。selective search之后得到的候选框有2000多个!可以上一张图看出很多框圈着同一个物体,而NMS的思想就是想保留置信度最高的框,把周围重叠度高(交并比IoU高)的其他框给删除,从而大大减少候选数量
详细过程参考:https://blog.csdn.net/zouxiaolv/article/details/107400193目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN

缺点

观察RCNN的整体流程我们可以看出其具有以下几个缺点:

  1. 提取proposals用的selective search,速度慢且很多无用的proposals
  2. 重复计算特征:每一个proposals都需要通过CNN提取特征,速度会大大减慢
  3. 需要resize操作:proposals在输入的时候需要经过warp操作,可能会丢失原有的结构信息
  4. 串行结构:先对特征进行分类,然后再对bounding box位置进行回归。这个问题本质上是因为分类的时候需要重新训练一个SVM,而回归bounding box坐标是使用fc,二者不能共用,导致速度比较慢

SPPNet(修改CNN特征提取过程)

RCNN最主要的时间开销实际上都花在了对2000个proposals进行特征提取的地方。而SPPNet主要解决这个问题。

主要流程

SPPNet的主要流程如下:
目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN

可以看到相较于RCNN,其主要的修改部分有两个:

  1. 从原来需要多次特征提取变成一次特征提取
  2. 为了解决上一点带来的“不同感兴趣区域(RoI,region of interest)对应特征的维度不同,而不能使用同一个fc”的问题,提出了spatial pyramid pooling(SPP)

具体的流程从下图中第二行(RCNN)变成了第三行(SPPNet),也就是从“warp→特征提取”变成了“特征提取→SPP”。
目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN

SPP

上述主要修改的两点中,第一点将多次CNN提取特征变为一次这个过程比较直观,不再详述。因此主要对第二点:SPP层进行讲解。SPP层的目标是为了将不同分辨率的特征都能映射到相同的维度上以供后续fc进行分类。它的思路如下图:
目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN
提出了多个尺度的池化层,来提取不同粒度的特征。对于任意分辨率的特征,会将它们划分成相同数目的小块进行max pooling。例如图中所示,不管特征图大小怎样,都会划分成16、4、1个小块,于是输出是恒定为(16+4+1)*256维的特征,并将其送到fc中进行分类。

下图展示了一个例子:
目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN
左图是输入图片和对应的经过selective search选择出来的一个region proposal,右图是将这个proposal映射到特征图上的位置。
目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN
上图就是对其按照不同的区域划分进行spp的结果,得到特征之后会把这些特征concat之后送到最后的fc中(最后这一步图中没画出来)。

优点

SSPNet有以下两个优点:

  1. 让最后的分类器能适应任何尺寸的proposals:避免裁剪导致的信息丢失,或者是变形导致的位置信息扭曲
  2. 只需要对图像特征提取一次,大大加速
  3. 提出spp,将不同分辨率的特征都映射到相同维度

缺点

缺点实际上就是针对RCNN未解决的部分:

  1. 提取proposals速度慢
  2. 串行结构:先对特征进行分类,然后再对bounding box位置进行回归。

Fast-RCNN(改版spp+分类与回归二合一)

Fast-RCNN主要整合了proposals的分类和bounding box的回归这两个过程,整体进行了加速。

主要流程

论文中给出的图如下:
目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN
这个图其实把前面提取region proposals的过程给省略了。要主要的是Fast RCNN仍然使用的是selective search来生成proposals的。如果光看上面的图可能不好看出来和之前工作的区别,可以将它展示成我们都比较熟悉的样子:
目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN
在转化之后,我们可以很明显看出Fast-RCNN和SPPNet的区别。Fast_RCNN主要的修改有以下两点:

  1. 将SPP层变成了RoI pooling层
  2. 取消了SVM,这样将分类和回归两个过程合并,只是最后的linear层有所区别

RoI pooling

我们主要介绍第一点修改,第二点修改比较直观,不做详述。RoI pooling听着是新提出的网络层,实际上就是spp的简化版(经典改一张就是原创卡组) !本质上是取了一个尺度的spp,见下图应该就很清楚了
目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN
下面这个过程给出了一个具体计算的例子(其实这也是spp中其中一个尺度的计算过程):
目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN

优点

Fast-RCNN有以下两个优点:

  1. 最后分类和回归两个步骤变成multi-task
  2. 提出RoI pooling,解决proposals分辨率不同影响最后fc求解的问题(感觉SPPNet已经解决过了捏?科研人的辛酸是这样的)

缺点

缺点实际上就是针对RCNN未解决的部分(又能少一个了):

  1. 提取proposals速度慢

Faster-RCNN(修改提取区域候选的过程)

Faster-RCNN就是解决最后一个问题:提取proposals速度慢的问题了!前面的网络使用的都是seletive search作为候选提取算法,而这个地方就是想采用神经网络来代替这个过程

主要流程

Faster-RCNN和之前方法的对比如下图:目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN

因为之前的方法画图的时候实际上没有把提取region proposals的过程画出来,他们都是在使用selective search之后将proposals映射到特征图上(也就是左图的RoI区域),而右图是Faster-RCNN完整的过程。可以看到和之前方法相比的改变的地方就只有一点:

  1. 用RPN代替传统的selective search方法来进行候选区域提取

RPN

RPN是为了从图像中提取多个候选区域,其基本思想是模式匹配的方法。对每种模式去回归这个模式下是否包含物体的概率以及对bounding box的修正。下图是一个概览图。
目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN
下面来举一个例子会更加清楚一点:对每一个像素,以这个像素为中心,预先设定九种候选框(在这里叫anchor)。这样在经过特征提取之后,特征图上的一个点可以理解成对应原图中一个像素位置的9种anchor
目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN
下面这个图展示地更清楚一点,上图中灰色的特征图上每一个点会对应下图上红色点的位置(每个位置会有9个anchor)。
目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN

假设特征提取之后的特征图维度为40x60x512,分成两个分支,分别得到

  • 分类分数,维度为40x60x9x2,代表原图上40x60个点上,这9个anchor分类为前背景的概率(下分支)
  • 对bounding box的坐标进行修正的参数。维度为,40x60x9x4,代表原图上40x60个点上,这9个anchor的bounding box的偏移量(上分支)
    目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN

之后用bounding box修正参数进行修正就能得到region proposals啦!以上就是RPN的全过程

优点

Faster-RCNN的优点就主要体现在用RPN替代了传统提取区域候选算法,大大加速!

缺点

虽然看来已经解决了RCNN的四个缺点。但是这不代表Faster-RCNN就是完美的了,后续也有很多工作在这上面进行改进,这些就超出本文的范围啦!

最后感谢各位看到最后!文章来源地址https://www.toymoban.com/news/detail-494156.html

参考资料

  • https://jhui.github.io/2017/03/15/Fast-R-CNN-and-Faster-R-CNN/
  • https://analyticsindiamag.com/r-cnn-vs-fast-r-cnn-vs-faster-r-cnn-a-comparative-guide/
  • https://zhuanlan.zhihu.com/p/370407951
  • https://blog.csdn.net/weixin_43624538/article/details/87966601
  • https://blog.csdn.net/qq_35586657/article/details/97885290
  • https://www.cnblogs.com/kk17/p/9748378.html#25-%E5%AF%B9%E6%96%87%E7%AB%A0%E7%9A%84%E4%B8%80%E4%BA%9B%E6%80%9D%E8%80%83
  • https://blog.csdn.net/fenglepeng/article/details/117898968

到了这里,关于目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深度学习之目标检测R-CNN模型算法流程详解说明(超详细理论篇)

    1.R-CNN论文背景 2. R-CNN算法流程 3. R-CNN创新点 论文网址https://openaccess.thecvf.com/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf   RCNN(Region-based Convolutional Neural Networks)是一篇由Ross Girshick等人于2014年发表的论文,题为《Rich feature hierarchies for accurate object detection

    2024年02月11日
    浏览(70)
  • 人工智能详细笔记:计算机视觉、目标检测与R-CNN系列 YOLO系列模型

    计算机视觉概述 :计算机视觉是一种利用计算机算法和数学模型来模拟和自动化人类视觉的学科领域。 计算机视觉的地位 :计算机视觉(CV)与自然语言处理(NLP)、语音识别(SR)并列为机器学习方向的三大热点方向。 计算机视觉的常见任务 :下面将从粗粒度到细粒度介

    2024年02月08日
    浏览(55)
  • 【Keras计算机视觉】Faster R-CNN神经网络实现目标检测实战(附源码和数据集 超详细)

    需要源码请点赞关注收藏后评论区留言私信~~~ 目标检测是计算机视觉和数字图像处理的一个热门方向,广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域,通过计算机视觉减少对人力资本的消耗,具有重要的现实意义。因此,目标检测也就成为了近年来

    2024年02月08日
    浏览(53)
  • 目标检测网络系列之R-CNN

    2023年09月08日
    浏览(40)
  • 目标检测——R-CNN网络基础

    候选区域生成 CNN网络提取特征 目标分类(SVM) 目标定位 红色是SS生成的结果,绿色是标注框 预测过程 ROI Pooling 目标分类和回归

    2024年02月17日
    浏览(42)
  • 【目标检测】Faster R-CNN算法实现

    继2014年的R-CNN、2015年的Fast R-CNN后,2016年目标检测领域再次迎来Ross Girshick大佬的神作Faster R-CNN,一举解决了目标检测的实时性问题。相较于Fast R-CNN而言,Faster R-CNN主要改进措施包括: 区域建议网络(RPN):Faster R-CNN摒弃了选择性搜索,提出区域提议网络(Region Proposal Netwo

    2024年03月14日
    浏览(47)
  • 基于Faster R-CNN实现目标检测

    杨金鹏,男,西安工程大学电子信息学院,2022级研究生 研究方向:机器视觉与人工智能 电子邮件:1394026082@qq.com 路治东,男,西安工程大学电子信息学院,2022级研究生,张宏伟人工智能课题组 研究方向:机器视觉与人工智能 电子邮件:2063079527@qq.com Faster RCNN检测部分主要

    2024年02月07日
    浏览(62)
  • 目标检测(Object Detection):Fast R-CNN,YOLO v3

    目录 目标检测(Object Detection) R-CNN SPPNet Fast R-CNN YOLO v1 YOLO v2 YOLO v3 任务是计算机视觉中非常重要的基础问题,也是解决图像分割、目标跟踪、图像描述等问题的基础。目标检测是检测输入图像是否存在给定类别的物体,如果存在,输出物体在图像中的位置信息(矩形框的坐标

    2024年02月11日
    浏览(43)
  • Voxel R-CNN:基于体素的高性能 3D 目标检测

    论文地址:https://arxiv.org/abs/2012.15712 论文代码:https://github.com/djiajunustc/Voxel-R-CNN 基于点的方法具有较高的检测精度,但基于点的方法通常效率较低,因为对于点集抽象来说,使用点表示来搜索最近邻的代价更高。 相比于基于点,更高效,基于体素的结构更适合于特征提取,

    2024年02月09日
    浏览(45)
  • [论文阅读]Voxel R-CNN——迈向高性能基于体素的3D目标检测

    Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection 迈向高性能基于体素的3D目标检测 论文网址:Voxel R-CNN 论文代码:Voxel R-CNN 该论文提出了 Voxel R-CNN,这是一种基于体素的高性能 3D 对象检测框架。作者认为,原始点的精确定位对于准确的目标检测并不重要,粗体素粒度可

    2024年02月07日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包