目标检测经典论文精读-R-CNN

这篇具有很好参考价值的文章主要介绍了目标检测经典论文精读-R-CNN。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文链接: https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf
论文技术报告链接: https://arxiv.org/pdf/1311.2524.pdf
出处: CVPR 2014
参考视频: https://www.bilibili.com/video/BV1d64y1W74E/?spm_id_from=333.999.0.0&vd_source=e321967bf2cdc2338238788250d12de8

R-CNN基本原理

目标检测经典论文精读-R-CNN
目标检测经典论文精读-R-CNN
总结起来就是:输入原图,然后用selective search算法生成2000个候选框,再将每个候选框缩放为 227 × 227 227\times227 227×227的固定大小,再逐一喂到同一个卷积神经网络提取4096维的特征,用该4096维的特征同时进行分类(线性SVM)和回归,最终得到目标检测结果。

可以看到R-CNN严重依赖上下游的多个步骤协作完成目标检测任务:①提取候选框;②缩放;③用CNN提取特征;④分类和回归。只要有一个步骤出现问题,整个检测系统就会出现问题。每个步骤都需要单独去优化,因此并不是一个端到端的系统

目标检测经典论文精读-R-CNN
R-CNN是一个非常耗时、非常低效、非常臃肿、一点不端到端的算法:
目标检测经典论文精读-R-CNN因此,可以对R-CNN进行改进:
目标检测经典论文精读-R-CNN

产生候选框-Selective Search

论文链接: https://www.koen.me/research/selectivesearch/

目标检测经典论文精读-R-CNN

将候选框缩放至 227 × 227 227\times227 227×227固定大小

目标检测经典论文精读-R-CNN
最终,作者采用连带邻近像素的非等比例缩放方法,连带像素 p = 16 p=16 p=16
目标检测经典论文精读-R-CNN这种将像素向外扩一圈,并将扩展之后的结果作为候选框的方法叫做Dilate proposal

可视化能够使得某个feature map的某个值最大化的原始候选框

目标检测经典论文精读-R-CNN目标检测经典论文精读-R-CNN
从AlexNet最后一个池化层得到的feature map的形状是 6 × 6 × 256 6\times6\times256 6×6×256,我们可视化其中的某一个channel的某一个值,找到使得这个值最大化的原始的候选框。
作者从 6 × 6 × 256 6\times6\times256 6×6×256的feature map中选了60多个channel来可视化能够使得某个channel的某个值最大化的24个原始候选框:
目标检测经典论文精读-R-CNN
目标检测经典论文精读-R-CNN
目标检测经典论文精读-R-CNN

对比实验

目标检测经典论文精读-R-CNN
说明了fine-tuning的重要性。
目标检测经典论文精读-R-CNN
R-CNN用于语义分割:
目标检测经典论文精读-R-CNN
目标检测经典论文精读-R-CNN

为什么不直接用softmax分类而要用线性SVM分类?

原因①:
fine-tuning时与训练各类别SVM时的正负样本选择策略是不一样的,所以,如果直接用softmax的话,就必须都按照fine-tuning的正负样本的选择策略来,但是如果用SVM来分类的话,会更好,因为训练SVM时加入了hard negtive mining,而且选择正负样本时也和fine-tuning时不一样。因此,不能直接用softmax而是要用SVM的。
目标检测经典论文精读-R-CNN原因②:
为什么不使用SVM的正负样本选择策略去训练softmax?作者是使用Matlab实现的,Matlab是一个封装的很死的一个库,不允许有太多的自由的修改,不像python一样可以自由的修改底层代码。RBG大神当时写R-CNN时用的是Matlab,可能matlab只有SVM可以进行hard negtive mining。所以没有直接用softmax而是用的SVM。

Bounding Box Regression

所谓回归就是对候选框进行精调,使回归模型输出一系列偏移量,再对候选框施加偏移量从而得到最终的预测框。

目标检测经典论文精读-R-CNN具体来讲:
目标检测经典论文精读-R-CNN
让黄色去拟合蓝色,即找一套线性权重,使得损失函数最小。

R-CNN的Slides讲解

目标检测经典论文精读-R-CNN

目标检测经典论文精读-R-CNN没有什么实质性的进展。
目标检测经典论文精读-R-CNN R-CNN取得了实质性的突破。

R-CNN论文精度

目标检测经典论文精读-R-CNN

Selective Search产生Region proposals

目标检测经典论文精读-R-CNN强行缩放:
目标检测经典论文精读-R-CNN

候选框特征提取

目标检测经典论文精读-R-CNN使用Caffe实现的AlexNet作为特征提取的骨干网络,包括5个卷积层和2个全连接层。
目标检测经典论文精读-R-CNN把所有一千万个候选框输入,找到能使某个feature map中的某个值产生最大激活的候选框,也就是使某单次卷积、单个神经元产生最大激活
不对这个feature map求平均,只关注某个feature map中的某个值。
目标检测经典论文精读-R-CNN使6个通道中的某6个神经元产生最大激活的top regions。
目标检测经典论文精读-R-CNN没有fine turning时,预训练模型中CNN的特征表示性能大部分来自卷积层而非全连接层,去掉全连接层影响不大。进行fine turning时,CNN提取通用特征,FC完成特定领域任务
目标检测经典论文精读-R-CNN加了边界框回归能有效降低定位误差。
目标检测经典论文精读-R-CNN输入CNN之前,强行将候选框缩放至统一尺寸、统一长宽比,所以在不同尺寸和长宽比上FT性能提升意味着全连接层学习到更有用的特征

正负样本的问题:为什么在fine turning训练卷积神经网络和在训练各类别的线性SVM时的正负样本的选取不一样?
目标检测经典论文精读-R-CNN目标检测经典论文精读-R-CNN
fine turning时,正样本与GT有偏离,精准定位性能差;
用softmax并不能解决这一问题(掉点);
用SVM时,GT框为该类正样本,精准定位性能好,且加入了难例挖掘,能够较好的解决问题。文章来源地址https://www.toymoban.com/news/detail-445289.html

到了这里,关于目标检测经典论文精读-R-CNN的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 实例分割论文精读:Mask R-CNN

    实例分割论文精读:Mask R-CNN

    本文提出了一种概念简单、灵活、通用的实例分割方法,该方法在有效地检测图像中的物体同时,为每个物体实例生成一个实例分割模板,添加了一个分支,用于预测一个对象遮罩,与现有的分支并行,用于边界框识别,Mask R-CNN易于训练,只给Faster R-CNN增加了很小的开销,运

    2024年02月01日
    浏览(5)
  • 目标检测——R-CNN网络基础

    目标检测——R-CNN网络基础

    候选区域生成 CNN网络提取特征 目标分类(SVM) 目标定位 红色是SS生成的结果,绿色是标注框 预测过程 ROI Pooling 目标分类和回归

    2024年02月17日
    浏览(12)
  • 目标检测网络系列之R-CNN

    2023年09月08日
    浏览(9)
  • 基于Faster R-CNN实现目标检测

    基于Faster R-CNN实现目标检测

    杨金鹏,男,西安工程大学电子信息学院,2022级研究生 研究方向:机器视觉与人工智能 电子邮件:1394026082@qq.com 路治东,男,西安工程大学电子信息学院,2022级研究生,张宏伟人工智能课题组 研究方向:机器视觉与人工智能 电子邮件:2063079527@qq.com Faster RCNN检测部分主要

    2024年02月07日
    浏览(8)
  • 【目标检测】Faster R-CNN算法实现

    【目标检测】Faster R-CNN算法实现

    继2014年的R-CNN、2015年的Fast R-CNN后,2016年目标检测领域再次迎来Ross Girshick大佬的神作Faster R-CNN,一举解决了目标检测的实时性问题。相较于Fast R-CNN而言,Faster R-CNN主要改进措施包括: 区域建议网络(RPN):Faster R-CNN摒弃了选择性搜索,提出区域提议网络(Region Proposal Netwo

    2024年03月14日
    浏览(10)
  • 目标检测(Object Detection):Fast R-CNN,YOLO v3

    目标检测(Object Detection):Fast R-CNN,YOLO v3

    目录 目标检测(Object Detection) R-CNN SPPNet Fast R-CNN YOLO v1 YOLO v2 YOLO v3 任务是计算机视觉中非常重要的基础问题,也是解决图像分割、目标跟踪、图像描述等问题的基础。目标检测是检测输入图像是否存在给定类别的物体,如果存在,输出物体在图像中的位置信息(矩形框的坐标

    2024年02月11日
    浏览(10)
  • Voxel R-CNN:基于体素的高性能 3D 目标检测

    Voxel R-CNN:基于体素的高性能 3D 目标检测

    论文地址:https://arxiv.org/abs/2012.15712 论文代码:https://github.com/djiajunustc/Voxel-R-CNN 基于点的方法具有较高的检测精度,但基于点的方法通常效率较低,因为对于点集抽象来说,使用点表示来搜索最近邻的代价更高。 相比于基于点,更高效,基于体素的结构更适合于特征提取,

    2024年02月09日
    浏览(6)
  • 深度学习之目标检测R-CNN模型算法流程详解说明(超详细理论篇)

    深度学习之目标检测R-CNN模型算法流程详解说明(超详细理论篇)

    1.R-CNN论文背景 2. R-CNN算法流程 3. R-CNN创新点 论文网址https://openaccess.thecvf.com/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf   RCNN(Region-based Convolutional Neural Networks)是一篇由Ross Girshick等人于2014年发表的论文,题为《Rich feature hierarchies for accurate object detection

    2024年02月11日
    浏览(9)
  • 人工智能详细笔记:计算机视觉、目标检测与R-CNN系列 YOLO系列模型

    计算机视觉概述 :计算机视觉是一种利用计算机算法和数学模型来模拟和自动化人类视觉的学科领域。 计算机视觉的地位 :计算机视觉(CV)与自然语言处理(NLP)、语音识别(SR)并列为机器学习方向的三大热点方向。 计算机视觉的常见任务 :下面将从粗粒度到细粒度介

    2024年02月08日
    浏览(8)
  • 目标检测算法(R-CNN,fast R-CNN,faster R-CNN,yolo,SSD,yoloV2,yoloV3,yoloV4,yoloV5,yoloV6,yoloV7)

    目标检测算法(R-CNN,fast R-CNN,faster R-CNN,yolo,SSD,yoloV2,yoloV3,yoloV4,yoloV5,yoloV6,yoloV7)

    深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理。 目标检测可以理解为是物体识别和物体定位的综合 ,不仅仅要识别出物体属于哪个分类,更重要的是得到物体在图片中的具体位置。 为了完成这两个任务,目标检测模型分

    2024年02月02日
    浏览(9)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包