经典目标检测R-CNN系列(2)Fast R-CNN

这篇具有很好参考价值的文章主要介绍了经典目标检测R-CNN系列(2)Fast R-CNN。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

经典目标检测R-CNN系列(2)Fast R-CNN

  • Fast R-CNN是作者Ross Girshick继R-CNN后的又一力作。

  • 同样使用VGG16作为网络的backbone,与R-CNN相比训练时间快9倍,测试推理时间快213倍,准确率从62%提升至66%(Pascal VOC数据集上)。

1 Fast R-CNN的前向过程

Fast R-CNN算法流程可分为3个步骤

  • 一张图像生成1K~2K个候选区域(使用Selective Search方法)

  • 将图像输入网络得到相应的特征图,将SS算法生成的候选框投影到特征图上,获得相应的特征矩阵

  • 将每个特征矩阵通过ROI pooling层缩放到7x7大小的特征图,接着将特征图展平通过一系列全连接层得到预测结果

经典目标检测R-CNN系列(2)Fast R-CNN,# 深度学习,目标检测,cnn,计算机视觉

Fast R-CNN除了先以一个相对独立的步骤生成区域建议之外,其余4个主要环节均以整合在一起的神经网络结构来实现:卷积特征提取RoI特征提取类别预测和位置预测。目标检测的最后还包括后处理环节,实现包围框绝对位置计算、类别-位置绑定和基于NMS的冗余包围框去除。

经典目标检测R-CNN系列(2)Fast R-CNN,# 深度学习,目标检测,cnn,计算机视觉

1.1 卷积特征提取

  • R-CNN依次将候选框区域输入卷积神经网络得到特征。

  • Fast-RCNN将整张图像送入网络,紧接着从特征图像上提取相应的候选区域。这些候选区域的特征不需要再重复计算

经典目标检测R-CNN系列(2)Fast R-CNN,# 深度学习,目标检测,cnn,计算机视觉

  • Fast-RCNN不限制输入图像的尺寸。

  • 原始图像整体以全卷积(fully convolutional)方式输入CNN得到卷积特征图,以某一卷积层的特征图作为最终输出,得到卷积特征。

    • 例如,主干网络结构采用VGG16,以卷积层conv5_3的输出作为特征图,则得到的特征图具有512个通道,降采样倍率为16【卷积特征提取仅使用conv1至conv5部分】。

经典目标检测R-CNN系列(2)Fast R-CNN,# 深度学习,目标检测,cnn,计算机视觉

1.2 RoI特征提取

  • RoI池化层以卷积特征和经过对应比例缩小的区域建议(在Fast R-CNN中称为RoI)作为输入,对投射在特征图上的RoI进行W×H的网格划分(W和H为RoI池化层的超参数,分别表示网格的宽度和高度,也就是输出特征图的宽度和高度),逐通道在每个网格上做最大池化,各个通道独立操作。

  • 与SPP-Net不同的是,RoI池化层的网格划分仅在一个固定尺度上进行。即RoI池化可以看作是SPP-Net中SPP层的单一尺度版本。

  • RoI池化得到的特征图随后输入若干层全连接层,进行进一步的特征变换。

经典目标检测R-CNN系列(2)Fast R-CNN,# 深度学习,目标检测,cnn,计算机视觉

1.3 类别预测和位置预测

1.3.1 类别预测

得到的RoI特征“兵分两路”,分别进行类别预测与位置预测。

在类别预测分支中,RoI特征被输入一个输出维度为目标类别数 K 的全连接层、配有softmax分类器的分支网络,得到类别分布预测,从而实现类别判定。

经典目标检测R-CNN系列(2)Fast R-CNN,# 深度学习,目标检测,cnn,计算机视觉

1.3.2 位置预测

  • 位置预测分支中,RoI特征被输入以全连接层表示的包围框回归器

  • 该全连接层的输出为C×4,这里 C 为目标检测类别数,这里的4表示形如(dx§,dy§,dw§,dh§)的包围框位置变换参数

  • 可以看出Fast R-CNN包围框位置也是类别相关的

经典目标检测R-CNN系列(2)Fast R-CNN,# 深度学习,目标检测,cnn,计算机视觉

1.3.3 后处理

实现包围框绝对位置计算、类别-位置绑定和基于NMS的冗余包围框去除。

1.3.4 奇异值分解

  • 在Fast R-CNN中,类别预测与位置预测均通过全连接层实现,全连接操作的本质为向量的线性变换。

  • 例如产生的RoI数量为2000个(参考R-CNN中选择性搜索得到的区域建议个数),用于位置预测分支全连接层的乘法计算量将超过6.8亿次(具体为2000×84×4096=688128000次),如此大规模的计算需要大量的时间开销,严重限制了目标检测的速度。

  • 所以为了提高目标检测速度,Fast R-CNN采用基于奇异值分解。实践表明,Fast R-CNN利用该方法,以MAP损失0.3%的代价换来30%的速度提升。

2 Fast R-CNN的损失函数

2.1 分类损失

经典目标检测R-CNN系列(2)Fast R-CNN,# 深度学习,目标检测,cnn,计算机视觉

Fast R-CNN类别预测分支为每个RoI预测C个类别的概率分布p=(p0,p1,…,pC−1)

在基于神经网络的模型中,概率分布一般由具有C个输出的全连接层配合softmax函数得到

设与RoI相关的GT类别为u(u=0,1,…,C−1),则类别预测的损失可以定义为交叉熵误差
L c l s ( p , u ) = − l o g ⁡ p u L_{cls}(p,u)=−log⁡p_u Lcls(p,u)=logpu

2.2 边界框回归损失

经典目标检测R-CNN系列(2)Fast R-CNN,# 深度学习,目标检测,cnn,计算机视觉

从上述函数定义可以看出,与R-CNN和SPP-Net使用的 L2 损失相比,平滑 L1 损失对包围框位置偏差的惩罚、尤其是对偏差很大情况下(离群点,outliers)的惩罚更加平滑,从而防止梯度过大造成梯度爆炸(exploding gradients)。

2.3 Fast R-CNN的优缺点

优点

  • Fast R-CNN借鉴了SPP-Net的思路,保持了支持任意尺寸输入这一优良特性。

  • 将类别预测与位置预测结果作为模型的平行输出,与之对应的训练环节也以多任务模式同步完成。

  • 除了区域建议生成,其他大部分环节实现端到端,训练和测试速度均得到大幅提升。

  • 除此之外,Fast R-CNN在目标检测的准确率方面也达到很高的水平。

缺点

  • 在速度方面,从利用CNN提取卷积特征到获得最终结果,Fast R-CNN处理一幅图像的时间大约为0.3秒,但是如果以基于选择搜索的方法进行区域建议生成,仅此一步操作就需要2至3秒,可以说区域建议生成成为制约Fast R-CNN整体速度的瓶颈。

  • 在流程方面,无论在训练阶段还是测试阶段,区域建议环节生成还是独立于CNN之外,还是没有完全实现端到端。文章来源地址https://www.toymoban.com/news/detail-577836.html

到了这里,关于经典目标检测R-CNN系列(2)Fast R-CNN的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 目标检测网络系列之R-CNN

    2023年09月08日
    浏览(28)
  • 目标检测算法(R-CNN,fast R-CNN,faster R-CNN,yolo,SSD,yoloV2,yoloV3,yoloV4,yoloV5,yoloV6,yoloV7)

    深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理。 目标检测可以理解为是物体识别和物体定位的综合 ,不仅仅要识别出物体属于哪个分类,更重要的是得到物体在图片中的具体位置。 为了完成这两个任务,目标检测模型分

    2024年02月02日
    浏览(36)
  • 目标检测C-RNN,Fast C-RNN,Faster C-RNN,SSD,Mask R-CNN 理论简单介绍

    参考: https://zh-v2.d2l.ai/chapter_computer-vision/multiscale-object-detection.html 区域卷积神经网络 region-based CNN R-CNN首先从输入图像中选取若干(例如2000个)提议区域,并标注它们的类别和边界框(如偏移量)。用卷积神经网络对每个提议区域进行前向传播以抽取其特征。 接下来,我们

    2024年03月14日
    浏览(63)
  • 深度学习之目标检测R-CNN模型算法流程详解说明(超详细理论篇)

    1.R-CNN论文背景 2. R-CNN算法流程 3. R-CNN创新点 论文网址https://openaccess.thecvf.com/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf   RCNN(Region-based Convolutional Neural Networks)是一篇由Ross Girshick等人于2014年发表的论文,题为《Rich feature hierarchies for accurate object detection

    2024年02月11日
    浏览(56)
  • 人工智能详细笔记:计算机视觉、目标检测与R-CNN系列 YOLO系列模型

    计算机视觉概述 :计算机视觉是一种利用计算机算法和数学模型来模拟和自动化人类视觉的学科领域。 计算机视觉的地位 :计算机视觉(CV)与自然语言处理(NLP)、语音识别(SR)并列为机器学习方向的三大热点方向。 计算机视觉的常见任务 :下面将从粗粒度到细粒度介

    2024年02月08日
    浏览(40)
  • 目标检测——R-CNN网络基础

    候选区域生成 CNN网络提取特征 目标分类(SVM) 目标定位 红色是SS生成的结果,绿色是标注框 预测过程 ROI Pooling 目标分类和回归

    2024年02月17日
    浏览(27)
  • 基于Faster R-CNN实现目标检测

    杨金鹏,男,西安工程大学电子信息学院,2022级研究生 研究方向:机器视觉与人工智能 电子邮件:1394026082@qq.com 路治东,男,西安工程大学电子信息学院,2022级研究生,张宏伟人工智能课题组 研究方向:机器视觉与人工智能 电子邮件:2063079527@qq.com Faster RCNN检测部分主要

    2024年02月07日
    浏览(48)
  • 【目标检测】Faster R-CNN算法实现

    继2014年的R-CNN、2015年的Fast R-CNN后,2016年目标检测领域再次迎来Ross Girshick大佬的神作Faster R-CNN,一举解决了目标检测的实时性问题。相较于Fast R-CNN而言,Faster R-CNN主要改进措施包括: 区域建议网络(RPN):Faster R-CNN摒弃了选择性搜索,提出区域提议网络(Region Proposal Netwo

    2024年03月14日
    浏览(33)
  • Voxel R-CNN:基于体素的高性能 3D 目标检测

    论文地址:https://arxiv.org/abs/2012.15712 论文代码:https://github.com/djiajunustc/Voxel-R-CNN 基于点的方法具有较高的检测精度,但基于点的方法通常效率较低,因为对于点集抽象来说,使用点表示来搜索最近邻的代价更高。 相比于基于点,更高效,基于体素的结构更适合于特征提取,

    2024年02月09日
    浏览(32)
  • [论文阅读]Voxel R-CNN——迈向高性能基于体素的3D目标检测

    Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection 迈向高性能基于体素的3D目标检测 论文网址:Voxel R-CNN 论文代码:Voxel R-CNN 该论文提出了 Voxel R-CNN,这是一种基于体素的高性能 3D 对象检测框架。作者认为,原始点的精确定位对于准确的目标检测并不重要,粗体素粒度可

    2024年02月07日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包