【图解】Mask R-CNN 架构

这篇具有很好参考价值的文章主要介绍了【图解】Mask R-CNN 架构。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【图解】Mask R-CNN 架构,深度学习算法,算法,cnn,目标跟踪,人工智能

 Mask R-CNN 是一种自顶向下(top-down)的姿态估计模型,它是在 Faster R-CNN [44] 这个目标检测框架的基础上扩展而来的。目标检测是指从图像中检测出不同类别的物体,并且输出它们的边界框(bounding box)。

Mask R-CNN 的结构包括一个标准的基础 CNN,通常是一个 ResNet [18] ,用于从图像中提取特征,然后将这些特征输入到一些专门针对不同任务训练的小型神经网络中,用于提出物体候选(RPN [44])

RPN 的输出是一个二元组 (rpn_class, rpn_bbox) ,其中:

  • rpn_class 是一个二维数组,表示每个锚点(anchor)的类别概率。锚点是一种预定义的边界框,它们覆盖了图像中不同的位置、大小和形状。RPN 会对每个锚点进行二分类,判断它是否包含了物体(foreground)或者背景(background)。rpn_class 的形状是 (batch, anchors, 2) ,其中 batch 是批次大小,anchors 是锚点的总数,2 是类别数。rpn_class 中每个元素是一个长度为 2 的向量,表示该锚点属于 foreground 或者 background 的概率。
  • rpn_bbox 是一个二维数组,表示每个锚点的边界框偏移量。边界框偏移量是指将锚点调整为更贴合物体的位置和大小所需要的平移和缩放的量。rpn_bbox 的形状是 (batch, anchors, 4) ,其中 batch 是批次大小,anchors 是锚点的总数,4 是偏移量的维度。rpn_bbox 中每个元素是一个长度为 4 的向量,表示该锚点在 x, y, w, h 四个方向上的偏移量,其中 x, y 是中心坐标,w, h 是宽度和高度。

 region proposals+Feature Map 不同大小和形状,后续难以统一处理,所以需要RoIAlign 。

RoIAlign 的输出是一个固定大小的 feature map,比如 7 x 7 x C ,其中 C 是通道数。这个 feature map 是从输入的 feature map 中根据 RoI 的位置和大小进行裁剪和插值得到的。RoIAlign 使用了双线性插值(bilinear interpolation)来计算 feature map 中每个像素点的值,使得 feature map 更加平滑和精确。

为了从 RoIAlign 的输出得到 box 和 class,Mask R-CNN 使用了一个叫做 box head 的小型神经网络,它由两个全连接层(fully connected layer)组成。box head 的输入是 RoIAlign 的输出,也就是一个固定大小的 feature map。box head 的输出是一个长度为 K+4 的向量(vector),其中 K 是类别数。这个向量表示每个 RoI 的类别概率和边界框偏移量,也就是说,前 K 个元素是一个 one-hot 向量,表示该 RoI 属于哪个类别的概率,后 4 个元素是一个四维向量,表示该 RoI 在 x, y, w, h 四个方向上的偏移量,其中 x, y 是中心坐标,w, h 是宽度和高度。

通过 box head 的输出,我们可以得到每个 RoI 的类别和边界框,用于后续的 Mask R-CNN 的分割任务。

为了从 RoIAlign 的输出得到 mask,Mask R-CNN 使用了一个叫做 mask head 的小型神经网络,它由两个卷积层(convolution layer)和一个反卷积层(deconvolution layer)组成。mask head 的输入是 RoIAlign 的输出,也就是一个固定大小的 feature map。mask head 的输出是一个 28 x 28 x K 的张量(tensor),其中 K 是类别数。这个张量表示每个类别对应的 mask 的概率分布,也就是说,每个类别有一个 28 x 28 的 mask,表示该类别物体在图像中的位置和形状。为了得到最终的 mask,我们需要根据分类结果选择对应的类别,并且将 mask 进行二值化(binarization),即将大于某个阈值(比如 0.5)的像素点设为 1 ,表示物体,将小于等于阈值的像素点设为 0 ,表示背景。文章来源地址https://www.toymoban.com/news/detail-622958.html

到了这里,关于【图解】Mask R-CNN 架构的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 实例分割论文精读:Mask R-CNN

    本文提出了一种概念简单、灵活、通用的实例分割方法,该方法在有效地检测图像中的物体同时,为每个物体实例生成一个实例分割模板,添加了一个分支,用于预测一个对象遮罩,与现有的分支并行,用于边界框识别,Mask R-CNN易于训练,只给Faster R-CNN增加了很小的开销,运

    2024年02月01日
    浏览(39)
  • 探索常见经典目标检测算法:从YOLO到Faster R-CNN

    目标检测是计算机视觉领域中的重要任务之一,它旨在从图像或视频中检测出目标的位置和类别。随着深度学习技术的发展,许多经典的目标检测算法相继出现,其中包括YOLO(You Only Look Once)、Faster R-CNN(Region-based Convolutional Neural Networks)等。本文将深入介绍这些常见的目标

    2024年04月26日
    浏览(40)
  • 目标检测算法(R-CNN,fast R-CNN,faster R-CNN,yolo,SSD,yoloV2,yoloV3,yoloV4,yoloV5,yoloV6,yoloV7)

    深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理。 目标检测可以理解为是物体识别和物体定位的综合 ,不仅仅要识别出物体属于哪个分类,更重要的是得到物体在图片中的具体位置。 为了完成这两个任务,目标检测模型分

    2024年02月02日
    浏览(49)
  • 2023 Mask R-CNN 改进:DynaMask: Dynamic Mask Selection for Instance Segmentation 论文笔记

    写在前面   本周更新的第二篇论文阅读,2023年每周一篇博文,还剩5篇未补,继续加油~ 论文地址:DynaMask: Dynamic Mask Selection for Instance Segmentation 代码地址:https://github.com/lslrh/DynaMask 收录于:CVPR 2023 欢迎关注,主页更多干货,持续输出中~   一般的实例分割通常采用固定

    2024年02月01日
    浏览(86)
  • OpenCV中使用Mask R-CNN实现图像分割的原理与技术实现方案

    本文详细介绍了在OpenCV中利用Mask R-CNN实现图像分割的原理和技术实现方案。Mask R-CNN是一种先进的深度学习模型,通过结合区域提议网络(Region Proposal Network)和全卷积网络(Fully Convolutional Network),实现了对图像中物体的精确分割。本文首先阐述了Mask R-CNN的原理,然后详细

    2024年02月03日
    浏览(43)
  • 经典目标检测R-CNN系列(2)Fast R-CNN

    Fast R-CNN是作者Ross Girshick继R-CNN后的又一力作。 同样使用VGG16作为网络的backbone,与R-CNN相比训练时间快9倍,测试推理时间快213倍,准确率从62%提升至66%(Pascal VOC数据集上)。 Fast R-CNN算法流程可分为3个步骤 一张图像生成1K~2K个 候选区域 (使用Selective Search方法) 将图像输入网络得

    2024年02月16日
    浏览(39)
  • 有空就学学的实例分割1——Tensorflow2搭建Mask R-CNN实例分割平台

    把Mask RCNN用tensorflow2实现了一遍,至少要跟得上时代对不对。 Mask R-CNN是He Kaiming大神2017年的力作,其在进行目标检测的同时进行实例分割,取得了出色的效果。 其网络的设计也比较简单,在Faster R-CNN基础上,在原本的两个分支上(分类+坐标回归)增加了一个分支进行语义分

    2024年02月20日
    浏览(44)
  • 目标检测经典工作发展(超详细对比):R-CNN vs SPPNet vs Fast R-CNN vs Faster R-CNN

    网上关于两阶段目标检测(two-stage object detection)的几个经典工作R-CNN,SPPNet,Fast R-CNN,Faster R-CNN的发展,各自的优缺点缺乏一个比较清楚的描述,大部分文章讲的比较细节,虽然有助于更为详细地了解文章,但是让读者在短时间内对各个文章有一个详细的理解。本文主要对

    2024年02月09日
    浏览(62)
  • 目标检测——R-CNN网络基础

    候选区域生成 CNN网络提取特征 目标分类(SVM) 目标定位 红色是SS生成的结果,绿色是标注框 预测过程 ROI Pooling 目标分类和回归

    2024年02月17日
    浏览(42)
  • 目标检测网络系列之R-CNN

    2023年09月08日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包