Mask RCNN网络结构以及整体流程的详细解读

这篇具有很好参考价值的文章主要介绍了Mask RCNN网络结构以及整体流程的详细解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、概述

  • Mask RCNN是在Faster RCNN的基础上增加了mask head用于实例分割的模型。
  • 总体来说,Mask RCNN网络结构可以分为:BackBone(ResNet+FPN) —> RPN网络(Region Proposal Network) —> ROI Head(ROIAlign + cls head + bbox head + mask head)
  • 整体网络结构如下(来自原论文https://arxiv.org/pdf/1703.06870.pdf):
    Mask RCNN网络结构以及整体流程的详细解读,实例分割,人工智能,图像处理,python,计算机视觉,实例分割,目标检测,深度学习

2、Backbone

  • Backbone主要由ResNet和FPN组成,如下图
    Mask RCNN网络结构以及整体流程的详细解读,实例分割,人工智能,图像处理,python,计算机视觉,实例分割,目标检测,深度学习

1)C1-C5是指ResNet网络5个stage输出的特征图,下采样率分别为2, 4, 8, 16, 32,通道数分别为64, 256, 512, 1024, 2048

Mask RCNN网络结构以及整体流程的详细解读,实例分割,人工智能,图像处理,python,计算机视觉,实例分割,目标检测,深度学习

2)FPN网络类似于UNet网络中的跳级连接,都是为了增强多尺度表征能力的:分别对C2-C5四个特征图通过1 × \times × 1卷积改变通道数为256,再与上采样路径中对应尺度的特征图相加。得到的P2-P6就是FPN网络的五个特征图,下采样率为4, 8, 16, 32, 64,通道数都为256
3)需要注意的是,P2-P6这五个特征图将分别作为RPN网络的输入和ROI Head中的ROI Align的输入:

RPN网络的输入:用于在这五个特征图上生成先验的anchor,并对这些anchor进行类别预测和bbox回归,以生成最终的anchor输入到ROI Head中
ROI Align的输入:根据RPN网络生成的anchors,提取这五个特征图中对应的ROI区域特征图,输入到cls、bbox和maskhead中

3、RPN网络

  • RPN网络为Region Proposal Network,主要作用:用于生成先验的anchor box/proposals;并将P2-P6这五个特征图作为网络输入学习得到这些先验的anchor box/proposal的类别(前景or背景)以及通过bbox 回归得到偏移量;最终经过RPN网络预测得到的具有更高质量的proposal送入ROI Head中
  • 主要流程为:1)anchor的生成;2)anchor的标注;3)P2-P6五个特征图进行二分类的预测和bbox回归;4)通过NMS后处理得到最终的anchor

3.1、anchor的生成

  • 在P2-P6的五个特征图上分别对应设置5个不同的anchor size(32, 64, 128, 256, 512)并设置3种长宽比(0.5, 1.0, 2.0),也就是每个特征图的每个像素点生成3个anchor(x, y, w, h)
  • 具体来说,特征图中的每个点都会先映射到原始图像中,并以该点为中心,以对应的anchor size和3种长宽比的设置,生成3个anchor(x, y, w, h)
  • 例如,输入图像为512 × \times × 512,那么五个特征图的尺寸分别为128, 64, 32, 16, 8,那么生成的anchors的数量为(128 × \times × 128 + 64 × \times × 64 + 32 × \times × 32 + 16 × \times × 16 + 8 × \times × 8) × \times × 3 = 21824 × \times × 3 = 65472个anchors

3.2、anchor的标注/分配

  • 该过程就是确定生成的所有anchor为正样本or负样本
  • 标注流程如下:

1)先排除掉超过原图边界的anchors;
2)计算其余的每个anchor与 所有ground truth bbox的IoU,取与每个bbox的的最大IoU作为判断:大于0.7为正样本,小于0.3为负样本;
3)计算每个bbox与那个anchor的IoU最大,把该anchor也标记为正样本

  • 最后随机选择128个正样本和128个负样本用于RPN网络的训练,对于分类:128个正样本的label为1,128个负样本的label和剩下的anchor的label为0;对于bbox回归:超过边界的anchor的label为(0, 0, 0, 0),其余anchor的label是与它对应的具有最大IoU的bbox的实际偏移量

3.3、分类预测和bbox回归

  • 首先对5个特征图进行3 × \times × 3卷积,然后分为2个分支
  • 分类分支为1 × \times × 1卷积,输出通道数为num_anchors=3,表示的是特征图的每个像素点对应的3个anchors为前景的概率值。

需要注意的是,五个特征图分别作为3 × \times × 3卷积和该分支的1 × \times × 1卷积的输入计算得到概率值,再计算128个正样本和128个负样本的分类损失,也就是说只有一组3 × \times × 3卷积和1 × \times × 1卷积

  • bbox回归分支为1 × \times × 1卷积,输出通道数为num_anchors × \times × 4 = 12,表示3个anchor的4个预测位置参数

以下为bbox回归的详细介绍,预测得到的(dx, dy, dw, dh)与ground truth之间计算Smooth L1损失
Mask RCNN网络结构以及整体流程的详细解读,实例分割,人工智能,图像处理,python,计算机视觉,实例分割,目标检测,深度学习
Mask RCNN网络结构以及整体流程的详细解读,实例分割,人工智能,图像处理,python,计算机视觉,实例分割,目标检测,深度学习

  • 训练RPN网络:对128个正样本和128个负样本计算分类损失:二分类交叉熵损失函数,以及回归损失:Smooth L1损失

3.4、NMS生成最终的anchor

  • 根据RPN网络生成的所有anchor的score和4个位置参数(tx, ty, tw, th)进行如下操作:

1)根据偏移量对anchor的位置进行微调,得到(x, y, w, h)
2)删除掉超过边界的anchor
3)根据score对anchor从大到小进行排序
4)对于每个尺度上的特征图(就是P2-P6的五个特征图),选择前2000个anchor,在经过NMS之后选择最高1000个anchors作为最终的anchor输入到ROI Head中(这些数量属于超参数,可调整)

  • 例如,5个特征图在NMS之前选择的前2000个anchor如下,3和4没到2000是因为他们的特征图P5和P6的尺寸分别为16和8,计算得到的anchors数量为768和192。
    Mask RCNN网络结构以及整体流程的详细解读,实例分割,人工智能,图像处理,python,计算机视觉,实例分割,目标检测,深度学习

  • 训练阶段和推理阶段有一些不同:

训练阶段:计算loss并生成anchor
推理阶段:直接生成anchor

  • 生成anchor的NMS的配置可能不同,例如:

训练阶段
Mask RCNN网络结构以及整体流程的详细解读,实例分割,人工智能,图像处理,python,计算机视觉,实例分割,目标检测,深度学习
推理阶段
Mask RCNN网络结构以及整体流程的详细解读,实例分割,人工智能,图像处理,python,计算机视觉,实例分割,目标检测,深度学习

4、ROI Head

  • 主要包括ROI ALign和3个head: class head, bbox head, mask head

4.1、ROI Align

  • RPN网络最终生成的anchors将作为ROI Align的输入,也就是说根据这些anchors(x, y, w, h) 来提取P2-P6特征图中的anchors对应的特征作为3个head的特征图输入。
  • 我们首先要知道anchors的坐标位置(x, y, w, h)表示的是原图像中的区域,可以将其映射到特征图中,Faster RCNN正是采用了ROI pooling层映射为固定尺寸的ROI区域:
    Mask RCNN网络结构以及整体流程的详细解读,实例分割,人工智能,图像处理,python,计算机视觉,实例分割,目标检测,深度学习
  • 但是ROI pooling层由于存在取整操作,对于一些小目标很容易导致区域不匹配问题,因此Mask RCNN采用了ROI ALign操作

1)将anchor映射到对应的特征图中,w和h在被除时不去整,ROI pooling取整了。对于五个特征图的选择方法如下:
Mask RCNN网络结构以及整体流程的详细解读,实例分割,人工智能,图像处理,python,计算机视觉,实例分割,目标检测,深度学习

2)将映射后的ROI区域均匀分为K × \times ×K的bin,每个bin的大小不取整,ROI pooling取整了
3)每个bin的每个像素值计算为特征图中与它邻近的4个值的双线性插值
Mask RCNN网络结构以及整体流程的详细解读,实例分割,人工智能,图像处理,python,计算机视觉,实例分割,目标检测,深度学习

4)使用max pooling或者average pooling得到K × \times ×K特征图(7 × \times × 7或者14 × \times × 14)作为3个head的输入
Mask RCNN网络结构以及整体流程的详细解读,实例分割,人工智能,图像处理,python,计算机视觉,实例分割,目标检测,深度学习

4.2、cls head和bbox head

  • 首先是样本的标注与分配

1)计算由RPN网络最终生成的所有anchors与每个GT bbox的IoU值,取每个anchor的最大IoU值进行判断:IoU>0.5的样本中选择128个正样本,小于0.5的样本中选择384个负样本(通过启发式采样,即正负样本1:3的方式来减轻正负样本不均衡的问题)
Mask RCNN网络结构以及整体流程的详细解读,实例分割,人工智能,图像处理,python,计算机视觉,实例分割,目标检测,深度学习

2)对于类别标签:正样本为对应的GT bbox的类别标签,负样本为0;对于bbox回归的标签:与该样本最大IoU值的GT bbox的实际偏移量

  • 将这512个样本anchors通过ROI Align获取得到512个7 × \times × 7 × \times × 256的特征图作为class head和bbox head的输入,进行如下的前向传播:一般为2个3*3卷积+2个fc层
    Mask RCNN网络结构以及整体流程的详细解读,实例分割,人工智能,图像处理,python,计算机视觉,实例分割,目标检测,深度学习
  • 最后就是损失函数的计算:分类损失为多类别交叉熵损失,回归损失也是Smooth L1损失

4.3、mask head

  • mask标签和输入特征图的获取

1)计算每个正样本的anchor在原始图像中的大mask,就是根据位置参数在原图像的二值mask框出来的
2)根据计算得到的每个anchor对应尺度的特征图(P2-P6中的一个),将anchor位置参数除以缩放倍数/下采样率再进行ROI Align得到正样本数目num_gts个14 × \times × 14 × \times × 256的特征图作为mask head的输入;
3)而对于大mask也进行倍数缩放,就可以得到每个anchor在对应特征图上的mask(软掩码)—>二值化—>硬掩码

  • 对输入特征图再通过FCN层进行预测得到28 × \times × 28的预测mask结果

Mask RCNN网络结构以及整体流程的详细解读,实例分割,人工智能,图像处理,python,计算机视觉,实例分割,目标检测,深度学习

  • 最后进行损失函数的计算,为交叉熵损失
  • 需要注意的是,推理阶段不一样,有先后顺序:

Mask RCNN网络结构以及整体流程的详细解读,实例分割,人工智能,图像处理,python,计算机视觉,实例分割,目标检测,深度学习文章来源地址https://www.toymoban.com/news/detail-638290.html

到了这里,关于Mask RCNN网络结构以及整体流程的详细解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ResNet网络结构,BN以及迁移学习详解

     网络中的亮点: 1.超深的网络结构(超过1000层) 2.提出residual(残差)模块 3.使用Batch Normalization加速训练(丢弃dropout) 左边是将卷积层和池化层进行一个简单的堆叠所搭建的网络结构 20层的训练错误率大概在1%~2%左右 56层的训练错误率大概在7%~8% 所以通过简单的卷积层和池化

    2024年02月11日
    浏览(41)
  • Stable Diffusion XL网络结构-超详细

    Stable Diffusion1.5网络结构-超详细原创-CSDN博客 以生成图像1024x1024为例,与SD1.5的3个 CrossAttnDownBlock2D和CrossAttnUpBlock2D 相比,SDXL只有2个,但SDXL的 CrossAttnDownBlock2D模块有了更多的Transformer模块,且只进行了两次下采样,具体的往下看 1.2.1  DownBlock2D 1.2.1.1 ResBolck2D 和SD1.5不一样的是

    2024年04月25日
    浏览(40)
  • 深度学习之图像分割—— SegNet基本思想和网络结构以及论文补充

    原文链接:SegNet SegNet是2016年cvpr由Cambridge提出旨在解决自动驾驶或者智能机器人的图像语义分割深度网络,开放源码,基于caffe框架。SegNet基于FCN,修改VGG-16网络得到的语义分割网络,有两种版本的SegNet,分别为SegNet与Bayesian SegNet,同时SegNet作者根据网络的深度提供了一个b

    2024年02月06日
    浏览(43)
  • Stable Diffusion1.5网络结构-超详细

    目录 1 Unet 1.0 介绍 1.1详细整体结构 1.2 缩小版整体结构 1.3 时间步编码 1.4 CrossAttnDownBlock2D 1.4.1 ResnetBlock2D 1.4.2 Transformer2DModel 1.4.2.1 BasicTransformerBlock 1.4.2.1.1 SelfAttention 1.4.2.1.2 CrossAttention 1.4.2.1.3 FeedForward 1.4.3 DownSample2D 1.5 DownBlock2D 1.6 UnetMidBlock2DCrossAttn 1.7 UpBlock2D 1.7.1 Up

    2024年02月04日
    浏览(40)
  • 【计算机网络】 IP协议格式以及以太网帧结构

    IP工作在网络层 IP头分为两部分,固定部分和可变部分,固定部分就是一定要带这些数据,正常存储应该是连续的,并不是像图中这样会换行,图中只是为了方便观察。 首先是一个版本号,也就是看是ipv4还是ipv6,然后是首部长度,就是我们ip头的首部长度,是为了能将首部和

    2024年02月09日
    浏览(60)
  • 一文详细理解计算机网络体系结构(考试和面试必备)

    1.1 计算机网络的概念 最 简 洁 的 定 义 color{#0000FF}{最简洁的定义} 最 简 洁 的 定 义 :计算机网络就是一些互连的,自治的计算机系统的集合。 广 义 观 点 的 定 义 color{#0000FF}{广义观点的定义} 广 义 观 点 的 定 义 :计算机网络是 能实现远程信息处理的系统 或 能进一步

    2023年04月08日
    浏览(53)
  • 计算机网络——第一章体系结构相关习题及详细解析

    在OSI参考模型中,自下而上第一个提供端到端服务的层次是: A.数据链路层        B.传输层        C.会话层        D.应用层 答案选择: B.传输层 即, 在OSI参考模型中,自下而上第一个提供端到端服务的层次是传输层。  解析 为了解决这道题,我们首先要了解OSI体系结构

    2024年02月08日
    浏览(48)
  • 简单有趣的轻量级网络 Shufflenet v1 、Shufflenet v2(网络结构详解+详细注释代码+核心思想讲解)——pytorch实现

         这期博客咱们来学习一下Shufflenet系列轻量级卷积神经网络,Shufflenet v1 、Shufflenet v2。 本博客代码可以直接生成训练集和测试集的损失和准确率的折线图,便于写论文使用。 论文下载链接: Shufflene系列轻量级卷积神经网络由旷世提出,也是非常有趣的轻量级卷积神经网

    2024年02月01日
    浏览(47)
  • YOLOv5源码逐行超详细注释与解读(6)——网络结构(1)yolo.py

    在上一篇中,我们简单介绍了YOLOv5的配置文件之一 yolov5s.yaml ,这个文件中涉及很多参数,它们的调用会在这篇 yolo.py 和下一篇 common.py 中具体实现。 本篇我们会介绍 yolo.py ,这是YOLO的特定模块,和网络构建有关。 在 YOLOv5源码中,模型的建立是依靠 yolo.py 中的函数和对象完

    2023年04月15日
    浏览(77)
  • YOLOv5源码逐行超详细注释与解读(7)——网络结构(2)common.py

    上一篇我们一起学习了YOLOv5的网络模型之一 yolo.py ,它这是YOLO的特定模块,而今天要学习另一个和网络搭建有关的文件—— common.py ,这个文件存放着YOLOv5网络搭建常见的通用模块。如果我们需要修改某一模块,那么就需要修改这个文件中对应模块的定义。 学这篇的同时,搭

    2023年04月16日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包