计算机视觉三大基本任务:分类、检测(定位)、分割(语义和实例)

这篇具有很好参考价值的文章主要介绍了计算机视觉三大基本任务:分类、检测(定位)、分割(语义和实例)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

刚刚接触计算机视觉时可能会对不同的任务的区分以及网络架构的选择产生迷惑,因此,在此总结了相关的基础知识。在本文中,我们试图回答两个问题:

  1. 不同任务要做的事情是什么,研究范畴是什么?
  2. 不同的任务需要选择什么类型的网络?

分类、检测(定位)、分割(语义和实例)

计算机视觉任务可以分为4大类或3大类,本文根据个人理解,将其分为3大类。任务复杂程度和难度:实例分割>语义分割>物体检测>分类。

首先,先从一张图直观地感受和理解不同任务的区别与联系:

计算机视觉三大基本任务:分类、检测(定位)、分割(语义和实例)
图1. (a) 图像分类;(b)目标检测和定位;(c)语义分割;(d)实例分割
图片来源于知乎张皓: 直观梳理深度学习——计算机视觉四大基本任务

分类任务 (Classification)

分类任务:将图像结构化为某一类别的信息,用事先确定好的类别或实例ID来描述图片。分类任务可以分为:二分类任务、多分类任务。分类任务更关注图片整体的内容描述

二分类任务:目标类只有两类,即正类或负类;对于每一张输入照片,其中有某物是正类,无某物是负类。输出层为1个神经元,sigmod函数作为激活函数判断,交叉熵作为损失函数。

多分类任务:与二分类任务形成对比,目标类有n类,如鼠、猫、狗、狼、虎、象等标签。多分类任务输出层神经元有n个,对应n个类别。softmax函数给出每一类的概率,交叉熵作为损失函数。

定位和检测任务(Localization and Dection)

检测任务更关注特定的物体目标,要求获得这一目标的类别信息以及位置信息。物体检测包含两个问题,一是判断属于某个特定类的物体是否出现在图中;二是对该物体进行定位,定位用于表征物体的边界框,常用矩形检测框的坐标表示。

语义分割(Semantic Segmentation)

语义分割:需要将图片中逐像素标注为某个物体类别,但同一物体的不同实例不需要单独分割。如图1c,图中共有1个bottle,1个cup,3个cube,只需要标注bottle,cup,cube即可,无需标注出cube1,cube2,cube3。

实例分割(instance segmentation)

实例分割是物体检测和语义分割的综合体。(1)相对于物体检测的矩形检测框,实例分割可精确到物体的边缘;(2)相对语义分割,实例分割可标注同一物体的不同实例,如cube1,cube2,cube3。

网络架构选择

经典卷积神经网络的发展

LeNet-5 (Yann LeCun, 1989):最早发布的卷积神经网络之一,效果媲美支持向量机。

AlexNet (Alex Krizhevsky, 2012):第一个现代(21世纪)深度卷积神经网络。

AlexNet的关键点:(1). 使用了ReLU激活函数,使之有更好的梯度特性、训练更快。(2). 使用了随机失活(dropout)。(3). 大量使用数据扩充技术。AlexNet的意义在于它以高出第二名10%的性能取得了当年ILSVRC竞赛的冠军,这使人们意识到卷积神经网络的优势。此外,AlexNet也使人们意识到可以利用GPU加速卷积神经网络训练。

VGG (Simonyan & Zisserman, 2014):引入VGG块的思想。

VGG的关键点:(1). 结构简单,只有3×3卷积和2×2汇合两种配置,并且重复堆叠相同的模块组合。卷积层不改变空间大小,每经过一次汇合层,空间大小减半。(2). 参数量大,而且大部分的参数集中在全连接层中。网络名称中有16表示它有16层conv/fc层。(3). 合适的网络初始化和使用批量归一(batch normalization)层对训练深层网络很重要。

NiN [Lin et al., 2013]:网络中的网络。

GoogLeNet [Szegedy et al., 2015]:含并行连结的网络,Inception块。

GoogLeNet的关键点是:(1). 多分支分别处理,并级联结果。(2). 为了降低计算量,用了1×1卷积降维。GoogLeNet使用了全局平均汇合替代全连接层,使网络参数大幅减少。

Inception的名字来源于盗梦空间中的"we need to go deeper"梗 

ResNet [He et al., 2016a]:ResNet旨在使用残差连接解决网络加深后训练难度增大的现象。

ResNet的关键点是:(1). 使用短路连接,使训练深层网络更容易,并且重复堆叠相同的模块组合。(2). ResNet大量使用了批量归一层。(3). 对于很深的网络(超过50层),ResNet使用了更高效的瓶颈(bottleneck)结构

DenseNet [Huang et al., 2017]:ResNet的逻辑扩展,其目的也是避免梯度消失。

不同任务网络架构选择

《未完待续》

参考资料

  • 图像分类,物体检测,语义分割,实例分割的联系和区别

  •  知乎张皓:直观梳理深度学习——计算机视觉四大基本任务

  • 李沐:动手学深度学系——CH7 现代卷积神经网络文章来源地址https://www.toymoban.com/news/detail-447214.html

到了这里,关于计算机视觉三大基本任务:分类、检测(定位)、分割(语义和实例)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【计算机视觉 | 目标检测】术语理解2:Grounding 任务、MLM、ITM代理任务

    Grounding 任务是指将自然语言文本与视觉场景之间进行对齐或连接的任务。在这个任务中,文本描述和视觉信息需要建立联系,以实现跨模态的理解和交互。 Grounding 任务可以包括以下几种类型: 图像描述生成:这个任务要求从给定的图像中生成相应的文本描述。模型需要将图

    2024年02月05日
    浏览(48)
  • 【图像分类】基于计算机视觉的坑洼道路检测和识别(2个类别)

    写在前面: 首先感谢兄弟们的支持,让我有创作的动力,在创作过程我会尽最大能力,保证作品的质量,如果有问题,可以私信我,让我们携手共进,共创辉煌。 路虽远,行则将至;事虽难,做则必成。只要有愚公移山的志气、滴水穿石的毅力,脚踏实地,埋头苦干,积跬

    2024年02月04日
    浏览(57)
  • 计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)

    教程博客_传送门链接:链接 在本教程中,您将学习如何使用迁移学习训练卷积神经网络以进行图像分类。您可以在 cs231n 上阅读有关迁移学习的更多信息。 本文主要目的是教会你如何自己搭建分类模型,耐心看完,相信会有很大收获。废话不多说,直切主题… 首先们要知道深

    2024年02月07日
    浏览(76)
  • 【图像分类】基于计算机视觉的坑洼道路检测和识别(ResNet网络,附代码和数据集)

    写在前面: 首先感谢兄弟们的关注和订阅,让我有创作的动力,在创作过程我会尽最大能力,保证作品的质量,如果有问题,可以私信我,让我们携手共进,共创辉煌。 (专栏订阅用户订阅专栏后免费提供数据集和源码一份,超级VIP用户不在服务范围之内,不想订阅专栏的

    2024年02月06日
    浏览(57)
  • 计算机视觉的应用4-目标检测任务:利用Faster R-cnn+Resnet50+FPN模型对目标进行预测

    大家好,我是微学AI,今天给大家介绍一下计算机视觉的应用4-目标检测任务,利用Faster Rcnn+Resnet50+FPN模型对目标进行预测,目标检测是计算机视觉三大任务中应用较为广泛的,Faster R-CNN 是一个著名的目标检测网络,其主要分为两个模块:Region Proposal Network (RPN) 和 Fast R-CNN。我

    2024年02月05日
    浏览(55)
  • 计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)

    该项目一个基于深度学习和目标跟踪算法的项目,主要用于实现视频中的目标检测和跟踪。 该项目使用了 YOLOv5目标检测算法和 DeepSORT 目标跟踪算法,以及一些辅助工具和库,可以帮助用户快速地在本地或者云端上实现视频目标检测和跟踪! 教程博客_传送门链接-------单目测

    2024年02月08日
    浏览(54)
  • 计算机视觉(P2)-计算机视觉任务和应用

    在本文中,我们将探讨主要的计算机视觉任务以及每个任务最流行的应用程序。         图像分类是计算机视觉领域的主要任务之一[1]。在该任务中,经过训练的模型根据预定义的类集为图像分配特定的类。下图是著名的CIFAR-10数据集[1],它由十个类别的8000万张图像组成

    2024年02月02日
    浏览(73)
  • 什么是计算机视觉,计算机视觉的主要任务及应用

    目录 1. 什么是计算机视觉 2. 计算机视觉的主要任务及应用 2.1 图像分类 2.1.1 图像分类的主要流程 2.2 目标检测 2.2.1 目标检测的主要流程 2.3 图像分割 2.3.1 图像分割的主要流程 2.4 人脸识别 2.4.1 人脸识别的主要流程 对于我们人类来说,要想认出身边的一个人,首先需要

    2024年02月11日
    浏览(46)
  • 计算机视觉主要任务

    计算机视觉 :使用计算机及相关设备对生物视觉的一种模拟。 主要包含6大任务, 图像分类,目标检测,目标跟踪,语义分割,实例分割,影像重构 。 图像分类 :根据图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。基于色彩特征的索引技术、基

    2024年02月11日
    浏览(41)
  • 【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(6月 29 日论文合集)

    基于多示例学习的全幻灯片图像分类的伪袋混合增强 论文地址: 鉴于十亿像素图像建模的特殊情况,多实例学习(MIL)已成为全幻灯片图像(WSI)分类最重要的框架之一。 在当前实践中,大多数 MIL 网络在训练中经常面临两个不可避免的问题:i)WSI 数据不足,ii)神经网络

    2024年02月11日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包