计算机视觉的上游任务和下游任务

这篇具有很好参考价值的文章主要介绍了计算机视觉的上游任务和下游任务。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

这几天看CV论文和视频,经常提及什么上游任务、下游任务。简单来说下游任务是具体部署,上游任务是训练一个用于特征提取的预训练模型,比如这几年很火的CLIP[1],GPT[2]。

--------------------------------------------------------------------------------------------------------------------------------

计算机视觉四大任务:

分类(解决"what")、定位(解决"where")、检测(解决"what"和"where")、分割(实例分割、语义分割和场景分割等像素级别的处理)

上游任务:

预训练模型。一般就是利用上游数据进行预训练,以生成一个包含视觉表征能力的模型

比如,我们想要的是一个能够提取图片特征能力的卷积神经网络或者Transformer,我们会用大量图片用图片分类这个下游任务或者其他比如自监督的方法(可以参考CLIP)去进行训练,得到一个权重合适的模型(能够很好地提取出图像的特征),那么最后我们把得到的这个模型最后一层的FC层(原本用于图片分类输出类别)去掉,这个模型就成为了一个很好的预训练模型,输入一张图,就能够提取出图像的特征,就可以用于我们的下游任务(在这个模型后面加一些诸如检测头之类的模块,处理我们想要的下游任务,或者修改下FC层,用于另外一堆类别的图像分类)。

下游任务:

下游任务是计算机视觉应用程序,用于评估通过自监督学习学习到的特征的质量。当训练数据稀缺时,这些应用程序可以极大地受益于预训练模型。

下游任务更多的是评估任务,相当于项目落地,需要去做具体任务来评价模型好坏

如图像分类,目标检测、语义分割等具体任务。

下游上游的取名就在于下游任务往往是先用上游任务得到的模型(一般会称为backbone,主干网络)提取图像特征,然后再从这些特征中得到我们想要的结果。

计算机视觉的上游任务和下游任务

图1 目标检测

计算机视觉的上游任务和下游任务

图2 语义分割

参考文献:

[1] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748-8763

[2] Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018.文章来源地址https://www.toymoban.com/news/detail-465682.html

到了这里,关于计算机视觉的上游任务和下游任务的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 计算机视觉主要任务

    计算机视觉 :使用计算机及相关设备对生物视觉的一种模拟。 主要包含6大任务, 图像分类,目标检测,目标跟踪,语义分割,实例分割,影像重构 。 图像分类 :根据图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。基于色彩特征的索引技术、基

    2024年02月11日
    浏览(40)
  • 计算机视觉的图像标注与视觉任务

           计算机视觉是一种利用计算机和数学算法来模拟人类视觉的技术,可以应用于许多领域。以下是计算机视觉的八大应用:  图像识别:利用计算机视觉技术,可以对图像进行分类、识别和分割,从而实现自动化的图像处理。 视频监控:利用计算机视觉技术,可以对视

    2024年02月16日
    浏览(44)
  • 如何为计算机视觉任务标记图像

    标记每个图像中每个感兴趣的对象 构建计算机视觉模型是为了了解哪些像素模式对应于感兴趣的对象。因此,如果我们训练一个模型来识别一个对象,我们需要在图像中标记该对象的每个外观。如果我们不在某些图像中标记对象,我们将向模型引入假阴性。例如,在棋子数据

    2024年02月12日
    浏览(43)
  • 能用OpenCV做的15大计算机视觉任务

    使用OpenCV,你几乎可以完成你能想到的每种计算机视觉任务。现实生活中的问题要求同时使用许多计算机视觉算法和模块来获得所需的结果。因此,你只需了解要用哪些OpenCV模块和函数来获得你想要的东西。 让我们来看看OpenCV中可以开箱即用的功能。 OpenCV的最大优点之一是

    2024年02月04日
    浏览(43)
  • 计算机视觉与深度学习-图像分割-视觉识别任务03-实例分割-【北邮鲁鹏】

    论文题目:Mask R-CNN 论文链接:论文下载 论文代码:Facebook代码链接;Tensorflow版本代码链接; Keras and TensorFlow版本代码链接;MxNet版本代码链接 参考:Mask R-CNN详解 将图像中的每个像素与其所属的目标实例进行关联,并为每个像素分配一个特定的标签,以实现像素级别的目标

    2024年02月07日
    浏览(63)
  • 计算机视觉与深度学习-图像分割-视觉识别任务01-语义分割-【北邮鲁鹏】

    给每个像素分配类别标签。 不区分实例,只考虑像素类别。 滑动窗口缺点 重叠区域的特征反复被计算,效率很低。 所以针对该问题提出了新的解决方案–全卷积。 让整个网络只包含卷积层,一次性输出所有像素的类别预测。 全卷积优点 不用将图片分为一个个小区域然后再

    2024年02月07日
    浏览(82)
  • 【计算机视觉 | 目标检测】术语理解2:Grounding 任务、MLM、ITM代理任务

    Grounding 任务是指将自然语言文本与视觉场景之间进行对齐或连接的任务。在这个任务中,文本描述和视觉信息需要建立联系,以实现跨模态的理解和交互。 Grounding 任务可以包括以下几种类型: 图像描述生成:这个任务要求从给定的图像中生成相应的文本描述。模型需要将图

    2024年02月05日
    浏览(48)
  • 计算机视觉三大基本任务:分类、检测(定位)、分割(语义和实例)

    刚刚接触计算机视觉时可能会对 不同的任务的区分 以及 网络架构的选择 产生迷惑,因此,在此总结了相关的基础知识。在本文中,我们试图回答两个问题: 不同任务要做的事情是什么,研究范畴是什么? 不同的任务需要选择什么类型的网络? 计算机视觉任务可以分为4大

    2024年02月05日
    浏览(64)
  • 每天五分钟计算机视觉:如何构造分类定位任务的算法模型?

    本节课程我们将学习分类定位的问题,也就是说不仅要完成图片分类任务,然后还要完成定位任务。如下所示,我们不仅要用算法判断图片中是不是一辆车,还要在图片中标记出它的位置,用边框对象圈起来,这就是 分类定位问题 。 一般可能会有一张图片对应多个对象,本

    2024年03月14日
    浏览(52)
  • 计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析

    本篇文章深入探讨了计算视觉的定义和主要任务。内容涵盖了图像分类与识别、物体检测与分割、人体分析、三维计算机视觉、视频理解与分析等技术,最后展示了无监督学习与自监督学习在计算机视觉中的应用。 作者 TechLead,拥有10+年互联网服务架构、AI产品研发经验、团

    2024年02月12日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包