【计算机视觉】上游任务和下游任务的理解-Toy模板网

这篇具有很好参考价值的文章主要介绍了【计算机视觉】上游任务和下游任务的理解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、前言概述

计算机视觉中有常见的四大任务：

分类（解决"what"）
定位（解决"where"）
检测（解决"what"和"where"）
分割（实例分割、语义分割和场景分割等像素级别的处理）

二、上游任务

预训练模型。一般就是利用上游数据进行预训练，以生成一个包含视觉表征能力的模型。

比如，我们想要的是一个能够提取图片特征能力的卷积神经网络或者Transformer，我们会用大量图片用图片分类这个下游任务或者其他比如自监督的方法（可以参考CLIP）去进行训练，得到一个权重合适的模型（能够很好地提取出图像的特征），那么最后我们把得到的这个模型最后一层的FC层（原本用于图片分类输出类别）去掉，这个模型就成为了一个很好的预训练模型，输入一张图，就能够提取出图像的特征，就可以用于我们的下游任务（在这个模型后面加一些诸如检测头之类的模块，处理我们想要的下游任务，或者修改下FC层，用于另外一堆类别的图像分类）。

上游任务一般称为backbone，主干网络。