【计算机视觉 | 语义分割】OVSeg：分割一切后，SAM又能分辨类别了，Meta/UTAustin提出全新开放类分割模型-Toy模板网

这篇具有很好参考价值的文章主要介绍了【计算机视觉 | 语义分割】OVSeg：分割一切后，SAM又能分辨类别了，Meta/UTAustin提出全新开放类分割模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、前言

前几日，Meta 推出了「分割一切」AI 模型 Segment Anything，令网友直呼 CV 不存在了？！

而在另一篇被 CVPR 2023 收录的论文中，Meta、UTAustin 联合提出了新的开放语言风格模型（open-vocabulary segmentation, OVSeg），它能让 Segment Anything 模型知道所要分隔的类别。

【计算机视觉 | 语义分割】OVSeg：分割一切后，SAM又能分辨类别了，Meta/UTAustin提出全新开放类分割模型,计算机视觉,计算机视觉,语义分割,OVSeg
论文地址：

https://arxiv.org/pdf/2210.04150.pdf

从效果上来看，OVSeg 可以与 Segment Anything 结合，完成细粒度的开放语言分割。

比如下图 1 中识别花朵的种类：sunflowers (向日葵)、white roses (白玫瑰)、 chrysanthemums (菊花)、carnations (康乃馨)、green dianthus (绿石竹)。

【计算机视觉 | 语义分割】OVSeg：分割一切后，SAM又能分辨类别了，Meta/UTAustin提出全新开放类分割模型,计算机视觉,计算机视觉,语义分割,OVSeg
即刻体验的地址：

https://huggingface.co/spaces/facebook/ov-seg

项目地址：

https://jeff-liangf.github.io/projects/ovseg/

二、研究背景

开放式词汇语义分割旨在根据文本描述将图像分割成语义区域，这些区域在训练期间可能没有被看到。最近的两阶段方法首先生成类别不可知的掩膜提案，然后利用预训练的视觉-语言模型（例如 CLIP）对被掩膜的区域进行分类。研究者确定这种方法的性能瓶颈是预训练的 CLIP 模型，因为它在掩膜图像上表现不佳。

为了解决这个问题，研究者建议在一组被掩膜的图像区域和它们对应的文本描述的收集的数据上对 CLIP 进行微调。研究者使用 CLIP 将掩膜图像区域与图像字幕中的名词进行匹配，从而收集训练数据。与具有固定类别的更精确和手动注释的分割标签（例如 COCO-Stuff）相比，研究者发现嘈杂但多样的数据集可以更好地保留 CLIP 的泛化能力。

除了对整个模型进行微调之外，研究者还使用了被掩膜图像中的「空白」区域，使用了他们称之为掩膜提示微调的方法。

实验表明，掩膜提示微调可以在不修改任何 CLIP 权重的情况下带来显著的改进，并且它可以进一步改善完全微调的模型。特别是当在 COCO 上进行训练并在 ADE20K-150 上进行评估时，研究者的最佳模型实现了 29.6％的 mIoU，比先前的最先进技术高出 8.5％。开放式词汇通用模型首次与 2017 年的受监督专家模型的性能匹配，而不需要特定于数据集的适应。