CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation

这篇具有很好参考价值的文章主要介绍了CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文章地址:地址
代码:地址
标题:Two-shot Video Object Segmentation

摘要

以往的视频对象分割(VOS)工作都是在密集标注的视频上进行训练。然而,获取像素级别的注释是昂贵且耗时的。在这项工作中,我们证明了在稀疏标注的视频上训练一个令人满意的VOS模型的可行性——在性能保持不变的情况下,每个训练视频只需要两个标记帧。我们将这种新颖的训练范式称为two-shot视频对象分割,简称two-shot VOS。其基本思想是在训练过程中为无标签帧生成伪标签,并在有标签和伪标签数据的组合上优化模型。我们的方法极其简单,可以应用于大多数现有的框架。我们首先以半监督的方式在稀疏标注的视频上预训练一个VOS模型,其中第一帧总是有标签的。然后,我们采用预训练的VOS模型为所有未标记帧生成伪标签,并将其存储在伪标签库中。最后,我们在有标签和伪标签的数据上重新训练了一个VOS模型,并且对第一帧没有任何限制。首次提出了在two-shot VOS数据集上训练VOS模型的通用方法。通过使用YouTube-VOS和DAVIS基准测试集的7.3 %和2.9%的有标签数据,我们的方法取得了与在完全有标签数据集上训练的方法相当的结果。

引言

背景:当前的VOS方法在已经被密集注释的数据集上(DAVIS和YouTubeVOS)进行训练。但是获得密集的注释,尤其是像素级别的,这是极其费时费力的。因此,有必要开发数据高效的VOS模型,以减少对标记数据的依赖。

在本文中,作者研究在松散标记的数据集(只有前面几帧有密集注释)上训练一个满意的VOS模型的可能性。作者以STCN作为基线方法,并将没有经过设计的2-shot STCN和原始的STCN的性能进行了比较,发现只有前两帧有密集注释的2-shot STCN取得了不错的成绩,如图:
CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation,论文阅读,人工智能,深度学习,计算机视觉
本文的思路:基于半监督学习的思路来进一步提高2-shot VOS的性能。和之前的方法的比较:
CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation,论文阅读,人工智能,深度学习,计算机视觉
分阶段训练

  • phase-1:第一帧作为有标记的帧,后面的2帧可以是有标记的,也可以是有高质量伪标签的无标记的帧;使用STCN作为基模型。

    阶段1的训练由于以ground-truth为开始帧的限制,半监督学习的能力仍未得到充分挖掘。

  • phase-2:先采用第一阶段训练的VOS模型来推断未标记帧进行伪标记,生成的伪标签存放在伪标签库中,方便访问;然后在没有任何限制的情况下重新训练VOS模型

贡献:

  • 本文首次证明了two-shot视频目标分割的可行性:即使不使用无标签数据,每个视频中两个有标签的帧几乎足以训练一个不错的VOS模型。
  • 本文提出了一个简单而有效的训练范式来利用未标记帧中存在的丰富信息。在我们的实验中,这种新的范式可以无缝地应用于各种VOS模型,例如STCN,RDE-VOS和XMem。
  • 尽管只使用了少量的带标签数据(例如, YouTube-VOS占7.3 % , DAVIS占2.9%),但与在全集上训练的方法相比,本文的方法仍然取得了有竞争力的结果。例如,在DAVIS 2017/YouTube-VOS 2019上,使用本文方法训练的2-shot STCN达到了85.1%/82.7%,比原始2-shot STCN提高了+4.1 %/+2.1%,比所有数据都参与训练的STCN降低了-0.1%/-0.0%

方法

整体的训练流程如下:
CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation,论文阅读,人工智能,深度学习,计算机视觉
流程说明:

  • 阶段1:以半监督的方式训练一个VOS模型(如STCN),它取三帧图像作为输入,参考帧始终是一个有标记的参考帧。本文将参考帧(第一帧)约束为标记帧以方便学习。
  • 中间的推断过程:通过第一阶段训练的VOS模型进行中间推断,为未标记帧生成伪标签。生成的伪标签存放在伪标签库中,方便访问。
  • 阶段2:在没有任何参考帧限制(不一定要是第一帧)的情况下,在有标签帧和伪标签帧上重新训练一个VOS模型。一旦识别出更可靠的伪标签,动态更新伪标签库。

Phase-1 training

问题:在本文的设置中,每个训练视频只包含两个标记帧,不足以以完全监督的方式作为STCN的输入。

解决办法:采取半监督学习,使用已标记帧一起生成伪标记帧以实现三元组构造

在第一阶段的训练中,本文总是使用标记帧作为参考帧来缓解误差传播。剩下的两帧,要么是有标记的,要么是无标记的。在本文中,剩下的两帧有50%的概率都是无标记的,有50%的概率有一帧是标记的

给定一个随机采样的三元组,其中后两帧由N1个有标记帧和N2个无标记帧组成,其中取值可能为:N1=0,N2=2或者N1=1,N2=1

损失函数:由有监督的损失函数和无监督的损失函数组成,有监督的损失函数具体如下:

CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation,论文阅读,人工智能,深度学习,计算机视觉
其中H代表交叉熵损失,P表示第n个标记帧的预测结果,Y是真实的结果。

无监督的损失函数如下:

CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation,论文阅读,人工智能,深度学习,计算机视觉
CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation,论文阅读,人工智能,深度学习,计算机视觉
其中1[]是指示函数,它过滤掉最大置信度低于预定义阈值τ1的预测,Y表示对应的one-hot伪标签。

随着训练的进行,越来越多的高质量伪标记样本产生,将未标记数据中包含的隐含知识注入模型。

Phase-2 training

目的:为了充分利用未标记的数据。它解除了对参考帧的限制,允许参考帧是有标记的或有伪标签的帧。第二阶段训练的基本思想是使用第一阶段训练的合适的VOS模型为所有未标记帧生成伪标签

Intermediate inference

问题:VOS模型的推断需要参考(或第一)框架的标注。但是在本文中只有两个标记的帧。

解决办法:采用双向预测,如下图所示:

CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation,论文阅读,人工智能,深度学习,计算机视觉
说明:对于两个已标记帧中的每一个,阶段1训练的VOS模型将其作为参考帧。首先,将其中一个作为参考帧,从参考帧到视频结束帧为止,依次执行推断,每次会得到一个未标记帧的预测;然后进行逆向推断,从参考帧推断到视频开始的帧,这次会得到一个另外一个预测。然后对于另外一个参考帧执行相同的步骤。经过以上步骤,每个未标记帧会有两个预测,本文选择与这个未标记帧距离最近的有标记帧所推断的预测。同时还会维护一个伪标记库来存储与未标记帧相关的伪标记

Update pseudo-label bank

目的:促进阶段2的训练

实现:在每次迭代中,给定未标记帧的预测P,用P(i,j)表示像素(i, j)处的预测。当max(P(i,j))>=τ2,相应的伪标记执行以下更新:

CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation,论文阅读,人工智能,深度学习,计算机视觉
默认:τ2 = 0.99

实验

说明:2-shot VOS的训练范式可以无缝地应用于第2阶段训练中的各种VOS模型。本文分别对STCN、RDE-VOS和XMem进行了探索

数据集上的结果

通过使用YouTube-VOS基准测试中7.3 %的标注数据(每个训练视频2个标记帧),本文的方法取得了与使用所有标记数据进行训练相当的结果,并且在很大程度上优于原始的2-shot(没有任何设计)对等结果。

CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation,论文阅读,人工智能,深度学习,计算机视觉
通过使用DAVIS基准测试集的2.9%标注数据(每个训练视频2个标记帧),我们的方法取得了与与使用所有标记数据进行训练相当的结果,并且在很大程度上优于原始的2-shot方法。

CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation,论文阅读,人工智能,深度学习,计算机视觉

消融实验

不同训练阶段的高效性:

CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation,论文阅读,人工智能,深度学习,计算机视觉
对两个阈值的讨论:
CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation,论文阅读,人工智能,深度学习,计算机视觉
中间推断过程使用的推断策略以及伪标签库的更新策略的有效性:
CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation,论文阅读,人工智能,深度学习,计算机视觉

结论

本文首次证明了每段视频仅有2个标记帧几乎足以训练一个合适的VOS模型的可行性。在此基础上,我们提出了一个简单的训练范式来解决双样本VOS。方法背后的基本思想是以半监督学习的方式利用未标记数据中存在的丰富信息。本文的方法可以应用于大多数全监督的VOS模型,如STCN、RDE-VOS和XMem。通过使用YouTube-VOS和DAVIS基准测试集的7.3%和2.9%的有标签数据,本文的方法取得了与在完全有标签数据集上训练的方法相当的结果。凭借其简单和强大的性能,希望本文的方法可以作为未来研究的坚实基础。文章来源地址https://www.toymoban.com/news/detail-606472.html

到了这里,关于CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

    论文地址:https://arxiv.org/pdf/2303.14123.pdf 这是一篇2023年发表在CVPR上的论文,论文题目是Semantic Prompt for Few-Shot Image Recognitio,即用于小样本图像识别的语义提示。 第一,最近几项研究利用 语义信息 来进行小样本学习的研究。 一方面因为通过少量样本去识别新类别很难,就想使

    2024年02月04日
    浏览(56)
  • 论文笔记|CVPR2023:Supervised Masked Knowledge Distillation for Few-Shot Transformers

    这篇论文的题目是 用于小样本Transformers的监督遮掩知识蒸馏 论文接收: CVPR 2023 论文地址: https://arxiv.org/pdf/2303.15466.pdf 代码链接: https://github.com/HL-hanlin/SMKD 1.ViT在小样本学习(只有少量标记数据的小型数据集)中往往会 过拟合,并且由于缺乏 归纳偏置 而导致性能较差;

    2024年02月06日
    浏览(52)
  • Video Object Segmentation[VOS][视频目标分割]

    点击这里跳过前言 前言: 本文写作的动机,是笔者最近开始接触video处理,希望能从社区中找到快速入门的文档,但是翻来覆去,对于VOS任务的文档都很少,质量也不高,因此笔者在阅读过VOS综述和文章后,写下这篇VOS的review。希望能够帮助读者快速入门VOS以及Video Processing相

    2024年04月12日
    浏览(34)
  • CVPR2023最新论文 (含语义分割、扩散模型、多模态、预训练、MAE等方向)

    2023 年 2 月 28 日凌晨,CVPR 2023 顶会论文接收结果出炉! CVPR 2023 收录的工作中 \\\" 扩散模型、多模态、预训练、MAE \\\" 相关工作的数量会显著增长。 Delivering Arbitrary-Modal Semantic Segmentation 论文/Paper: http://arxiv.org/pdf/2303.01480 代码/Code: None Conflict-Based Cross-View Consistency for Semi-Supervised

    2023年04月08日
    浏览(47)
  • CVPR 2023 | Point-NN:​首次实现0参数量、0训练的3D点云分析

    点击下方 卡片 ,关注“ CVer ”公众号 AI/CV重磅干货,第一时间送达 点击进入— 【3D点云】微信技术交流群 不引入任何可学习参数或训练,我们是否可以直接实现3D点云的分类、分割和检测? 为此,本文提出了一个用于3D点云分析的非参数网络,Point-NN,它仅由纯不可学习的

    2024年02月10日
    浏览(43)
  • CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

    CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 我们提出了一种用于 3D 点云分析的非参数网络 Point-NN,它由纯不可学习的组件组成:最远点采样 (FPS)、k 最近邻 (k-NN) 和池化操作,具有三角函数.令人惊讶的是,它在各种 3D 任务上表现良好,不需要参数或训练

    2023年04月23日
    浏览(53)
  • 代码解读:Zero-shot 视频生成任务 Text2Video-Zero

    Diffusion Models视频生成-博客汇总 前言: 上一篇博客《【ICCV 2023 Oral】解读Text2Video-Zero:解锁 Zero-shot 视频生成任务》解读了这篇论文《Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators》。这篇论文的创新点比较多,含金量很高,而且开源了代码。所以这篇博客结合

    2024年02月03日
    浏览(56)
  • tune a video:one-shot tuning of image diffusion models for text-to-video generation

    【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!_哔哩哔哩_bilibili 【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!共计2条视频,包括:[论文代码阅读]T

    2023年04月11日
    浏览(51)
  • Tune-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning

    Project:https://tuneavideo.github.io 原文链接:Tnue-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning (by 小样本视觉与智能前沿) 目录 为了复制文本到图像(T2I)生成的成功,最近的工作使用大规模视频数据集来训练文本到视频(T2V)生成器。尽管他们的结果很有希望,但这种

    2024年01月15日
    浏览(50)
  • 【监督学习】基于合取子句进化算法(CCEA)和析取范式进化算法(DNFEA)解决分类问题(Matlab代码实现)

    💥💥💞💞 欢迎来到本博客 ❤️❤️💥💥 🏆博主优势: 🌞🌞🌞 博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️ 座右铭: 行百里者,半于九十。 📋📋📋 本文目录如下: 🎁🎁🎁 目录 💥1 概述 📚2 运行结果 🎉3 参考文献 🌈4 Matlab代码实现 我们开发

    2024年02月07日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包