视频实例分割论文速读

这篇具有很好参考价值的文章主要介绍了视频实例分割论文速读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

DVIS: Decoupled Video Instance Segmentation Framework

首先,题目说的是解耦视频实例分割框架,然后说了现在离线方法和在线方法都有什么不足之处。离线方法受到紧密耦合建模范式的限制,其范式对所有帧一视同仁,忽略了相邻帧之间的相互依赖关系,导致在长期时间对齐期间引入过多的噪声

那么现在在线方法有什么缺点呢?在线方法利用时间信息不足。DVIS通过将 VIS 分为三个独立的子任务:分割、跟踪和细化,提出了一种用于 VIS 的解耦策略。解耦策略的有效性依赖于两个关键:

        1)在跟踪过程中通过逐帧关联获得精确的长期对齐结果(克服离线方法中的问题)

        2)在细化过程中有效利用基于上述精确对齐结果预测的时间信息。

        DVIS引入了一种新的参考跟踪器和时间细化器来构造解耦VIS框架(DVIS(创新))。此外,由于解耦策略,参考跟踪器和时间细化器是超轻量级的(分段器 FLOPs 只有 1.69%),允许在具有 11G 内存的单个 GPU 上进行有效的训练和推理。(可以说是这篇文章吸引我地方)

        视频实例分割论文速读,深度学习,人工智能,计算机视觉

讲了一下以前的离线方法在线方法大概的过程,指出DVIS自己的两个主要创新参考跟踪器和时间细化器在哪。

创新:

1.将VIS任务解耦为三个子任务

2.提出了 包括一种简单而有效的参考跟踪器和时间细化器的DVIS

3.SOTA并且能11G 内存的单个 GPU 上进行有效的训练和推理

RCA模块在参考跟踪器中的使用

视频实例分割论文速读,深度学习,人工智能,计算机视觉

感觉说到底还是注意力(感兴趣去看下源码)

时间细化器的框架

视频实例分割论文速读,深度学习,人工智能,计算机视觉

时间记忆模块建模,有个老登喜欢这种

RefineVIS: Video Instance Segmentation with Temporal Attention Refinement

(没源码,看看论文就行)

RefineVIS使用序列上下文迭代地细化实例表示来实现关联帧与分割掩码。RefineVIS 在现成的帧级图像实例分割模型之上学习两个独立的表示:(1).负责跨帧关联对象的关联表示 (2).产生准确分割掩码的分割表示对比学习用于学习时间稳定的关联表示。时间注意细化(TAR)模块通过利用时间关系和一种新的时间对比去噪技术来学习判别分割表示。支持在线和离线推理。

RefineVIS分为三个阶段:

1.帧级模块从每个单独的输入帧中提取空间边界框、掩码和分类标签

2.关联模块将跨帧的对象预测匹配到tracklet中。

3.由时间注意细化(TAR)层驱动的时间细化模块,它通过在每个轨迹小波内传播时间信息来改进预测。

视频实例分割论文速读,深度学习,人工智能,计算机视觉

又是记忆更新,又是老登喜欢的部分。更像是一种分阶段优化,和第一篇思路感觉有点类似。

TCOVIS: Temporally Consistent Online Video Instance Segmentation(在线方法)(主页源码还是空的,插个眼2024.0104)

TCOVIS提出了一种新的视频实例分割在线方法,充分利用了视频片段中的时间信息。该方法的核心由一个全局实例分配策略和一个时空增强模块组成,该模块从两个方面提高了特征的时间一致性,即在整个视频剪辑的预测和地面实况之间执行全局最优匹配,并使用全局最优目标监督模型。我们还捕获空间特征并将其与帧之间的语义特征进行聚合,从而实现时空增强。

TCOVIS在训练期间使用全局最优目标来监督模型,并在(a)阶段通过帧之间的时空增强模块利用空间特征。(b)中展示的是全局实例分配的方式。在(c)中展示的是时空增强模块,根据预测的掩码对像素嵌入进行抠图,然后聚合帧之间的空间和语义特征以增强时间一致性。

视频实例分割论文速读,深度学习,人工智能,计算机视觉

NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation(在线方法,无源码)

不同的处理范式和新的端到端可训练 NOVIS (Near-Online Video Instance Segmentation) 是基于Transformer的模型直接预测帧的时空掩码体积,并通过重叠嵌入在clip之间执行实例跟踪。NOVIS是第一个避免任何手工跟踪启发式的近在线VIS方法。

视频实例分割论文速读,深度学习,人工智能,计算机视觉

只能说这个图在我们组、会被老登说太简单.

CTVIS: Consistent Training for Online Video Instance Segmentation(在线)

实例嵌入的区分在跨时间关联实例以进行在线视频实例分割 (VIS) 中起着至关重要的作用。实例嵌入学习直接受到对比项 (CI) 上计算的对比损失的监督,这些对比损失是锚/正/负嵌入的集合。直观地说,增强 CI 的策略是在训练期间复制推理阶段。为此,我们提出了一种简单而有效的训练策略,称为在线 VIS (CTVIS) 的一致训练,该策略致力于在构建 CI 方面对齐训练和推理管道。具体来说,CTVIS 通过参考动量平均嵌入和内存库存储机制来构建 CI,并将噪声添加到相关嵌入中。

主要贡献:

1.CTVIS通过与长短期记忆体交互来构建对比项来促进实例嵌入的判别能力,并在内存库更新过程中引入噪声

2.通过增加静态图像及其掩码注释来创建伪VIS训练样本。使用伪数据训练的 CTVIS 模型已经超过了他们完全监督的对手,这表明这是一种理想的选择,尤其是在密集时间掩码注释有限的情况下。

视频实例分割论文速读,深度学习,人工智能,计算机视觉

整体架构,对比学习,记忆库,某老登会喜欢的。

In Defense of Online Models for Video Instance Segmentation(IDOL,在线方法)

在线方法在处理长视频序列和正在进行的视频方面具有固有的优势,而离线模型由于计算资源的限制而失败。因此,如果在线模型可以实现与离线模型相当或更好的性能,则是非常可取的。通过剖析当前的在线模型和离线模型,我们证明了性能差距的主要原因是特征空间中不同实例之间外观相似的帧之间的容易出错关联。观察这一点,我们提出了一种基于对比学习的在线框架,该框架能够学习更具区分性的实例嵌入以进行关联,并充分利用历史信息进行稳定性。(看到现在越来越多的文章都是在利用更多信息,针对性细化一部分,早期的离线方法到现在大部分都是在线方法,也能看出来趋势)

说到对比学习,可以去看看SimCLR ,它使用对比学习进行图像级自我监督训练,并为下游任务学习强大的特征表示。IDOL从对比学习中吸收想法,并提出学习每个实例的帧之间的对比嵌入。

视频实例分割论文速读,深度学习,人工智能,计算机视觉

如果对对比学习感兴趣的,可以去看看A Simple Framework for Contrastive Learning of Visual Representations这篇论文,主要是对比学习从大批次样本中收益,会导致计算资源boom。(我们小实验室就图一乐)

MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training

视频实例分割论文速读,深度学习,人工智能,计算机视觉

视频实例分割论文速读,深度学习,人工智能,计算机视觉

细心的应该能看出来了,VIS最近主流的方向就是针对查询关联, 记忆库, 任务拆解, 针对局部任务进行细化。离不开Transformer的。

SeqFormer: Sequential Transformer for Video Instance Segmentation(离线方法,IDOL同作者,离线在线通吃)

SeqFormer 遵循视觉Transformer的原理,它对视频帧之间的实例关系进行建模。然而,我们观察到一个独立的实例查询足以捕获视频中的实例的时间序列,但注意力机制应该独立地使用每一帧来完成。为了实现这一点,SeqFormer 定位每一帧中的一个实例并聚合时间信息以学习视频级实例表示,用于动态预测每一帧上的掩码序列。实例跟踪是在没有跟踪分支或后处理的情况下自然实现的。

视频实例分割论文速读,深度学习,人工智能,计算机视觉

给定输入帧的特征图,在第一个解码器层将初始实例查询分解为帧级框查询。框查询保留在每一帧上,并作为锚点,且无需相互交互。每帧框查询提取的特征在每个解码器层之后聚合到实例查询中,用于预测动态掩码头参数。然后掩码头对编码的特征图进行卷积以生成掩码。

General Object Foundation Model for Images and Videos at Scale(讲道理,都已经乱杀了)

GLEE是一个对象级基础模型,用于定位和识别图像和视频中对象。通过一个统一的框架,GLEE 实现了各种对象感知任务开放世界场景中任意对象的检测、分割、跟踪、接地和识别。采用内聚学习策略,GLEE 从不同的数据源中获取知识,具有不同的监督级别来制定一般对象表示,擅长零样本转移到新数据和任务。具体来说,GLEE使用图像编码器、文本编码器和视觉提示器来处理多模态输入,能够同时解决各种以对象为中心的下游任务,同时保持最先进的性能。通过对来自不同基准的超过500万张图像进行大量训练,GLEE表现出显著的多功能性和提高泛化性能,有效地处理下游任务,而不需要特定于任务的适应。通过集成大量自动标记的数据,我们进一步增强了其零样本泛化能力。此外,GLEE 能够集成到大型语言模型中,作为为多模态任务提供通用对象级信息的基础模型。(做什么视频实例分割啊,这种通用模型才是真的感觉有用的东西

视频实例分割论文速读,深度学习,人工智能,计算机视觉

所用的不同数据集不同粒度的注释,以及使用的数据规模。对多个来源的数据集进行训练使模型具有更通用的表示。

视频实例分割论文速读,深度学习,人工智能,计算机视觉

文本编码器接受来自各种数据源的各种形式的文本描述,包括对象类别、名称、标题和引用表达式。视觉提示器将点、边界框或涂鸦编码到相应的视觉表示中。对象解码器获取它们和图像特征来预测图像中的对象。(b) 说明了 GLEE 对为不同语言描述和视觉线索量身定制的图像任务的应用。(c) 展示了跨不同对象级视频任务的应用程序。没有花里胡哨的公式和图,更像是产品介绍文章来源地址https://www.toymoban.com/news/detail-830409.html

到了这里,关于视频实例分割论文速读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 计算机视觉与深度学习-图像分割-视觉识别任务03-实例分割-【北邮鲁鹏】

    论文题目:Mask R-CNN 论文链接:论文下载 论文代码:Facebook代码链接;Tensorflow版本代码链接; Keras and TensorFlow版本代码链接;MxNet版本代码链接 参考:Mask R-CNN详解 将图像中的每个像素与其所属的目标实例进行关联,并为每个像素分配一个特定的标签,以实现像素级别的目标

    2024年02月07日
    浏览(44)
  • 毕业设计选题:基于深度学习的舌头分割系统 人工智能 YOLO 计算机视觉

    目录 前言 课题背景和意义 实现技术思路 一、 算法理论基础 1.1 Snake模型  1.2 几何约束  1.3 切片重组 二、 数据集 三、实验及结果分析 最后     📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。

    2024年02月19日
    浏览(64)
  • 【深度学习】YOLOv5实例分割 数据集制作、模型训练以及TensorRT部署

    yolov5-seg:官方地址:https://github.com/ultralytics/yolov5/tree/v6.2 TensorRT:8.x.x 语言:C++ 系统:ubuntu18.04 前言:由于yolo仓中提供了标准coco的json文件转txt代码,因此需要将labelme的json文件转为coco json. labelme JSON 转COCO JSON 使用labelme的CreatePolygons按钮开始绘制多边形,然后保存为json格式。

    2024年02月06日
    浏览(40)
  • 人工智能研究的未来:20 年机器学习和深度学习的论文创意!

    “机器学习的美妙之处在于,它可以应用于你想要解决的任何问题,只要你能为计算机提供足够的例子。”         该文章列出了 20 年机器学习和深度学习本科课程的 2023 个潜在论文想法。每个论文的想法都包括一个 介绍 ,简要概述了主题和 研究目标 。所提供的想法与

    2024年02月09日
    浏览(41)
  • [当人工智能遇上安全] 9.基于API序列和深度学习的恶意家族分类实例详解

    您或许知道,作者后续分享网络安全的文章会越来越少。但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个《当人工智能遇上安全》系列博客,详细介绍人工智能与安全相关的论文、实践,并分享各种案例,涉及恶意代码检测、恶意请求识别、

    2024年02月04日
    浏览(42)
  • 论文阅读:基于深度学习的大尺度遥感图像建筑物分割研究

    一、该网络中采用了上下文信息捕获模块。通过扩大感受野,在保留细节信息的同时,在中心部分进行多尺度特征的融合,缓解了传统算法中细节信息丢失的问题;通过自适应地融合局部语义特征,该网络在空间特征和通道特征之间建立长距离的依赖关系; 二、分割网络:边

    2024年02月15日
    浏览(35)
  • 论文阅读-2:基于深度学习的大尺度遥感图像建筑物分割研究

    一、该网络中采用了上下文信息捕获模块。通过扩大感受野,在保留细节信息的同时,在中心部分进行多尺度特征的融合,缓解了传统算法中细节信息丢失的问题;通过自适应地融合局部语义特征,该网络在空间特征和通道特征之间建立长距离的依赖关系; 二、分割网络:边

    2024年02月16日
    浏览(36)
  • 【未完待续】综述:用于视频分割(Video Segmentation)的深度学习

    A Survey on Deep Learning Technique for Video Segmentation 本文回顾视频分割的两条基本研究路线:视频目标分割(object segmentation)和视频语义分割(semantic segmentation)。本文介绍它们各自的task setting、背景概念、感知需求、发展历史以及主要挑战。本文详细概述相关的方法和数据集的代

    2024年02月02日
    浏览(35)
  • 【深度学习】yolov5 tag7.0 实例分割 从0到1的体会,从模型训练,到量化完成,bug避坑

    这里记录下yolov5 tag7.0的实例分割,因为也用过paddle家族的实例分割,能够训练出来,但是开放restiful api时遇到点小问题,还是yolov爽啊!!通过这篇博文,您可以一步步的搭建自己的分割网络。 git仓库:https://github.com/ultralytics/yolov5/tree/v7.0 在tag7.0开始支持的,号称sota,在mas

    2024年02月06日
    浏览(35)
  • Python人工智能教学之掌握机器学习深度学习并提升实战能力(共72个视频教学+课程资料)云盘下载

    人工智能是未来的发展方向,掌握了人工智能,就掌握了钱图。。。 Python人工智能教学之掌握机器学习深度学习并提升实战能力(共72个视频教学+课程资料) 下载地址: 链接:https://pan.baidu.com/s/1ryJd5PNx1tLDDU-Q6JFXPQ?pwd=n6o8 提取码:n6o8 --来自百度网盘超级会员V2的分享 └─ 批

    2024年04月29日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包