视频实例分割论文速读

这篇具有很好参考价值的文章主要介绍了视频实例分割论文速读。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

DVIS: Decoupled Video Instance Segmentation Framework

首先，题目说的是解耦视频实例分割框架，然后说了现在离线方法和在线方法都有什么不足之处。离线方法受到紧密耦合建模范式的限制，其范式对所有帧一视同仁，忽略了相邻帧之间的相互依赖关系，导致在长期时间对齐期间引入过多的噪声。

那么现在在线方法有什么缺点呢？在线方法利用时间信息不足。DVIS通过将 VIS 分为三个独立的子任务：分割、跟踪和细化，提出了一种用于 VIS 的解耦策略。解耦策略的有效性依赖于两个关键：

1）在跟踪过程中通过逐帧关联获得精确的长期对齐结果（克服离线方法中的问题）

2）在细化过程中有效利用基于上述精确对齐结果预测的时间信息。

DVIS引入了一种新的参考跟踪器和时间细化器来构造解耦VIS框架(DVIS（创新）)。此外，由于解耦策略，参考跟踪器和时间细化器是超轻量级的（分段器 FLOPs 只有 1.69%），允许在具有 11G 内存的单个 GPU 上进行有效的训练和推理。（可以说是这篇文章吸引我地方）

视频实例分割论文速读,深度学习,人工智能,计算机视觉

讲了一下以前的离线方法在线方法大概的过程，指出DVIS自己的两个主要创新参考跟踪器和时间细化器在哪。

创新：

1.将VIS任务解耦为三个子任务

2.提出了包括一种简单而有效的参考跟踪器和时间细化器的DVIS

3.SOTA并且能11G 内存的单个 GPU 上进行有效的训练和推理

RCA模块在参考跟踪器中的使用

视频实例分割论文速读,深度学习,人工智能,计算机视觉

感觉说到底还是注意力（感兴趣去看下源码）

时间细化器的框架

视频实例分割论文速读,深度学习,人工智能,计算机视觉

时间记忆模块建模，有个老登喜欢这种。

RefineVIS: Video Instance Segmentation with Temporal Attention Refinement

（没源码，看看论文就行）

RefineVIS使用序列上下文迭代地细化实例表示来实现关联帧与分割掩码。RefineVIS 在现成的帧级图像实例分割模型之上学习两个独立的表示：（1）.负责跨帧关联对象的关联表示（2）.产生准确分割掩码的分割表示。对比学习用于学习时间稳定的关联表示。时间注意细化(TAR)模块通过利用时间关系和一种新的时间对比去噪技术来学习判别分割表示。支持在线和离线推理。

RefineVIS分为三个阶段:

1.帧级模块从每个单独的输入帧中提取空间边界框、掩码和分类标签。

2.关联模块将跨帧的对象预测匹配到tracklet中。

3.由时间注意细化(TAR)层驱动的时间细化模块，它通过在每个轨迹小波内传播时间信息来改进预测。

视频实例分割论文速读,深度学习,人工智能,计算机视觉

又是记忆更新，又是老登喜欢的部分。更像是一种分阶段优化，和第一篇思路感觉有点类似。

TCOVIS: Temporally Consistent Online Video Instance Segmentation（在线方法）（主页源码还是空的，插个眼2024.0104）

TCOVIS提出了一种新的视频实例分割在线方法，充分利用了视频片段中的时间信息。该方法的核心由一个全局实例分配策略和一个时空增强模块组成，该模块从两个方面提高了特征的时间一致性，即在整个视频剪辑的预测和地面实况之间执行全局最优匹配，并使用全局最优目标监督模型。我们还捕获空间特征并将其与帧之间的语义特征进行聚合，从而实现时空增强。

TCOVIS在训练期间使用全局最优目标来监督模型，并在(a)阶段通过帧之间的时空增强模块利用空间特征。(b)中展示的是全局实例分配的方式。在(c)中展示的是时空增强模块，根据预测的掩码对像素嵌入进行抠图，然后聚合帧之间的空间和语义特征以增强时间一致性。

视频实例分割论文速读,深度学习,人工智能,计算机视觉

NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation（在线方法,无源码）

不同的处理范式和新的端到端可训练 NOVIS (Near-Online Video Instance Segmentation) 是基于Transformer的模型直接预测帧的时空掩码体积，并通过重叠嵌入在clip之间执行实例跟踪。NOVIS是第一个避免任何手工跟踪启发式的近在线VIS方法。

视频实例分割论文速读,深度学习,人工智能,计算机视觉

只能说这个图在我们组、会被老登说太简单.

CTVIS: Consistent Training for Online Video Instance Segmentation（在线）

实例嵌入的区分在跨时间关联实例以进行在线视频实例分割 (VIS) 中起着至关重要的作用。实例嵌入学习直接受到对比项 (CI) 上计算的对比损失的监督，这些对比损失是锚/正/负嵌入的集合。直观地说，增强 CI 的策略是在训练期间复制推理阶段。为此，我们提出了一种简单而有效的训练策略，称为在线 VIS (CTVIS) 的一致训练，该策略致力于在构建 CI 方面对齐训练和推理管道。具体来说，CTVIS 通过参考动量平均嵌入和内存库存储机制来构建 CI，并将噪声添加到相关嵌入中。

主要贡献：

1.CTVIS通过与长短期记忆体交互来构建对比项来促进实例嵌入的判别能力，并在内存库更新过程中引入噪声

2.通过增加静态图像及其掩码注释来创建伪VIS训练样本。使用伪数据训练的 CTVIS 模型已经超过了他们完全监督的对手，这表明这是一种理想的选择，尤其是在密集时间掩码注释有限的情况下。

视频实例分割论文速读,深度学习,人工智能,计算机视觉

整体架构，对比学习，记忆库，某老登会喜欢的。

In Defense of Online Models for Video Instance Segmentation（IDOL，在线方法）

在线方法在处理长视频序列和正在进行的视频方面具有固有的优势，而离线模型由于计算资源的限制而失败。因此，如果在线模型可以实现与离线模型相当或更好的性能，则是非常可取的。通过剖析当前的在线模型和离线模型，我们证明了性能差距的主要原因是特征空间中不同实例之间外观相似的帧之间的容易出错关联。观察这一点，我们提出了一种基于对比学习的在线框架，该框架能够学习更具区分性的实例嵌入以进行关联，并充分利用历史信息进行稳定性。（看到现在越来越多的文章都是在利用更多信息，针对性细化一部分，早期的离线方法到现在大部分都是在线方法，也能看出来趋势）

说到对比学习，可以去看看SimCLR ，它使用对比学习进行图像级自我监督训练，并为下游任务学习强大的特征表示。IDOL从对比学习中吸收想法，并提出学习每个实例的帧之间的对比嵌入。

视频实例分割论文速读,深度学习,人工智能,计算机视觉

如果对对比学习感兴趣的，可以去看看A Simple Framework for Contrastive Learning of Visual Representations这篇论文，主要是对比学习从大批次样本中收益，会导致计算资源boom。（我们小实验室就图一乐）

MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training

视频实例分割论文速读,深度学习,人工智能,计算机视觉

细心的应该能看出来了，VIS最近主流的方向就是针对查询关联，记忆库，任务拆解，针对局部任务进行细化。离不开Transformer的。

SeqFormer: Sequential Transformer for Video Instance Segmentation（离线方法，IDOL同作者，离线在线通吃）

SeqFormer 遵循视觉Transformer的原理，它对视频帧之间的实例关系进行建模。然而，我们观察到一个独立的实例查询足以捕获视频中的实例的时间序列，但注意力机制应该独立地使用每一帧来完成。为了实现这一点，SeqFormer 定位每一帧中的一个实例并聚合时间信息以学习视频级实例表示，用于动态预测每一帧上的掩码序列。实例跟踪是在没有跟踪分支或后处理的情况下自然实现的。

视频实例分割论文速读,深度学习,人工智能,计算机视觉

给定输入帧的特征图，在第一个解码器层将初始实例查询分解为帧级框查询。框查询保留在每一帧上，并作为锚点，且无需相互交互。每帧框查询提取的特征在每个解码器层之后聚合到实例查询中，用于预测动态掩码头参数。然后掩码头对编码的特征图进行卷积以生成掩码。

General Object Foundation Model for Images and Videos at Scale（讲道理，都已经乱杀了）

GLEE是一个对象级基础模型，用于定位和识别图像和视频中对象。通过一个统一的框架，GLEE 实现了各种对象感知任务开放世界场景中任意对象的检测、分割、跟踪、接地和识别。采用内聚学习策略，GLEE 从不同的数据源中获取知识，具有不同的监督级别来制定一般对象表示，擅长零样本转移到新数据和任务。具体来说，GLEE使用图像编码器、文本编码器和视觉提示器来处理多模态输入，能够同时解决各种以对象为中心的下游任务，同时保持最先进的性能。通过对来自不同基准的超过500万张图像进行大量训练，GLEE表现出显著的多功能性和提高泛化性能，有效地处理下游任务，而不需要特定于任务的适应。通过集成大量自动标记的数据，我们进一步增强了其零样本泛化能力。此外，GLEE 能够集成到大型语言模型中，作为为多模态任务提供通用对象级信息的基础模型。（做什么视频实例分割啊，这种通用模型才是真的感觉有用的东西）

视频实例分割论文速读,深度学习,人工智能,计算机视觉

所用的不同数据集不同粒度的注释，以及使用的数据规模。对多个来源的数据集进行训练使模型具有更通用的表示。

视频实例分割论文速读,深度学习,人工智能,计算机视觉

文本编码器接受来自各种数据源的各种形式的文本描述，包括对象类别、名称、标题和引用表达式。视觉提示器将点、边界框或涂鸦编码到相应的视觉表示中。对象解码器获取它们和图像特征来预测图像中的对象。(b) 说明了 GLEE 对为不同语言描述和视觉线索量身定制的图像任务的应用。(c) 展示了跨不同对象级视频任务的应用程序。没有花里胡哨的公式和图，更像是产品介绍文章来源地址https://www.toymoban.com/news/detail-830409.html

到了这里，关于视频实例分割论文速读的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！