【未完待续】综述：用于视频分割（Video Segmentation）的深度学习

这篇具有很好参考价值的文章主要介绍了【未完待续】综述：用于视频分割（Video Segmentation）的深度学习。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

A Survey on Deep Learning Technique for Video Segmentation

0. 摘要

本文回顾视频分割的两条基本研究路线：视频目标分割（object segmentation）和视频语义分割（semantic segmentation）。本文介绍它们各自的task setting、背景概念、感知需求、发展历史以及主要挑战。本文详细概述相关的方法和数据集的代表性文献。本文在一些知名的数据集上对这些方法检测（benchmark）。最后，指出这些领域的opne issue以及未来的研究方向。

1. 简介

视频分割（找出视频中具有特殊性质或者语义（semantics）的关键目标）是计算机视觉（computer vision，CV）中基础且有挑战性的的问题。它有无数潜在的应用：自动驾驶、机器人、监控（surveillance）、社交媒体、AR、电影制作以及视频会议。

这个问题已经被传统的CV和机器学习（machine learning，ML）方法解决。包括：

hand-crafted features (e.g., histogram statistics, optical flow, etc.)
heuristic prior knowledge (e.g., visual attention mechanism, motion boundaries, etc.)
low/mid-level visual representations (e.g., super-voxel, trajectory, object proposal, etc.)
classical machine learning models (e.g., clustering, graph models, random walks, support vector machines, random decision forests, markov random fields, conditional random fields, etc.)

最近，深度网络（DNN），尤其是全卷积网络（FCN）在视频分割取的巨大进展。相比于传统方法，这些基于深度学习（Deep Learning，DL）的（Video Segmentation，VS）算法有更高的精度（有时甚至更有效）。

全卷积网络（fully convolutional network，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。与卷积神经网络有所不同，全卷积网络通过转置卷积（transposed convolution）层将中间层特征图的高和宽变换回输入图像的尺寸，从而令预测结果与输入图像在空间维（高和宽）上一一对应：给定空间维上的位置，通道维的输出即该位置对应像素的类别预测。

现在大多数的研究视角狭隘，例如，只关注视频的前景/背景分割。本文系统地介绍了VS的最新进展，跨度从任务公式化（task formulation）到分类（taxonomy）、从算法到数据集、从未解决的问题到未来的研究方向，涵盖的关键点包括：

任务类别（前景/背景分离、语义分割）
推断模型（自动的、半自动的、交互的）
学习方式（监督、无监督、弱监督）
澄清术语（减背景法（background subtraction）、运动分割（motion segmentation））

本文主要关注VS两个主要分支（目标分割、语义分割）的最新进展，之后会分为八个子领域。本文参考来自有名望的期刊和会议中有影响力的作品，也包含其他领域（例如：视觉跟踪）中非深度学习的视频分割模型和文献。

segment-any-video,论文笔记,深度学习,人工智能

上图是本文回顾的视频分割任务：

目标级自动视频目标分割（object-level AVOS）
实例级自动视频目标分割（instance-level AVOS）
半自动视频目标分割（SVOS）
交互式视频目标分割（IVOS）
语言引导的视频目标分割（LVOS）
视频语义分割（VSS）
视频实例分割（VIS）
视频全景分割（video panoptic segmentation，VPS）

segment-any-video,论文笔记,深度学习,人工智能

上图是本文的结构。

2. 背景

2.1 问题公式化和分类学

令 X 和 Y 分别表示输入空间和输出的分割空间，基于深度学习的VS就是要找到一个理想映射。

2.1.1 视频分割（VS）的类别

基于如何定义输出空间Y，VS大致可分为两类：VOS、VSS。

视频目标（前景/背景）分割（VOS）：Y 是一个二值的前景/背景分割空间。VOS应用于视频分析以及编辑场景，例如：移除电影中的目标、基于内容的视频编码、视频会议中生成虚拟背景。

视频语义分割（VSS）：图像语义分割向时空（spatio-temporal）域的直接扩展。目标是从视频中提取属于预定义语义类别（例如：车、建筑物、人行道、道路）的对象。因此，Y 对应一个多类别的语义解析（parsing）空间。VSS是许多应用的的感知基础，这些应用要求对环境的高度理解，例如：机器人感知、人机交互、自动驾驶。

评论：VOS和VSS有相同的挑战，例如：快速移动和目标遮挡（object occlusion）。不同的应用场景有不同的挑战。例如：VOS通常关注人类创造的媒介，这些媒介具有较大的镜头移动、变形和外观变化；VSS通常关注像自动驾驶这样的应用，要求精度和时延的权衡、对小目标精确地探测、模型的并行性、跨域泛化能力。

2.1.2 视频分割（VS）的推断模式（Inference Modes）

基于人类参与推断的程度，VOS又被进一步分成三类：自动、半自动、交互式。

自动视频目标分割（AVOS）：又被成为无监督VS、zero-shot VS。它自动执行VOS，且不需要手动初始化。

半自动视频目标分割（SVOS）：又被称为半监督学习、one-shot VS，通过有限的人类监督（通常在第一帧提供）找出所需的目标。典型的人类输入是在视频第一帧的目标掩模（mask），这种情况下，SVOS也叫做像素跟踪，或掩模传播。从这个角度来看，语言引导的视频目标分割（LVOS）是SVOS的一个分支，其中，人类输入是关于所需对象的语言描述。与AVOS相比，SVOS定义target objects更灵活，但需要人工输入。

交互式视频目标分割（IVOS）：一旦target确定，SVOS就自动运行；而IVOS的进程需要人为引导。

与VOS不同，VSS是自动模式，除了少量早期方法使用半自动模式，例如：label propagation。

2.1.3 视频分割（VS）的学习方法

根据训练策略，基于DL的VS可以分为三个类别：监督、半监督、弱监督。

监督学习：完全使用labelled data学习，使模型输出贴近label。

无监督（自监督，self-supervised）学习：完全使用unlabeled data学习。无监督学习包括完全无监督学习（不需要任何label）和自监督学习（不需要人工标注，使用自动生成的伪标签（pseudo labels）训练网络）。几乎所有现存的无监督VS都是自监督学习。

弱监督（weakly-supervised）学习：使用有限数目的labelled data学习，且该label易于标注，例如：边界。

2.2 历史和术语

VS的早期尝试是video over-segmentation：基于特定区域像素强度的不连续性和相似性。典型的方法包括：hierarchical video segmentation，temporal superpixel，super-voxels。这些方法适用于视频的预处理，但是不能解决目标级的分割问题。因为它们不能把分层（hierarchical）视频分解为二值分割。

二值分割：首先把图像转换成灰度图像，然后设置一个用来进行二值分割的阈值，再遍历灰度图像的每个像素点。如果该像素点的灰度值大于阈值，就将该像素点灰度值设为255，如果该像素点的灰度值小于阈值，就将该像素点灰度值设为0。

为了从视频序列中提取前景目标，在70年代后期，减背景法（background subtraction）出现了。他们假设背景是先验已知的，并且相机是静止的或经历可预测的、参数化的2D或具有3D视差的3D运动。这些基于几何的方法非常适合特定的应用场景，如监控系统，但它们对模型选择（2D或3D）敏感，无法处理相机非确定移动的场景。

视差（parallax）：从不同位置观察物体所产生的位置或方向上的差别

运动分割（motion segmentation）：寻找运动的目标。减背景法可视为运动分割的特例。然而，大多数运动分割模型是基于运动分析、因子分解和统计技术建立的，这些技术在相机运动模式未知的情况下对运动场景的特征进行建模。

轨迹分割（trajectory segmentation）：运动分割的一种。轨迹由多个帧上的跟踪点生成，表示长期的运动模式，可作为分割的信息提示。基于运动的方法严重依赖于光流估计的准确性，并且当物体的不同部分表现出不同的运动模式时，可能会失败。

光流(optical flow)：分析运动图像的重要方法，指时变图像中亮度模式的运动。因为当物体在运动时，它在图像上对应点的亮度模式也在运动。（百科）

在分析光流时，需要用到两个重要假设：1.对象的像素强度在连续帧之间不会改变。2.相邻像素具有相似的运动。（参考）

AVOS可以克服上面所说的限制。一些方法在视频的每一帧中生成大量候选目标，并将分割视频目标的任务转化为目标区域选择的问题。这些算法的主要缺点是计算量大以及复杂的目标推断。还有一些人探索了启发式假设，如visual-attention和运动边界，但在启发式假设不成立的场景中很容易失败。

启发式（heuristic）： “自我发现的能力”或“运用某种方式或方法去判定事物的知识和技能”

运动边界（motion boundary）：提取运动物体的边界信息（轮廓）

早期的SVOS通常依赖于光流，且和目标跟踪很像。此外，IVOS在大量的人类指导下完成高质量视频分割任务。SVOS和IVOS的灵活性和准确性的代价：由于人工参与，不可能大规模使用。

由于VSS任务的复杂性，在DL时代之前，相关研究很少。该方法主要依赖于有监督的分类器（例如，SVM）以及video over-segmentation。

综上，相比于以往的方法，基于DL的方法进一步提升了VS的性能。

2.3 相关研究领域

视觉跟踪：为了推断时变目标的位置，现有方法通常假设目标在视频的第一帧就已经被圈定了。视觉跟踪和VS有一些共通的挑战（例如：目标/相机运动、外观改变、目标遮挡等），这促使了它们的联合使用。

图像语义分割：端到端图像语义分割的成功促使VSS快速发展。最近的VSS基于时间连续性提升分割的精度和有效性，而不是对视频逐帧的使用图像语义分割。

视频目标检测：为了进行视频目标检测，视频目标检测器使用了框或特征级的时间线索。视频目标检测和（实例级）视频分割之间存在许多关键技术步骤和挑战，如目标建议（object proposal）生成、时间信息聚合和帧间目标关联。

目标建议（object proposal）的基本思路就是在图像上找到一些潜在的目标，而不是穷举！然后将这些潜在的目标输入目标识别模型进行分类。

3. 基于深度学习（DL）的视频分割（VS）

3.1 基于DL的视频目标分割（VOS）

VOS从视频序列中提取通用前景对象，而不考虑语义类别识别。基于人工参与度，VOS分为AVOS、SVOS、IVOS。

3.1.1 自动视频目标分割（AVOS）

现代的AVOS以数据驱动的方式学习通用视频目标模式。

segment-any-video,论文笔记,深度学习,人工智能

上图是一些AVOS技术的特点，其中的Instance表示instance级或者object级的分割。

基于DL的方法：

2015年，Fragkiadaki做出了早期的努力。他学习了一个多层感知器来对propoasl segments进行排序并推断前景目标。
2016年，Tsai提出了用于AVOS和光流估计的联合优化框架，该框架使用了一个预训练分类网络的深度特征。
后来的方法，基于帧或光流预测初始的、像素级的前景，尽管仍需要一些后续步骤。
基本上，这些原始解决方案主要依赖于传统的AVOS技术；神经网络的学习能力尚不充分。

基于像素实例Embedding的方法：首先生成像素级实例embeddings，然后选择聚类为前景或者背景的代表性embeddings。最终，被采样embeddings的label被传播给其他embeddings。聚类和传播是无监督的。虽然使用了较少的注释，但这些方法的却是支离破碎且复杂的。

基于短时信息编码的端到端的方法：

卷积递归神经网络（CRNN，CNN用于特征提取，RNN基于特征预测）用于学习时空视觉模式。
双流法（two-stream）：构建并行双流从图像和光流中提取特征。双流特征融合（feature fusion）之后用于分割预测。双流法充分利用了外观和运动信息，代价是光流的计算以及大量需要学习的参数。

这些端到端的方法提升了精度，并且显示了使用神经网络的优势。然而，它们只考虑了有限时间跨度内的局部内容：提取少量连续帧中的外观和运动信息作为输入，忽视了间隔较远帧的关系。虽然通常使用RNN，但它们的内部隐藏内存（internal hidden memory）在建模长期依赖性时造成了固有的限制。

基于长时语境编码的端到端的方法：目前领先的AVOS使用长时间跨度上的全局语境（global context）。

Lu提出了基于Siamese结构的模型：提取任意成对帧的特征，然后通过计算像素级特征相关性来获取cross-frame context。
另一个同时期的方式有相似的思想，但是只是把第一帧作为参考。
还有一些扩展研究改进对多个帧中信息的使用、编码空间语境、结合时间连续性，从而提升表示能力（representation power）和计算有效性。

基于无/弱监督的方法：只有少数AVOS使用无/弱标签数据训练。

相比于VS data，更容易获取的静态图像目标分割和动态注视data被用于学习通用的视频目标模式。

通过探索视频在多个粒度（granularity）上的固有属性来学习视觉模式，例如：帧内显著性（saliency,）、短时视觉连贯性、长程语义对应性、视频级辨别性。

通过最小化目标的运动与其语境之间的互信息，开发了一种对抗性（adversarial）语境模型来分割运动目标，且无需任何手动注释。还可通过自举（bootstrapping）策略和强制时间连续性进一步增强该方法。

对运动专门研究用于发现移动的目标，并且基于Transformer的模型使用未标记视频数据的自监督流重建（self-supervised flow reconstruction）来设计和训练。

实例级AVOS方法：又称为多目标无监督视频分割。这个任务更有挑战性，因为它不止需要把多个前景从背景中分离出来，还要区分不同的实例目标。目前该任务的解决办法是从宏观到微观（top-down）的办法：生成每一帧的候选目标，然后联合不同帧的实例。

综上，目前的实例级AVOS遵循古典的通过检测进行跟踪的办法，精度和有效性仍有相当大的提升空间。

3.1.2 半自动视频目标分割（SVOS）

基于DL的SVOS主要关注第一帧的掩模传播（mask propagation）。该技术基于目标掩模的测试时间进行分类。

segment-any-video,论文笔记,深度学习,人工智能

基于online fine-tune的方法：基于one-shot的方法，以一种online的方法分别在每一个给定的目标掩模上训练一个分割模型。Fine-tune本质上是开发神经网络迁移学习的能力，并且通常有两步：

离线pre-train：从图像和视频序列中学习通用的分割特征；
在线fine-tune：基于监督学习目标专门的representation。

然而，fine-tune的方法有一些缺点：

预训练是固定的，且没有为之后的fine-tune优化；
online fine-tune的超参数通常过于专门设计，所以不具有良好的泛化能力；
现存的fine-tune都有着高运行时间（每个分割目标多达1000次训练迭代）。根本原因在于这些方法编码了所有与目标相关的信息（例如：外观、掩模）

为了自动有效的进行fine-tune，人们开始使用meta learning，即优化fine-tune policy（例如：通用的模型初始化、learning rate等）或者直接更改网络权重。

基于传播的方法：文章来源地址https://www.toymoban.com/news/detail-786189.html

到了这里，关于【未完待续】综述：用于视频分割（Video Segmentation）的深度学习的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

Toy模板网

【未完待续】综述：用于视频分割（Video Segmentation）的深度学习

0. 摘要

1. 简介

2. 背景

2.1 问题公式化和分类学

2.1.1 视频分割（VS）的类别

2.1.2 视频分割（VS）的推断模式（Inference Modes）

2.1.3 视频分割（VS）的学习方法

2.2 历史和术语

2.3 相关研究领域

3. 基于深度学习（DL）的视频分割（VS）

3.1 基于DL的视频目标分割（VOS）

3.1.1 自动视频目标分割（AVOS）

3.1.2 半自动视频目标分割（SVOS）

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2