视频目标检测paper（三）《Temporal ROI Align for Video Object Recognition》-Toy模板网

这篇具有很好参考价值的文章主要介绍了视频目标检测paper（三）《Temporal ROI Align for Video Object Recognition》。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

这篇文章作为2021年的AAAI视频目标检测类文章，可以说是现在视频目标检测的最新技术之一了，并且已经集成到了MMtracking框架之中，可以说是集合了计算机视觉，深度学习，目标检测，视频检测等知识综合性较强的文章，以小编现在的水平很难融汇贯通，所以说作为一个笔记总结吧，以后水平提高会重新总结这篇文章，希望看到的朋友们不要见怪哈。

【Abstract】

将来自同一视频的其他帧的时间信息聚合到当前帧是一种应对针对外观恶化的自然选择。

ROI-Align仍是对目标从单帧特征图中提取特征，使得提取的特征缺少视频中的时间信息。

1.考虑到视频中同一对象实例的特征在帧间高度相似，提出了一种新的Temporal ROI Align operator，针对目标从整个视频中提取时间信息。

2.可集成到单帧视频检测器和其他最先进的视频检测器中，以证明能持续显著提高性能。

3.也可用于视频实例分割。

【Introduction】

关键问题一：如何利用视频中相同目标的时间信息？

ROI Align仅利用当前帧特征映射来提取当前帧的特征，缺少视频中同一目标在其他帧的特征（时间信息），利用时间信息的简单的方法是提取其它帧的特征图对当前帧的目标进行ROI-Align，但当前帧中的目标在其他帧中的精确位置是未知的，使得简单的方法是不可取的。

很多方法只能利用一秒内帧的时间信息，通常是30帧，性能会随着时间间隔的延长而降低，很难利用来自时间间隔较远帧的信息。SELSA利用更长的视频长度的目标级别信息，聚合高等级的目标特征（目标的全连接层特征），使当前帧的每个目标特征包含来自其他帧的高等级目标特征。然而ROI特征仍是从单个图像中提取的。

作者提出了一种新的方法Temporal ROI Align，如图，target frame定义为完成最终预测的帧，被允许有多个支持的帧，来加强target frame的特征，因为同一目标在视频帧间高度相似，基于特征相似方法对于target frame的目标从support frame特征图中提取最相似的ROI特征，ROI特征中包含同一个目标的视频中的时间信息。

关键的问题二：如何有效的聚合这些特征？

清晰对象帧中的ROI特征更能发挥作用，因此，temporal attention mechanism时间注意力机制来聚合ROI特征和最相似的特征。

视频目标检测paper（三）《Temporal ROI Align for Video Object Recognition》

【原理总图】

视频目标检测paper（三）《Temporal ROI Align for Video Object Recognition》

从target frame特征图中对target frame的目标进行ROI特征提取。不再介绍。
Most Similar ROI Align：对target frame的目标从support frame特征图提取最相似ROI特征，具体来说，相似图被计算在特征F(t+i)和X(t)的每个空间位置，对每个相似图，找the top K相似性分数作为最相似的点，投影这些点到F(t+i)中，基于这些点，最相似的特征f(t+i)被提取从F(t+i)。f(t+i)通过归一化前K个相似性分数，加权求和产生最相似ROI特征X(t+i)。
Temporal Attentional Feature Aggregation(TAFA)时间注意力特征聚合：利用时间注意聚合 $视频目标检测paper（三）《Temporal ROI Align for Video Object Recognition》$ 获得最终时间的ROI特征。

【Most Similar ROI Align】

视频目标检测paper（三）《Temporal ROI Align for Video Object Recognition》

为当前帧提取出的目标位置m处的ROI特征，用与分析技术细节，首先，和F(t+i)沿着通道维度进行L2-normalized生成视频目标检测paper（三）《Temporal ROI Align for Video Object Recognition》，然后，余弦相似性图计算公式如下:

视频目标检测paper（三）《Temporal ROI Align for Video Object Recognition》

视频目标检测paper（三）《Temporal ROI Align for Video Object Recognition》位置被映射到support frame特征图F(t+i)上，为了提取最相似特征， $视频目标检测paper（三）《Temporal ROI Align for Video Object Recognition》$ 为其集合，最后相似性得分加权到 $视频目标检测paper（三）《Temporal ROI Align for Video Object Recognition》$ ，公式为：

视频目标检测paper（三）《Temporal ROI Align for Video Object Recognition》

第一个是 $视频目标检测paper（三）《Temporal ROI Align for Video Object Recognition》$ 的标准化权重，第二个是的加权最相似特征，由于中共存在hw个m的位置，所以最后能提取的最相似ROI特征的大小为h×w×c。

【Temporal Attentional Feature Aggregation】

经过以上步骤，已经从目标特征图和支持帧特征图中提取了ROI特征。

关键挑战三：如何有效地聚合这些ROI特征？

由于目标在某些帧中可能模糊，某些帧可能清晰，因此可以学习一组时间注意力权重来聚合，multi-head attendtention允许模型共同注意来自不同通道的不同表征空间，因此，构建了multi temporal attention blocks来处理在时间特征的聚合。

视频目标检测paper（三）《Temporal ROI Align for Video Object Recognition》

$视频目标检测paper（三）《Temporal ROI Align for Video Object Recognition》$ 是一组作为此模块的输入ROI特征，模块中有n个temporal attention blocks与每个输入特征的通道维度相对应并去聚合它们，最后生成一个注意力机制图。公式如下：