重新思考 视频超分辨 Transformers 中的对齐

这篇具有很好参考价值的文章主要介绍了重新思考 视频超分辨 Transformers 中的对齐。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

关注公众号,发现CV技术之美

笔者言: XPixel的又一力作,作者在各个方面分析了应用在Transformer中使用各种现有对齐方法,进一步说明了保存亚像素信息的重要性,并提出图像补丁对齐方法,在REDS4上达到了32.72db。

重新思考 视频超分辨 Transformers 中的对齐

  • 作者单位:清华深研院、上海人工智能实验室、悉尼大学等 

  • 论文名称:Rethinking Alignment in Video Super-Resolution Transformers

  • 论文链接:https://arxiv.org/pdf/2207.08494.pdf

      01      

看点

对齐向来是 VSR 中的重要操作,然而自注意机制的进展可能会违背这一常识。本文重新思考了 Transformer VSR 中对齐的作用,并进行了一些反直觉的观察。

实验表明:

  1. Transformer VSR 可以直接使用未对齐的多帧信息

  2. 现有的对齐方法可能并不适用 Transformer VSR

观察表明,简单的移除对齐模块并采用更大的注意窗口可以进一步提高 Transformer VSR 的性能。然而,这种设计将大大增加计算负担,并不能处理大的运动。为此,本文提出了一种补丁对齐方法,该方法利用图像补丁代替像素进行对齐以实现SOTA表现。

      02      

方法

VSR Transformer

本研究中使用的 VSR 骨干网络基于移位窗口机制,如下图所示:

重新思考 视频超分辨 Transformers 中的对齐

其中,使用一个2维卷积作为特征提取模块,MFSAB 由 SwinIR 中的 RSTB 修改而来。在数据集的选择上,REDS 和 Vimeo-90K 是使用最多的数据集。Vimeo-90K 数据集中的运动通常很小,99%的像素运动幅度小于10 (第4帧到第7帧)。不同的是,REDS 中至少有20%的像素的运动幅度大于10 (第3帧到第5帧)。本文使用 BI 来生成 LR。

对齐方法

现有对齐方法可分为四种,本实验中包含了各自的代表性方法,其中:

  • 图像对齐 是最早最直观的对齐方法。图像对齐依赖于显式计算的帧间光流。根据估计的帧间运动,通过扭曲操作对不同的帧进行对齐。本文使用 SpyNet 来估计光流,并在训练过程中同时对 SpyNet 进行微调,采用 BI 作为重采样方法。

  • 特征对齐 也可以估计光流,但是是对深度特征进行扭曲操作而不是图像。流估计模块仍然使用SpyNet,在训练时进行优化。除了上图中的二维卷积,此处还额外添加了5个残差块来提取深度特征。

  • 变形卷积 方法采用可学习的动态可变形卷积进行对齐。几乎所有最先进的VSR网络都使用可变形卷积来进行对齐。本文以 BasicVSR++ 和 VRT 中使用的流引导变形卷积 (FGDC) 对齐作为代表方法。

  • 无对齐 原始输入直接使用 VSR Transformer 进行处理。

对齐是否总是有利于 VSR Transformers

本文研究了在不同像素运动条件下,有对齐和没有对齐的 VSR Transformer 的性能差异,下图显示了在REDS数据集上测试的结果

重新思考 视频超分辨 Transformers 中的对齐

首先从(a)可以观察到,像素运动较小时,VSR Transformer 可以在不对齐的情况下取得较好的效果。像素移动的范围与使用的窗口大小有关。由于在处理局部窗口内的像素时不存在局部感应偏差,Transformer可以处理这个范围内的不对齐。随着运动的增加,VSR所需要的信息超出了局部窗口的范围。此时,图像对齐可以提高性能。

本文随后增加了窗口大小,并进行相同的实验。如(b)所示。VSR Transformer 可以处理更大范围的未对齐像素和更大的窗口大小。这表明 VSR Transformer 对未对齐帧的处理能力与窗口大小有关,也意味着这种能力主要依赖于自注意机制。为了研究更好的对齐方法是否能够消除小运动的负面影响,(c)使用特征对齐进行了相同的实验。可以看出,特征对齐缩小了差距,但对小运动仍然有负面影响。

什么样的流更适合VSR?

虽然使用光流对齐可能会产生负面影响,但不同的流也可能导致性能的差异,如下图所示:

重新思考 视频超分辨 Transformers 中的对齐

在训练 VSR 网络的同时优化流估计器会得到更好的结果,因为此时的流估计器学习优化的是 VSR 的流量。首先观察到,VSR Transformer 倾向于使用平滑流。流评估器 SpyNet 经过了 EPE 损失的预训练,这并不明确地鼓励平滑。

非平滑流会给VSR带来随机噪声,丢失亚像素信息。经过微调的 SpyNet 估计的流量越来越平滑,这体现在平均总变化量的减少上。平滑流保持对齐帧中相邻像素的相对关系,有利于VSR处理。尽管经过微调的流估计器将提高性能,但在RED数据集上进行流微调的图像对齐与不进行对齐之间仍然存在差距。

然而,我们在Vimeo-90K数据集上观察到不同的结果:有流微调的图像对齐几乎与没有对齐相同。这是因为使用Vimeo-90K对图像对齐进行微调时,流量慢慢减少到0。这种现象在VSR-CNN中并没有出现。这个实验很有启发性。一方面,Vimeo-90K数据集中的大多数移动都小于Transformer的窗口大小。经过微调的流量估计器似乎意识到了这一点,并学会了通过强制流量值为所有零来提高性能。

Transformer 是否隐式跟踪未对齐帧之间的运动

本文使用一个可解释性工具来进行可视化。局部归因图 (LAM) 是一种寻找对网络输出有强烈影响的输入像素点的归因方法。首先在输出图像上指定一个目标 patch,然后使用 LAM 生成相应的归因图。通过跟踪模型使用那些信息,查看相邻帧中的哪些像素贡献最大。

下图可以观察到,即使没有对齐模块,VSR Transformer 也可以自动将注意力转移到最相关的像素上。

重新思考 视频超分辨 Transformers 中的对齐

为什么对齐方法有负面影响

为了理解对对齐产生负面影响的原因,这需要知道 VSR 需要哪些亚像素信息。下采样时,HR帧中的高频信息会丢失,而LR帧中只剩下混叠模式。当HR帧移动时,产生不同的混叠模式。这些模式为VSR提供了额外的约束。然而,不准确的光流和双线性采样操作可能会破坏这些模式。

首先,不准确的流可以看作是地面真实流和随机误差项的组合。使用这种流随机对齐将改变LR模式,并导致信息丢失。其次,双线性重采样运算计算相邻四个像素的加权平均,而权值对于VSR模型是不可理解的。VSR模型只能处理转换后的LR模式,不能访问原始模式,导致信息丢失。

如下图所示,与图像对齐相比,特征对齐通过在亚像素信息被对齐破坏之前提取部分亚像素信息来提高性能。流引导变形卷积 (FGDC) 通过使网络模型几何变换减少对齐的负面影响。

将重采样方法改为最近邻也可以提高性能,因为该方法可以保留相邻像素之间的关系,并在一定程度上忽略流量估计的噪声。可以看出,使用NN重采样方法进行特征对齐的性能与FGDC方法相同,但显著减少了参数的数量。

重新思考 视频超分辨 Transformers 中的对齐

补丁对齐

该方法的流程如下图所示。这种方法不对齐单个像素,而是将图像视为不重叠的补丁。补丁的分区与Transformer本地窗口的分区一致。我们将patch作为一个整体,对patch内的像素进行相同的操作。这样既保持了像素间的相对关系,又不会破坏补丁内的亚像素信息。

我们基于光流定位物体的运动,但不追求精确的像素级对齐。计算每个patch的平均运动向量,并在每个patch的支持帧中找到相应的patch。然后使用最近邻重采样方法将整个支撑块移动到它们在参考坐标系中的对应位置。最近邻重采样法忽略了光流估计的分数部分,减少了由于流估计不准确而造成的误差。

此外,对整个patch进行裁剪并移动到相应的位置,保留了patch内像素的相对关系,从而保留了亚像素信息。下图中展示了双线性重采样的图像对齐方法和我们提出的patch对齐方法的对比。

可以看到,图像对齐引入模糊和伪影到对齐的图像,破坏亚像素信息。补丁对齐可以保留更多的细节为VSR模型提供额外的信息。由于我们不追求像素级对齐,直接操作补丁将在补丁边界留下不连续的伪影。

但实验表明,这些不连续的影响很小。因为这些不连续不会出现在Transformer的本地窗口中,所以它们不会影响自注意的功能。

      03      

实验

定量评估

在REDS4上为32.72dB,RVRT为32.75dB。

重新思考 视频超分辨 Transformers 中的对齐

重新思考 视频超分辨 Transformers 中的对齐

END

欢迎加入「超分辨率交流群👇备注:SR文章来源地址https://www.toymoban.com/news/detail-408669.html

到了这里,关于重新思考 视频超分辨 Transformers 中的对齐的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 第三章:DeepLabV3——重新思考用于语义图像分割的扩张卷积

    原问题目:《Rethinking Atrous Convolution for Semantic Image Segmentation》 原文引用:Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[J]. arXiv preprint arXiv:1706.05587, 2017. 发表时间:2018年1月 原文链接: https://arxiv.org/pdf/1706.05587.pdf%EF%BC%8C%E6%8E%A8%E8%8D%90%E5%9C%A8

    2024年02月16日
    浏览(45)
  • R语言【文章复现】——集成式地绘制高分辨率的多样性分布图,对方法的检验和优化,以及处理思路的思考

    本文对一篇 2022 年发表在 New Phytologist 的绘图方法文章中的技术路线进行复现。 An integrated high-resolution mapping shows congruent biodiversity patterns of Fagales and Pinales 文中,作者针对在全球尺度上绘制物种分布图提出了一种全新的方法。该方法整合了 多边形绘图 ( polygon mapping )和 物

    2024年02月02日
    浏览(36)
  • AXI 协议中的“对齐”与“非对齐”访问

    1. 对齐传输: 在实际硬件中,一个寄存器一般是存储8位数据,所以对于一笔32位的数据,就需要4个寄存器来存储,因此这笔32位的数据的地址需要以0X00,0X04,0X08···这样使用,也就是所谓的地址对齐 2. 非对齐传输 AHB总线只支持对齐传输,而AXI协议支持地址的非对齐传输(且

    2024年02月13日
    浏览(21)
  • 【视频超分辨率】视频超分辨率的介绍(定义,评价指标,分类)

    视频超分率起源于图像超分率,旨在根据已有的低分辨率视频序列生成具有真实细节和内容连续的高分辨率视频序列。视频超分辨率技术可以将 低分辨率(低清晰度)视频转换为高分辨率(高清晰度)视频 ,以提供更多的细节和清晰度。 视频超分辨率技术主要分为 传统方法

    2024年02月04日
    浏览(39)
  • 【nlp-with-transformers】|Transformers中的generate函数解析

    今天社群中的小伙伴面试遇到了一个问题,如何保证生成式语言模型在同样的输入情况下可以保证同样的输出。 这里面造成问题的因素有两个方面: 一个方面是在forward过程中参数的计算出现了差异,这种情况一般发生在游戏显卡中,游戏显卡无法保证每一次底层算子计算都

    2024年02月09日
    浏览(30)
  • 【音视频原理】图像相关概念 ⑦ ( YUV 跨距 Stride 对齐 | YUV 跨距 概念 | YUV 跨距对齐 概念 | YUV 跨距 Stride 对齐示例 )

    Stride 跨距 , 指的是 在 内存中 每行像素 占用的空间 , 由于 系统 对 图像有 跨距对齐 的要求 , 这个 Stride 跨距 可能 大于等于 实际的 图像像素 所占用的 宽度 ; 分辨率为 638 x 480 的 RGB24 格式的图片 , 内存处理时 以 16 字节对齐 ; RGB24 格式中 R ( 红 ) / G ( 绿 ) / B ( 蓝 ) 每个分量占

    2024年02月19日
    浏览(38)
  • ffmpeg播放时刻与视频文件时间戳对齐(同步)

    当解码较快的时候,并不是解码后立马显示视频帧,这样看着是倍速的效果。如何还原实际的播放速率? 为了解决在解码后视频播放还原原来每帧播放的时刻点。我们需要在解码较快的情况下对帧显示加一定的时间延时,这个延时策略就是计算出 延时调整时间 有可能为负值

    2023年04月08日
    浏览(26)
  • 基于whisper和whisperx的语音视频和字幕对齐

    创建py310虚拟环境,需要安装Anaconda的Python环境。 Python初学者在不同系统上安装Python的保姆级指引 Win10+Python3.9+GPU版pytorch环境搭建最简流程 Python虚拟环境的安装和使用 还需要提前安装FFmpeg用于音频操作,并添加到环境变量中。 创建一个名称为 whisper 的虚拟环境。 激活虚拟环

    2024年02月16日
    浏览(34)
  • VideoGPT:使用VQ-VAE和Transformers的视频生成

            VideoGPT: Video Generation using VQ-VAE and Transformers(Wilson Yan,Yunzhi Zhang ,Pieter Abbeel,Aravind Srinivas)         This paper present VideoGPT: a conceptually simple architecture for scaling likelihood based generative modeling to natural videos. VideoGPT uses VQ-VAE that learns downsampled discrete latent representa

    2024年02月22日
    浏览(30)
  • transformers库中的.from_pretrained()

    在跑 Faspect 代码时,对 transformer 系列的预训练模型加载方式比较好奇,因此记录 在使用 Huggingface 提供的 transformer 系列模型时,会通过 model.from_pretrained 函数来加载预训练模型。 from_pretrainde 函数原型为 对加载预训练模型地址的介绍 pretrained_model_name_or_path : 一个字符串,模型

    2024年02月16日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包