【时间序列综述】Transformer in Time Series:A Survey 论文笔记

这篇具有很好参考价值的文章主要介绍了【时间序列综述】Transformer in Time Series:A Survey 论文笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文章全名:Transformers in Time Series: A Survey

文章链接:[论文地址]([2202.07125v2] Transformers in Time Series: A Survey (arxiv.org))

来源:IJCAI 2023

完成单位:阿里巴巴达摩院、上海交通大学


摘要

Transformer在自然语言处理和计算机视觉领域都取得了诸多成果,Transformer的捕获长距离依赖和交互的能力非常适合应用于时间序列分析之中。本文回顾了Transformer在时间序列建模上的优点和不足。本文从两个方面展开,一是总结了对Transformer模型的修改和适配,使其能够更好应用于时间序列分析;二是从应用角度分析,根据任务分类为:预测、异常检测和分类。本文讨论并提出了未来的发展方向,以提供有用的研究指导。


Introduction

本文首先介绍了一下原始Transformer结构,然后提出一种新的分类方式,基于模型修改和应用两个方面。在模型修改方面,本文从low-level模块化,和high-level结构化分别介绍了Transformer在时序分析上的使用。在应用层面,总结了一些热门任务的工作,比如预测、异常检测和分类。对每种Transformer都分析其优势和不足。本文也进行了丰富的实验,分析模型的鲁棒性、模型参数量等。


Preliminaries of the Transformer

最初的Transformer

最初的Transformer是一种编解码结构,编码结构包含了一个多头自注意力模块和一个前馈网络,解码结构在多头自注意力模块和前馈网络之间插入了一个cross-attention模块,来融合编码器输出的内容。

关于Transformer及其变体网络的介绍可以阅读这篇文章

输入编码和位置编码

绝对位置编码

P E ( t ) i = { sin ⁡ ( ω i t ) i % 2 = 0 cos ⁡ ( ω i t ) i % 2 = 1 P E(t)_i= \begin{cases}\sin \left(\omega_i t\right) & i \% 2=0 \\ \cos \left(\omega_i t\right) & i \% 2=1\end{cases} PE(t)i={sin(ωit)cos(ωit)i%2=0i%2=1

t t t表示位置索引, w i w_i wi是每一维的频率。

相对位置编码

输入元素之间的成对位置关系比元素的位置更有利,因此提出了相对的位置编码方法。例如,其中一种方法是在注意机制的关键字上添加一个可学习的相对位置嵌入。

多头注意力

Attention ⁡ ( Q , K , V ) = softmax ⁡ ( Q K T D k ) V \operatorname{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V})=\operatorname{softmax}\left(\frac{\mathbf{Q K}^{\mathbf{T}}}{\sqrt{D_k}}\right) \mathbf{V} Attention(Q,K,V)=softmax(Dk QKT)V

注意力就是要决定V中哪些是更重要的,权重是由Q和K做点积得到的。

Transformer中使用了多头自注意力,多头的作用是能够提取到不同模式下的注意力。


前馈网络和残差网络

前馈网络是一个全连接网络
F F N ( H ′ ) = ReLU ⁡ ( H ′ W 1 + b 1 ) W 2 + b 2 F F N\left(\mathbf{H}^{\prime}\right)=\operatorname{ReLU}\left(\mathbf{H}^{\prime} \mathbf{W}^1+\mathbf{b}^1\right) \mathbf{W}^2+\mathbf{b}^2 FFN(H)=ReLU(HW1+b1)W2+b2
在更深层次的模块中,在每个模块周围插入一个残差的连接模块,后面跟着层归一化模块。
H ′ =  LayerNorm  ( Self ⁡ Attn ⁡ ( X ) + X ) , H =  LayerNorm  ( F F N ( H ′ ) + H ′ ) , \begin{aligned} \mathbf{H}^{\prime} & =\text { LayerNorm }(\operatorname{Self} \operatorname{Attn}(\mathbf{X})+\mathbf{X}), \\ \mathbf{H} & =\text { LayerNorm }\left(F F N\left(\mathbf{H}^{\prime}\right)+\mathbf{H}^{\prime}\right), \end{aligned} HH= LayerNorm (SelfAttn(X)+X),= LayerNorm (FFN(H)+H),


时间序列Transformer的分类

transformers in time series: a survey,Transformer,论文笔记,时间序列,transformer,论文阅读,深度学习


针对时间序列的网络修改

位置编码

由于时间序列的顺序非常重要,所以将输入信息的位置进行编码后输入Transformer也非常重要。

一种常见的方法是将位置信息编码成一个向量,然后直接作为一个额外的输入输入到模型中去。


最初的位置编码

最初的位置编码就是本文第二节提出的编码方式,虽然这种方式能够提取到一些位置信息,但是它们不能充分挖掘时间序列数据的重要特征。


可学习的位置编码

可学习的位置编码会更加灵活,并能够适用于特定的任务。

Zerveas等人在Transformer中引入了嵌入层,该层与其他模型参数一起学习每个位置指标的嵌入向量。Lim等人使用LSTM网络对位置嵌入进行编码,目的是更好地利用时间序列中的顺序排序信息。


时间戳编码

对于现实世界中的时间序列,时间戳的信息是可以获得的,这些信息可以被编码作为输入。


注意力模块

Transformer的核心是自注意力模块,它可以被看作是一个完全连接的层,其权重是根据输入模式之间的成对相似性动态生成的。因此,它与完全连接层具有相同的最大路径长度,但参数数量要少得多,适用于建模长期依赖性。

通过第二节的介绍可以发现,自注意力的时空复杂度是 O ( N 2 ) \mathcal O(N^2) O(N2) N N N是输入时间序列的长度,因此当序列长度特别长的时候这会成为一个计算瓶颈。

于是很多网络被提出来降低计算的复杂度,大致可分为两类,一类明确地将稀疏性偏差引入注意机制,如LogTrans和Pyraformer,另一类探索自注意矩阵的低秩性,加快计算速度,如Informer和FEDformer。

下表展示了各个方法的时空复杂度。

transformers in time series: a survey,Transformer,论文笔记,时间序列,transformer,论文阅读,深度学习


基于模型结构的注意力创新

最近的工作在Transformer中引入了分层架构,以考虑时间序列的不同层次信息。Informer在注意块之间插入stride为2的max-pooling层,该层将样本序列长度减半。Pyraformer设计了一种基于C-ary树的注意机制,其中最细尺度上的节点对应于原始时间序列,而粗尺度上的节点代表较低分辨率的序列。


时间序列Transformer的应用

预测领域

时间序列预测

近年来,已经进行了大量工作设计新的Transformer变体,用于时间序列预测任务。模块级别和结构级别是两个大的类别,前者包括最新工作的大部分内容。

模块级别

模块级别的更新往往还是使用最初Transformer的结构,在此基础上添加一些小的改动。大致包含三种类型:设计新的注意力模块,探索新的标准化时间序列数据的方法,利用输入数据的bias

transformers in time series: a survey,Transformer,论文笔记,时间序列,transformer,论文阅读,深度学习

设计新的注意力模块

以下这些注意力方式都利用稀疏归纳偏置或低秩逼近来消除噪声,并实现低阶计算复杂度。

LogTrans提出了卷积自注意力,通过随机卷积在自注意力层来生成查询和键,并引入了一个稀疏偏置,Logsparse mask,来降低计算复杂度。

Informer通过计算查询和键的相似度来选出了最重要的查询,从而降低了计算复杂度,并且还设计了一种生成式的解码器来直接生成长距离的预测,从而避免了单步预测在长距离预测可能会引入的累计错误。

AST使用了一个生成对抗编解码器结构来训练出一个稀疏的Transformer模型来进行时间序列预测,它表明对抗训练能够提升预测效果,因为它能直接塑造出输出的分布情况,来避免单步预测可能导致的累计错误。

Pyraformer设计了一种带有二叉树跟随路径的分层金字塔注意模块,以捕获具有线性时间和内存复杂度的不同范围的时间依赖性。

FEDformer设计了两个注意模块,分别用傅里叶变换和小波变换处理频域中的注意操作。 它通过傅里叶变换中的随机模式部分实现了线性复杂度。 需要指出的是,自 Autoformer 和 FEDformer 以来,时间序列在频域或时频域中的独特属性引起了更多的关注。


标准化时间序列数据

Liu等人提出了Non-stationary Transformer,它探索了时间序列预测任务中的过度平稳化问题,并且提出了一种去平稳化的模块来提升注意力块的表现。


利用输入偏置

Autoformer采用了一种基于分割的表示机制,它设计了一种简单的季节性趋势分解架构。它测量输入信号之间的时延相似性,并聚合前 k 个相似的子序列以产生具有降低复杂度 O(LlogL) 的输出。

长时间序列预测之Autoformer 详解及实践 - 知乎 (zhihu.com)


时空数据预测

在时空预测中,我们需要同时考虑时间依赖性和时空依赖性来进行准确的预测。 Traffic Transformer 设计了一个编码器-解码器结构,使用自注意力模块来捕获时间-时间依赖关系,并使用图神经网络模块来捕获空间依赖关系。 用于交通流预测的时空 Transformer 网络更进一步,除了引入时间 Transformer 模块来捕获时间依赖关系外,它还设计了一个空间 Transformer 模块来辅助图卷积网络捕获更多的空间空间依赖关系。 此外,时空图 Transformer 网络设计了一种基于注意力的图卷积机制来学习更复杂的时空注意力模式,以改进行人轨迹预测。


异常检测领域

在很多研究中,研究者将Transformer与生成模型比如VAE和GAN结合,来进行异常检测。

TranAD提出了一种对抗训练策略来放大重构的误差,来训练出一个基于Transformer的模型,它会遗漏一些小偏差的异常。GAN风格的对抗训练是由两个Transformer编码器和解码器构成,来获得稳定性,消融实验表明如果Transformer结构被替代,F1分数会下降很多,表明Transformer结构在异常检测上的作用。

MT-RVAE和TransAnomaly将VAE与Transformer相结合,但它们具有不同的目的。TransAnomaly将VAE与Transformer相结合,以允许更多的并行化,将训练成本减少近80%。在MT-RVAE中,设计了一个多尺度Transformer来提取和集成不同尺度的时间序列信息。它克服了传统Transformer的仅提取局部信息进行顺序分析的缺点。

GTA将Transformer与基于图的学习架构相结合,用于多变量时间序列异常检测。请注意,MT-RVAE也是用于多变量时间序列,但其维度较少或序列之间的关系不足,因此图神经网络模型效果不佳。为应对这种挑战,MT-RVAE修改了位置编码模块并引入了特征学习模块。相反,GTA包含一个图卷积结构来模拟影响传播过程。与MT-RVAE类似,GTA也考虑“全局”信息,但通过将普通多头注意力替换为多分支注意力机制来实现,即全局学习注意力、普通多头注意力和邻域卷积的组合。

AnomalyTrans将Transformer和高斯先验关联相结合,使异常更易于区分。与TranAD具有类似的动机,但AnomalyTrans采用了不同的实现方式。其洞察力在于,与正常情况相比,异常更难与整个时间序列建立强关联,但更容易与相邻时间点建立关联。在AnomalyTrans中,先验关联和序列关联同时建模。除了重构损失外,异常模型还通过极小极大策略进行优化,以限制先验关联和序列关联以获得更易于区分的关联差异。


分类领域

由于Transformer在捕捉长期依赖方面具有突出的能力,因此已被证明在各种时间序列分类任务中非常有效。GTN使用两个塔式Transformer,每个塔分别处理逐时间步的注意力和逐通道的注意力。为了合并两个塔的特征,使用了可学习的加权拼接(也称为“门控”)。Transformer的这种扩展在13个多变量时间序列分类中实现了最先进的结果。[Rußwurm和K¨orner,2020] 研究了基于自注意力的Transformer用于原始光学卫星时间序列分类,并与递归和卷积神经网络相比获得了最佳结果。最近,TARNet [Chowdhury等,2022] 设计了Transformer来学习任务感知的数据重建,以增强分类性能,它利用注意力分数进行重要时间戳掩蔽和重构,并带来了更优越的性能。

预训练的Transformer也在分类任务中进行了研究。[Yuan和Lin,2020] 研究了用于原始光学卫星图像时间序列分类的Transformer。由于标记数据有限,作者使用了自监督预训练模式。[Zerveas等,2021] 引入了一种无监督预训练框架,并使用按比例屏蔽的数据对模型进行预训练。然后将预训练模型在分类等下游任务中进行微调。[Yang等,2021] 建议使用大规模预训练语音处理模型解决下游时间序列分类问题,并在30个流行的时间序列分类数据集上生成了19个有竞争力的结果。


实验评估和讨论

关于模型输入序列长度的实验

transformers in time series: a survey,Transformer,论文笔记,时间序列,transformer,论文阅读,深度学习

可以发现大部分网络对于长序列的表现还是比较差的,说明对于长序列的信息网络还是无法有效地去利用。

关于模型大小的实验

主要是对层数大小进行实验。

transformers in time series: a survey,Transformer,论文笔记,时间序列,transformer,论文阅读,深度学习

关于季节性趋势分解的实验

在最近的研究中,研究人员[Wu等,2021;Zhou等,2022;Lin等,2021;Liu等,2022a] 开始意识到季节趋势分解[Cleveland等,1990;Wen等,2020]是Transformer在时间序列预测中性能的关键部分。如表4所示的实验,我们采用[Wu等,2021]提出的简单移动平均季节趋势分解架构来测试各种注意力模块。可以看到,简单的季节趋势分解模型可以将模型的性能显著提高50%至80%。这是一个独特的模块,通过分解提高性能似乎是Transformer在时间序列预测中的一个一致现象,值得进一步研究更高级和精心设计的时间序列分解方案。

transformers in time series: a survey,Transformer,论文笔记,时间序列,transformer,论文阅读,深度学习


未来的研究方向

时间序列Transformer的归纳偏差

Vanilla Transformer没有对数据模式和特征做出任何假设。虽然它是用于建模长程依赖关系的通用和普适网络,但它也有一个代价,即需要大量数据来训练Transformer以提高泛化能力并避免数据过拟合。时间序列数据的一个关键特征是其季节性/周期性和趋势模式。一些最近的研究表明,将系列周期性[Wu等,2021]或频率处理[Zhou等,2022]融入时间序列Transformer可以显著提高性能。此外,有趣的是,一些研究采用了一个看似相反的归纳偏差,但两者都取得了良好的数值改进:[Nie等,2023]利用一个独立于通道的注意力模块去除了交叉通道的依赖性,而一项有趣的工作[Zhang和Yan,2023]则利用了双阶段注意力机制的交叉维度依赖性来提高实验性能。显然,在这样一个交叉通道学习范式中,我们有噪声和信号,但是利用这种归纳偏差来压制噪声并提取信号的巧妙方法仍然是需要的。因此,一个未来的方向是考虑更有效的方法来引入基于对时间序列数据的理解和特定任务特征的归纳偏差到Transformer中。


将Transformer和GNN融合

多变量和时空时间序列在应用中变得越来越普遍,需要额外的技术来处理高维度,特别是捕捉维度之间的潜在关系的能力。引入图神经网络(GNN)是一种自然的方法来模拟维度之间的空间依赖或关系。最近的一些研究表明,GNN和Transformer/注意力的结合不仅可以带来像交通预测[Cai等,2020;Xu等,2020]和多模态预测[Li等,2021]这样的显著性能改进,而且还能更好地理解时空动态和潜在因果性。将Transformer和GNN相结合以有效地进行时空建模是一个重要的未来方向。


预训练Transformer

大规模预训练Transformer模型显著提高了NLP [Kenton等,2019;Brown等,2020]和CV [Chen等,2021a]中各种任务的性能。然而,在时间序列方面,预训练Transformer的研究还很有限,现有的研究主要集中在时间序列分类[Zerveas等,2021;Yang等,2021]。因此,如何为时间序列中的不同任务开发适当的预训练Transformer模型仍需在未来进行研究。


结构层面的改变

大数为时间序列开发的Transformer模型都保留了基本Transformer的架构,主要在注意力模块方面进行了修改。我们可以借鉴NLP和CV中Transformer变体的思想,这些变体还具有针对不同目的的架构级别模型设计,例如轻量级[Wu等,2020b;Mehta等,2021],交叉块连接[Bapna等,2018],自适应计算时间[Dehghani等,2019;Xin等,2020]和循环[Dai等,2019]。因此,一个未来的方向是考虑更多的针对时间序列数据和任务特定优化的Transformer架构级别设计。


参考文章

论文阅读:Transformers in Time Series: A Survey - 知乎 (zhihu.com)

【AI论文】Transformers in Time Series: A Survey_黑符石的博客-CSDN博客文章来源地址https://www.toymoban.com/news/detail-858756.html

到了这里,关于【时间序列综述】Transformer in Time Series:A Survey 论文笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于Transformer时间序列预测模型

      基于Transformer时间序列预测模型     特色:1、单变量,多变量输入,自由切换             2、单步预测,多步预测,自动切换            3、基于Pytorch架构            4、多个评估指标(MAE,MSE,R2,MAPE等)            5、数据从excel文件中读取,更换简单

    2024年02月09日
    浏览(52)
  • [论文分享]TSPTM-survey:时间序列预训练模型研究综述

    目录 1 概要 1.1 贡献点 2 背景 2.1 时序挖掘(TSM)任务 2.2 时间序列的深度学习模型 2.3 预训练模型优势 3 TS-PTMS 概述 3.1 监督预训练 3.1.1 基于分类的预训练 3.1.1.1 通用编码器 3.1.1.2 对齐编码器 3.1.1.3 模型重编程 3.1.1.4 总结 3.1.2 基于预测的预训练 3.1.2.1 自回归 3.1.2.2 自适应编码器

    2024年02月11日
    浏览(43)
  • 学习笔记:基于Transformer的时间序列预测模型

    为了便于读者理解,笔者将采取一个盾构机掘进参数预测的实际项目进行Transformer模型的说明。此外,该贴更多用于本人的学习记录,适合于对Transformer模型已经有一定了解的读者。此此次外,不定期更新中。 一些参考与图片来源: Transformer论文链接 transformer的细节到底是怎

    2024年02月03日
    浏览(66)
  • 基于CNN-Transformer时间序列预测模型

      基于CNN-Transformer时间序列预测模型   特色:1、单变量,多变量输入,自由切换             2、单步预测,多步预测,自动切换            3、基于Pytorch架构            4、多个评估指标(MAE,MSE,R2,MAPE等)            5、数据从excel文件中读取,更换简单

    2024年02月11日
    浏览(42)
  • 【时间序列】Transformer for TimeSeries时序预测算法详解

    2017年,Google的一篇  Attention Is All You Need  为我们带来了Transformer,其在NLP领域的重大成功展示了它对时序数据的强大建模能力,自然有人想要把Transformer应用到时序数据预测上。在Transformer的基础上构建时序预测能力可以突破以往的诸多限制,最明显的一个增益点是,Transfo

    2024年02月16日
    浏览(49)
  • Time-LLM:为时间序列预测重新编程LLM 探索Time-LLM的架构,并在Python中将其应用于预测项目

    参考资料:Time-LLM/ Reprogram an LLM for Time Series Forecasting.md 研究人员尝试将自然语言处理(NLP)技术应用于时间序列领域并非首次。 例如,Transformer架构在NLP领域是一个重要的里程碑,但其在时间序列预测方面的表现一直平平,直到PatchTST的提出。 正如您所知,大型语言模型(

    2024年04月25日
    浏览(52)
  • AI论文速读 | TimeXer:让 Transformer能够利用外部变量进行时间序列预测

    题目 : TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables 作者 :Yuxuan Wang ; Haixu Wu(吴海旭) ; Jiaxiang Dong ; Yong Liu ; Yunzhong Qiu ; Haoran Zhang ; Jianmin Wang(王建民) ; Mingsheng Long(龙明盛) 机构 :清华大学 网址 :https://arxiv.org/abs/2402.19072 Cool Paper :https://papers.c

    2024年04月17日
    浏览(63)
  • 风速预测 | Python基于CEEMDAN-CNN-Transformer+ARIMA的风速时间序列预测

    效果一览 基本介绍 CEEMDAN-CNN-Transformer+ARIMA是一种用于风速时间序列预测的模型,结合了不同的技术和算法。收集风速时间序列数据,并确保数据的质量和完整性。这些数据通常包括风速的观测值和时间戳。CEEMDAN分解:使用集合经验模态分解(CEEMDAN)将风速时间序列分解为多

    2024年01月25日
    浏览(39)
  • 融合transformer和对抗学习的多变量时间序列异常检测算法TranAD论文和代码解读...

    今天的文章来自VLDB TranAD: Deep Transformer Networks for Anomaly Detection in Multivariate Time Series Data 论文链接:https://arxiv.org/pdf/2201.07284v6.pdf 代码地址:https://github.com/imperial-qore/TranAD 在文章中提出了对于多变量异常检测的几个有挑战性的问题 缺乏异常的label 大数据量 在现实应用中需要尽

    2023年04月09日
    浏览(90)
  • 《异常检测——从经典算法到深度学习》21 Anomaly Transformer:具有关联差异的时间序列异常检测

    0 概论 1 基于隔离森林的异常检测算法 2 基于LOF的异常检测算法 3 基于One-Class SVM的异常检测算法 4 基于高斯概率密度异常检测算法 5 Opprentice——异常检测经典算法最终篇 6 基于重构概率的 VAE 异常检测 7 基于条件VAE异常检测 8 Donut: 基于 VAE 的 Web 应用周期性 KPI 无监督异常检测

    2024年02月11日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包