iTransformer: Inverted Transformers Are Effective for Time Series Forecasting
论文链接:[2310.06625] iTransformer: Inverted Transformers Are Effective for Time Series Forecasting (arxiv.org)
作者:Yong Liu, Tengge Hu, Haoran Zhang, Haixu Wu, Shiyu Wang, Lintao Ma, Mingsheng Long
单位:清华大学,蚂蚁集团
代码:https://github.com/thuml/iTransformer
引用:Liu Y, Hu T, Zhang H, et al. itransformer: Inverted transformers are effective for time series forecasting[J]. arXiv preprint arXiv:2310.06625, 2023.
简介
论文反思了 Transformer 各个模块的作用,并在不对基本模块进行任何修改的情况下重新调整了 Transformer 架构的用途,并提出了 iTransformer,只在倒置维度上应用注意力和前馈网络。具体来说,单个序列的时间点被嵌入到可变标记中,注意力机制利用这些标记来捕获多变量相关性;同时,将前馈网络应用于每个变量标记以学习非线性表示。
最近的预测模型利用 Transformers 对时间序列的时间标记的全局依赖关系进行建模,每个标记由同一时间戳的多个变量组成。但Transformer通常将同一时间戳的多个变量嵌入到无法区分的通道中,并将注意力集中在这些时间标记上以捕获时间依赖性。与此同时,最近的研究更加强调了确保变量的独立性和利用互信息,这些研究明确地对多元相关性进行建模,以实现准确的预测,但如果不颠覆传统的Transformer架构,很难实现这一目标。
然而,由于性能下降和计算爆炸,Transformer 在预测具有更大回溯窗口的序列方面面临挑战。此外,每个时态标记的嵌入融合了多个变量,这些变量表示潜在的延迟事件和不同的物理量纲,这可能会导致无法学习以变量为中心的表示,并导致注意力图毫无意义。
注意到,基于Transformer的预测器的现有结构可能不适合于多变量时间序列预测。如图2顶部所示,值得注意的是,同一时间步长的点基本上代表了由不一致的测量记录的完全不同的物理意义,这些点被嵌入到一个具有消除的多元相关性的标记中。由于过度局部的感受野和由同时的时间点表示的时间不一致的事件,由单个时间步长形成的表征可能难以揭示有益的信息。此外,虽然序列变化会受到序列顺序的很大影响,但在时间维度上不恰当地采用了排列不变的注意机制。因此,Transformer在捕捉基本序列表示和刻画多元相关性方面被削弱,限制了其对不同时间序列数据的能力和泛化能力。
不同于自然语言拥有天然的分词方式,基于Transformer进行时序分析,需要重新考虑词的构建方式:
-
Temporal Token: 以往模型的主流做法,将所有变量同一时刻的时间点表示为词,获得以时间点为单位的词序列。
-
Patch Token:在时间维度上对序列进行分块,扩大的感受野包含局部序列变化,从而获得语义性更强的词。
相比之下,论文着眼于变量的整体性,提出Variate Token,关注以变量为主体的关联建模,适合变量数较多且互相关联的多维时序数据。对于将时间戳的多变量点嵌入为(时间)token的潜在风险,对时间序列采取倒置视图,并将每个变量的整个时间序列独立嵌入到可变token中,这是 Patching 的极端情况,它扩大了局部感受野。通过反转,嵌入式标记聚合了序列的全局表示,这些序列可以更加以变量为中心,并通过蓬勃发展的多变量关联注意力机制更好地利用。同时,前馈网络可以足够熟练地学习从任意回溯序列编码并解码以预测未来序列的不同变量的可推广表示。
Method
给定历史观测: X = { x 1 , … , x T } ∈ R T × N X = \left\{ x _ { 1 } , \ldots , x _ { T } \right\} \in R^{T \times N} X={x1,…,xT}∈RT×N,具有 T T T 个时间步长和 N N N 个变量;
预测未来的 S S S 个时间步长: Y = { x T + 1 , … , x T + S } ∈ R S × N Y = \left\{ x _ { T+1 } , \ldots , x _ { T+S } \right\} \in R^{S \times N} Y={xT+1,…,xT+S}∈RS×N
提出的 iTransformer 如图 4 所示,采用了 Transformer 的纯编码器架构,包括嵌入、投影和 Transformer 模块。
Embedding the whole series as the token:大多数基于Transformer的预测者通常将同一时间的多个变量视为Token,并遵循预测任务的生成公式。然而,关于numerical modality的方法对学习注意力图的指导性较差,这得到了越来越多的Patching应用的支持,这拓宽了各自的领域。与此相反,提出的仅包括编码器的iTransformer专注于多元序列的表示学习和自适应相关,提出了Variate Token,将每个变量的整个序列作为一个token。每个时间序列首先被标记化以描述变量的性质,通过自注意力机制进行信息交互,并通过前馈网络单独处理以用于序列表示。在 iTransformer 中,预测未来序列的过程简单表述如下:
h n 0 = E m b e d d i n g ( X : , n ) h _ { n } ^ { 0 } = E m b e d d i n g ( X _ { : , n } ) hn0=Embedding(X:,n)
H l + 1 = T r m B l o c k ( H l ) , l = 0 , . . . , L − 1 H ^ { l+1 } = TrmBlock ( H ^ { l } ),l=0,...,L-1 Hl+1=TrmBlock(Hl),l=0,...,L−1
Y ^ : , n = P r o j e c t i o n ( h n L ) \widehat { Y } _ { : , n } = P r o j e c t i o n ( h _ { n } ^ { L } ) Y :,n=Projection(hnL)
其中 H = { h 1 , … , h N } ∈ R N × D H = \left\{ h _ { 1 } , \ldots , h _ { N } \right\} \in R ^ { N \times D } H={h1,…,hN}∈RN×D 包含 N N N 个维度为 D D D 的嵌入tokens,上标表示层索引。Embedding: R T → R D R ^ { T } \rightarrow R ^ { D } RT→RD 和 Projection: R D → R S R ^ { D } \rightarrow R ^ { S } RD→RS 都是通过多层感知机 (MLP) 实现的。获得的Variate Token通过自注意力相互交互,并由每个 TrmBlock 中的共享前馈网络独立处理。具体来说,由于序列的时间顺序隐式存储在前馈网络的神经元排列中,因此这里不再需要 vanilla Transformer 中的位置编码嵌入信息。
iTransformers:该架构基本上以对 Transformer 变体没有更具体的要求为前提,除了注意力适用于多变量相关性。此外,由于注意力的输入灵活性,token数可以从训练到推理而变化,并且允许模型在任意数量的变量上进行训练。
Layer normalization:层归一化最初是为了提高深度网络的收敛性和训练稳定性而提出的。在典型的基于Transformer的预测器中,该模块对同一时间戳的多变量表示进行归一化,逐渐将变量相互融合。一旦提取的时间点不代表相同的事件,操作也会在非因果或延迟过程之间引入交互噪声。在提出的反向版本中,归一化被应用于作为下述方程的单个变量的级数表示,该方程已被研究并证明在解决非平稳问题方面是有效的。此外,由于所有作为Variate Token的序列都被归一化为高斯分布,因此可以减少由不一致的测量引起的差异。相比之下,在以前的体系结构中,时间步长的不同标记将被归一化,导致时间序列过平滑。
L a y e r N o r m ( H ) = { h n − M e a n ( h n ) V a r ( h n ) ∣ n = 1 , … , N } LayerNorm ( H ) = \left\{ \frac { h _ { n } - M e a n ( h _ { n } ) } { \sqrt { V a r ( h _ { n } ) } } | n = 1 , \ldots , N \right\} LayerNorm(H)={Var(hn)hn−Mean(hn)∣n=1,…,N}
Feed-forward network:Transformer采用前馈网络(FFN)作为编码token表示的基本模块,并将其完全应用于每个token。但在普通Transformer中,形成token的同一时间戳的多个变量可能发生错位,并且过于局部化,无法揭示足够的信息用于预测。在反向版本中,FFN被用于每个Variate Token的序列表示。根据普遍逼近定理,他们可以提取复杂的表示来描述时间序列。通过反向块的堆叠,致力于对观测到的时间序列进行编码,并使用密集的非线性连接对未来序列的表示进行解码。
Self-attention:注意力图可以在一定程度上揭示变量的相关性,虽然注意力机制通常用于促进先前预测者的时间依赖性建模,但反向模型将一个变量的整个序列视为一个独立的过程。在注意力机制后续的Softmax加权操作中,高度相关的变量将在与其Value向量的交互中获得更大的权重,因此这种设计更自然地建模了多变量时序数据的关联,在有物理知识驱动的复杂预测场景中格外重要。文章来源:https://www.toymoban.com/news/detail-859965.html
实验
文章来源地址https://www.toymoban.com/news/detail-859965.html
到了这里,关于【论文阅读】iTransformer: Inverted Transformers Are Effective for Time Series Forecasting的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!