【论文阅读】iTransformer: Inverted Transformers Are Effective for Time Series Forecasting

这篇具有很好参考价值的文章主要介绍了【论文阅读】iTransformer: Inverted Transformers Are Effective for Time Series Forecasting。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

iTransformer: Inverted Transformers Are Effective for Time Series Forecasting

论文链接:[2310.06625] iTransformer: Inverted Transformers Are Effective for Time Series Forecasting (arxiv.org)

作者:Yong Liu, Tengge Hu, Haoran Zhang, Haixu Wu, Shiyu Wang, Lintao Ma, Mingsheng Long

单位:清华大学,蚂蚁集团

代码:https://github.com/thuml/iTransformer

引用:Liu Y, Hu T, Zhang H, et al. itransformer: Inverted transformers are effective for time series forecasting[J]. arXiv preprint arXiv:2310.06625, 2023.

简介

论文反思了 Transformer 各个模块的作用,并在不对基本模块进行任何修改的情况下重新调整了 Transformer 架构的用途,并提出了 iTransformer,只在倒置维度上应用注意力和前馈网络。具体来说,单个序列的时间点被嵌入到可变标记中,注意力机制利用这些标记来捕获多变量相关性;同时,将前馈网络应用于每个变量标记以学习非线性表示。

最近的预测模型利用 Transformers 对时间序列的时间标记的全局依赖关系进行建模,每个标记由同一时间戳的多个变量组成。但Transformer通常将同一时间戳的多个变量嵌入到无法区分的通道中,并将注意力集中在这些时间标记上以捕获时间依赖性。与此同时,最近的研究更加强调了确保变量的独立性和利用互信息,这些研究明确地对多元相关性进行建模,以实现准确的预测,但如果不颠覆传统的Transformer架构,很难实现这一目标。

然而,由于性能下降和计算爆炸,Transformer 在预测具有更大回溯窗口的序列方面面临挑战。此外,每个时态标记的嵌入融合了多个变量,这些变量表示潜在的延迟事件和不同的物理量纲,这可能会导致无法学习以变量为中心的表示,并导致注意力图毫无意义。

【论文阅读】iTransformer: Inverted Transformers Are Effective for Time Series Forecasting,论文,论文阅读

注意到,基于Transformer的预测器的现有结构可能不适合于多变量时间序列预测。如图2顶部所示,值得注意的是,同一时间步长的点基本上代表了由不一致的测量记录的完全不同的物理意义,这些点被嵌入到一个具有消除的多元相关性的标记中由于过度局部的感受野和由同时的时间点表示的时间不一致的事件,由单个时间步长形成的表征可能难以揭示有益的信息。此外,虽然序列变化会受到序列顺序的很大影响,但在时间维度上不恰当地采用了排列不变的注意机制。因此,Transformer在捕捉基本序列表示和刻画多元相关性方面被削弱,限制了其对不同时间序列数据的能力和泛化能力

不同于自然语言拥有天然的分词方式,基于Transformer进行时序分析,需要重新考虑词的构建方式:

  • Temporal Token: 以往模型的主流做法,将所有变量同一时刻的时间点表示为词,获得以时间点为单位的词序列。

  • Patch Token:在时间维度上对序列进行分块,扩大的感受野包含局部序列变化,从而获得语义性更强的词。

相比之下,论文着眼于变量的整体性,提出Variate Token,关注以变量为主体的关联建模,适合变量数较多且互相关联的多维时序数据。对于将时间戳的多变量点嵌入为(时间)token的潜在风险,对时间序列采取倒置视图,并将每个变量的整个时间序列独立嵌入到可变token中,这是 Patching 的极端情况,它扩大了局部感受野。通过反转,嵌入式标记聚合了序列的全局表示,这些序列可以更加以变量为中心,并通过蓬勃发展的多变量关联注意力机制更好地利用。同时,前馈网络可以足够熟练地学习从任意回溯序列编码并解码以预测未来序列的不同变量的可推广表示。

Method

给定历史观测: X = { x 1 , … , x T } ∈ R T × N X = \left\{ x _ { 1 } , \ldots , x _ { T } \right\} \in R^{T \times N} X={x1,,xT}RT×N,具有 T T T 个时间步长和 N N N 个变量;

预测未来的 S S S 个时间步长: Y = { x T + 1 , … , x T + S } ∈ R S × N Y = \left\{ x _ { T+1 } , \ldots , x _ { T+S } \right\} \in R^{S \times N} Y={xT+1,,xT+S}RS×N

提出的 iTransformer 如图 4 所示,采用了 Transformer 的纯编码器架构,包括嵌入、投影和 Transformer 模块。

【论文阅读】iTransformer: Inverted Transformers Are Effective for Time Series Forecasting,论文,论文阅读

Embedding the whole series as the token大多数基于Transformer的预测者通常将同一时间的多个变量视为Token,并遵循预测任务的生成公式。然而,关于numerical modality的方法对学习注意力图的指导性较差,这得到了越来越多的Patching应用的支持,这拓宽了各自的领域。与此相反,提出的仅包括编码器的iTransformer专注于多元序列的表示学习和自适应相关,提出了Variate Token,将每个变量的整个序列作为一个token。每个时间序列首先被标记化以描述变量的性质,通过自注意力机制进行信息交互,并通过前馈网络单独处理以用于序列表示。在 iTransformer 中,预测未来序列的过程简单表述如下:

h n 0 = E m b e d d i n g ( X : , n ) h _ { n } ^ { 0 } = E m b e d d i n g ( X _ { : , n } ) hn0=Embedding(X:,n)

H l + 1 = T r m B l o c k ( H l ) , l = 0 , . . . , L − 1 H ^ { l+1 } = TrmBlock ( H ^ { l } ),l=0,...,L-1 Hl+1=TrmBlock(Hl),l=0,...,L1

Y ^ : , n = P r o j e c t i o n ( h n L ) \widehat { Y } _ { : , n } = P r o j e c t i o n ( h _ { n } ^ { L } ) Y :,n=Projection(hnL)

其中 H = { h 1 , … , h N } ∈ R N × D H = \left\{ h _ { 1 } , \ldots , h _ { N } \right\} \in R ^ { N \times D } H={h1,,hN}RN×D 包含 N N N 个维度为 D D D 的嵌入tokens,上标表示层索引。Embedding: R T → R D R ^ { T } \rightarrow R ^ { D } RTRD 和 Projection: R D → R S R ^ { D } \rightarrow R ^ { S } RDRS 都是通过多层感知机 (MLP) 实现的。获得的Variate Token通过自注意力相互交互,并由每个 TrmBlock 中的共享前馈网络独立处理。具体来说,由于序列的时间顺序隐式存储在前馈网络的神经元排列中,因此这里不再需要 vanilla Transformer 中的位置编码嵌入信息。

iTransformers:该架构基本上以对 Transformer 变体没有更具体的要求为前提,除了注意力适用于多变量相关性。此外,由于注意力的输入灵活性,token数可以从训练到推理而变化,并且允许模型在任意数量的变量上进行训练。

Layer normalization:层归一化最初是为了提高深度网络的收敛性和训练稳定性而提出的。在典型的基于Transformer的预测器中,该模块对同一时间戳的多变量表示进行归一化,逐渐将变量相互融合。一旦提取的时间点不代表相同的事件,操作也会在非因果或延迟过程之间引入交互噪声。在提出的反向版本中,归一化被应用于作为下述方程的单个变量的级数表示,该方程已被研究并证明在解决非平稳问题方面是有效的。此外,由于所有作为Variate Token的序列都被归一化为高斯分布,因此可以减少由不一致的测量引起的差异。相比之下,在以前的体系结构中,时间步长的不同标记将被归一化,导致时间序列过平滑。

L a y e r N o r m ( H ) = { h n − M e a n ( h n ) V a r ( h n ) ∣ n = 1 , … , N } LayerNorm ( H ) = \left\{ \frac { h _ { n } - M e a n ( h _ { n } ) } { \sqrt { V a r ( h _ { n } ) } } | n = 1 , \ldots , N \right\} LayerNorm(H)={Var(hn) hnMean(hn)n=1,,N}

Feed-forward network:Transformer采用前馈网络(FFN)作为编码token表示的基本模块,并将其完全应用于每个token。但在普通Transformer中,形成token的同一时间戳的多个变量可能发生错位,并且过于局部化,无法揭示足够的信息用于预测。在反向版本中,FFN被用于每个Variate Token的序列表示。根据普遍逼近定理,他们可以提取复杂的表示来描述时间序列。通过反向块的堆叠,致力于对观测到的时间序列进行编码,并使用密集的非线性连接对未来序列的表示进行解码。

Self-attention注意力图可以在一定程度上揭示变量的相关性,虽然注意力机制通常用于促进先前预测者的时间依赖性建模,但反向模型将一个变量的整个序列视为一个独立的过程。在注意力机制后续的Softmax加权操作中,高度相关的变量将在与其Value向量的交互中获得更大的权重,因此这种设计更自然地建模了多变量时序数据的关联,在有物理知识驱动的复杂预测场景中格外重要。

实验

【论文阅读】iTransformer: Inverted Transformers Are Effective for Time Series Forecasting,论文,论文阅读
【论文阅读】iTransformer: Inverted Transformers Are Effective for Time Series Forecasting,论文,论文阅读
【论文阅读】iTransformer: Inverted Transformers Are Effective for Time Series Forecasting,论文,论文阅读文章来源地址https://www.toymoban.com/news/detail-859965.html

到了这里,关于【论文阅读】iTransformer: Inverted Transformers Are Effective for Time Series Forecasting的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【车间调度】论文阅读复现——effective neighbourhood functions for the flexible job shop problem

    在复现另一篇文献An effective hybrid genetic algorithm and tabu search for flexible job shop scheduling problem的算法时,发现其中的局部搜索使用了k-insertion的邻域动作,于是找到出处:effective neighbourhood functions for the flexible job shop problem。这篇文章主要是对k-insertion的一些性质的解释与证明,我

    2024年02月03日
    浏览(59)
  • 论文阅读:Polyp-PVT: Polyp Segmentation with PyramidVision Transformers

    这篇论文提出了一种名为Polyp-PVT的新型息肉分割框架,该框架采用金字塔视觉变换器(Pyramid Vision Transformer, PVT)作为编码器,以显式提取更强大的特征。本模型中使用到的关键技术有三个:渐进式特征融合、通道和空间注意力、自注意力。 Polyp-PVT通过引入三个简单的组件—

    2024年04月13日
    浏览(43)
  • On Moving Object Segmentation from Monocular Video with Transformers 论文阅读

    标题 :On Moving Object Segmentation from Monocular Video with Transformers 作者 : 来源 :ICCV 时间 :2023 代码地址 :暂无 通过单个移动摄像机进行移动对象检测和分割是一项具有挑战性的任务,需要了解识别、运动和 3D 几何。将识别和重建结合起来可以归结为融合问题,其中需要结合外

    2024年02月08日
    浏览(51)
  • 【论文阅读】Language Models are Few-Shot Learners(GPT-3)

    本文简要介绍了GPT-3的背景,模型架构,训练数据以及训练方式部分。具体训练细节,实验结果很多,可以在用到的时候再看 本文剖析了pretrain-finetune架构存在的问题: 对于每个新的任务,都需要大量的标注数据 将表达能力更强的模型(预训练阶段要求用大模型)在比较窄的

    2024年02月14日
    浏览(54)
  • (GPT3)Language Models are Few-Shot Learners论文阅读

    论文地址:https://arxiv.org/pdf/2005.14165v4.pdf         最近的工作表明, 通过对大量文本语料库进行预训练,然后对特定任务进行微调,许多 NLP 任务和基准测试取得了实质性进展 。 虽然在体系结构中通常与任务无关,但此方法仍然需要特定于任务的微调数据集,其中包含数

    2024年02月08日
    浏览(66)
  • 【论文阅读笔记】A Recent Survey of Vision Transformers for Medical Image Segmentation

    Khan A, Rauf Z, Khan A R, et al. A Recent Survey of Vision Transformers for Medical Image Segmentation[J]. arXiv preprint arXiv:2312.00634, 2023. 【论文概述】 本文是关于医学图像分割中视觉变换器(Vision Transformers,ViTs)的最新综述。文中详细回顾了ViTs及其与卷积神经网络(CNNs)结合形成的混合视觉Trans

    2024年02月02日
    浏览(66)
  • [论文笔记]ITRANSFORMER: INVERTEDTRANSFORMERSARE EFFECTIVEFORTIMESERIESFORECASTING

    文章地址:iTransformer_pdf code地址:github 文章是阅读论文后的个人总结,可能存在理解上的偏差,欢迎大家一起交流学习,给我指出问题。 之前的工作DLinear和NLinear验证了线性模型在时序预测中的强大作用,对Transformer在多维时序预测的有效性提出了质疑。如果还想继续用for

    2024年04月13日
    浏览(26)
  • DIT: Scalable Diffusion Models with Transformers--Sora/SD3相关DIT技术论文阅读

    OpenAI发布Sora,以及Stability.AI发布的SD3,根据其技术报告,使用了可扩展的transformer扩展模型,《Scalable Diffusion Models with Transformers》是其相关的一篇重要论文。 关于DIT作者进阶的论文SIT《SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers 》介绍,下一篇

    2024年03月17日
    浏览(39)
  • 【论文阅读笔记】Fibroglandular Tissue Segmentation in Breast MRI using Vision Transformers--A multi-institut

    Müller-Franzes G, Müller-Franzes F, Huck L, et al. Fibroglandular Tissue Segmentation in Breast MRI using Vision Transformers–A multi-institutional evaluation[J]. arXiv preprint arXiv:2304.08972, 2023.【代码开放】 本文创新点一般,只做简单总结 【论文概述】 本文介绍了一项关于乳房MRI中纤维腺体组织分割的研究,主

    2024年02月03日
    浏览(43)
  • 【视频异常检测】Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors论文阅读

    中文标题:自蒸馏掩蔽自动编码器是有效的视频异常检测器 文章信息: 发表于:CVPR 2024 原文链接:https://arxiv.org/abs/2306.12041 源代码:https://github.com/ristea/aed-mae 我们提出了一种基于轻量级掩码自动编码器(AE)应用于视频帧级别的高效异常事件检测模型。我们提出的模型的新

    2024年03月28日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包