ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

这篇具有很好参考价值的文章主要介绍了ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

这是一篇ICLR2023 top 5%论文
ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》
论文链接:https://openreview.net/pdf?id=vSVLM2j9eie
代码:https://github.com/Thinklab-SJTU/Crossformer

1. Multivariate Time Series Forecasting

MTS,多变量时序数据预测。利用MTS的历史值可以预测其未来的趋势,例如心电图(ECG),脑电图(EEG)脑磁图(MEG)的诊断以及系统监测等等都是固有的多变量问题。该任务数据每个实例序列拥有多个维度,是一个d维向量和m个观测值(时间序列)的列表,如下所示数据(借鉴自综述论文:《The great multivariate time series classification bake off: a review and experimental evaluation of recent algorithmic advances》)
ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

2. 动机

MTS的核心额外复杂性在于,区别性特征可能存在于维度之间的相互作用中,而不仅仅存在于单个序列中的自相关性中。标准的Transformer中核心self-attention可能仅仅建模了单个序列的自相关性,忽略了跨维度的依赖关系。

此外,如下图所示,当数据序列很长时,计算复杂性高,但是可以观察到,接近的数据点具有相似的注意权重!

基于此,作者提出一个分层encoder-decoder框架Crossformer.
ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

3. Crossformer

目标:输入一段历史序列 x 1 : T ∈ R T × D x_{1:T} \in \mathbb{R}^{T\times D} x1:TRT×D,预测未来的一段序列 x T + 1 : T + τ ∈ R τ × D x_{T+1:T+\tau} \in \mathbb{R}^{\tau \times D} xT+1:T+τRτ×D.

3.1 Hierarchical Encoder-Decoder

作者提出一个新的层次Encoder-Decoder的架构,如下所示,由左边encoder(灰色)和右边decoder(浅橘色)组成。其主要包含Dimension-Segment-Wise (DSW) embedding,Two-Stage Attention (TSA)层和Linear Projection。

  • Dimension-Segment-Wise (DSW) embedding:为了将输入 x 1 : T ∈ R T × D x_{1:T} \in \mathbb{R}^{T\times D} x1:TRT×D进行分segment,从而减少计算复杂性。如果最后每个序列要分成 L L L个segment,每个序列 d m o d e l d_{model} dmodel的通道数,则最后的输入记为: Z ∈ R L × D × d m o d e l Z \in \mathbb{R}^{L \times D \times d_{model}} ZRL×D×dmodel.
  • Two-Stage Attention (TSA)层:捕获cross-time和cross-dimension依赖关系。替待原来的self-attention在encoder和decoder中的位置。
  • Linear Projection:应用于每一个decoder层的输出,以产生该层的预测。对各层预测结果进行求和,得到最终预测结果 x T + 1 : T + τ p r e d x^{pred}_{T+1:T+\tau} xT+1T+τpred.
    ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》
    下面主要讲解DSW和TSA如何实现的!

3.2 Dimension-Segment-Wise embedding (DSW)

输入 x 1 : T ∈ R T × D x_{1:T} \in \mathbb{R}^{T\times D} x1:TRT×D,表明输入包含 T T T个序列,每个序列有 D D D个维度。如下所示,如果我们分的每个segment的长度为 L s e g L_{seg} Lseg,则每个序列中可以划分出 T L s e g \frac{T}{L_{seg}} LsegT个segment,每个序列有 D D D个维度,则整个输入共包含 T L s e g × D \frac{T}{L_{seg}} \times D LsegT×D个segment,故 x 1 : T x_{1:T} x1:T可以记为: x 1 : T = { x i , d ( s ) ∣ 1 ≤ i ≤ T L s e g , 1 ≤ d ≤ D } x_{1:T}=\{x^{(s)}_{i,d}|1\le i \le \frac{T}{L_{seg}}, 1 \le d \le D \} x1:T={xi,d(s)∣1iLsegT,1dD}。在 d d d维度中的第 i i i个segment的size记为 x i , d ( s ) ∈ R 1 × L s e g x^{(s)}_{i,d} \in \mathbb{R}^{1 \times L_{seg}} xi,d(s)R1×Lseg,然后使用线性投影和位置嵌入将每个段嵌入到一个向量中:
ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》
其中 h i , d ∈ R d m o d e l h_{i,d} \in \mathbb{R}^{d_{model}} hi,dRdmodel E ∈ R d m o d e l × L s e g E \in \mathbb{R}^{d_{model} \times L_{seg}} ERdmodel×Lseg表示可学习的映射矩阵。 E i , d ( p o s ) ∈ R d m o d e l E^{(pos)}_{i,d} \in \mathbb{R}^{d_{model}} Ei,d(pos)Rdmodel表示在 ( i , d ) (i,d) (i,d)位置的可学习位置嵌入。

最后,可以获得一个2D的向量数组 H = { h i , d ∣ 1 ≤ i ≤ T L s e g , 1 ≤ d ≤ D } ∈ R T L s e g × D × d m o d e l H=\{ h_{i,d}|1 \le i \le \frac{T}{L_{seg}},1 \le d \le D \} \in \mathbb{R}^{\frac{T}{L_{seg}} \times D \times d_{model}} H={hi,d∣1iLsegT,1dD}RLsegT×D×dmodel.
ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

3.3 Two-Stage Attention (TSA)

由上可得输入现在为: H ∈ R T L s e g × D × d m o d e l H \in \mathbb{R}^{\frac{T}{L_{seg}} \times D \times d_{model}} HRLsegT×D×dmodel,为了方便,记 L = T L s e g L=\frac{T}{L_{seg}} L=LsegT,则输入为 H ∈ R L × D × d m o d e l H \in \mathbb{R}^{L \times D \times d_{model}} HRL×D×dmodel。TSA主要由cross-time stage和
cross-dimension stage组成,如下图所示。

ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

  • Cross-Time Stage
    对于每个维度,包含所有时间序列。因此,对于 d d d维度 Z : , d ∈ R L × d m o d e l Z_{:,d} \in \mathbb{R}^{L \times d_{model}} Z:,dRL×dmodel上,cross-time依赖关系可记为:
    ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》
    其中 1 ≤ d ≤ D 1 \le d \le D 1dD,所有维度共享MSA(multi-head self-attention).
  • Cross-Dimension Stage
    对于每个时间点,包含所有维度。因此,对于第 i i i时间点 Z i , : t i m e ∈ R D × d m o d e l Z^{time}_{i,:} \in \mathbb{R}^{D \times d_{model}} Zi,:timeRD×dmodel
    1)如果使用标准Transformer进行,如下图所示,可以很容易得到复杂性为 O ( D 2 ) \mathcal{O}(D^2) O(D2)!总共有 L L L个时间segment,因此总复杂性为 O ( D 2 L ) \mathcal{O}(D^2L) O(D2L).
    ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》
    2)作者引入router机制,每个时间点共享。如下图所示, R i , : ∈ R c × d m o d e l R_{i,:} \in \mathbb{R}^{c×d_{model}} Ri,:Rc×dmodel ( c c c是常数)是作为路由器的可学习向量,作为第一个MSA的query.
    ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》
    B i , : ∈ R c × d m o d e l B_{i,:} \in \mathbb{R}^{c×d_{model}} Bi,:Rc×dmodel,作为第二个MSA的key和value.
    ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》
    由上可知,第一个MSA复杂性为 O ( c D L ) \mathcal{O}(cDL) O(cDL),第二个MSA也是如此,因此,最终复杂性为 O ( 2 c D L ) \mathcal{O}(2cDL) O(2cDL),其中 2 c 2c 2c为常量,记复杂性变为 O ( D L ) \mathcal{O}(DL) O(DL)!!

4 实验

  • SOTA方法对比
    ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》
    更多对比方法:
    ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

  • 消融实验
    ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》
    ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

  • 参数分析
    ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

  • 复杂性分析
    ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

  • 可视化ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》
    ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

  • 运行速度对比
    ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

5. 结论

  • 提出了Crossformer,一种基于transformer的模型,利用跨维度依赖进行多元时间序列(MTS)预测。
  • DSW (dimension - segment - wise)嵌入:将输入数据嵌入到二维矢量数组中,以保留时间和维度信息。
  • 为了捕获嵌入式阵列的跨时间和跨维度依赖关系,设计两阶段注意(TSA)层。
  • 利用DSW嵌入和TSA层,设计了一种分层编码器(HED)来利用不同尺度的信息。

在6个数据集上的实验结果展示了该方法优于之前的先进技术。

以上仅为本人小记,有问题欢迎指出(●ˇ∀ˇ●)文章来源地址https://www.toymoban.com/news/detail-435637.html

到了这里,关于ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文简述】Cross-Attentional Flow Transformer for Robust Optical Flow(CVPR 2022)

    1. 第一作者: Xiuchao Sui、Shaohua Li 2. 发表年份: 2021 3. 发表期刊: arxiv 4. : 光流、Transformer、自注意力、交叉注意力、相关体 5. 探索动机: 由于卷积的局部性和刚性权重,有限的上下文信息被纳入到像素特征中,并且计算出的相关性具有很高的随机性,以至于大多数

    2024年02月03日
    浏览(56)
  • Cross-Drone Transformer Network for Robust Single Object Tracking论文阅读笔记

    无人机在各种应用中得到了广泛使用,例如航拍和军事安全,这得益于它们与固定摄像机相比的高机动性和广阔视野。多 无人机追踪系统可以通过从不同视角收集互补的视频片段 ,为目标提供丰富的信息,特别是当目标在某些视角中被遮挡或消失时。然而,在多无人机视觉

    2024年01月25日
    浏览(60)
  • 《论文阅读》具有特殊Token和轮级注意力的层级对话理解 ICLR 2023

    前言 你是否也对于理解论文存在困惑? 你是否也像我之前搜索论文解读,得到只是中文翻译的解读后感到失望? 小白如何从零读懂论文?和我一起来探索吧! 今天为大家带来的是《HIERARCHICAL DIALOGUE UNDERSTANDING WITH SPECIAL TOKENS AND TURN-LEVEL ATTENTION》 出版:ICLR 时间ÿ

    2024年02月15日
    浏览(48)
  • [ICLR 2023] LPT: Long-tailed Prompt Tuning for Image Classification

    作者提出 Long-tailed Prompt Tuning (LPT) ,通过 prompt learning 来解决长尾问题,包括 (1) 使用 shared prompt 学习 general features 并将预训练模型 adapt 到 target domain;(2) 使用 group-specific prompts 学习 group-specific features 来提高模型的 fine-grained discriminative ability 作者首先通过对比 VPT (Visual Prom

    2024年02月11日
    浏览(41)
  • PV3D: A 3D GENERATIVE MODEL FOR PORTRAITVIDEO GENERATION 【2023 ICLR】

    ICLR:International Conference on Learning Representations CCF-A 国际表征学习大会:深度学习的顶级会议 生成对抗网络(GANs)的最新进展已经证明了生成令人惊叹的逼真肖像图像的能力。虽然之前的一些工作已经将这种图像gan应用于 无条件的2D人像视频生成 和 静态的3D人像合成 ,但很少有

    2024年02月09日
    浏览(31)
  • 深入理解Transformer,兼谈MHSA(多头自注意力)、Cross-Attention(交叉注意力)、LayerNorm、FFN、位置编码

    Transformer其实不是完全的Self-Attention(SA,自注意力)结构,还带有Cross-Attention(CA,交叉注意力)、残差连接、LayerNorm、类似1维卷积的Position-wise Feed-Forward Networks(FFN)、MLP和Positional Encoding(位置编码)等 本文涵盖Transformer所采用的MHSA(多头自注意力)、LayerNorm、FFN、位置编

    2024年04月12日
    浏览(65)
  • 【读论文】SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer

    论文:https://ieeexplore.ieee.org/document/9812535 如有侵权请联系博主 Swin Transformer 长期依赖性、全局信息 跨域融合 2022年发表在 IEEE/CAA JOURNAL OF AUTOMA TICA SINICA的一篇文章,该篇论文的作者仍然是我们熟悉的FusionGAN的作者。 简单来说,该篇论文提出了一个基于CNN和Swin Transformer来提取

    2024年02月16日
    浏览(47)
  • 两篇2023 ICLR多模态论文分享(模态互补性对多模态鲁棒性影响 与 对多模表示学习有效的单模学习)

    本文讨论了模态互补性在多模态鲁棒性中的重要性,并基于信息论提出了一种数据集层面量化度量,用于量化不同模态之间有多少互补信息,以及这些信息对预测标签有多大贡献。该指标基于互信息神经估计器(MINE)来计算。提出了一个两阶段pipeline,分成数据生成阶段和度

    2024年02月08日
    浏览(41)
  • 【论文阅读】基于深度学习的时序预测——Crossformer

    系列文章链接 论文一:2020 Informer:长时序数据预测 论文二:2021 Autoformer:长序列数据预测 论文三:2022 FEDformer:长序列数据预测 论文四:2022 Non-Stationary Transformers:非平稳性时序预测 论文五:2022 Pyraformer:基于金字塔图结构的时序预测 论文六:2023 Crossformer:多变量时序预

    2024年02月13日
    浏览(47)
  • Transformer+医学图像最新进展【2023】

    Transformer主要用于自然语言处理领域。近年来,它在计算机视觉(CV)领域得到了广泛的应用。医学图像分析(MIA,Medical image analysis)作为机器视觉(CV,Computer Vision)的一个重要分支,也极大地受益于这一最先进的技术。  机构:新加坡国立大学机械工程系、中山大学智能系统工

    2024年02月15日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包