[论文笔记]ITRANSFORMER: INVERTEDTRANSFORMERSARE EFFECTIVEFORTIMESERIESFORECASTING

这篇具有很好参考价值的文章主要介绍了[论文笔记]ITRANSFORMER: INVERTEDTRANSFORMERSARE EFFECTIVEFORTIMESERIESFORECASTING。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文章地址:iTransformer_pdf
code地址:github
文章是阅读论文后的个人总结,可能存在理解上的偏差,欢迎大家一起交流学习,给我指出问题。

1、问题描述

之前的工作DLinear和NLinear验证了线性模型在时序预测中的强大作用,对Transformer在多维时序预测的有效性提出了质疑。如果还想继续用former系列模型进行时序预测应该进行怎样的改进?
itransformer: inverted transformers are effective for time series forecastin,论文阅读,python,机器学习,人工智能,神经网络,pytorch
图1上部分是传统Transformer的运行机制,传统的Transformer是将同一时间戳下的各个变量赋予相同的Token值,会影响各个变量之间相关性的提取;同时当遇到时间不对齐事件时,这种方式也会引入噪声。传统的Transformer的self-attention和Embedding也会将时序信息打乱,这样也会对预测产生影响。
基于此,本文提出iTransformer“倒置Transformer”,简而言之就是对时间序列采取一种“倒置视角”,将每个变量的整个时间序列独立地Embedding为一个token,并用注意力机制进行多元关联,同时利用FNN进行序列表示。

2、创新点

  • 将单个变量的整个时间序列视为一个Token
  • Transformer中的self-attention和FNN机制的职责倒置(self-attention捕获变量之间的相关性;FNN来进行序列内的全局表示)

3、相关工作

itransformer: inverted transformers are effective for time series forecastin,论文阅读,python,机器学习,人工智能,神经网络,pytorch
本文总结了在之前的former系进行时序预测文章中的主要方向,主要分为三个方向。

  • 对组件的调整。代表工作是Autoformer、Informer,它们主要通过调整组件来实现更优的时间依赖建模和长序列复杂性注意力模块
  • 对时间序列的调整。代表工作是PatchTST。这类工作是充分利用Transformer,通过对时间序列的固有处理(时间序列的平稳性、patc以及通道独立性)来提高预测的准确性。
  • 对组件和序列同时进行优化。代表工作Crossformer通过更新过的注意力机制和架构明确捕捉了跨时间和跨变量的依赖关系
  • 本文的工作不改transformer原来的模块,就是对transformer的模块进行微调,就可以实现更好的效果,这也是本文的一大创新立足点。

4、iTransformer详解

itransformer: inverted transformers are effective for time series forecastin,论文阅读,python,机器学习,人工智能,神经网络,pytorch

encoder-only

itransformer: inverted transformers are effective for time series forecastin,论文阅读,python,机器学习,人工智能,神经网络,pytorch
首先注意本文只用到了encoder模块,在前文中也提到之前的工作验证了线性模型在时序预测工作中的有效性,挑战了encoder和decoder模块的必要性,所以本文只用encoder也可以实现预测工作
itransformer: inverted transformers are effective for time series forecastin,论文阅读,python,机器学习,人工智能,神经网络,pytorch
这里描述了问题,历史序列大小为(T x N),其中T为时间序列的长度,N为特征维度,S为预测的序列长度。中间通过Embedding、TrmBlock的多层堆叠以及最后的Projection来实现对未来长度为S时间序列的预测。

Embedding

itransformer: inverted transformers are effective for time series forecastin,论文阅读,python,机器学习,人工智能,神经网络,pytorch
这个模块将一个变量的整个时间序列Embedding为一个token,看代码就是将(B,T,N)转为(B,N,T)然后再通过一个linear层进行Embedding。

self-attention

itransformer: inverted transformers are effective for time series forecastin,论文阅读,python,机器学习,人工智能,神经网络,pytorch倒置模型将时间序列视为独立过程,通过自注意力模块全面提取时间序列表示,采用线性投影获取Q、K、V的值,计算前Softmax分数,揭示变量之间的相关性,为多元序列预测提供更自然和可解释的机制。原本的Transformer的注意力机制中的Q和K计算的是时间序列的相关性。

FNN

itransformer: inverted transformers are effective for time series forecastin,论文阅读,python,机器学习,人工智能,神经网络,pytorch
FNN包含激活函数层和两层Conv1d(第一层是对历史时间数据编码,第二层是解码进行预测),这里的FNN是计算的序列内的全局表示。在传统的Transformer中,由于对同一时间戳下的变量编码,由于构成token的多个变量之间的位置可能存在问题,过于局部化,不能提供详细的信息进行预测。但是本文的FNN是对变量的整个序列进行token表示,可以用于复杂的时间序列。

layer normalization

itransformer: inverted transformers are effective for time series forecastin,论文阅读,python,机器学习,人工智能,神经网络,pytorch
传统transformer中对同一时间戳的多变量表示进行归一化处理,逐渐将变量彼此融合。但是这个出现的问题就是,一旦收集的时间点不代表相同的事件,该操作也将在非因果或延迟过程中引入交互噪声。在倒置模型中,归一化用于单变量的时间序列表示。由于所有序列作为token被归一化为高斯分布,由不一致测量引起的差异就可以被减少。
itransformer: inverted transformers are effective for time series forecastin,论文阅读,python,机器学习,人工智能,神经网络,pytorch

5.实验

主要结果

itransformer: inverted transformers are effective for time series forecastin,论文阅读,python,机器学习,人工智能,神经网络,pytorch
PEMS的预测长度S∈{12,24,36,48},其他的预测长度S∈{96,192,336,720},固定的回溯长度T=96进行多变量预测结果更新。结果是从所有预测长度中平均得出的。

性能提升

itransformer: inverted transformers are effective for time series forecastin,论文阅读,python,机器学习,人工智能,神经网络,pytorch
总体而言,在Transformer上实现了平均38.9%的提升,在Reformer上为36.1%,在Informer上为28.5%,在Flowformer上为16.8%,在Flashformer上为32.2%,揭示了之前在时间序列预测中对Transformer架构的不当使用。此外,由于本文在倒置结构中在变量维度采用了注意机制,引入具有线性复杂度的高效注意力实质上解决了由于众多变量而导致的计算问题

变量泛华

itransformer: inverted transformers are effective for time series forecastin,论文阅读,python,机器学习,人工智能,神经网络,pytorch
通道独立验证:即训练一个共享的骨干网络来预测所有变量。我们将每个数据集的变量分成五个文件夹,仅用一个文件夹中20%的变量训练模型,并直接预测所有变量而无需微调。

增加历史回顾长度

itransformer: inverted transformers are effective for time series forecastin,论文阅读,python,机器学习,人工智能,神经网络,pytorch
先前的研究发现,随着Transformers中回顾长度的增加,预测性能并不一定
会提高,这可以归因于对不断增长的输入分散了注意力。然而,线性预测通常能够实现期望的性能改善。本文结果也验证了利用MLP在时间维度上的合理性,使得Transformers可以从扩展的回顾窗口中受益,实现更精准的预测。

消融实验

itransformer: inverted transformers are effective for time series forecastin,论文阅读,python,机器学习,人工智能,神经网络,pytorch
为验证Transformer组件的合理性,本文提供了详细的消融研究,涵盖了替换组件(替换)和删除组件(w/o)的实验。将注意力放在变量维度上并在时间维度上进行前馈的iTransformer通常表现最佳传统Transformer的性能(第三行)在这些设计中表现最差,揭示了传统架构的潜在风险。

多变量关联分析

itransformer: inverted transformers are effective for time series forecastin,论文阅读,python,机器学习,人工智能,神经网络,pytorch
将多变量关联的任务分配给注意机制,学习的映射具有增强的可解释性。本文在Solar-Energy时间序列上展示了案例可视化,该序列在回顾和未来窗口中具有明显的关联。可以观察到,在浅层注意层中,学习的映射与原始输入序列的关联具有很多相似之处随着向深层级别的深入,学习的映射逐渐类似于未来序列的关联,这验证了倒置操作增强了可解释的关注力以进行关联,并且在前馈过程中实质上进行了编码过去和解码未来的过程。

总结

本文提出了iTransformer,它颠倒了Transformer的结构,而不修改任何原生Transformer模块。iTransformer将独立的时间序列视为变量令牌,通过注意力机制捕获多变量之间的关联,并利用层归一化和前馈网络来学习序列表示。文章来源地址https://www.toymoban.com/news/detail-850192.html

到了这里,关于[论文笔记]ITRANSFORMER: INVERTEDTRANSFORMERSARE EFFECTIVEFORTIMESERIESFORECASTING的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [论文笔记] Swin UNETR 论文笔记: MRI 图像脑肿瘤语义分割

    Author: Sijin Yu [1] Ali Hatamizadeh, Vishwesh Nath, Yucheng Tang, Dong Yang, Holger R. Roth, and Daguang Xu. Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images . MICCAI, 2022. 📎开源代码链接 脑肿瘤的语义分割是一项基本的医学影像分析任务, 涉及多种 MRI 成像模态, 可协助临床医生诊断病

    2024年04月14日
    浏览(75)
  • 论文阅读:Vary-toy论文阅读笔记

    论文:Small Language Model Meets with Reinforced Vision Vocabulary Paper | Github | Demo 说来也巧,之前在写论文阅读:Vary论文阅读笔记文章时,正好看到了Vary-toy刚刚发布。 这次,咱也是站在了时代的前沿,这不赶紧先睹为快。让我看看相比于Vary,Vary-toy做了哪些改进? 从整体结构来看,仍

    2024年01月25日
    浏览(60)
  • PointMixer论文阅读笔记

    MLP-mixer是最近很流行的一种网络结构,比起Transformer和CNN的节构笨重,MLP-mixer不仅节构简单,而且在图像识别方面表现优异。但是MLP-mixer在点云识别方面表现欠佳,PointMixer就是在保留了MLP-mixer优点的同时,还可以很好的处理点云问题。PointMixer可以很好的处理intra-set, inter-set

    2024年02月19日
    浏览(39)
  • 论文阅读笔记2:NetVLAD

    题目:NetVLAD: CNN Architecture for Weakly Supervised Place Recognition:、 团队: PSL Research University/Tokyo Institute of Technology 解决的问题: 我们解决了大规模视觉位置识别的问题,其任务是快速准确地识别给定查询照片的位置 创新点: 这篇文章主要有3个创新点: 1. 为场景识别任务构造出

    2024年02月11日
    浏览(44)
  • Retinexformer 论文阅读笔记

    清华大学、维尔兹堡大学和苏黎世联邦理工学院在ICCV2023的一篇transformer做暗图增强的工作,开源。 文章认为,Retinex的 I = R ⊙ L I=Rodot L I = R ⊙ L 假设干净的R和L,但实际上由于噪声,并不干净,所以分别为L和R添加干扰项,把公式改成如下: 本文采用先预测 L ‾ overline L

    2024年01月21日
    浏览(47)
  • 论文阅读笔记(一)

    发表年份: 2016 主要贡献: 提出了Multimodal Opinion-level Sentiment Intensity (MOSI) 数据集 提出了多模态情绪分析未来研究的基线 提出了一种新的多模态融合方式 在这些在线意见视频中研究情绪主要面临的挑战和解决方法: 挑战 解决方法 这些视频的不稳定性和快节奏性。演讲者经

    2023年04月09日
    浏览(52)
  • 《Vision mamba》论文笔记

    [2401.09417] Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model (arxiv.org) Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model 我们提出了 Vision Mamba (Vim), Vim是一种基于纯SSM的方法,并以序列方式对图像进行建模 ,它结合了 双向 SSM 用于数据

    2024年04月15日
    浏览(43)
  • Factorization Machines(论文笔记)

    样例一: 一个简单的例子,train是一个字典,先将train进行“one-hot” coding,然后输入相关特征向量,可以预测相关性。 样例二: 是基于真实的电影评分数据来训练。数据集点击下载即可。  样例三:是一个分类的样例 代码:pyFM/pyfm/pylibfm.py at master · coreylynch/pyFM (github.com)

    2024年02月16日
    浏览(33)
  • Segment Anything——论文笔记

    home page:segment-anything.com code:segment-anything 介绍:SAM是最近提出的一种通用分割大模型,其表现出了强大的零样本泛化能力,视觉感知模型的通用化又前进了一步。为了达到文章标题字面意义“segment anything”,那么就需要该算法具有强大的物体语义感知能力,在模型的设计阶

    2024年02月10日
    浏览(39)
  • bitcask论文翻译/笔记

    论文来源:bitcask-intro.pdf (riak.com) Bitcask的起源与Riak分布式数据库的历史紧密相连。在Riak的K/V集群中,每个节点都使用了可插拔的本地存储;几乎任何结构的K/V存储都可以用作每个主机的存储引擎。这种可插拔性使得Riak的处理能够并行化,从而可以在不影响代码库其他部分的

    2024年01月20日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包