论文精读--Autoformer

这篇具有很好参考价值的文章主要介绍了论文精读--Autoformer。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 论文简介

标题:Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting

作者:Haixu Wu, Jiehui Xu, Jianmin Wang, Mingsheng Long(Tsinghua University)

发表刊物:NeurIPS 2021

论文下载地址:https://arxiv.org/abs/2106.13008

作者代码地址:GitHub - thuml/Autoformer: About Code release for "Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting" (NeurIPS 2021), https://arxiv.org/abs/2106.13008

2. 背景及意义

长距离的时序预测问题,传统的transformer及其改版在计算注意力机制时通常使用以下公式:

导致每次计算时都要将Q与每一个K做相似度计算,而过长的输入迫使模型只能采用稀疏点积取代逐个点积,从而丢失部分信息。

针对此问题,本文提出Auto-Correlation,以子序列之间的相关性计算取代点与点之间的相关性计算,从而直接捕捉子序列直接的关系,提高对历史数据的利用率。

此外,本文将传统transformer直接对输入原始数据处理,修改成季节性-趋势性分解后进行处理,并将注意力机制着重点放在捕捉季节性信息。

3. 研究方法

3.1. 整体框架

论文精读--Autoformer

 本文提出基于子序列相关性的Auto-Correlation块和基于时序分解的Series Decomp块,分别代替传统transformer中的Self-Attention块和Layer Norm块

3.2. Encoder

论文精读--Autoformer

  •  结构流程

原始原始数据经过Auto-Correlation得到带权和,与自身相加后通过Series Decomp去除趋势性信息,经过前馈网络与自身相加后再次去除趋势性信息,作为全局的季节性信息表示传递给Decoder

  • 公式表达

论文精读--Autoformer

论文精读--Autoformer

3.3. Decoder

论文精读--Autoformer

  • 结构流程

季节性信息部分:原始数据(预测部分的季节信息以0填充)的季节信息经过Auto-Correlation与自身相加后,经分解得到季节性信息作为Q,与Encoder传递的K/VAuto-Correlation得到全局历史信息加权和,与自身相加、分解后把季节信息经过前馈网络再与自身相加,最后分解提取季节信息,得到最终季节预测。

趋势性信息部分:原始数据(预测部分的趋势信息以历史均值填充)的趋势信息,通过季节信息通道三次时序分解得到的趋势信息加权聚合,得到最终趋势预测

  • 公式表达

论文精读--Autoformer

论文精读--Autoformer

论文精读--Autoformer

论文精读--Autoformer

3.4. Auto-Correlation

论文精读--Autoformer

  • 时延序列

选择时延时长,将原始序列的前个数据点转移到末尾(如上右图)

  • 子序列相关性(基于随机过程理论)

与Self-Attenetion中的相关性计算类似,通过QK之间的计算,结果越大,表明序列之间的相关性越大,经过SoftMax之后可得到非负且和为1的权重

  • 时延聚合

Self-Attenetion中的加权和类似,将SoftMax输出的权重与时延子序列相乘相加得到时延子序列的加权和,即聚合感兴趣的历史信息

 

 3.5. SeriesDecomp

论文精读--Autoformer

  •  趋势性信息提取

以序列的滑动平均值作为趋势信息

  • 季节性信息提取

以源序列减去其滑动平均值作为季节性信息

4. 实验验证

4.1. 不同Attention之间对比

论文精读--Autoformer

 作者将自己的Auto-Corelation将全Attention和两种稀疏Attention作比较,可以看出传统点积的Attention感兴趣的点与源点之间关联度并不高,对时序之间的模式提取能力弱,凸显本文新Attention在捕捉子序列相关性上的优势

4.2. 数据集测试效果对比

论文精读--Autoformer

 作者以MSE,MAE作为评估项目,在ETT等六种不同领域的时序数据集上,与Informer等三种Transformer改版、两种基于LSTM的模型和TCN进行对比,在不同未来预测长度中均胜过其余Baseline算法。文章来源地址https://www.toymoban.com/news/detail-494020.html

到了这里,关于论文精读--Autoformer的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文精读】BERT

           以往的预训练语言表示应用于下游任务时的策略有基于特征和微调两种。其中基于特征的方法如ELMo使用基于上下文的预训练词嵌入拼接特定于任务的架构;基于微调的方法如GPT使用未标记的文本进行预训练,并针对有监督的下游任务进行微调。        但上述两种策

    2024年02月19日
    浏览(36)
  • 论文精读--MAE

    BERT在Transformer的架构上进行了掩码操作,取得了很好的效果。如果对ViT进行掩码操作呢? 分成patch后灰色表示遮盖住,再将可见的patch输入encoder,把encoder得到的特征拉长放回原本在图片中的位置,最后由decoder去重构图片  图二的图片来自ImageNet,没有经过训练,是验证集。左

    2024年02月21日
    浏览(38)
  • 论文精读之BERT

    目录 1.摘要(Abstract) 2.引言(Introduction): 3.结论(Conlusion): 4.BERT模型算法: 5.总结 与别的文章的区别是什么:BERT是用来设计去训练深的 双向的 表示,使用没有标号的数据,再联合左右的上下文信息。(改进在什么地方) 效果有多好:在11个NLP任务上取得了很好的效果。需要

    2024年02月15日
    浏览(34)
  • 【论文精读】NeRF详解

    最近阅读了开启三维重建新纪元的经典文章《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》,接下来会​更新NeRF 系列 的论文精读、代码详解,力求做到全网最细!欢迎大家关注和交流! 论文链接:论文 代码链接:Github (这是官方代码,是tensorflow版本) 文章提出

    2024年02月05日
    浏览(40)
  • YOLO系列论文精读

    基本思想: 采用预定义候选区,粗略覆盖图片整个区域,找到粗略候选区,再使用RCNN的边框回归调整到更接近真实的bounding box(one-stage) 基本结构: 【卷积+池化】+【dense+dense】,最后一层输出激活函数使用线性函数(预测bounding box需要数值型) YOLO与RCNN: RCNN需要两步:分

    2024年02月04日
    浏览(38)
  • Transformer模型原理—论文精读

    今天来看一下Transformer模型,由Google团队提出,论文名为《Attention Is All You Need》。论文地址。 正如标题所说的,注意力是你所需要的一切,该模型摒弃了传统的RNN和CNN结构,网络结构几乎由Attention机制构成,该论文的亮点在于提出了 Multi-head attention 机制,其又包含了 self-a

    2024年02月08日
    浏览(59)
  • BERT 论文精读与理解

    1.论文题目 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2.论文摘要 本文引入了一种名为 BERT 的新语言表示模型,它代表 Transformers 的双向编码器表示。与最近的语言表示模型(Peters et al., 2018a;Radford et al., 2018)不同,BERT 旨在通过联合调节所有层中的左右上

    2024年02月13日
    浏览(43)
  • 【论文精读】ESViT

           基于transformer的SSL方法在ImageNet线性检测任务上取得了最先进的性能,其关键原因在于使用了基于对比学习方法训练单尺度Transformer架构。尽管其简单有效,但现有的基于transformer的SSL(自监督学习)方法需要大量的计算资源才能达到SoTA性能。        故认为SSL系统的

    2024年02月20日
    浏览(23)
  • 深度学习论文精读[7]:nnUNet

    相较于常规的自然图像,以UNet为代表的编解码网络在医学图像分割中应用更为广泛。常见的各类医学成像方式,包括计算机断层扫描(Computed Tomography, CT)、核磁共振成像(Magnetic Resonance Imaging, MRI)、超声成像(Ultrasound Imaging)、X光成像(X-ray Imaging)和光学相干断层扫描(

    2024年02月05日
    浏览(98)
  • 深度学习论文精读[6]:UNet++

    UNet的编解码结构一经提出以来,大有统一深度学习图像分割之势,后续基于UNet的改进方案也经久不衰,一些研究者也在从网络结构本身来思考UNet的有效性。比如说编解码网络应该取几层,跳跃连接是否能够有更多的变化以及什么样的结构训练起来更加有效等问题。UNet本身是

    2023年04月09日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包