论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM

9月前作者：UQI-LIUWJ 分类：Toy博客阅读(42) 违法举报

这篇具有很好参考价值的文章主要介绍了论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1 intro

时间序列领域预训练模型/foundation 模型的研究还不是很多
- 主要挑战是缺乏大量的数据来训练用于时间序列分析的基础模型
——>论文利用预训练的语言模型进行通用的时间序列分析
- 为各种时间序列任务提供了一个统一的框架

论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM,论文笔记,论文阅读

论文还调查了为什么从语言领域预训练的Transformer几乎不需要任何改动就可以适应时间序列分析
- —预训练Transformer中的自注意模块通过训练获得了执行某些非数据相关操作的能力
- 这些操作与输入模式上的主成分分析（PCA）密切相关

2 模型

2.1 模型架构

论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM,论文笔记,论文阅读

利用自然语言处理预训练的Transformer的参数进行时间序列分析
- 重点关注GPT-2模型
还尝试了其他模型，如BERT和BEiT，以进一步证明跨领域知识传递的通用性存在于广泛的预训练模型中

2.1.1 冻结的预训练块

由于自注意层和前馈神经网络（FFN）包含了来自预训练语言模型的大部分学习知识，因此我们选择在微调时冻结他们

2.1.2 位置嵌入和层归

为了以最小的努力增强下游任务，我们微调了位置嵌入和layer normalization层
- layer normalization 计算均值和方差也是用神经网络计算的，所以也需要微调
机器学习笔记：神经网络层的各种normalization_relu 和 batchnorm的神经元数目一样吗_UQI-LIUWJ的博客-CSDN博客

2.1.3 输入embedding

重新设计和训练输入嵌入层，以将NLP预训练模型应用于各种任务和新的模态
- 将时间序列数据投影到特定预训练模型所需的维度
- 使用linear probing

2.1.4 归一化

数据归一化对于各种模态的预训练模型至关重要
- 除了预训练LM中使用的Layer Normalization外，还加入了一个简单的数据归一化块，即反向实例归一化（reverse instance norm）
- 简单地使用均值和方差对输入时间序列进行归一化，然后将它们添加回输出中

2.1.5 patching

为了提取局部语义信息，论文利用分块（Patching）
- 通过聚合相邻的时间步骤来形成一个基于Patch的Token
- 在normalization 后进行patching

4 实验

4.1 主要结论

论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM,论文笔记,论文阅读

4.2 补全

论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM,论文笔记,论文阅读

论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM,论文笔记,论文阅读

4.3 分类

论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM,论文笔记,论文阅读

4.4 异常检测

论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM,论文笔记,论文阅读

4.5 长期预测

论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM,论文笔记,论文阅读

4.6 短期预测

论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM,论文笔记,论文阅读

4.7 few shot 预测

只使用很少的一部分训练数据（10%，5%)

论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM,论文笔记,论文阅读

4.8 zero-shot 预测

在A数据集上训练，在B数据集上测试

论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM,论文笔记,论文阅读

5 消融实验

5.1 模型的选择

分析了GPT2层数和微调参数的选择。
附录H中的结果表明，与完整或少量层数相比，具有6层的GPT2是一个合理的选择，并且部分冻结可以避免灾难性遗忘，使微调能够在不过拟合的情况下进行。

5.2 预训练的有效性

GPT2（6）在时间序列任务中表现优于GPT2（0）和GPT2随机初始化
- ——>具有预训练参数的GPT2可以在时间序列任务上取得改进
此外，GPT2（6）的表现也优于GPT2非冻结，表明部分冻结也有所帮助。

论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM,论文笔记,论文阅读

附录H.2中的结果显示，随机初始化的GPT2（6）在冻结情况下表现不佳，预训练知识对于时间序列任务至关重要。

6 预训练模型在跨领域知识转移方面的普遍性

对BERT和图像预训练领域的BEiT进行了实验
- 知识转移的能力不仅限于基于GPT2的预训练语言模型

论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM,论文笔记,论文阅读

7 预训练模型中的Transformer和PCA 对应

证明略文章来源地址https://www.toymoban.com/news/detail-672630.html

到了这里，关于论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

论文笔记：Adjusting for Autocorrelated Errors in Neural Networks for Time Series

2021 NIPS 原来的时间序列预测任务是根据预测论文提出用一阶自回归误差预测一阶差分，类似于ResNet的残差思路？记为pred，最终的预测结果

2024年02月14日
浏览(43)
论文笔记Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting

论文针对多元概率时间序列预测（multivariate probabilistic time series forecasting）任务，提出了TimeGrad模型。有开源的代码：PytorchTS 概率预测如下图所示，对未来的预测带有概率： TimeGrad模型基于Diffusion Probabilistic Model，Diffusion Probabilistic Model这里不再介绍，可以简单认为是一个可以

2024年02月07日
浏览(42)
【论文阅读笔记】UNSUPERVISED REPRESENTATION LEARNING FOR TIME SERIES WITH TEMPORAL NEIGHBORHOOD CODING

本文提出了一种自监督框架，名为“时间邻域编码”（Temporal Neighborhood Coding，TNC），用于学习非平稳时间序列的可泛化表示。该方法利用信号生成过程的局部平滑性来定义具有平稳性质的时间邻域。通过使用去偏差对比目标，该框架通过确保在编码空间中，来自邻域内的信

2024年02月21日
浏览(65)
MINT: Detecting Fraudulent Behaviors from Time-series Relational Data论文阅读笔记

2. 问题定义时间序列关系数据（Time Series Relation Data）这个数据是存放在关系型数据库中，每一条记录都是泰永时间搓的行为。更具体地，每条记录表示为 x = ( v , t , x 1 , x 2 , … , x m − 2 ) x = (v,t,x_1,x_2,dots,x_{m-2}) x = ( v , t , x 1 , x 2 , … , x m − 2 ) ，其中 v v v 代表带

2024年04月15日
浏览(37)
IMAGEBIND: One Embedding Space To Bind Them All论文笔记

论文 https://arxiv.org/pdf/2305.05665.pdf 代码 https://github.com/facebookresearch/ImageBind 像CLIP这一类的方法只能实现Text-Image这两个模态的 Embedding 对齐，本文提出的ImageBind能够实现六个模态（images, text, audio, depth, thermal, and IMU data）之间的联合Embedding空间对齐。本文的多模态之间的对齐也不

2024年02月07日
浏览(46)
【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting

本文提出Lag-Llama，在大量时间序列数据上训练的通用单变量概率时间序列预测模型。模型在分布外泛化能力上取得较好效果。模型使用平滑破坏幂律（smoothly broken power-laws）。目前任务主要集中于在相同域的数据上训练模型。当前已有的大规模通用模型在大规模不同数据上进

2024年02月04日
浏览(44)
论文笔记 | PromptCast: A New Prompt-based Learning Paradigm for Time Series Forecasting

这篇论文的核心思想就是把原始的时序数据转换成文本提示，对大模型进行微调，通过对话的方式进行预测。笔者是根据原文逐一翻译并阅读，文章可能有点长，有需要的可以直接看对应部分。这也是笔者第一次分享论文笔记，有不好的地方还请读者多见谅。 Paper：https://

2024年04月25日
浏览(56)
论文笔记：A Time Series is Worth 64 Words: Long-term Forecasting with Transformers

ICLR 2023 比较简单，就不分intro、model这些了给定每个时间段的长度、划分的stride，将时间序列分成若干个时间段时间段之间可以有重叠，也可以没有每一个时间段视为一个token 降低复杂度 Attention 的复杂度是和 token 数量成二次方关系。如果每一个 patch 代表一个 token，而不是

2024年02月07日
浏览(47)
【论文笔记】SimMTM: A Simple Pre-Training Framework for Masked Time-Series Modeling

论文地址：https://arxiv.org/abs/2302.00861 时间序列分析被广泛应用于各个领域。近年来，为了降低标签费用，使各种任务受益，自我监督式预训练引起了人们的极大兴趣。一种主流范式是 masked 建模，它通过学习基于未 masked 部分重构 masked 内容来成功地预训练深度模型。然而，

2024年01月21日
浏览(64)
论文笔记 Spatial-Temporal Identity: A Simple yet Effective Baseline for Multivariate Time Series Forecas

CIKM 2022 多维时间序列（Multivariate Time Series, MTS) 最关键的、区别于其他数据的特点是，这些时间序列之间存在着明显的依赖关系 MTS 预测的关键是：对 MTS 的第 i 条时间序列进行预测的时候，不仅要考虑这第 i 条时间序列的历史信息，也要考虑其他时间序列的历史信息】

2024年02月02日
浏览(44)