【论文笔记】SimMTM: A Simple Pre-Training Framework for Masked Time-Series Modeling

这篇具有很好参考价值的文章主要介绍了【论文笔记】SimMTM: A Simple Pre-Training Framework for Masked Time-Series Modeling。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

simmtm,论文分享,论文阅读,深度学习,人工智能

论文地址:https://arxiv.org/abs/2302.00861

摘要

时间序列分析被广泛应用于各个领域。近年来,为了降低标签费用,使各种任务受益,自我监督式预训练引起了人们的极大兴趣。一种主流范式是 masked 建模,它通过学习基于未 masked 部分重构 masked 内容来成功地预训练深度模型。然而,由于时间序列的语义信息主要包含在时间变化中,随机 masked 部分时间点的标准方法会严重破坏时间序列重要的时间变化,使得重构任务难以指导表示学习。因此,我们提出了SimMTM,一个用于 masked 时间序列建模的简单预训练框架。通过将 masked 建模与流形学习联系起来,SimMTM提出了通过对流形外的多个邻居进行加权聚集来恢复 masked 时间点的方法,该方法通过将多个 masked 序列中损坏但互补的时间变化组合在一起,从而简化了重建任务。SimMTM进一步学习揭示流形的局部结构,有助于掩模建模。在实验上,SimMTM在两个典型的时间序列分析任务:预测和分类中实现了最先进的微调性能,涵盖了域内和跨域设置。

思路提炼

背景

自监督式预训练在其他领域有较好效果,主流使用的是mask建模的方法,希望将自监督式预训练应用到时间序列分析任务中。

其中,mask建模的方法是:将原始序列中的一部分进行mask屏蔽(一般是直接置0),然后训练模型对mask部分的重构能力,希望模型输出能尽可能地恢复原始序列;使用这种方式训练模型的表示学习能力;该类方法,例如MAE等,在CV领域已经取得了较好结果。

问题提出

与图像和语音数据不同,时间序列数据的语义特征包含在时间变化中,直接对时间序列进行随机屏蔽会严重破坏时间信息,导致重构任务难以指导其表示学习

解决办法

依旧采取随机屏蔽+预训练的训练策略,但是对同一个序列进行多次随机屏蔽,结合流形学习的思想,从多个掩码序列中重构原始数据。

simmtm,论文分享,论文阅读,深度学习,人工智能

重构的具体实现是,将随机屏蔽序列视为原始时间序列在流形之外的“邻居”,重构过程就是将被屏蔽序列投影回原始序列的流形。

虽然原始时间序列的时间变化在每个随机屏蔽序列中被部分删除,但多个随机屏蔽序列会相互补充,使得重建过程比直接从单个屏蔽序列重建原始序列容易得多。该过程还将对模型进行预训练,以隐式地揭示时间序列流形的局部结构,从而有利于掩模建模和表示学习。

同时,在损失上,除了重构损失外,还提出了一个约束损失来指导基于时间序列流形邻域假设的序列表示学习。

总结思路

SimMTM作为一种简单而有效的时间序列预训练框架,不是直接从未被屏蔽的部分重建被屏蔽的时间点,而是从多个随机被屏蔽的时间序列中恢复原始时间序列

从技术上讲,SimMTM提出了一种用于重建的邻域聚合设计,即基于在序列表示空间中学习到的相似性对时间序列的逐点表示进行聚合。

创新点

  1. 受掩蔽的流形视角的启发,我们提出了一种新的掩蔽时间序列建模任务,即基于流形外的多个掩蔽序列重构流形上的原始序列。

  2. 从技术上讲,我们将SimMTM作为一个简单但有效的预训练框架,它根据在序列表示空间中学习到的相似性聚合点表示以进行重建。

  3. SimMTM始终如一地在典型的时间序列分析任务中实现最先进的微调性能,包括低级预测和高级分类,涵盖内域和跨域设置。

模型框架

SimMTM首先在序列级表示空间中学习多个时间序列之间的相似性,然后基于预先学习的序列级相似性聚合这些时间序列的逐点级表示。

SimMTM的重构过程包括四个模块:随机屏蔽、表示学习、序列级相似性学习和逐点聚合。原文中框架图如下:
simmtm,论文分享,论文阅读,深度学习,人工智能

论文中的框架图看起来略有点复杂,在此笔者绘制了一个简易版,便于理解:

  1. 首先对原始序列进行随机屏蔽,得到模型的输入 X
  2. 经过编码器提取特征 Z
  3. 对提取的特征 Z 经过一个投影层得到 S
  4. 在投影空间中对 S 之间计算相似性,得到一个相似性矩阵 R
  5. 根据相似性矩阵 S ,对特征 Z 进行聚合,得到特征Z’
  6. 经过解码器输出对 X 的重构结果X’
    simmtm,论文分享,论文阅读,深度学习,人工智能

随机屏蔽

输入 Xi,表示 batch 大小为 N 中的第 i 个样本,Xi是序列长度为L,包含C个变量的时间序列;

下列公式表示为每个 Xi 生成 M 个随机屏蔽序列。其中,r 表示掩码部分,r 是 0-1 之间的小数,即表示被屏蔽的部分在总数据长度中的占比,被屏蔽部分直接置 0;M 是掩码时间序列数目的超参数,即为每个 Xi 序列生成多少个不同的随机屏蔽序列,j 表示 M 个序列中的第 j 个。

公式如下:
simmtm,论文分享,论文阅读,深度学习,人工智能

故对 N 个时间序列进行随机屏蔽后,加上原始序列,共可获得 N *(M+1)个序列
simmtm,论文分享,论文阅读,深度学习,人工智能

表示学习

将 X 经过编码器获得 Z ,Z 经过投影层获得 S ; Z 是 X 的特征, S 的作用是学习特征之间的相似性
simmtm,论文分享,论文阅读,深度学习,人工智能
文章中使用的编码器 Encoder 是 transformer ,投影层是一个简单的 MLP

Z 和 S 在整体框架中的位置如图中红色部分圈出的位置
simmtm,论文分享,论文阅读,深度学习,人工智能

序列级相似性学习

利用序列级表示 S 之间的相似性进行加权聚集,即利用时间序列流形的局部结构。
simmtm,论文分享,论文阅读,深度学习,人工智能
simmtm,论文分享,论文阅读,深度学习,人工智能

R 为序列表示空间中 (N×(M+1)) 个输入样本的成对相似度矩阵,矩阵大小为 (N×(M+1)) × (N×(M+1)) ,相似性用余弦距离来度量。

逐点聚合

基于学习到的序列相似性,对第 i 个原始时间序列的聚合过程为:
simmtm,论文分享,论文阅读,深度学习,人工智能

按公式来看,si 表示第 i 个时间序列的序列级表示,对于 si 与 s’ 之间的相似性 和 si 与除 si 之外其他 s 之间相似性 之间的比值,即为 特征 z’ 的聚合权重;将所有 z’ 按权重相加,得到 聚合之后的特征 zi
#-------------------------------------------------------------------------------------------------
此处存在疑问:
对于一个batch大小为N的原始序列来说,经过随机屏蔽后有 N*(M+1) 个输入X,故对应的也会产生 N*(M+1) 个表示S,可以用 sij 进行区分,i 相同则表示来自同一个原始序列,j 则表示不同的随机屏蔽方式产生的序列。

按照公式来说,只对 i 的层次进行区分,相当于是在不同原始序列的表示间计算相似性,并以此作为权重对特征进行加权聚合。

但是, 按照文章意图来说,应该是对具有相同 i 的表示,在 j 的层次下进行区分,相当于对于同一个原始序列的不同表示之间计算相似性;
同时,若按这种方式计算相似性,应该只计算 M 个随机屏蔽序列与未屏蔽的原始序列之间的相似性,然后对 M 个表示进行聚合,得到对原始序列的一个表示的重构。
#-------------------------------------------------------------------------------------------------
最后,经过解码器后,得到重构的原始时间序列,解码器沿着下面的通道维度被实例化为一个简单的MLP层
simmtm,论文分享,论文阅读,深度学习,人工智能

训练方式-自监督预训练

除了上述框架外,SimMTM还提出了一种损失函数设计。
一般的mask重构任务,损失函数为重构与原始之间的MSE,此处记为重构损失
simmtm,论文分享,论文阅读,深度学习,人工智能

但是,重建过程直接基于序列相似度,如果在序列表示空间中没有明确的约束,则很难保证模型捕获精确的相似性。因此,SimMTM 添加了一个约束损失,利用时间序列流形的邻域假设来校准序列级表示空间 s 的结构。

假设原始时间序列及其屏蔽序列将呈现紧密的表示,并且与 s 中其他序列的表示距离很远。
simmtm,论文分享,论文阅读,深度学习,人工智能
通过上述形式化,将流形约束定义为,即每个表示与其同源表示之间的距离越近越好,与其非同源表示的距离越远越好
simmtm,论文分享,论文阅读,深度学习,人工智能

最后定义整体损失如下:目标是最小化重构损失和约束损失,同时采用Kendall等人提出的调谐策略,该策略可以根据每个损失的同方差不确定性自适应地调整超参数λ
simmtm,论文分享,论文阅读,深度学习,人工智能

实验

实验总体下游任务为预测和分类,两个任务都进行了域内数据集和跨域数据集的实验,跨域任务对encoder进行了微调。
预测任务的网络模型采用vanilla transformer,分类任务的网络模型采用ResNet。

下图是对两个任务中不同模型进行比较,纵坐标的分类任务F1,越大越好,横坐标是预测任务MSE,越小越好;图中其他模型一般只能在一个任务中有较好性能。
simmtm,论文分享,论文阅读,深度学习,人工智能

预测

下游任务损失为L2。
域内数据集实验中,基于重构的模型,如TST,比基于对比预训练的模型表现更好;
跨域数据集实验中,SimMTM如果采用随机初始化,没有预训练过程,结果与TST差不多。

域内

simmtm,论文分享,论文阅读,深度学习,人工智能

跨域

simmtm,论文分享,论文阅读,深度学习,人工智能

分类

分类下游任务损失为交叉熵。
域内数据集实验中Ts2vec、TF-C模型表现较好;TST和SimMTM随机初始化状态时,效果变差,甚至出现负迁移;
跨域数据集实验中SimMTM在 SllepEEG到EMG 上的效果显著提升。

域内

simmtm,论文分享,论文阅读,深度学习,人工智能

跨域

simmtm,论文分享,论文阅读,深度学习,人工智能

模型性能实验

消融实验

对比损失的加入,对于模型效果有更大的贡献。
simmtm,论文分享,论文阅读,深度学习,人工智能

表征分析

CKA差距越小说明模型表征学习能力越强,
simmtm,论文分享,论文阅读,深度学习,人工智能

模型通用性

将其他模型更换到SimMTM框架下,效果均得到提升。
simmtm,论文分享,论文阅读,深度学习,人工智能

微调数据比例

即使减少微调的数据,SimMTM在所有模型中表现也最佳。
simmtm,论文分享,论文阅读,深度学习,人工智能

屏蔽策略

屏蔽比例越大,生成屏蔽序列个数越少,重构任务的难度就越大。但是不是成正比变化。
simmtm,论文分享,论文阅读,深度学习,人工智能

微调和线性探测

SimMTM的微调和线性探测都优于从头开始的完全监督学习
simmtm,论文分享,论文阅读,深度学习,人工智能

总结

本文提出了SimMTM,一种用于屏蔽时间序列建模的简单预训练框架。SimMTM提出了一种新的掩模建模任务,即从多个相邻的掩模序列中重建原始序列。具体而言,SimMTM基于序列相似性聚合点表示,这些相似性受到时间序列流形上的邻域假设的严格约束。

SimMTM在mask重构的基础上,改变了重构方式,多个同源数据采用不同的屏蔽方式,但是他们在特征空间也应该具有较大的相似性,将这些特征进行聚合得到的特征最接近原始特征,从而更容易实现对原始数据的重构;
实际上,这种操作相当于在对比学习中构造了大量的正样本,SimMTM在损失计算中也引入了对比损失,在计算重构损失的基础上,也增加了对比约束;
上述两种操作使得SimMTM能够更好的学习到数据的特征表示,在预测和分类的下游任务中都有较好表现。文章来源地址https://www.toymoban.com/news/detail-812198.html

到了这里,关于【论文笔记】SimMTM: A Simple Pre-Training Framework for Masked Time-Series Modeling的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • BEiT: BERT Pre-Training of Image Transformers 论文笔记

    论文名称: BEiT: BERT Pre-Training of Image Transformers 论文地址:2106.08254] BEiT: BERT Pre-Training of Image Transformers (arxiv.org) 代码地址:unilm/beit at master · microsoft/unilm (github.com) 作者讲解:BiLiBiLi 作者PPT:文章资源 首先展示的是我基于这个算法搭建的网页 demo ,欢迎体验。https://wangqvq-be

    2024年02月11日
    浏览(40)
  • GPT(Generative Pre-Training)论文解读及实现(一)

    Given an unsupervised corpus of tokens U = {u1, . . . , un}, we use a standard language modeling objective to maximize the following likelihood: 在给定语料上下文环境下,目标时最大化下面的语言模型,即在给定前 i-1个词和参数θ前提下,使第 i 个词出现的概率最大。 we use a multi-layer Transformer decoder [34] for

    2024年02月15日
    浏览(158)
  • 【NLP经典论文精读】Improving Language Understanding by Generative Pre-Training

    chatGPT的初代工作,可以说没有GPT,就没有现在的大模型百家争鸣,本篇文章回顾这篇经典论文,思考作者是如何根据前者的工作在思想上进行创新,从而得到通用的模型架构。 Paper: https://www.mikecaptain.com/resources/pdf/GPT-1.pdf Code: https://github.com/huggingface/transformersGPT 自然语言理解

    2024年02月15日
    浏览(446)
  • 论文阅读-(GLIP)Grounded Language-Image Pre-training (目标检测+定位)

    Paper:Grounded Language-Image Pre-training Code:https://github.com/microsoft/GLIP 简介: 定位任务与图像检测任务非常类似,都是去图中找目标物体的位置,目标检测为给出一张图片找出bounding box,定位为给出一个图片和文本,根据文本找出物体。GLIP 模型统一了目标检测(object detection)和

    2024年02月05日
    浏览(41)
  • 论文阅读《Vision-Language Pre-Training with Triple Contrastive Learning》

    本文是2022年CVPR上的一篇 多模态 论文,利用对比学习和动量来进行图片与文本信息的上游预训练。 作者提出问题 简单的跨模态比对模型无法确保来自同一模态的相似输入保持相似。(模态内部语义信息损失) 全局互信息最大化的操作没有考虑局部信息和结构信息。 对于上

    2024年04月13日
    浏览(51)
  • ChatGPT1论文解读《Improving Language Understanding by Generative Pre-Training》

    以下是我阅读完整篇论文做的个人总结,基本包含了ChatGPT1设计的完整框架思路,可以仅看【论文总结】章节。 在GPT1实现的核心架构中,包含两个阶段。 第一阶段 在 第一阶段 基于一个包含 7000本书籍 内容的海量 未标注文本数据集 进行无监督预训练,该阶段引入了一种 T

    2024年02月05日
    浏览(57)
  • Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training

    诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类 论文名称:REALM: Retrieval-Augmented Language Model Pre-Training 模型名称:Retrieval-Augmented Language Model pre-training (REALM) 本文是2020年ICML论文,作者来自谷歌,关注RAG+LLM。目标是解决纯用LM参数储存知识就得让LM尺寸越来

    2024年02月04日
    浏览(44)
  • 【论文精读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    自然语言处理(Natural Language Processing,NLP)领域内的 预训练语言模型 ,包括基于RNN的ELMo和ULMFiT,基于Transformer的OpenAI GPT及Google BERT等。预训练语言模型的成功,证明了我们可以从海量的无标注文本中学到潜在的语义信息,而无需为每一项下游NLP任务单独标注大量训练数据。

    2024年02月14日
    浏览(78)
  • 跨模态检索论文阅读:(PTP)Position-guided Text Prompt for Vision-Language Pre-training

    (PTP)Position-guided Text Prompt for Vision-Language Pre-training 视觉语言预训练的位置引导文本提示 视觉语言预训练(VLP)已经显示出将图像和文本对统一起来的能力,促进了各种跨模态的学习任务。 然而,我们注意到,VLP模型往往缺乏视觉基础/定位能力,这对许多下游任务如视觉推理至

    2024年02月11日
    浏览(48)
  • 论文阅读【自然语言处理-预训练模型2】BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation

    BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension BART: 用于自然语言生成、翻译和理解的去噪序列对序列预训练 【机构】:Facebook AI 【作者】:Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoye

    2024年02月03日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包