【论文阅读笔记】UNSUPERVISED REPRESENTATION LEARNING FOR TIME SERIES WITH TEMPORAL NEIGHBORHOOD CODING

这篇具有很好参考价值的文章主要介绍了【论文阅读笔记】UNSUPERVISED REPRESENTATION LEARNING FOR TIME SERIES WITH TEMPORAL NEIGHBORHOOD CODING。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

UNSUPERVISED REPRESENTATION LEARNING FOR TIME SERIES WITH TEMPORAL NEIGHBORHOOD CODING

ABSTRACT

 本文提出了一种自监督框架,名为“时间邻域编码”(Temporal Neighborhood Coding,TNC),用于学习非平稳时间序列的可泛化表示。该方法利用信号生成过程的局部平滑性来定义具有平稳性质的时间邻域。通过使用去偏差对比目标,该框架通过确保在编码空间中,来自邻域内的信号的分布与非邻域信号的分布可区分来学习时间序列表示。作者的动机源于医学领域,那里对于模拟时间序列数据的动态特性的能力特别有价值,用于在实际上无法标记数据的情况下识别、跟踪和预测患者潜在状态。作者将该方法与最近开发的无监督表示学习方法进行了比较,并在多个数据集上展示了在聚类和分类任务上的优越性能。

Introduction

 实际世界中的时间序列数据具有高维、复杂的特性,且具有独特的属性,这给数据建模带来了许多挑战(Yang & Wu, 2006)。此外,这些信号通常标记稀疏,这使得监督学习任务变得更加具有挑战性。无监督表示学习可以通过利用数据的固有结构,从原始时间序列中提取具有信息的低维表示,而无需显式监督。这些表示更具泛化性和鲁棒性,因为它们不太专门用于解决单个监督任务。无监督表示学习在诸如视觉(Donahue & Simonyan, 2019; Denton et al., 2017; Radford et al., 2015)和自然语言处理(Radford et al., 2017; Young et al., 2018; Mikolov et al., 2013)等领域得到了深入研究,但在时间序列设置中尚未得到充分探索。为时间序列设计的框架需要高效可扩展,因为实践中遇到的信号可能又长、高维且高频。此外,它应考虑并能够建模样本内发生的动态变化,即信号的非平稳性。

 在医学领域,模拟时间序列数据的动态特性尤其具有价值。医疗保健数据通常组织为时间序列,涵盖多种数据类型,从不同来源以不同的采样频率收集而来,并充斥着伪影和缺失值。在患者住院期间或疾病进展期间,患者会逐渐在不同的临床状态之间过渡,其中有相对稳定、改善或意外恶化的时期,需要加强治疗以改变患者的轨迹。医学时间序列数据中的一个特殊挑战是缺乏用于识别个体的潜在临床状态或用于训练旨在提取这些状态的低维表示的明确定义或可用标签。例如,在危重病护理的背景下,患者在危重病监护室(CCU)中的停留通过床边监护仪持续捕获生理信号。长时间内获取这些信号的患者状态标签几乎是不可能的,因为即使对于临床医生来说,患者的潜在生理状态也可能是未知的。这进一步促使在这些背景下使用无监督表示学习。学习丰富的表示对于促进疾病进展的跟踪、预测患者的未来轨迹以及根据这些潜在状态量身定制治疗方案至关重要。

 在本文中,我们提出了一种自监督框架,用于学习复杂的多变量非平稳时间序列的表示。这种方法称为“时间邻域编码”(Temporal Neighborhood Coding,TNC),它专为时间设置而设计,在这些设置中,信号的潜在分布随时间变化,并旨在捕捉潜在时间动态的进展。TNC高效、易于扩展到高维,并可用于不同的时间序列设置。我们评估了所学表示的质量,并展示了这些表示对于许多下游任务(如分类和聚类)的泛化性和可转移性。我们进一步证明了我们的方法在无监督表示学习方面优于现有方法,并且在分类任务中甚至与监督技术表现接近。这项工作的贡献有三个方面:

  • 我们提出了一种新颖的基于邻域的非平稳多变量时间序列数据的无监督学习框架。
  • 我们引入了一个具有平稳性质的时间邻域的概念,作为时间中相似窗口的分布。通过利用信号和统计检验的特性,自动确定邻域边界。
  • 我们结合了正例未标记学习中的概念,特别是样本权重调整,以解决对比损失中负例抽样引入的潜在偏差。

METHOD

 我们引入了一个框架,用于学习编码多变量、非平稳时间序列的潜在状态。我们的自监督方法TNC利用信号生成过程的局部平滑性来学习时间序列窗口的可泛化表示。这是通过确保在表示空间中,接近时间的信号分布与远离时间的信号分布可区分来实现的,即在编码空间中可以识别时间的接近性。我们将多变量时间序列信号表示为 X ∈ RD×T,其中 D 是特征数量,T 是随时间变化的测量次数。

 我们将窗口 Wt 的时间邻域(Nt)定义为所有以 t 为中心的窗口集合,其中 t∗ 从正态分布 t∗ ∼ N (t, η · δ) 中采样得到。这里 N 是以 t 为中心的高斯分布,δ 是窗口的大小,η 是定义邻域范围的参数。依赖于信号生成过程的局部平滑性,邻域分布被建模为高斯分布,以模拟时间数据中的渐进转变,并直观地近似于与 Wt 相似的样本的分布。η 参数确定了邻域的范围,取决于信号的特征以及随时间变化的时间序列的统计特性的渐变程度。这可以由领域专家根据对信号行为的先验知识进行设定,或者为了更稳健的估计,可以通过分析每个 Wt 的信号的平稳性属性来确定。由于邻域代表着相似的样本,范围应该确定信号保持平稳的近似时间跨度,生成过程不发生变化。为此,我们使用了增广的迪基-富勒(ADF)统计检验来确定每个窗口的这个区域。正确估计邻域范围是 TNC 框架的一个重要部分。如果 η 太小,邻域内的许多样本将重叠,因此编码器只会学习编码重叠信息。另一方面,如果 η 太大,邻域将跨越多个潜在状态,因此编码器将无法区分这些状态之间的变化。通过使用 ADF 检验,我们可以根据信号行为自动调整每个窗口的邻域。有关该测试及其如何用于估计 η 的更多细节,请参见第 2 节。

 现在,假设邻域内的窗口具有相似的属性,那么邻域之外的信号,表示为 ¯Nt,被视为非邻域窗口。来自 ¯Nt 的样本可能与 Wt 不同,并且可以在对比学习框架的上下文中被视为负样本。然而,这个假设可能存在采样偏差的问题,这在大多数对比学习方法中很常见 (Chuang et al., 2020; Saunshi et al., 2019)。这种偏差是由于从数据分布中随机抽取负例可能导致实际上与参考样本相似的负样本。这可能会严重影响学习框架的性能,但是在解决这个问题方面做的工作很少 (Chuang et al., 2020)。在我们的上下文中,当存在来自 ¯Nt 的窗口远离 Wt,但具有相同的潜在状态时,就会发生这种情况。为了减轻 TNC 框架中的这种偏差,我们将 ¯Nt 中的样本视为未标记样本,而不是负样本,并使用 Positive-Unlabeled (PU) 学习的思想来准确地度量损失函数。实际上,即使在邻域内的样本都是相似的,我们也不能假设在这个区域之外的样本一定是不同的。例如,在存在长期季节性的情况下,信号在远处的时间可能会表现出相似的特性。在医疗保健环境中,这可能像是一个稳定的患者经历了一次危急情况,但之后又回到了稳定状态。

 在定义了邻域分布之后,我们训练一个目标函数,鼓励在编码空间中对同一邻域的样本表示与来自外部样本的表示进行区分。理想的编码器在编码空间中保留邻域的特性。因此,邻域 Wl ∈ Nt 中样本的表示 Zl = Enc(Wl) 可以与邻域外的样本 Wk ∈ ¯Nt 的表示 Zk = Enc(Wk) 区分开来。TNC 主要由两个组件组成:

 TNC是一个通用的框架,因此对于时间序列的性质和编码器的架构是不可知的。编码器可以是任何适合信号特性的参数模型 (Oord et al., 2016; Bai et al., 2018; Fawaz et al., 2019)。对于鉴别器D(Zt, Z),我们使用一个简单的多头二元分类器,如果Z和Zt是时间上邻近的表示,则输出1,否则输出0。在实验部分,我们会更深入地描述我们实验中使用的模型的架构细节

 我们在方程式1中形式化了我们无监督学习框架的目标函数。实质上,我们希望鉴别器的概率似然估计准确,即对于邻近样本的表示接近1,对于远离的窗口接近0。非邻域(¯N)中的样本使用权重参数w进行权重调整,以考虑该分布中的正样本。

 我们通过优化这个目标函数同时训练编码器和鉴别器。需要注意的是,鉴别器只是训练过程中的一部分,在推断过程中不会被使用。类似于编码器,鉴别器可以使用任何参数模型来近似。然而,鉴别器越复杂,就越难以解释潜在空间的决策边界,因为它允许将相似性映射到复杂的非线性关系上。文章来源地址https://www.toymoban.com/news/detail-832595.html

到了这里,关于【论文阅读笔记】UNSUPERVISED REPRESENTATION LEARNING FOR TIME SERIES WITH TEMPORAL NEIGHBORHOOD CODING的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 图像融合论文阅读:LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Imag

    @ARTICLE{10105495, author={Li, Hui and Xu, Tianyang and Wu, Xiao-Jun and Lu, Jiwen and Kittler, Josef}, journal={IEEE Transactions on Pattern Analysis and Machine Intelligence}, title={LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images}, year={2023}, volume={45}, number={9}, pages={11040-11052}, doi={10.1109/TPAMI.2

    2024年01月21日
    浏览(53)
  • 【自监督论文阅读笔记】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

            本文推出了 EVA ,这是一个 以视觉为中心 的基础模型,旨在仅使用可公开访问的数据来 探索大规模 视觉表示的 局限性 。EVA 是一种经过预训练的普通 ViT,用于 重建 以可见图像块为条件的 屏蔽掉的 图像-文本对齐(image-text aligned)的视觉特征 。通过这个前置任

    2024年02月06日
    浏览(61)
  • 【论文阅读】Deep Graph Contrastive Representation Learning

    作者:Yanqiao Zhu Yichen Xu 文章链接:Deep Graph Contrastive Representation Learning 代码链接:Deep Graph Contrastive Representation Learning 现实世界中,图的标签数量较少,尽管GNNs蓬勃发展,但是训练模型时标签的可用性问题也越来越受到关心。 传统的无监督图表征学习方法,例如DeepWalk和nod

    2024年01月18日
    浏览(57)
  • 【论文阅读】MSGNet: Learning Multi-Scale Inter-Series Correlations for Multivariate Time Series Forecastin

    论文标题:MSGNet: Learning Multi-Scale Inter-Series Correlations for Multivariate Time Series Forecastin 论文链接: https://doi.org/10.48550/arXiv.2401.00423 代码链接: https://github.com/YoZhibo/MSGNet 发表年份: 2024 发表平台: AAAI 平台等级:CCF A 作者信息: Wanlin Cai 1 ^1 1 , Yuxuan Liang 2 ^2 2 , Xianggen Liu 1 ^1 1 , Jianshuai Fen

    2024年04月15日
    浏览(60)
  • Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 论文阅读

    论文链接 Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction 0. Abstract 尽管基于学习的方法在单视图深度估计和视觉里程计方面显示出有希望的结果,但大多数现有方法以监督方式处理任务。最近的单视图深度估计方法探索了通过最小化光度误差在

    2024年03月10日
    浏览(64)
  • Learning Sample Relationship for Exposure Correction 论文阅读笔记

    这是中科大发表在CVPR2023的一篇论文,提出了一个module和一个损失项,能够提高现有exposure correction网络的性能。这已经是最近第三次看到这种论文了,前两篇分别是CVPR2022的ENC(和这篇文章是同一个一作作者)和CVPR2023的SKF,都是类似即插即用地提出一些模块来提高现有方法的

    2024年02月07日
    浏览(54)
  • 论文笔记 | PromptCast: A New Prompt-based Learning Paradigm for Time Series Forecasting

    这篇论文的核心思想就是把原始的时序数据转换成文本提示,对大模型进行微调,通过对话的方式进行预测。 笔者是根据原文逐一翻译并阅读,文章可能有点长,有需要的可以直接看对应部分。这也是笔者第一次分享论文笔记,有不好的地方还请读者多见谅。 Paper:https://

    2024年04月25日
    浏览(55)
  • 论文解读:(UPL)Unsupervised Prompt Learning for Vision-Language Models

    存在的问题 之前的来自目标数据集的标记数据(有监督学习)可能会限制可伸缩性。 动机 通过无监督提示学习(UPL)方法,以避免提示工程,同时提高类clip视觉语言模型的迁移性能。 主张top-k而不是top-p 注:top-k是指挑选概率最大的k个,top-p是指挑选预测概率大于p的那些数据 看

    2024年04月23日
    浏览(60)
  • GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose 论文阅读

    题目 :GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose 作者 :Zhichao Yin and Jianping Shi 来源 :CVPR 时间 :2018 我们提出了 GeoNet,这是一种联合无监督学习框架,用于视频中的单目深度、光流和自我运动估计。 这三个组件通过 3D 场景几何的性质耦合在一起,由我们的框

    2024年02月09日
    浏览(46)
  • Learning Enriched Features for Fast Image Restoration and Enhancement 论文阅读笔记

    这是2022年TPAMI上发表的大名鼎鼎的MIRNetv2,是一个通用的图像修复和图像质量增强模型,核心是一个多尺度的网络 网络结构整体是残差的递归,不断把残差展开可以看到是一些残差块的堆叠。核心是多尺度的MRB。网络用的损失函数朴实无华: MRB的核心是RCB和SKFF两个模块,先

    2024年02月16日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包