论文笔记Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting

这篇具有很好参考价值的文章主要介绍了论文笔记Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文针对多元概率时间序列预测(multivariate probabilistic time series forecasting)任务,提出了TimeGrad模型。
有开源的代码:PytorchTS
概率预测如下图所示,对未来的预测带有概率:
论文笔记Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting

TimeGrad模型基于Diffusion Probabilistic Model,Diffusion Probabilistic Model这里不再介绍,可以简单认为是一个可以拟合复杂分布的概率模型。需要学习的请参见博客《Denoising Diffusion Probabilistic Models简介》。
在了解Diffusion Probabilistic Model的基础上,这篇文章的方法非常简单。如果把TimeGrad基于的Diffusion Probabilistic Model换成高斯分布,TimeGrad就类似DeepAR了。

方法

将多变量时间序列表示为 x i , t 0 ∈ R , i = { i , . . . , D } x_{i,t}^0\in \mathbb{R}, i=\{i,...,D\} xi,t0R,i={i,...,D},其中 t t t是时间index, D D D是多变量的变量数。给一个连续时间序列 t ∈ [ 1 , T ] t\in [1, T] t[1,T],将其划分为context window [ 1 , t 0 ) [1,t_0) [1,t0)和prediction window [ t 0 , T ] [t_0,T] [t0,T]。任务目的是用context window的时间序列预测prediction window的时间序列。

TimeGrad的是一个自回归(autoregressive)的模型:
q X ( x t 0 : T 0 ∣ x 1 : t 0 − 1 0 , c 1 : T ) = Π t = t 0 T q X ( x t 0 ∣ x 1 : t − 1 0 , c 1 : T ) (1) q_{\mathcal X}(\mathbf x_{t_0:T}^0 | \mathbf x_{1:t_0-1}^0, \mathbf c_{1:T})=\Pi_{t=t_0}^Tq_{\mathcal X}(\mathbf x_{t}^0 | \mathbf x_{1:t-1}^0, \mathbf c_{1:T}) \tag{1} qX(xt0:T0x1:t010,c1:T)=Πt=t0TqX(xt0x1:t10,c1:T)(1)其中 c i , t \mathbf c_{i,t} ci,t是协变量(covariate),也就是特征,比如天气特征。
类似DeepAR,TimeGrad用RNN结构来建模历史的时间序列,得到隐状态(hidden state):
h t − 1 = RNN θ ( concat ( x t − 1 0 , c t ) , h t − 2 ) \mathbf h_{t-1}=\text{RNN}_\theta(\text{concat}(\mathbf x_{t-1}^0, \mathbf c_{t}), \mathbf h_{t-2}) ht1=RNNθ(concat(xt10,ct),ht2)之后,再根据隐状态用Diffusion Probabilistic Model得到时间序列。
那么,公式(1)有近似:
Π t = t 0 T p θ ( x t 0 ∣ h t − 1 ) \Pi_{t=t_0}^T p_\theta(\mathbf x_{t}^0 | \mathbf h_{t-1}) Πt=t0Tpθ(xt0ht1)这里的 θ \theta θ包含RNN的参数和Diffusion Probabilistic Model的参数。

训练时优化的损失是negative log-likelihodd:
∑ t = t 0 T − log ⁡ p θ ( x t 0 ∣ h t − 1 ) \sum_{t=t_0}^T -\log p_\theta(\mathbf x_{t}^0 | \mathbf h_{t-1}) t=t0Tlogpθ(xt0ht1)
时间 t t t,噪声等级 n n n的diffusion model的优化目标是:
E x t 0 , ϵ , n ∥ ϵ − ϵ θ ( α ˉ t x 0 , ( 1 − α ˉ t ) ϵ , h t − 1 , n ) ∥ 2 \mathbb{E}_{\mathbf{x}_t^0,\epsilon,n}\|\epsilon-\epsilon_\theta(\sqrt{\bar{\alpha}_t}\mathbf{x}_0,\sqrt{(1-\bar{\alpha}_t)}\epsilon, \mathbf h_{t-1}, n)\|^2 Ext0,ϵ,nϵϵθ(αˉt x0,(1αˉt) ϵ,ht1,n)2其实就是Conditional Denoising Diffusion Probabilistic Models。值得注意的是,这里 t t t和普通Diffusion Probabilistic Models论文里面的 t t t是不一样的,这里的 t t t是时间序列的时间,这里的 n n n反而是普通Diffusion Probabilistic Models论文里面的 t t t

方法的结构图如下图所示。RNN产生每个时间点的隐状态,再用Diffusion Probabilistic Model由隐状态产生时间序列的值。因为RNN是自回归的,所以整个模型是自回归的。
论文笔记Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting
其中 ϵ θ \epsilon_\theta ϵθ的结构如下图:
论文笔记Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting

评价指标

文章的实验部分评价指标使用的是连续分级概率评分(Continuous Ranked Probability Score,CRPS)。
在贝叶斯机器学习中,预测的不是点估计,而是值的分布。传统的评分函数不适合统计设计,预测的分布聚合成它们的平均值或中值会导致关于预测分布的分散和形状的大量信息的损失。
CRPS计算累计分布函数 F ( z ) F(z) F(z)与观察值的兼容性,可以量化一个连续概率分布(理论值)与确定性观测样本(真实值)间的差异。
CRPS ( F , x ) = ∫ R ( F ( z ) − I { x ≤ z } ) 2 d z \text{CRPS}(F, x) = \int_{\mathbb{R}}(F(z) - \mathbb I \{x \leq z \})^2 dz CRPS(F,x)=R(F(z)I{xz})2dzCRPS可视为平均绝对误差(Mean Absolute Error, MAE)在连续概率分布上的推广。在预测的分布和实际数据分布一致时,CRPS取得最小值。使用模型采样的样本可以近似计算预测的分布 F ^ ( z ) = 1 S ∑ s = 1 S I { x 0 , s ≤ z } \hat F(z)=\frac{1}{S} \sum_{s=1}^S \mathbb I \{x^{0,s} \leq z \} F^(z)=S1s=1SI{x0,sz}

具体地,分别在时间序列的每一个维度计算CRPS。用 CRPS sum \text{CRPS}_{\text{sum}} CRPSsum表示时间序列所有维度的和。文章来源地址https://www.toymoban.com/news/detail-470801.html

到了这里,关于论文笔记Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读笔记】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS

    这篇文章提出了一个高效的用于文本到图像生成模型架构,整体思路比较直白,在不损失图像生成质量的情况下,相比于现有T2I模型(SD1.4,SD2.1等)大大节约了成本。附录部分给了一些有趣的东西,比如FID的鲁棒性 整篇文章还有点疑惑,比如阶段B的训练,使用的模型;节省

    2024年02月21日
    浏览(47)
  • DDIM原理及代码(Denoising diffusion implicit models)

    之前学习了 DDPM(DDPM原理与代码剖析)和 IDDPM(IDDPM原理和代码剖析), 这次又来学习另一种重要的扩散模型。它的采样速度比DDPM快很多(respacing),扩散过程不依赖马尔科夫链。 Denoising diffusion implicit models, ICLR 2021 摘选paper一些重要思想。 (1) 由于DDPM加噪基于马尔科夫链过程,那么

    2024年02月02日
    浏览(41)
  • 《Masked Image Training for Generalizable Deep Image Denoising》——CVPR23论文阅读笔记

    Project page: https://github.com/haoyuc/MaskedDenoising 前提:在捕获和存储图像时,设备不可避免地会引入噪声。减少这种噪声是一项关键任务,称为图像去噪。深度学习已经成为图像去噪的事实方法,尤其是随着基于Transformer的模型的出现,这些模型在各种图像任务上都取得了显著的最

    2024年03月15日
    浏览(71)
  • 论文笔记 Spatial-Temporal Identity: A Simple yet Effective Baseline for Multivariate Time Series Forecas

    CIKM 2022 多维时间序列(Multivariate Time Series, MTS) 最关键的、区别于其他数据的特点是,这些 时间序列之间存在着明显的依赖关系 MTS 预测的关键是:对 MTS 的第 i 条时间序列进行预测的时候,不仅要考虑这第 i 条时间序列的历史信息,也要考虑其他时间序列的历史信息】

    2024年02月02日
    浏览(44)
  • 论文阅读--Diffusion Models for Reinforcement Learning: A Survey

    一、论文概述 本文主要内容是关于在强化学习中应用扩散模型的综述。文章首先介绍了强化学习面临的挑战,以及扩散模型如何解决这些挑战。接着介绍了扩散模型的基础知识和在强化学习中的应用方法。然后讨论了扩散模型在强化学习中的不同角色,并对其在多个应用领域

    2024年03月20日
    浏览(55)
  • [阅读笔记23][JAM]JOINTLY TRAINING LARGE AUTOREGRESSIVE MULTIMODAL MODELS

    这篇论文是24年1月发表的,然后是基于的RA-CM3和CM3Leon这两篇论文。它所提出的JAM结构系统地融合了现有的文本模型和图像生成模型。 主要有两点贡献,第一点是提出了融合两个模型的方法,第二点是为混合模型精心设计的指令微调策略。 下图是一个示例,再给出问题回答时

    2024年04月26日
    浏览(47)
  • AnoDDPM: Anomaly Detection with Denoising DiffusionProbabilistic Models using Simplex Noise论文学习

    1.在基于重建的异常检测中, 不需要全长马尔可夫链扩散 。这导致我们开发了一种 新的部分扩散异常检测策略 ,可扩展到 高分辨率图像 ,名为 AnoDDPM 。 2.高斯扩散不能捕获较大的异常,因此,我们开发了一个 多尺度的单纯形噪声扩散过程 来 控制目标异常大小。 1.DDPM能够从

    2024年02月09日
    浏览(44)
  • 2022图像翻译/扩散模型:UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models

    我们提出了一种新的无配对图像间翻译方法,该方法使用去噪扩散概率模型而不需要对抗训练。我们的方法,UNpaired Image Translation with Denoising Diffusion Probabilistic Models(UNIT-DDPM),训练一个生成模型,通过最小化另一个域条件下的去噪分数匹配目标,推断图像在两个域上的联合分

    2023年04月18日
    浏览(47)
  • 论文阅读:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

    论文链接 代码链接 背景:Stable Diffusion在合成高分辨率图片方面表现出色,但是仍然需要提高 本文提出了SD XL,使用了更大的UNet网络,以及增加了一个Refinement Model,以进一步提高图片质量。 用户偏好调查比较 可以看到,在不增加Refiner模型的情况下,SD XL的效果已经比SD 1.

    2024年03月11日
    浏览(84)
  • [论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models

    code links: https://null- textinversion.github.io/. 在本文中,我们引入了一种精确的反演技术,从而方便了直观的基于文本的图像修改。 我们提出的反演包含两个新的关键组成部分: (i)扩散模型的关键反演。我们为每个时间戳使用单个关键噪声向量,并围绕它进行优化。我们证明了

    2024年02月16日
    浏览(61)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包