【论文阅读】基于深度学习的时序异常检测——Anomaly Transformer

这篇具有很好参考价值的文章主要介绍了【论文阅读】基于深度学习的时序异常检测——Anomaly Transformer。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

系列文章链接
数据解读参考：数据基础：多维时序数据集简介
论文一：2022 Anomaly Transformer：异常分数预测
论文二：2022 TransAD：异常分数预测
论文三：2023 TimesNet：基于卷积的多任务模型

论文链接：Anomaly Transformer.pdf
代码链接：https://github.com/thuml/Anomaly-Transformer
视频讲解（原作者禁止转载，联系的话侵删）：https://www.bilibili.com/video/BV1CN4y1A7x6/?spm_id_from=333.337.search-card.all.click&vd_source=c912801c215d811162cae4db751b0768

本文是清华大学研究生提出的一种异常检测模型，是基于transformer针对时序数据进行编码的方案，整体方案让人耳目一新。

本文的创新点总结：文章来源地址https://www.toymoban.com/news/detail-633004.html

提出了Anomaly-Attention模块，该模块有两大亮点：
2.1 prior-association：如下图上半部分所示，采用高斯分布去拟合样本时间点位和邻近点位的数据分布，通过调整参数 $\sigma$ 得到高斯先验分布，更注重局部数据分布， $l$ 层的高斯分布计算表示为： $P^l=Rescale([\frac{1}{\sqrt {2\pi\sigma_i}}exp(-\frac{|j-i|^2}{2\sigma_i^2})]_{i,j\in{1,2,...,N}})$

2.2 series-association：采用transformer中的注意力机制进行时序数据建模，拟合上下文点位和目标样本点位间的权重关系，用于表示点位和更大范围内的上下文数据间的关联性，更注重较大范围内的信息，如上图下半部分所示， $l$ 层的注意力关联计算为： $S^l=softmax(\frac{QK^T}{\sqrt{d_{model}}})$ 正如上图右边所示，对于正常点位而言，其对应临近点高斯分布和上下文注意力分布之间差距会更大，因为正常点位与上下文时序数据间关联更大；对于异常点位而言，它和邻近点位以及上下文时序数据的关联性较小，属于比较离群的状态，因此异常点位的两种分布差异很小；可以通过这种差异性来区分正常点位和异常点位（👍）；
提出了一种新的重构损失构建方法： $L_{total}(\hat X,P,S,\lambda;X)=||X-\hat X||^2_F-\lambda*||AssDis(P,S;\lambda;X)||_1$ 左边计算的是预测值和真实数据间的重构损失，差距越大表示数据越异常，右边表示的是高斯分布和注意力分布间的差值损失，差值越大表示数据越正常，因此是减去该损失，以此构建的重构损失能够让模型更好地学习到正常点位和异常点位之间的差异性；，训练过程中如果想让分布间的距离变大，就容易导致高斯分布训练出来的 $\sigma$ 趋于0，最终呈现出如下图的分布：
为此，他们设计了一种技巧叫Minimax Strategy，在最小化阶段，先固定注意力模块的权重不变，让高斯分布的拟合向注意力权重分布靠近，让 $\sigma$ 不至于过拟合；然后在最大化二者距离的时候，固定高斯分布的参数，训练注意力模块的权重，让最终的两种分布的距离变大，如下图所示：
最终的异常分通过下式计算： $AnomalyScore(X)=softmax(-AssDis(P,S;\lambda;X))\bigodot [||X-\hat X||^2_2]_{i=1,2,...,N}$ 通过将重构差异和分布距离进行联合能够更好地进行异常检测，当预测的异常分数超过某个阈值时，就认为当前点位为异常点位；