用于无监督视频异常检测的合成伪异常:一种简单有效的基于掩码自动编码器的框架 论文阅读

这篇具有很好参考价值的文章主要介绍了用于无监督视频异常检测的合成伪异常:一种简单有效的基于掩码自动编码器的框架 论文阅读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文标题:SYNTHETIC PSEUDO ANOMALIES FOR UNSUPERVISED VIDEO ANOMALY DETECTION: A SIMPLE YET EFFICIENT FRAMEWORK BASED ON MASKED AUTOENCODER
文章信息:
用于无监督视频异常检测的合成伪异常:一种简单有效的基于掩码自动编码器的框架 论文阅读,论文阅读,音视频,论文阅读,深度学习,python,pycharm,transformer
发表于:ICASSP 2023(CCF B)
原文链接:https://arxiv.org/abs/2303.05112
源码:无

ABSTRACT

由于用于训练的异常样本的可用性有限,视频异常检测通常被视为一类分类问题。许多流行的方法研究自动编码器(AE)在假设AE重建正常数据良好而重建异常较差的情况下产生的重建差异。然而,即使只有正常的数据训练,AE通常也能很好地重建异常,这会耗尽其异常检测性能。为了缓解这个问题,我们提出了一个简单而有效的视频异常检测框架。
引入了伪异常样本,该样本通过嵌入随机掩码而仅从正常数据合成,而无需额外的数据处理。
我们还提出了一种正态一致性训练策略,鼓励AE更好地从正态和相应的伪异常数据中学习规则知识。
通过这种方式,AE可以学习正常数据和异常数据之间更明显的重建边界,从而获得卓越的异常判别能力。实验结果证明了该方法的有效性。

1. INTRODUCTION

视频异常检测(VAD)是指识别监控视频中不符合预期行为[1]的事件。由于异常样本的可用性有限,这项任务极具挑战性:异常事件在现实世界中很少发生,而且异常事件的形式是出乎意料的。因此,收集足够的异常示例来训练完全监督的二元分类模型是不可行的。因此,VAD通常被视为一类分类(OCC)问题,其中仅使用正常示例来训练新颖性检测模型[2,3,4,5,6,7]。然后,偏离规则学习表示的事件被视为异常。

流行的VAD方法遵循重建范式。具体来说,他们训练AE,通过最小化重建误差来提取正常数据的特征表示。然后,训练后的模型有望在测试时重建具有较大重建误差的异常数据,使异常数据可以从正常数据中检测出来。然而,几位研究人员[5,6,8]观察到AE有时能很好地重建异常,这表明正常和异常数据之间的重建差异可能不足以检测异常。

一些方法可以通过使用仅从正常数据合成的伪异常样本来缓解上述限制[9,10,11]。例如,Astrid等人[11]通过图像分类任务中的各种数据增强技术生成伪异常。通过模拟非正态数据分布,这种方法有助于AE在OCC设置下学习生动的重建边界。然而,这些方法需要额外的阶段来训练伪异常合成器,或者依赖于大量精心设计的数据处理,这导致VAD性能不稳定和训练时间过长。

在伪异常检测方法的背景下,本论文提出了一种基于遮罩自编码器的简单而高效的框架。与之前相关的工作相比,我们尝试利用随机遮罩补丁来生成伪异常样本。受到热门的遮罩图像建模[12, 13]的启发,我们通过嵌入随机遮罩标记来模拟异常,构建了一个用于VAD的通用遮罩自编码器架构。这是一种简单而高效的合成方法,避免了在原始正常数据中进行额外的数据处理。
此外,先前的工作模拟了真实场景中异常事件很少发生的情况,并在训练阶段以很小的概率输入伪异常样本。这样,伪异常样本未被充分利用,对自编码器的影响微不足道。因此,我们引入了一种用于充分利用伪异常样本的正常性一致性训练策略。具体而言,我们最小化正常样本的编码特征与相应的伪异常样本之间的双向KL散度。通过学习一致的正常性知识,我们的框架可以在正常和异常数据之间建立更明显的重构边界。通过在VAD基准测试中的实验证明,所提出的框架表现出卓越的性能。

2. METHODS

给定一个原始视频帧 X O X^O XO,我们首先利用随机遮罩生成相应的伪异常视频帧 X P X^P XP。一个编码器分别提取特征表示 f O f^O fO f P f^P fP。然后,提取的潜在特征 f O f^O fO f P f^P fP被用于通过一个单层线性解码器分别预测下一帧 Y O Y^O YO Y P Y^P YP。为了使 Y O Y^O YO Y P Y^P YP接近它们的地面真实 Y Y Y,我们最小化它们在像素和梯度方面的距离。此外,为了鼓励模型从正常样本和相应的伪异常样本中挖掘一致的正常性表示,我们最小化 f O f^O fO f P f^P fP之间的KL散度。最后,预测帧与其地面真实之间的预测误差决定它是正常帧还是异常帧。我们提出的框架的概览如图1所示。在接下来的小节中,我们将详细介绍我们框架的所有组件。
用于无监督视频异常检测的合成伪异常:一种简单有效的基于掩码自动编码器的框架 论文阅读,论文阅读,音视频,论文阅读,深度学习,python,pycharm,transformer

用于视频异常检测的帧预测。未来帧预测范式通常用于视频异常检测。现有的工作[2,6,14]经常使用设计的自动编码器(AE)来解决这个问题:编码器只从正常的训练视频帧中学习提取特征,解码器通过使用提取的特征来生成预测的目标帧。对于输入帧 X X X,上述过程可以定义为:
用于无监督视频异常检测的合成伪异常:一种简单有效的基于掩码自动编码器的框架 论文阅读,论文阅读,音视频,论文阅读,深度学习,python,pycharm,transformer
其中 ϵ \epsilon ϵ D D D分别是编码器和解码器。并且训练目标是使预测帧 Y ^ \widehat{Y} Y 接近其真实值 Y Y Y,而异常将产生更大的预测误差以在测试时被发现。

基于随机蒙版的伪异常策略。由于在训练过程中缺少异常样本,基于自动编码器(AE)的方法通常在测试时无法区分异常和正常数据。受到[10, 11]的启发,我们在训练过程中引入伪异常样本。在单类别分类问题设置中,我们不使用真实的异常样本,而是通过改变正常数据生成伪异常样本。与先前的伪异常方法不同,我们提出使用基于补丁对齐的随机蒙版方法生成伪异常样本。图像补丁是视觉Transformer的基本处理单元,使用基于补丁级别的蒙版方法非常方便。因此,在AE的架构设计中,我们参考[13],使用ViT-B编码器和一层线性解码器。与先前的基于伪异常的方法相比,我们的方法还可以生成各种像素信息与正常样本不同的伪异常样本。此外,我们的方法简单而高效,无需复杂的数据增强方法。

训练根据基于未来帧预测范式[2]的现有工作,我们使用像素和梯度损失来训练原始正常视频帧 X O X^O XO。我们最小化像素和梯度差,以使法线预测 Y O Y^O YO接近其基本事实 Y Y Y。具体而言,强度定义为最小化 l 2 l_2 l2预测帧 Y O Y^O YO与其地面实况 Y Y Y之间的距离如下:
用于无监督视频异常检测的合成伪异常:一种简单有效的基于掩码自动编码器的框架 论文阅读,论文阅读,音视频,论文阅读,深度学习,python,pycharm,transformer
梯度损失定义如下:
用于无监督视频异常检测的合成伪异常:一种简单有效的基于掩码自动编码器的框架 论文阅读,论文阅读,音视频,论文阅读,深度学习,python,pycharm,transformer
其中i、j表示视频帧的空间索引。
因此,正常视频帧的损失函数定义如下:
用于无监督视频异常检测的合成伪异常:一种简单有效的基于掩码自动编码器的框架 论文阅读,论文阅读,音视频,论文阅读,深度学习,python,pycharm,transformer
对于生成的伪异常视频帧 X P X^P XP,我们鼓励该模型仅预测正常行为,而不管异常输入如何。因此,即使输入数据包含异常区域,模型也能很好地预测正常区域。它有助于模型学习正常和异常数据之间生动的重建边界。此外,对于异常区域,模型可能倾向于预测正态表示,这将导致更大的预测误差。因此,我们还最小化像素和梯度差,以使伪异常预测 Y P Y^P YP接近真实值 Y Y Y。伪异常视频帧的损失可以类似地定义为:
用于无监督视频异常检测的合成伪异常:一种简单有效的基于掩码自动编码器的框架 论文阅读,论文阅读,音视频,论文阅读,深度学习,python,pycharm,transformer

然后,我们提出了一种不同于以往基于伪异常的训练策略。我们不是以小概率输入伪异常示例,而是同时输入正态样本和相应的伪异常样本,并挖掘它们之间的一致正态表示。具体来说,我们最小化它们的编码特征 f O f^O fO f P f^P fP之间的双向KL差异。一致性损失定义如下:

用于无监督视频异常检测的合成伪异常:一种简单有效的基于掩码自动编码器的框架 论文阅读,论文阅读,音视频,论文阅读,深度学习,python,pycharm,transformer
注:
用于无监督视频异常检测的合成伪异常:一种简单有效的基于掩码自动编码器的框架 论文阅读,论文阅读,音视频,论文阅读,深度学习,python,pycharm,transformer
最后,总损失的形式如下:
用于无监督视频异常检测的合成伪异常:一种简单有效的基于掩码自动编码器的框架 论文阅读,论文阅读,音视频,论文阅读,深度学习,python,pycharm,transformer
其中 λ N λ_N λN λ P λ_P λP λ c s t λ_{cst} λcst是平衡超参数。

测试数据的异常分数。
在测试时,遵循VAD[2,6,10]的现有方法,我们预测帧级异常分数,并通过使用峰值信噪比(PSNR)计算这些分数。预测帧的PSNR和其真实值 Y Y Y用于计算异常分数,如下所示:
用于无监督视频异常检测的合成伪异常:一种简单有效的基于掩码自动编码器的框架 论文阅读,论文阅读,音视频,论文阅读,深度学习,python,pycharm,transformer
其中, N N N是在 Y ^ \widehat{Y} Y 中的像素总数。然后,我们通过最小-最大归一化将PSNR值归一化到[0,1]的范围,并计算规则得分:
用于无监督视频异常检测的合成伪异常:一种简单有效的基于掩码自动编码器的框架 论文阅读,论文阅读,音视频,论文阅读,深度学习,python,pycharm,transformer
其中t是帧索引。

3. EXPERIMENTS AND RESULTS

用于无监督视频异常检测的合成伪异常:一种简单有效的基于掩码自动编码器的框架 论文阅读,论文阅读,音视频,论文阅读,深度学习,python,pycharm,transformer
与重构的方法相比效果可以,与混合的方法相比简单。

4. CONCLUSION

在本文中,我们提出了一种简单而高效的基于掩码自动编码器的无监督视频异常检测框架。我们首先介绍了训练过程中的伪异常样本,这些样本是通过嵌入随机掩码仅从正常数据合成的。然后,我们提出了一种正态一致性训练策略,以规则化来自正态和相应伪异常数据的表示,这有助于模型充分学习正态表示,尽管帧中存在异常区域。所提出的方法可以帮助在正常和异常数据之间建立更明显的重建边界。在三个具有挑战性的视频异常检测数据集上进行的大量实验证明了我们提出的框架的有效性。文章来源地址https://www.toymoban.com/news/detail-765916.html

阅读总结:

  • 使用KL散度用以正太一致性训练
  • 引入的随机掩码生成伪异常数据

到了这里,关于用于无监督视频异常检测的合成伪异常:一种简单有效的基于掩码自动编码器的框架 论文阅读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • MemSeg:一种差异和共性来检测图像表面缺陷的半监督方法

    目录 1、摘要  2、Method 2.1 模拟异常样本  2.2 Memory Module  2.3 空间注意模块 2.4 多尺度特征融合模块 2.5 损失函数设置 2.6 Decoder模块 1、摘要 本文认为人为创建类内差异和保持类内共性可以帮助模型实现更好的缺陷检测能力,从而更好地区分非正常图像。如图一所示。 差异(

    2024年02月12日
    浏览(50)
  • AI无监督异常检测项目记录

    半年时间没更新博客,这期间主要验证搞通了几个最适合无监督项目落地的网络,选了几个比较好的网络进行落地部署。 --------------------------------------------------------------------------------------------------------------------------------- 参考:Qt多线程_红博啊的博客-CSDN博客 不得不说,Qt的多

    2024年02月14日
    浏览(28)
  • 使用自动编码器进行半监督异常检测

    由于本人水平有限,难免出现错漏,敬请批评改正。 更多精彩内容,可点击进入YOLO系列专栏、自然语言处理 专栏或我的个人主页查看 基于DETR的人脸伪装检测 YOLOv7训练自己的数据集(口罩检测) YOLOv8训练自己的数据集(足球检测) YOLOv5:TensorRT加速YOLOv5模型推理 YOLOv5:I

    2024年02月06日
    浏览(47)
  • 生成用于目标检测任务的合成图像教程:使用Blender、Python和3D资产

    生成用于目标检测任务的合成图像教程:使用Blender、Python和3D资产 缺少足够的训练数据是当前深度学习面临的一个主要问题。自动生成带有注释的合成图像是计算机视觉任务的一个有前途的解决方案。本文将首先概述合成图像数据的一些图像生成技术,然后生成一个无需手动

    2024年03月27日
    浏览(72)
  • 简单谈谈 EMP-SSL:自监督对比学习的一种极简主义风

    论文链接 :https://arxiv.org/pdf/2304.03977.pdf 代码 :https://github.com/tsb0601/EMP-SSL 其他学习链接 :突破自监督学习效率极限!马毅、LeCun联合发布EMP-SSL:无需花哨trick,30个epoch即可实现SOTA 如图,一张图片裁剪成不同的 patch,对不同的 patch 做数据增强,分别输入 encoder,得到多个

    2024年02月13日
    浏览(40)
  • 【阅读论文】USAD:多变量时间序列上的无监督异常检测

    USAD : UnSupervised Anomaly Detection on Multivariate Time Series IT系统的自动监控是Orange目前面临的挑战。考虑到其IT运营所达到的规模和复杂性,随着时间的推移,用于推断正常和异常行为的测量所需的传感器数量急剧增加,使得传统的基于专家的监督方法变得缓慢或容易出错。在本文中

    2024年02月12日
    浏览(46)
  • Drone-YOLO:一种有效的无人机图像目标检测

    点击蓝字 关注我们 关注并星标 从此不迷路 计算机视觉研究院 公众号ID | 计算机视觉研究院 学习群 | 扫码在主页获取加入方式 计算机视觉研究院专栏 Column of Computer Vision Institute 无人机图像中的目标检测是各个研究领域的重要基础。然而,无人机图像带来了独特的挑战,

    2024年02月07日
    浏览(49)
  • 一种全新的日志异常检测评估框架:LightAD

    本文分享自华为云社区《【AIOps】一种全新的日志异常检测评估框架:LightAD,相关成果已被软工顶会ICSE 2024录用》,作者: DevAI。 深度学习(DL)虽然在日志异常检测中得到了不少应用,但在实际轻量级运维模型选择中,必须仔细考虑异常检测方法与计算成本的关系。具体来

    2024年02月05日
    浏览(37)
  • 2023-一种无监督目标检测和实例分割方法【Cut and Learn for Unsupervised Object Detection and Instance Segmentation】

    Facebook 目标检测和分割依赖海量数据的标注,模型训练耗时最大的是数据采集和标注过程,无监督学习在目标检测和分割中的应用较少。 这篇文章提出提出了Cut-and-LEaRn(CutLER),一种用于训练无监督对象检测和分割模型的简单方法。利用自监督模型的特性在没有监督的情况

    2024年02月06日
    浏览(54)
  • 《一种改进的YOLOv5用于无人机捕获场景中的目标检测》论文笔记

           无人机图像处理中的目标检测逐渐成为近年来的研究热点。一般目标检测算法在应用于无人机场景时往往会显著下降。这是因为无人机图像是从高空拍摄的,分辨率高,小物体比例很大。为了在满足轻量化特性的同时提高无人机目标检测的精度,我们对YOLOv5s模型进行

    2024年02月02日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包