ICCV 2023 | MoCoDAD:一种基于人体骨架的运动条件扩散模型,实现高效视频异常检测

这篇具有很好参考价值的文章主要介绍了ICCV 2023 | MoCoDAD:一种基于人体骨架的运动条件扩散模型,实现高效视频异常检测。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

ICCV 2023 | MoCoDAD:一种基于人体骨架的运动条件扩散模型,实现高效视频异常检测,技术文章,计算机视觉

论文链接: https://arxiv.org/abs/2307.07205

视频异常检测(Video Anomaly Detection,VAD)扩展自经典的异常检测任务,由于异常情况样本非常少见,因此经典的异常检测通常被定义为一类分类问题(One-Class Classification,OCC)。而对于VAD而言,属于异常情况的样本更是非常罕见,因此常见的方法仅使用大量的正常样本进行训练,这些方法会将正常视频的隐藏特征限制在一个有限的空间内,然后通过距离、概率分布差异、重构和预测误差等度量方式将空间之外的样本检测为异常。

本文介绍一篇发表在ICCV 2023上的工作,提出了一种全新的视频异常检测方法,称为运动条件引导的扩散模型MoCoDAD。该模型主要针对于视频中人体的骨骼表示进行建模,并假设视频中出现的正常现象与异常现象都是多模态的,提出使用扩散模型来对人体未来姿态进行预测。通过将视频中行人的历史运动作为条件,利用扩散过程中的迭代更新机制来拟合人体运动并生成未来帧,当生成的运动骨架信息与真实未来运动骨架信息差异较大时,就可以认定为检测到异常。作者在4个标准的人体骨架视频异常检测基准:UBnormal、HR-UBnormal、HR-STC和HR-Avenue上进行了大量的实验,证明MoCoDAD已达SOTA效果。

01. 引言

虽然计算机视觉近些年发展非常迅速,但视频异常检测仍然是一项具有挑战性的任务,这其中主要有两大原因:

(1)异常的定义非常主观,并且通常会根据上下文和应用场景的改变而变化,因此很难对其进行普遍定义。

(2)异常事件本质上是罕见的,正常事件的数据量很庞大,而异常事件数据则非常稀少,有严重的数据不平衡问题

为了解决数据稀缺的问题,现有的模型通常仅从正常样本中学习(也称为一类分类),也有学者将这种方式称为半监督学习。本文基于这种背景提出了一种运动条件引导的扩散模型(Motion Conditioned Diffusion Anomaly Detection,MoCoDAD),它假设正常和异常都是多模态的。给定一个运动序列,无论是正常的还是异常的,都首先将序列进行分割,随后将未来帧退化为随机噪声。以第一个(历史帧)清晰输入帧作为条件,MoCoDAD会对其进行多模态重建。随后在通过比较多模态分布来区分正常和异常。在正常情况下,MoCoDAD生成的运动是多样且与真实情况相关的。而在异常的情况下,模型生成的运动虽然也具有一定的多样性,但缺乏针对性

ICCV 2023 | MoCoDAD:一种基于人体骨架的运动条件扩散模型,实现高效视频异常检测,技术文章,计算机视觉

上图展示了MoCoDAD对正常和异常示例生成未来帧的效果对比,其中红色(右)和绿色(左)分别代表异常和正常的示例。在图中底部还可视化了50个未来帧的特征向量,虚线轮廓表示当前输入序列所处的分布范围,其中的红点表示与当前预测帧所对应真实帧的特征向量,在正常情况下,真实帧会处在分布的中间区域,且预测结果与真实帧是相关的。在异常情况下,真实帧会处于分布的尾部,这会产生较差的预测,并且可以突出异常现象。

02. 本文方法

MoCoDAD基于去噪扩散概率模型(DDPM),并在其基础上通过对人体运动学特征进行建模,并通过人体骨架轨迹点信息作为基本单元,通过随机平移的方式来更新每一帧的身体关节坐标进行预测

2.1 模型架构

下图展示了MoCoDAD模型的整体架构,分为两个主要模块:(1)前向轨迹扩散模型和(2)运动条件引导自编码器。其中扩散模型使用橙色块表示,其任务是根据输入序列帧来估计其中退化噪声,从而重建实际的未来帧。作者仿照先前工作AnoDDPM[1],将这一部分设置为基于U-Net的架构。随后前向扩散网络会逐渐收缩,然后将生成的姿势序列拓展到与输入序列大小相同的空间尺寸。此外,考虑到输入序列的时序维度,作者使用时空可分离GCN(STS-GCN)[2]来构建U-Net扩散层

ICCV 2023 | MoCoDAD:一种基于人体骨架的运动条件扩散模型,实现高效视频异常检测,技术文章,计算机视觉

ICCV 2023 | MoCoDAD:一种基于人体骨架的运动条件扩散模型,实现高效视频异常检测,技术文章,计算机视觉

2.2 前向轨迹扩散模型

ICCV 2023 | MoCoDAD:一种基于人体骨架的运动条件扩散模型,实现高效视频异常检测,技术文章,计算机视觉

2.3 运动条件引导自编码器

ICCV 2023 | MoCoDAD:一种基于人体骨架的运动条件扩散模型,实现高效视频异常检测,技术文章,计算机视觉

03. 实验效果

本文在四个标准的视频异常检测数据集上进行了实验,分别是UBnormal、HR-UBnormal、HR ShanghaiTech Campus(HR-STC)和HRAvenue。其中UBnormal数据集为计算机合成数据集。其余三个数据集均为在真实监控场景中捕获的视频。模型的评价指标选用ROC-AUC。作者选取了包含MPED-RNN、GEPC、SSMTL++和COSKAD等在内的8个常见的视频异常检测算法进行实验对比,实验效果如下表所示。

ICCV 2023 | MoCoDAD:一种基于人体骨架的运动条件扩散模型,实现高效视频异常检测,技术文章,计算机视觉

上表中前四种方法由于使用了异常片段的标签进行训练,因此不在OCC方法的范畴内(很多文献将这类方法称为弱监督方法),直接与本文方法进行对比不公平。可以看到MoCoDAD仍然取得了最好的效果,相比于同类方法COSKAD,本文方法在两个数据集上性能分别提高了3.6%和2.9%。甚至与弱监督方法相比,MoCoDAD也有非常明显的优势,例如与TimeSFormer相比,本文方法的性能基本与其持平,但参数仅为288K,而TimeSFormer的参数高达121M

ICCV 2023 | MoCoDAD:一种基于人体骨架的运动条件扩散模型,实现高效视频异常检测,技术文章,计算机视觉

为了进一步分析扩散过程对视频异常检测性能的影响,作者对扩散模型生成代数 m 和异常分数 S 的聚合策略进行了消融分析,如上图所示,图左侧表示四种不同聚合策略得到的重构误差直方图,图右测展示了模型检测AUC分数与生成代数之间的相关性,其中每条曲线对应不同的聚合统计量。

04. 总结

本文基于扩散模型提出了一种新型的视频异常检测方法MoCoDAD,作者强调,他们首次将扩散模型技术引入到这一领域,通过对人体骨架序列运动情况进行分析,MoCoDAD可以高效的理解画面中人体的运动趋势,在正常情况下,模型就可以根据观察到的历史序列对未来序列进行预测。而在异常情况下,模型在异常运动信息的引导下,会展现出与真实未来序列的偏差,通过这一偏差,就可以精确的实现异常动作的检测。此外由于MoCoDAD无需任何像素外观信息,仅对人体骨架信息进行计算,可以实现轻量化的网络设计和更好的计算效率

参考

[1] Julian Wyatt, Adam Leach, Sebastian M. Schmon, and Chris G. Willc cks. Anoddpm: Anomaly detection with denoising diffusion probabilistic models using simplex noise. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, pages 650–656, June 2022.

[2] Theodoros Sofianos, Alessio Sampieri, Luca Franco, and Fabio Gala so. Space-time-separable graph convolutional network for pose forecas ing. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 11209–11218, 2021.


  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区文章来源地址https://www.toymoban.com/news/detail-696980.html

到了这里,关于ICCV 2023 | MoCoDAD:一种基于人体骨架的运动条件扩散模型,实现高效视频异常检测的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【生物力学】《人体骨肌系统生物力学》- 王成焘老师 - 第3章 - 人体运动测量与仿真分析

    第2章 回到目录 后续暂时用不到 人体运动是神经系统控制 1000 多块肌肉有节律收缩,驱动 200 多块骨骼绕 100 多个关节协同运动的结果。人体运动信息是人体骨肌运动系统和神经控制系统等多方面综合运动功能的宏观反映,人体不同的运动功能障碍/疾病和康复水平在运动信息

    2024年02月07日
    浏览(45)
  • 十五、AI运动识别中,如何判断人体站位的远近?

    【云智AI运动识别小程序插件】,可以为您的小程序,赋于 人体检测识别、运动检测识别、姿态识别检测 AI能力。本地原生识别引擎,无需依赖任何后台或第三方服务,有着识别速度快、体验佳、扩展性强、集成快、成本低的特点,本篇实现需要使用此插件,请先行在微信服

    2024年02月04日
    浏览(32)
  • 【一步步开发AI运动小程序】六、人体骨骼图绘制

    随着人工智能技术的不断发展,阿里体育等IT大厂,推出的“乐动力”、“天天跳绳”AI运动APP,让 云上运动会、线上运动会、健身打卡、AI体育指导 等概念空前火热。那么,能否将这些在APP成功应用的场景搬上小程序,分享这些概念的红利呢?本系列文章就带您一步一步从

    2024年02月06日
    浏览(46)
  • 【一步步开发AI运动小程序】十一、人体关键点跳跃追踪

    随着人工智能技术的不断发展,阿里体育等IT大厂,推出的“乐动力”、“天天跳绳”AI运动APP,让 云上运动会、线上运动会、健身打卡、AI体育指导 等概念空前火热。那么,能否将这些在APP成功应用的场景搬上小程序,分享这些概念的红利呢?本系列文章就带您一步一步从

    2024年02月07日
    浏览(60)
  • 『论文精读』FastViT(ICCV 2023,Apple开源)论文解读

    『论文精读』FastViT(ICCV 2023,Apple开源)论文解读 论文下载链接:https://arxiv.org/pdf/2303.14189.pdf 论文代码链接:https://github.com/apple/ml-fastvit 关于VIT论文的解读可以关注我之前的文章:『论文精读』Vision Transformer(VIT)论文解读 关于Deit论文的解读可以关注我之前的文章:『论文精读

    2024年02月12日
    浏览(32)
  • CVPR 2023 | 用户可控的条件图像到视频生成方法(基于Diffusion)

    注1:本文系“计算机视觉/三维重建论文速递”系列之一,致力于简洁清晰完整地介绍、解读计算机视觉,特别是三维重建领域最新的顶会/顶刊论文(包括但不限于 Nature/Science及其子刊; CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML, TPAMI, IJCV 等)。 本次介绍的论文是: CVPR 2023 | 用户可控的条件图

    2024年02月13日
    浏览(41)
  • 树莓派zero2W学习四OpenCV初探索(人体检测,运动物体检测)

    这么插入 然后修改树莓派配置,开启摄像头模块。 sudo raspi-config 再次检查 vcgencmd get_camera supported = 1 detected = 0 detected = 0 表明没有接入摄像头设备,看下设备是否插反了 supported = 1 detected = 1 # detected=1 表示识别到1个摄像头 测试拍照功能 $ raspistill -o test.jpg motion 安装 motion $ sud

    2024年02月21日
    浏览(36)
  • 【ICCV2023】Scale-Aware Modulation Meet Transformer

    论文:https://arxiv.org/abs/2307.08579 代码:https://github.com/AFeng-x/SMT 解读:ICCV2023 | 当尺度感知调制遇上Transformer,会碰撞出怎样的火花? - 知乎 (zhihu.com) 本文提出了一种新的视觉变换器——尺度感知调制变换器(Scale-Aware Modulation Transformer, SMT),通过将CNN和ViT相结合,可以有效

    2024年02月15日
    浏览(46)
  • 【Call for papers】ICCV-2023(CCF-A/人工智能/2023年3月8日截稿)

    ICCV is the premier international computer vision event comprising the main conference and several co-located workshops and tutorials. We expect ICCV 2023 to happen in person at the Paris Convention Center in downtown Paris. Jana Kosecka, Jean Ponce, Cordelia Schmid, Andrew Zisserman 会议介绍: ICCV是主要的国际计算机视觉活动,包括主要会

    2023年04月08日
    浏览(42)
  • 【计算机视觉】ICCV2023放榜!一起看看CV最新热门研究方向!

    最近吃过晚饭看到新闻的时候,属实有点惊讶: ICCV 2023 近日也开奖了!看了一下,总共收录了2160篇论文,创了历史新高。作为计算机视觉三大顶级会议之一,ICCV 收录的论文自然也都具有非常高的研究价值,建议有需求的同学多关注多关注,说不定下一篇中稿的论文ideal就在

    2024年02月07日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包