顶刊TPAMI 2022!基于不同数据模态的行为识别:最新综述

这篇具有很好参考价值的文章主要介绍了顶刊TPAMI 2022!基于不同数据模态的行为识别:最新综述。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群

顶刊TPAMI 2022!基于不同数据模态的行为识别:最新综述

Human Action Recognition from Various Data Modalities: A Review

论文:https://arxiv.org/abs/2012.11866

1. 介绍

人类行为识别旨在了解人类的行为,并为行为指定标签,例如,握手、吃东西、跑步等。它具有广泛的应用前景,因此在计算机视觉领域受到越来越多的关注。人类行为可以使用各种数据模态来表示,如RGB、骨架、深度、红外序列、点云、事件流、音频、加速信号、雷达和WiFi,这些数据模态在不同的场景下具有不同的优势。因此,现有的论文试图基于主流的深度学习来研究不同的数据模态的的行为识别方法。

该论文从模态的角度,对当前基于深度学习的行为识别方法进行了全面的综述。具体来说,

(1)该论文回顾了基于单模态的行为识别方法,这些模态包括RGB、骨架、深度、红外序列、点云、事件流、音频、加速信号、雷达和WiFi。

(2)该论文回顾了基于多模态的行为识别方法,并将其分为多模态融合跨模态协同学习两种类型。

(3)该论文回顾了最新和最先进的深度学习方法,包括CNN、RNN、GCN和Transformer,并在几个基准数据集上对现有方法及其性能进行了全面比较。

2.「数据模态」都有哪些?

在本文中,主要回顾了基于RGB、骨架、深度、红外序列、点云、事件流、音频、加速信号、雷达和WiFi模态的行为识别方法。此外,其他的数据模态,如角速度、射频、肌电图等等,也可被用于行为识别。

顶刊TPAMI 2022!基于不同数据模态的行为识别:最新综述

(1)RGB视频:行为识别领域中最常见的数据模态,被广泛地应用于视觉监视、自主导航等应用中。RGB模态包含了丰富的场景上下文外观信息,但易于受到背景、视角、人体尺度和照明条件变化的影响。对于RGB模态,最常见的四类深度学习网络是双流2D CNN,RNN,3D CNN,和Transformer

顶刊TPAMI 2022!基于不同数据模态的行为识别:最新综述

(2)骨架序列:编码人体关节的轨迹,当动作执行不涉及物体或场景上下文时简洁高效,具有尺度不变性、对纹理和背景变化的鲁棒性。对于骨架模态,最常见的四类深度学习网络是CNN,RNN,GCN,和Transformer

顶刊TPAMI 2022!基于不同数据模态的行为识别:最新综述

(3)深度图:本质是将3D数据转换为2D图像,提供了可靠的人体三维结构和几何形状信息,对颜色和纹理的变化具有鲁棒性。

(4)红外序列:不依赖外部环境光,适用于黑暗环境中的行为识别。

(5)点云:获取目标的三维结构和距离信息,在机器人导航和自动驾驶中得到广泛应用。点云由大量的点集合组成,这些点代表了在空间参考系统下目标的空间分布和表面特征,具有很强的空间轮廓和三维几何形状表征能力,因此适用于行为识别研究。

(6)事件流:事件相机,也被称为神经形态相机或动态视觉传感器,可以捕捉光照变化,并独立地为每个像素产生异步事件输出。因此,事件流数据保留了主体的运动信息,避免过多的背景视觉冗余。

(7)音频:是视频数据任务十分流行的辅助模态。由于视觉和音频流之间的同步,音频数据可以提供额外信息,并且可以用于定位动作,以减少人类标记工作和减少计算成本。

(8)加速信号:通常由IMU传感器获取,用于细粒度和多模态的行为识别。

(9)雷达:雷达高频率和短波长的信号使得其可用于细粒度的感知任务。雷达频谱图对光照和天气条件变化具有鲁棒性,保护隐私,可用于穿越墙壁的行为识别。

(10)WiFi:最常见室内无线信号类型之一,主要利用信道状态信息(CSI)的变化进行行为识别的感知任务。

3.「多模态」方法有哪些?

在现实生活中,人们往往以多种认知方式感知环境。同样,多模态机器学习是一种旨在处理和关联来自多个模态信息的建模方法。通过综合各种数据模态的优势和能力,多模态机器学习通常可以提供更健壮和更准确的行为识别结果。多模态学习方法主要分为两种,即融合协同学习

融合是指将来自两种或两种以上模态的信息整合进行训练和推理,例如,音频数据可以作为骨架模态的补充信息来区分“拍盘子”和“拍袋子”动作。

顶刊TPAMI 2022!基于不同数据模态的行为识别:最新综述

协同学习是指不同数据模态之间的知识迁移,例如,骨架数据可以作为辅助模态,使模型能够从RGB视频中为行为识别提取更多的判别特征。同时,协同学习还适用于现实生活中某些模态缺失的情况。

4.「数据集」有哪些?

近些年来,大量的行为识别数据集被提出以训练和评估各种方法,该论文总结了适用于不同模态的基准数据集,并提供了其相关属性。

顶刊TPAMI 2022!基于不同数据模态的行为识别:最新综述

5. 结语

行为识别是近些年来备受关注的重要研究领域,各种具有不同特征的数据模态被研究使用。虽然已有大量的行为识别工作被提出,但在(1)数据集、(2)多模态学习、(3)低成本计算、(4)动作预测、(5)小样本学习、(6)非监督和半监督学习等方面仍需要进一步的探索,坚信行为识别将在未来发挥更加关键的作用。

该论文发表在 IEEE TPAMI - DOI: 10.1109/TPAMI.2022.3183112。

这是其最新版本(2022年6月更新),涵盖最新的2022 CVPR。作者拟对此论文的arXiv版本进行每年定期更新,以覆盖人类行为识别领域的最新进展。

最后附论文链接:https://arxiv.org/abs/2012.11866

点击进入—> CV 微信技术交流群

 
 
 
 
 
 

ICCV和CVPR 2021论文和代码下载

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF文章来源地址https://www.toymoban.com/news/detail-460553.html

行为识别交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如行为识别+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

到了这里,关于顶刊TPAMI 2022!基于不同数据模态的行为识别:最新综述的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 0008期基于AI识别不同运动类型职业-含数据集

    本代码是基于python pytorch环境安装的。 下载本代码后,有个requirement.txt文本,里面介绍了如何安装环境 数据集介绍,下载本资源后,界面如下: 数据集文件夹存放了本次识别的各个类别图片。 本代码对数据集进行了预处理,包括通过在较短边增加灰边,使得图片变为正方形

    2024年02月20日
    浏览(32)
  • 基于mediapipe的姿态识别和简单行为识别

    源码地址: 🚀🚀🚀🚀 其实这部分很简单,直接在windows命令行的环境下 就可以啦 Mediapipe是一个用于构建机器学习管道的框架,用户处理视频、音频等时间序列数据。这个跨平台框架适用于桌面/服务器、Android、ios和各类嵌入式设备。 目前mediapipe包含16个solutions,分别为 总

    2024年02月02日
    浏览(54)
  • 多模态 | 基于GNN的多模态情感识别技术COGMEN项目复现

    COGMEN: COntextualized GNN based Multimodal Emotion recognitioN COGMEN: 基于GNN的多模态情感识别技术 Paper:   https://arxiv.org/abs/2205.02455  源代码 GitHub - Exploration-Lab/COGMEN 论文翻译及总结可参考我另外一篇博文:多模态 |COGMEN: COntextualized GNN based Multimodal Emotion recognitioN论文详解_夏天|여름이다

    2023年04月09日
    浏览(61)
  • NIPS2022|南京大学提出基于点击后行为的广义延迟反馈模型

    Generalized Delayed Feedback Model with Post-Click Information in Recommender Systems Jia-Qi Yang De-Chuan Zhan Nanjing University https://proceedings.neurips.cc/paper_files/paper/2022/file/a7f90da65dd41d699d00e95700e6fa1e-Paper-Conference.pdf 转化率预估(比如预测某个用户购买某个商品的概率)在机器学习推荐系统中是一个基本问

    2024年02月05日
    浏览(45)
  • 基于深度学习的多模态语音识别与合成

    作者:禅与计算机程序设计艺术 语音识别(ASR)、语音合成(TTS)及其相关技术一直是当今人工智能领域的一大热点,也是当前研究的重点方向之一。近年来随着深度学习技术的不断突破,多模态语音理解和处理技术的进步,结合深度学习方法的多模态语音识别系统得到了广

    2024年02月10日
    浏览(59)
  • 基于深度学习的多模态语音识别:如何提高语音识别准确率和鲁棒性

    作者:禅与计算机程序设计艺术 随着语音识别技术的发展,采用多种模态(声学、语言模型、视觉特征等)进行联合建模,基于深度学习的多模态语音识别取得了新进展。传统的声学模型或手工特征工程方法已经无法满足实时、高精度、低延迟的需求,多模态语音识别需要解决

    2024年02月13日
    浏览(63)
  • 机器学习:基于XGBoost对信用卡欺诈行为的识别

    作者:i阿极 作者简介:Python领域新星作者、多项比赛获奖者:博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦!👍👍👍 📜📜📜如果有小伙伴需要数据集和学习交流,文章下方有交流学习区!一起学习进步!💪 大家好,我

    2024年02月08日
    浏览(65)
  • 基于飞浆paddle的Mv3驾驶员行为识别

     “其实一开始并没有想学深度学习”  train_list格式(test同理):图片路径+t+标签   newLabels格式:标签

    2024年04月15日
    浏览(47)
  • 科研笔记-无线感知第1篇(基于WIFI CSI进行人体行为识别调查)

    目录 基于WIFI CSI进行人体行为识别调查 人体姿态识别研究现状: 无线感知相关知识点: WIFI系统的局限性: 基于 Wi-Fi CSI 的行为识别: 基于直方图的技术: CSI 去噪: 特征提取: 用于分类的机器学习: 多用户活动识别: 人体姿态识别研究现状:       1,在现有的系统中,个人

    2024年02月05日
    浏览(57)
  • 基于可解释性特征矩阵与稀疏采样全局特征组合的人体行为识别

    论文还未发表,不细说,欢迎讨论。 Title: A New Solution to Skeleton-Based Human Action Recognition via the combination usage of explainable feature extraction and sparse sampling global features. Abstract: With the development of deep learning technology, the vision-based applications of human action recognition (HAR) have received great prog

    2024年02月08日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包