3D-CNN FOR FACIAL MICRO-AND MACRO-EXPRESSIONSPOTTING ON LONG VIDEO SEQUENCES USING TEMPORALORIEN阅读笔记

这篇具有很好参考价值的文章主要介绍了3D-CNN FOR FACIAL MICRO-AND MACRO-EXPRESSIONSPOTTING ON LONG VIDEO SEQUENCES USING TEMPORALORIEN阅读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

ACM MM22会议上的一篇文章,用于做表情微表情检测的。中科院Wang Sujing团队的工作,合作者是英国曼彻斯特大学的学者。
3D-CNN FOR FACIAL MICRO-AND MACRO-EXPRESSIONSPOTTING ON LONG VIDEO SEQUENCES USING TEMPORALORIEN阅读笔记,深度学习,论文解读,计算机视觉,笔记,计算机视觉,神经网络
摘要:
Optical flow is susceptible to drift error,which introduces a serious problem for motions with long-term dependencies,such as high frame-ratemacro-expression.
光流对漂移误差敏感,特别是对于具有长期依赖性的运动,如高帧率宏表情,存在严重问题。
We propose a purely deep learning solution which,rather than tracking framedifferential motion,compares via a convolutional model,each frame with two temporally localreference frames.
提出了一种纯深度学习解决方案,与其追踪帧差异运动不同,通过卷积模型比较每一帧与两个时间局部参考帧。
drift error
漂移误差是指在光流方法中,由于一系列计算的累积效应,导致跟踪物体位置时逐渐偏离真实位置的现象。光流方法基于在图像序列中计算相邻帧之间的像素位移,以捕捉物体的运动。然而,由于多次计算和累积,计算中的一些不确定性或错误可能导致位置估计的逐渐偏离。
漂移误差可能是由于多种因素引起的,包括图像噪声、运动模糊、非刚性运动等。这些误差会随着时间的推移而累积,最终导致跟踪的物体位置与真实位置之间存在显著的偏差。漂移误差是光流方法的一个挑战,尤其是在需要准确追踪物体长时间运动的应用场景中,如高帧率宏表情的分析。
1.简介
Facial expressions can be classified into two groups:macro-expression(MaE)and micro-expression(ME).These classifications are based on their relative duration and intensity,
面部表情可分为宏表情(MaE)和微表情(ME)两组,基于它们的相对持续时间和强度进行分类。
As it is an involuntary reaction,the emotionalstate of a person can be revealed through analysing MEs.
由于微表情是一种无意识的反应,通过分析微表情可以揭示一个人的情感状态。
Most of the previous methods utilise long short-term memory(LSTM)[13,14]or optical flow[13,15,16,17]to detecttemporal correlation of video sequences.
大多数先前的方法利用长短时记忆(LSTM)或光流来检测视频序列的时间相关性,但它们在计算上都很昂贵。
We also noticed that previous attempts lack duration centred analysis.We takeadvantage of the major difference between ME and MaE(they occur for different duration,where ME occurs less than0.5s while MaE occurs in 0.5s or longer)and propose a two-stream network with a different frame skip based on theduration differences for ME and MaE spotting.
我们注意到先前的尝试缺乏基于持续时间的分析,因此提出了一个基于两者持续时间差异的两流网络,用于微表情和宏表情的识别。
全文贡献:
the first end-to-end deep learning ME and MaE spotting method trained from scratch usinglong video datasets.
第一个从头开始使用长视频数据集训练的端到端深度学习微表情(ME)和宏表情(MaE)识别方法。
Our method uses a two-stream network with temporal oriented reference frame.The reference frames are twoframe pairs corresponding to the duration difference of ME and MaE.The two-stream network also possessesshared weights to mitigate overfitting.
我们的方法采用了一个双流网络,其中包含针对时间的定向参考帧。这些参考帧是两个帧对,对应于ME和MaE的持续时间差异。另外,双流网络还具有共享权重以减轻过拟合的特点。
The network architecture consists of only 3 convolutional layers with the capability of detecting co-occurrenceof ME and MaE using a multi-label system.
网络架构仅包含3个卷积层,能够使用多标签系统检测ME和MaE的共同出现。
To make the network less susceptible to uneven illuminations,Local Contrast Normalisation(LCN)is includedinto our network architecture.
为了使网络对不均匀的光照更不敏感,我们在网络架构中引入了局部对比度归一化(LCN)。
2.提出的方法
By using the duration difference of ME and MaE,wepropose a two-stream 3D-Convolutional Neural Network(3D-CNN)with temporal oriented frame skips.
通过利用ME和MaE的持续时间差异,我们提出了一种带有时间定向帧跳跃的双流3D卷积神经网络(3D-CNN)。
We define thetwo“streams"as ME and MaE pathways,as illustrated in Fig.1.They are structurally identical networks with sharedweights,but differ in frame skips.We use 3 convolutional layers and pool all the spatial dimensions before the denselayers using global average pooling.This design constrains the network to focus on regional features,rather than globalfacial features.
我们将这两个“流”定义为ME和MaE路径,如图1所示。它们是结构相同但具有共享权重的网络,不同之处在于帧跳跃。我们使用3个卷积层,并在密集层之前使用全局平均池化来合并所有空间维度。这个设计限制了网络关注区域性特征,而不是全局的面部特征。
we further propose that normalising the brightness and/or contrast of the images.
我们进一步提出对图像的亮度和/或对比度进行归一化。
整个模型的框架,双流代表两个任务,表情检测与微表情检测。
3D-CNN FOR FACIAL MICRO-AND MACRO-EXPRESSIONSPOTTING ON LONG VIDEO SEQUENCES USING TEMPORALORIEN阅读笔记,深度学习,论文解读,计算机视觉,笔记,计算机视觉,神经网络
2.1预处理
LCN[23]was inspired by computational neuroscience models that mimichuman visual perception[24]by mainly enhancing low contrast regions of images.
使用 Local Contrast Normalisation (LCN) 进行图像对比度的归一化,该方法受计算神经科学模型启发,主要通过增强图像的低对比度区域来模拟人类视觉感知。
这个是LCN的效果。
3D-CNN FOR FACIAL MICRO-AND MACRO-EXPRESSIONSPOTTING ON LONG VIDEO SEQUENCES USING TEMPORALORIEN阅读笔记,深度学习,论文解读,计算机视觉,笔记,计算机视觉,神经网络
LCN normalises the contrast of animage by conducting local subtractive and divisive normalisations[23].It performs normalisation on local patches(per pixel basis)by comparing a central pixel value with its neighbours.
LCN 通过局部减法和除法归一化来规范化图像的对比度,通过比较中心像素值与其邻居的值,对每个像素进行局部补丁的归一化。
The unique feature of LCN is its divisivenormalisation,which consists of the maximum of local variance or the mean of global variance.
LCN 的独特之处在于其除法归一化,包括局部方差的最大值或全局方差的均值。这种方法对光照不均匀的情况具有鲁棒性,能够在亮度或对比度发生变化时保持面部特征的稳定。
In our implementation,Gaussian convolutions are used to obtain the local mean and standard deviation.Gaussian convolution acts as a low pass filter which reduces noise.
在实现中,使用高斯卷积获取局部均值和标准差,高斯卷积充当低通滤波器以减少噪音。
LCN的计算方式
3D-CNN FOR FACIAL MICRO-AND MACRO-EXPRESSIONSPOTTING ON LONG VIDEO SEQUENCES USING TEMPORALORIEN阅读笔记,深度学习,论文解读,计算机视觉,笔记,计算机视觉,神经网络
2.2网络结构
We propose a two-stream network using a 3D-CNN(network architecture shown in Figure 1).Our network takesadvantage of the duration differences of ME and MaE and encouraging one network to be more sensitive to ME and theother to MaE.This is made possible by using a different number of skipped frames in each respective stream(usingthe maximum duration of a ME,0.5s,as the threshold for the duration difference).
我们提出了一个基于3D-CNN的两流网络(如图1所示),利用ME和MaE的持续时间差异,通过在每个流中使用不同数量的跳帧来使一个网络对ME更敏感,另一个对MaE更敏感。
The frame skips are determined based on the k-th frame.The k-th frame,described byMoilanen et al.[25],is the average mid-point of odd-numbered facial expression interval of the whole dataset.
跳帧的确定基于第k帧,该帧是数据集整个表情间隔的奇数平均中点。
To the best of our knowledge,we are the first in ME spotting to weight imbalanced datasetsusing a loss function.
我们是微表情(ME)识别中首次使用损失函数对不平衡数据集进行加权的先行者。
这个是整个网络的损失函数
3D-CNN FOR FACIAL MICRO-AND MACRO-EXPRESSIONSPOTTING ON LONG VIDEO SEQUENCES USING TEMPORALORIEN阅读笔记,深度学习,论文解读,计算机视觉,笔记,计算机视觉,神经网络
Depthwiseconvolution is convolution applied on individual channels instead of all channel at once(as in regular convolutional).Pointwise convolution is convolution that uses a 1×1 kernel with a third dimension of d(where d is the number ofchannels)on the feature maps.
深度卷积是对各个通道进行卷积,而不是像常规卷积一样一次对所有通道进行卷积。点卷积使用具有第三维度d(其中d是通道数)的1×1内核对特征图进行卷积。
GAP
GAP层用于将卷积输出进行平均池化,以强制模型对局部面部运动进行建模。这有助于捕捉图像中的局部特征。实现: 在卷积输出上应用全局平均池化,将特征图的每个通道进行平均,生成一个全局平均值。这样可以减少整个特征图的维度,同时保留每个通道的重要信息。
A global average pooling(GAP)layer is used to flatten the convolution output andenforce modelling of localised facial movements.
全局平均池化(GAP)层用于压平卷积输出并强制对局部面部运动进行建模。这里采用GAP,而非1×1卷积再普通池化,感觉是为了降低计算量,因为GAP的能力应该弱于 1×1卷积+普通池化。
The output layer consists of two dense nodes with sigmoid activation representing the presence of MEand MaE.
输出层包含两个带有Sigmoid激活的密集节点,分别表示ME和MaE的存在。
3.实验
Randomised frame skips are used in training and validation.This creates a more realistic scenario as theduration of each facial expression is unknown in real life.
在训练和验证过程中使用随机帧跳过,以更真实地模拟实际情况,因为在现实生活中每个面部表情的持续时间是未知的。
4.结果
We apply the Intersection over Union(IoU)method used in Micro-Expression Grand Challenge(MEGC)III[16,29]tocompare with other methods.
我们应用了微表情大赛(MEGC)III中使用的交并比(IoU)方法来与其他方法进行比较。
计算的方法如下,与图像分割有些类似
3D-CNN FOR FACIAL MICRO-AND MACRO-EXPRESSIONSPOTTING ON LONG VIDEO SEQUENCES USING TEMPORALORIEN阅读笔记,深度学习,论文解读,计算机视觉,笔记,计算机视觉,神经网络
实验的数据集是SAMM-LV和CAS(ME)2,实验结果肯定是本文的好。
Butterworth filter
Butterworth滤波器是一种常用的信号处理滤波器,属于低通滤波器类型。它的主要作用是通过去除信号中的高频噪声,同时保留低频信号,来平滑或清除信号中的不需要的频率成分。
The main advantage of this filter is it has a flat magnitude filter whereby signalswith frequency below cut-off frequency do not undergo attenuation.
该滤波器的主要优势在于其具有平坦的幅度响应,低于截止频率的信号不会受到衰减。
Multi-Scale Filter
Multi-Scale Filter(多尺度滤波器)通常用于增强信号中的特定频率成分,以帮助检测或突出感兴趣的信号特征。
5.结论
We presented a temporal oriented two-stream 3D-CNN model that shows promising results in ME and MaE spotting inlong video sequences.Our method took advantage of the duration difference of ME and MaE by making a two-streamnetwork that is sensitive to each expression type.Despite only having 3 convolutional layers,our model showedstate-of-the-art performance in SAMM-LV and remained competitive in CAS(ME)2.LCN has proven to have significantimprovement in our model and the ability to address uneven illumination,which is a major weakness of optical flow.
1. 我们提出了一种以时间为导向的两流3D-CNN模型,对长视频序列中的微表情(ME)和宏表情(MaE)有良好的检测效果。2. 我们的方法利用了ME和MaE的持续时间差异,通过创建一个对每种表情类型都敏感的两流网络来实现。3. 尽管我们的模型只有3个卷积层,但在SAMM-LV中表现出最先进的性能,并在CAS(ME)2中保持竞争力。4. LCN在我们的模型中取得了显著的改善,并且能够解决光流法的主要缺陷之一,即不均匀光照。

文章来源地址https://www.toymoban.com/news/detail-843862.html

到了这里,关于3D-CNN FOR FACIAL MICRO-AND MACRO-EXPRESSIONSPOTTING ON LONG VIDEO SEQUENCES USING TEMPORALORIEN阅读笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ChatGP4 的体验 一站式 AI工具箱 -—Poe(使用教程)

    界面介绍: 是一个基于机器学习的聊天机器人,能够识别自然语言并做出智能回答。Sage通过自然语言处理和对话管理技术来实现对话的自然流畅和个性化,同时支持多种语言。Sage较为擅长语言相关的工作,例如创作文章,做摘要等。 是由开放人工智能(OpenAI)公司开发的一

    2024年02月11日
    浏览(100)
  • 第一章 熟悉Objective-C

    Objective—C语言是由Smalltalk演化而来,后者是消息型语言的鼻祖,所以该语言使用的“消息结构”而非“函数调用”。 1. 消息和函数调用之间的区别 关键区别在于: 使用消息结构的语言,其运行所应执行的代码由运行环境来决定;而使用函数调用的语言,则由编译器决定。

    2024年01月18日
    浏览(39)
  • ChatGPT 报错“Oops!We ran into an issue while signing you in…”如何解决?

    ChatGPT报错:“Oops!We ran into an issue while signing you in, please take abreak and try again soon.” 说明:哎呀!我们在登录时遇到了一个问题,请稍作休息并尽快再试一次。 原因: 看到这个提示时,说明环境有问题,浏览器可能不干净,有缓存等。并非账号被封了! 解决: 请清理下浏览

    2024年01月20日
    浏览(40)
  • Dragonfly 基于 P2P 的文件和镜像分发系统

    作者: 孙景文、吴迪 网络下载 提起网络下载领域,你应该首先会想到基于 TCP/IP 协议簇的 C/S 模式。这种模式希望每一个客户机都与服务器建立 TCP 连接,服务器轮询监听 TCP 连接并依次响应,如下图: 上世纪末期,基于 C/S 模式的思想,人们发展了 HTTP , FTP 等应用层协议。

    2024年01月15日
    浏览(43)
  • 【微信小程序】通过云函数获取用户openid

    1.pages同级目录下新建新文件夹,命名为cloudFunctions(其他名字也可以)。 2.project.config.json中添加以下内容,值为上一步创建的文件夹名字。编译一次后上一步创建的文件夹前图标就带“云”了。 3.app.js内的App中添加 1.右击cloudFunctions文件夹,点击【新建Node.js云函数】,命名为

    2024年02月10日
    浏览(57)
  • SpringBoot下使用自定义监听事件

    事件机制是Spring的一个功能,目前我们使用了SpringBoot框架,所以记录下事件机制在SpringBoot框架下的使用,同时实现异步处理。事件机制其实就是使用了观察者模式(发布-订阅模式)。 Spring的事件机制经过如下流程: 1、自定义事件,继承org.springframework.context.ApplicationEvent抽象类

    2024年02月14日
    浏览(78)
  • 国内网络摄像机的端口及RTSP地址

    默认IP地址:192.168.1.64/DHCP 用户名admin 密码自己设 端口:“HTTP 端口”(默认为 80)、“RTSP 端口”(默认为 554)、“HTTPS 端 口”(默认 443)和“服务端口”(默认 8000),ONVIF端口 80。 RTSP地址:rtsp://[username]:[password]@[ip]:[port]/[codec]/[channel]/[subtype]/av_stream 说明: username: 用户

    2024年02月14日
    浏览(74)
  • 华为认证云计算专家(HCIE-Cloud Computing)--练习题

    1.(判断题)华为云stack支持鲲鹏架构,业务可从X86过渡到鲲鹏。 正确答案:正确 2.(判断题)业务上云以后,安全方面由云服务商负责,客户自己不需要做任何防护 A 对 B 错 正确答案:B 3.( 多选题 ) 某企业有一个购物系统部署在HCS,可以选择哪些服务做安全保障? A WAF B HSS C DBAS

    2024年01月17日
    浏览(56)
  • 修改 Zookeeper 的客户端连接端口(默认2181端口)

    Zookeeper 的配置文件通常名为 zoo.cfg,位于 Zookeeper 安装目录的 /conf 目录下。初始配置如下: 修改客户端连接端口的步骤如下: 找到并打开 zoo.cfg 文件 修改客户端端口:找到或添加 clientPort 属性,将其更改为 2281。 保存并重启 Zookeeper 服务。 特别提醒 : 如果在 zoo.cfg 文件中

    2024年04月28日
    浏览(38)
  • 数据分析(以kaggle上的加州房价为例)

    数据来源:House Prices - Advanced Regression Techniques 参考文献: Comprehensive data exploration with Python 偏度(Skewness)是一种衡量随机变量概率分布的偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度可以用来反映数据分布相对于对称分布的偏斜程度。偏度的取值范

    2024年02月09日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包