一、论文信息:
-
题目:Deepfake Video Detection Based on Spatial,Spectral, and Temporal Inconsistencies UsingMultimodal Deep Learning(多模态伪造检测——视觉+频谱+语音)
-
作者团队:
-
会议:AIPR 2020
二、背景与创新
-
背景:合成视频威胁到数字媒体的信任与隐私,许多deepfake检测方法使用单帧视频,并且只专注于图像中的空间信息或被操纵视频的时间不一致性来实现鉴伪,单模态。
-
创新:作者提出一种混合深度学习方法,建立了一个多模态网络来检测深度伪造视频,主要包括三个子网络:唇读+语音识别特征、音频信号+频谱、视觉+频谱。
三、网络结构
NOLANet:
子网络
1)VSNet(视觉+频谱):该子网络仅评估视频的视觉特征所提供的消息。该子网络根据XceptionNet网络特征和1D DCT特征来估计时间特征。XceptionNet输出特征大小为2048,三个界标边界框的每个1D DCT的总和为765,这些特征被连接,总的输入大小为2324个特征,并输入到具有1秒时间窗口的LSTM做预测。
2)FourierNet(音频信号+频谱):傅里叶网络专注于视觉特征的频谱信息以及音频信号的频谱 ,视觉特征的频谱信息通过关键点的DCT和具有音频样本的短时傅里叶变换的音频的频谱信息来计算,每个输入的时间跨度为1秒,这些特征被连接起来,总特征大小为1495,并送进LSTM。
3)LipSpeech(唇读+语音):用于评估视觉数据与音频数据的对齐情况,即比较LipNet和DeepSpeech2的输出,LipNet是基于唇读预测文本,DeepSpeech2基于音频预测语音,两个子网络基于的假设为:分别固有的知道视位和音素,这些模型的每一个输入是1秒的序列,从而产生表示基于音频的1秒翻译文本和基于嘴部运动的1秒翻译文本的输出特征向量,并将其输入到LSTM中。
四、数据处理
1、输入输出:
-
输入:视频
-
输出:视频二分类(真/假)
-
数据集:DFDC数据集;5000个视频,真假比例1:1,训练集与测试集比例9:1。
2、数据处理或增广:
1)面部检测与关键点提取:每个面部区域被裁剪并调整到128x128像素,使用预训练BlazeFace模型提取面部区域。之后通过仿射变换缩放为299x299像素,在检测和保存面部之后,执行仿射变换归一化标志点的位置,再使用面部对准网络(FANet)检测面部标志,并分别裁出眉眼、鼻部和唇部。(眉眼/嘴2:1;鼻子1:1)
3、处理形式、训练策略:
1)视觉模态形式:
-
XceptionNet:30fps的帧率,裁完人脸缩放到299*299过XceptionNet得到2048维特征。
-
DCT变换:降维后的255维度关键区域的DCT频谱。
-
LipNet:裁完人脸缩放到299*299过唇读模型得到512维特征,唇读网络,通过解码说话者嘴部运动来输出文本,可以与音频一起使用,检测可能的异常。
2)语音模型形式:
-
Spectrogram:短时傅里叶变换音频处理生成声谱特征(730维),需确保音频特征在时间上与视觉特征对齐,采样窗口必须相同,声谱图输入样本的窗口大小必须与视频中出现的时间相匹配,帧速率为30FPS,1帧对应33ms语音窗口,提取音频-视频模态特征过LSTM按秒对齐。
窗口大小:
输入的离散音频信号:
短时傅里叶变换:
-
DeepSpeech2:DeepSpeech2预训练模型,该模型基于包含20ms的窗口大小和10ms的窗口跨度的频谱图,我们模型的所有其他时间输入数据是33ms的窗口大小(30fps的1帧视频),所以无法简单地对齐DeepSpeech2的输出特征和我们模型的所有其他特征,所以为DeepSpeech2准备了一个LSTM,我们实现了与每个LSTM的顺序输入的对齐,视觉LSTM使用三十个连续的帧,这实现了1秒的时间长度,而DeepSpeech2 LSTM使用50个连续的输入特征,这实现了1秒的匹配时间长度。
3)特征对齐:视频-音频对齐
4、损失函数:交叉熵损失
五、实验结果
测试了每个子网络以分析其各自的贡献:
总结:XceptionNet与其他功能结合时性能更好,音频域的频谱特征和视觉域中的频谱特征之间没有相关性。文章来源:https://www.toymoban.com/news/detail-412826.html
引用的各子网络文章来源地址https://www.toymoban.com/news/detail-412826.html
到了这里,关于论文阅读-NOLANet多模态伪造检测的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!