论文阅读-NOLANet多模态伪造检测

这篇具有很好参考价值的文章主要介绍了论文阅读-NOLANet多模态伪造检测。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、论文信息:

  • 题目:Deepfake Video Detection Based on Spatial,Spectral, and Temporal Inconsistencies UsingMultimodal Deep Learning(多模态伪造检测——视觉+频谱+语音)

  • 作者团队:

论文阅读-NOLANet多模态伪造检测

  • 会议:AIPR 2020

二、背景与创新

  1. 背景:合成视频威胁到数字媒体的信任与隐私,许多deepfake检测方法使用单帧视频,并且只专注于图像中的空间信息或被操纵视频的时间不一致性来实现鉴伪,单模态。

  1. 创新:作者提出一种混合深度学习方法,建立了一个多模态网络来检测深度伪造视频,主要包括三个子网络:唇读+语音识别特征、音频信号+频谱、视觉+频谱。

三、网络结构

NOLANet:

论文阅读-NOLANet多模态伪造检测

子网络

1)VSNet(视觉+频谱):该子网络仅评估视频的视觉特征所提供的消息。该子网络根据XceptionNet网络特征和1D DCT特征来估计时间特征。XceptionNet输出特征大小为2048,三个界标边界框的每个1D DCT的总和为765,这些特征被连接,总的输入大小为2324个特征,并输入到具有1秒时间窗口的LSTM做预测。

论文阅读-NOLANet多模态伪造检测

论文阅读-NOLANet多模态伪造检测

2)FourierNet(音频信号+频谱):傅里叶网络专注于视觉特征的频谱信息以及音频信号的频谱 ,视觉特征的频谱信息通过关键点的DCT和具有音频样本的短时傅里叶变换的音频的频谱信息来计算,每个输入的时间跨度为1秒,这些特征被连接起来,总特征大小为1495,并送进LSTM。

论文阅读-NOLANet多模态伪造检测

3)LipSpeech(唇读+语音):用于评估视觉数据与音频数据的对齐情况,即比较LipNet和DeepSpeech2的输出,LipNet是基于唇读预测文本,DeepSpeech2基于音频预测语音,两个子网络基于的假设为:分别固有的知道视位和音素,这些模型的每一个输入是1秒的序列,从而产生表示基于音频的1秒翻译文本和基于嘴部运动的1秒翻译文本的输出特征向量,并将其输入到LSTM中。

论文阅读-NOLANet多模态伪造检测

四、数据处理

1、输入输出:

  • 输入:视频

  • 输出:视频二分类(真/假)

  • 数据集:DFDC数据集;5000个视频,真假比例1:1,训练集与测试集比例9:1。

2、数据处理或增广:

1)面部检测与关键点提取:每个面部区域被裁剪并调整到128x128像素,使用预训练BlazeFace模型提取面部区域。之后通过仿射变换缩放为299x299像素,在检测和保存面部之后,执行仿射变换归一化标志点的位置,再使用面部对准网络(FANet)检测面部标志,并分别裁出眉眼、鼻部和唇部。(眉眼/嘴2:1;鼻子1:1)

论文阅读-NOLANet多模态伪造检测

3、处理形式、训练策略:

1)视觉模态形式:

  • XceptionNet:30fps的帧率,裁完人脸缩放到299*299过XceptionNet得到2048维特征。

  • DCT变换:降维后的255维度关键区域的DCT频谱。

  • LipNet:裁完人脸缩放到299*299过唇读模型得到512维特征,唇读网络,通过解码说话者嘴部运动来输出文本,可以与音频一起使用,检测可能的异常。

2)语音模型形式:

  • Spectrogram:短时傅里叶变换音频处理生成声谱特征(730维),需确保音频特征在时间上与视觉特征对齐,采样窗口必须相同,声谱图输入样本的窗口大小必须与视频中出现的时间相匹配,帧速率为30FPS,1帧对应33ms语音窗口,提取音频-视频模态特征过LSTM按秒对齐。

窗口大小:

论文阅读-NOLANet多模态伪造检测

输入的离散音频信号:

论文阅读-NOLANet多模态伪造检测

短时傅里叶变换:

论文阅读-NOLANet多模态伪造检测

论文阅读-NOLANet多模态伪造检测

  • DeepSpeech2:DeepSpeech2预训练模型,该模型基于包含20ms的窗口大小和10ms的窗口跨度的频谱图,我们模型的所有其他时间输入数据是33ms的窗口大小(30fps的1帧视频),所以无法简单地对齐DeepSpeech2的输出特征和我们模型的所有其他特征,所以为DeepSpeech2准备了一个LSTM,我们实现了与每个LSTM的顺序输入的对齐,视觉LSTM使用三十个连续的帧,这实现了1秒的时间长度,而DeepSpeech2 LSTM使用50个连续的输入特征,这实现了1秒的匹配时间长度。

3)特征对齐:视频-音频对齐

论文阅读-NOLANet多模态伪造检测

4、损失函数:交叉熵损失

五、实验结果

测试了每个子网络以分析其各自的贡献:

论文阅读-NOLANet多模态伪造检测

总结:XceptionNet与其他功能结合时性能更好,音频域的频谱特征和视觉域中的频谱特征之间没有相关性。

引用的各子网络文章来源地址https://www.toymoban.com/news/detail-412826.html

到了这里,关于论文阅读-NOLANet多模态伪造检测的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】HOLMES:通过关联可疑信息流进行实时 APT 检测(S&P-2019)

    HOLMES: Real-time APT Detection through Correlation of Suspicious Information Flows SP-2019 伊利诺伊大学芝加哥分校、密歇根大学迪尔伯恩分校、石溪大学 Milajerdi S M, Gjomemo R, Eshete B, et al. Holmes: real-time apt detection through correlation of suspicious information flows[C]//2019 IEEE Symposium on Security and Privacy (SP). IE

    2024年02月11日
    浏览(25)
  • 多模态论文阅读之BLIP

    BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have

    2024年02月06日
    浏览(28)
  • 多模态论文阅读之VLMo

    VLMo:Unified Vision_Langugae Pre-Training with Mixture-of-Modality-Experts CLIP和ALIGN都采用 dual-encoder 的方式分别编码图像和文本,模态之间的交互采用cosine similarity ,这种方法对retrieval tasks(检索任务)及其有效;但是如此shallow intersection between images and text is not enough to handle complex VL classficatio

    2024年02月06日
    浏览(28)
  • 多模态大模型-CogVLm 论文阅读笔记

    论文地址 :https://arxiv.org/pdf/2311.03079.pdf code地址 : https://github.com/THUDM/CogVLM 时间 : 2023-11 机构 : zhipuai,tsinghua : visual language model 效果:(2023-11) :CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W,

    2024年02月03日
    浏览(33)
  • 论文阅读-基于深度学习的多模态情感分析研究综述

    非核心 原文链接:基于深度学习的多模态情感分析研究综述 - 中国知网 (cnki.net) 深度学习完成多模态情感分析综述。主要介绍 多模态情感分析 的概念、背景、意义。总结了 多模态融合技术和交互技术 ,讨论多模态情感分析 未来发展 。 目前经典的多模态情感分析研究已经

    2024年02月04日
    浏览(35)
  • 论文阅读:multimodal remote sensing survey 遥感多模态综述

    参考: From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy Keywords:multimodal remote sensing 本文强调了单模态和多模态遥感影像判读之间的关键差异,然后利用这些差异来指导我们对级联结构中多模态遥感影像判读的研究。最后,对未来可能的研究方向进行了探讨

    2024年02月02日
    浏览(50)
  • 论文阅读-DF-Platter: Multi-Face Heterogeneous Deepfake Dataset(多人脸异构深度伪造数据集)

    文章名称:DF-Platter: Multi-Face Heterogeneous Deepfake Dataset 作者团队:  会议:cvpr2023 数据集地址: http://iab-rubric.org/df-platter-database 动机 目前大多数研究工作都集中在个人外表受控的高质量图像和视频上。 但是,deepfake 生成算法现在能够创建具有低分辨率、遮挡和操纵多个拍摄对

    2024年02月12日
    浏览(70)
  • 图像处理之《用于统一源跟踪和深度伪造检测的深度可分离水印SepMark》论文精读

    一、文章摘要 恶意的Deepfakes导致了一场关于区分真脸和伪造脸的激烈冲突。尽管已经制定了许多事后检测Deepfakes的对策,但毫无疑问,在可预见的操作之前,被动取证没有考虑对原始人脸采取任何预防措施。为了完成这个取证生态系统,我们提出了名为SepMark的主动式解决方

    2024年01月23日
    浏览(49)
  • 论文笔记:信息融合的门控多模态单元(GMU)

    论文地址: GMU   多模态指的是同一个现实世界的概念可以用不同的视图或数据类型来描述。比如维基百科有时会用音频的混合来描述一个名人;来自社交网络的用户用文本和多媒体附件(图像/视频/音频)评论音乐会或体育比赛等事件。医疗记录由图像、声音、文本和信号等

    2024年01月16日
    浏览(22)
  • CoFSM基于共现尺度空间的多模态遥感图像匹配方法--论文阅读记录

    目录 论文 Multi-Modal Remote Sensing Image Matching Considering Co-Occurrence Filter 参考论文:SIFT系列论文, SIFT    Distinctive Image Features from Scale-Invariant Keypoints,作者:David G. Lowe 快速样本共识算法FSC:A Novel Point-Matching Algorithm Based on Fast Sample Consensus for Image Registration ,Digital Object Ident

    2024年04月24日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包