论文阅读-AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake（多模态数据集DefakeAVMiT+多模态鉴伪方法AVoiD-DF）

10月前作者：完美屁桃分类：Toy博客阅读(40) 违法举报

这篇具有很好参考价值的文章主要介绍了论文阅读-AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake（多模态数据集DefakeAVMiT+多模态鉴伪方法AVoiD-DF）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、论文信息

论文名称：AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake

作者团队：

avoid-df: audio-visual joint learning for detecting deepfake,论文阅读,人工智能,机器学习

二、主要创新

以前的方法仅侧重单模态的伪造，即使有多模态的数据也只是将音频信号当做监督信号，忽略了音频被伪造的可能。

提出一个新的多模态基准数据集DefakeAVMiT，其包含足够多的视频和音频伪造内容，两个模态均有伪造。
提出了一种检测Deepfake的视听联合学习方法（AVoiD-DF），其利用视听不一致性进行多模态伪造检测。

三、方法

avoid-df: audio-visual joint learning for detecting deepfake,论文阅读,人工智能,机器学习

AVoiD-DF包含三个关键部分：时空编码器TSE、多模态联合解码MMD、Cross-Modal Classifier利用MMD的输出进行多模态分类。

1、时空编码器TSE

avoid-df: audio-visual joint learning for detecting deepfake,论文阅读,人工智能,机器学习

该模块包括串联的两个transformer编码器。首先对音频和视频模态进行统一的帧采样和预处理，第一个时序编码器模型编码的是同一窗口的时间步长与时间嵌入之间的交互信息。第二个空间编码器产生的编码表示每个时间索引的空间特征。因此，它对应于时空信息。然后两种模态的特征将并行送到MMD进行多模态融合。

2、多模态联合解码MMD

avoid-df: audio-visual joint learning for detecting deepfake,论文阅读,人工智能,机器学习

使用MMD模块进行模态融合。输入的视觉和声音嵌入块将是通过两个并行解码器通道馈送。每个通道都有一个双向交叉注意 (BiCroAtt) 模块，之后有自注意力块和前馈层。该模块主要使用双向交叉注意力BiCroAtt 使两种模态之间的信息共享、联合学习。

BiCroAtt:

avoid-df: audio-visual joint learning for detecting deepfake,论文阅读,人工智能,机器学习 self-attention:

avoid-df: audio-visual joint learning for detecting deepfake,论文阅读,人工智能,机器学习

3、跨模态分类器Cross-Modal Classifier

结合MMD的最终输出，进行最后的多模态分类。

avoid-df: audio-visual joint learning for detecting deepfake,论文阅读,人工智能,机器学习

4、损失函数

1）对比损失Lcon：设置为最大化假标签和真实标签的分类标记的相似度。音视匹配的为正样本，其余为负样本。

avoid-df: audio-visual joint learning for detecting deepfake,论文阅读,人工智能,机器学习

2）交叉熵损失

3）Additive Angular Margin Loss（ArcfaceLoss)加性角裕度损失：人脸识别

avoid-df: audio-visual joint learning for detecting deepfake,论文阅读,人工智能,机器学习

4）总体损失如下：

avoid-df: audio-visual joint learning for detecting deepfake,论文阅读,人工智能,机器学习

四、数据集：DefakeAVMiT

avoid-df: audio-visual joint learning for detecting deepfake,论文阅读,人工智能,机器学习共8种伪造生成技术，5种视觉生成技术、3种语音生成技术。真实视频来自VidTIMIT数据集，虚假视频由Faceswap（换脸）、DeepFaceLab （高质量换脸）、Wave2Lip（生成口型同步的talking face）、EVP（音频驱动画面）、PC-AVS（生成口型同步的talking face）、SV2TTS(实时语音克隆，不同说话人生成相同语音音频）、Voice Replay（语音重放，使用真实人物预先录制的音频对应虚假身份）、AV exemplar autoencoders（将任何输入语音转换为视听流，输入模仿特定目标的语音）。

五、实验结果

1、检测性能

avoid-df: audio-visual joint learning for detecting deepfake,论文阅读,人工智能,机器学习 2、泛化性

avoid-df: audio-visual joint learning for detecting deepfake,论文阅读,人工智能,机器学习 3、消融实验

avoid-df: audio-visual joint learning for detecting deepfake,论文阅读,人工智能,机器学习文章来源地址https://www.toymoban.com/news/detail-777847.html

到了这里，关于论文阅读-AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake（多模态数据集DefakeAVMiT+多模态鉴伪方法AVoiD-DF）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【论文阅读】Speech Driven Video Editing via an Audio-Conditioned Diffusion Model

DiffusionVideoEditing：基于音频条件扩散模型的语音驱动视频编辑 code：GitHub - DanBigioi/DiffusionVideoEditing: Official project repo for paper \\\"Speech Driven Video Editing via an Audio-Conditioned Diffusion Model\\\" paper：[2301.04474] Speech Driven Video Editing via an Audio-Conditioned Diffusion Model (arxiv.org) 目录 1 介绍 2 背景

2024年01月17日
浏览(50)
【论文阅读】EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusi

在弱条件下使用音视频扩散模型生成富有表现力的肖像视频（音频+图像=动态视频） paper：[2402.17485] EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions (arxiv.org) code：喜闻乐见没开源通过关注音频Prompt和面部动作之间的动态和关系来解

2024年04月13日
浏览(50)
[论文阅读]Visual Attention Network原文翻译

[论文链接]https://arxiv.org/abs/2202.09741 虽然一开始是被设计用于自然语言处理任务的，但是自注意力机制在多个计算机视觉领域掀起了风暴。然而，图像的二维特性给自注意力用于计算机视觉带来了三个挑战。（1）将图像视作一维序列忽视了它们的二维结构；（2）二次复杂

2024年02月09日
浏览(58)
Visual ChatGPT原理解读——大模型论文阅读笔记四

论文：https://arxiv.org/abs/2303.04671 代码：https://github.com/microsoft/TaskMatrix 如图所示，用户上传一张黄花的图像并输入一个复杂的语言指令“请根据该图像的预测深度生成一朵红花，然后逐步使其像卡通一样”。在交互管理器的帮助下，Visual ChatGPT 开始了相关视觉基础模型的执行

2024年02月09日
浏览(45)
REC 系列 Visual Grounding with Transformers 论文阅读笔记

写在前面 Hello，马上又是一周过去了，快要开学了，不知道小伙伴们状态都调整过来了吗？加油噢~ 这同样是一篇关于 REC 的文章，文章时间比较早了，但也是属于那种入门必看的文章。论文地址：VISUAL GROUNDING WITH TRANSFORMERS 代码地址：https://github.com/usr922/vgtr 收录于

2024年02月12日
浏览(35)
Last-Mile Embodied Visual Navigation 论文阅读

题目：Last-Mile Embodied Visual Navigation 作者：JustinWasserman, Karmesh Yadav 来源：CoRL 时间：2023 代码地址：https://jbwasse2.github.io/portfolio/SLING 现实的长期任务（例如图像目标导航）涉及探索和利用阶段。分配有目标图像后，具体代理必须探索以发现目标，即使用学习到的先验进行

2024年02月14日
浏览(35)
论文阅读：Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

目录摘要引言相关工作 Visual ChatGPT Prompt Managing of Sysytem Principles M(P) Prompt Managing of Foundation Models M(F) Prompt Managing of User Querie M(Qi) Prompt Managing of Foundation Model Out-puts M(F(A(j)i )) 实验实验设置 Visual ChatGPT的作用： 1、不仅可以发送和接收语言，也可以发送和接收图像； 2、提供

2024年02月09日
浏览(67)
SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 论文阅读

题目：SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 作者：Ue-Hwan Kim , Se-Ho Kim , and Jong-Hwan Kim , Fellow, IEEE 时间：2022 来源： IEEE ROBOTICS AND AUTOMATION LETTERS（RAL）语义的缺乏和动态对象导致的性能下降阻碍了其在现实场景中的应用。为了克服这些限制，我们在Simultanero

2024年02月09日
浏览(41)
论文阅读《Domain Generalized Stereo Matching via Hierarchical Visual Transformation》

论文地址：https://openaccess.thecvf.com/content/CVPR2023/html/Chang_Domain_Generalized_Stereo_Matching_via_Hierarchical_Visual_Transformation_CVPR_2023_paper.html 立体匹配模型是近年来的研究热点。但是，现有的方法过分依赖特定数据集上的简单特征，导致在新的数据集上泛化能力不强。现有的立体匹配

2024年02月04日
浏览(44)
[论文阅读] Explicit Visual Prompting for Low-Level Structure Segmentations

[论文地址] [代码] [CVPR 23] Abstract 我们考虑了检测图像中低层次结构的通用问题，其中包括分割被操纵的部分，识别失焦像素，分离阴影区域，以及检测隐藏的物体。每个问题通常都有一个特定领域的解决方案，我们表明，一个统一的方法在所有这些问题上都表现良好。我们从

2024年02月15日
浏览(45)