多模态情感识别-MISA: baseline解读

这篇具有很好参考价值的文章主要介绍了多模态情感识别-MISA: baseline解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

零. 背景

1. Introduction

多模态情感分析是一个活跃的研究领域,它利用多模态信号对用户生成的视频进行情感理解。解决这一任务的主要方法是开发复杂的融合技术。

(1)然而,信号的异质性造成了分布模式的差距,这带来了重大挑战。

https://blog.csdn.net/qq_40943760

2. My idea

(1)进行互注意力的特征表示学习

(2)引入预训练模块加强特征表示和特征泛化

一. MISA:多模态情感分析的模态不变和特定表示 ACMMM2020

1 Abstract

1.1 Motivation

(1)信号的异质性造成了分布模式的差距,这带来了重大挑战。

(2)在本文中,我们的目标是学习有效的模态表示帮助融合过程。

1.2 Method

我们提出了一个新颖的框架 MISA,它将每个模态投射到两个不同的子空间。

第一个子空间是模态不变的,其中跨模态的表示学习它们的共性并减少模态差距。

第二个子空间是模态特定的,它对每个模态都是私有的,并捕获它们的特征。这些表示提供了多模态数据的整体视图,用于进行任务预测的融合。

多模态情感识别,多模态增强学习,神经网络,大数据处理,人工智能,深度学习,计算机视觉,语音识别

图1 通过模态不变和特定子空间学习多模态表示。这些特征后来用于融合和随后的视频影响预测

1.3 Results

流行的情绪分析基准 MOSI 和 MOSEI 上进行的实验表明,与最先进的模型相比有显着的进步。

我们还考虑了多模态幽默检测的任务,并在最近提出的 UR_FUNNY 数据集上进行了实验。在这里,我们的模型也比强大的基线表现更好

2. Related Work

2.1 多模态情感分析

(1)Utterance-level

话语级:侧重于使用复杂的融合机制学习跨模态动力学

(2)Inter-utterance context

话语间语境:这些模型利用目标话语周围话语的上下文。设计为分层网络,它们在较低级别对单个话语进行建模,在第二级别对话语间顺序信息进行建模。

(3)Different

行·不使用上下文信息,也不关注复杂的融合机制。相反,我们强调融合前表征学习的重要性。尽管如此,如果需要,MISA 可以灵活地合并上述这些组件

2.2 多模态表示学习

(1)公共子空间表示

尝试学习跨模态公共子空间的作品可大致分为:(a)基于翻译的模型,使用序列到序列 [40]、循环翻译 [39] 和对抗性等方法将一种模态转换为另一种模态自动编码器;(b)基于相关性的模型 [50],使用典型相关分析 [3] 学习跨模态相关性;(c)使用对抗性学习等技术学习一个新的共享子空间,其中所有模态都被同时映射 [35, 37]。

(3)Different

与第三类类似,我们也学习了公共模态不变子空间。但是,我们不使用对抗性鉴别器来学习共享映射。此外,我们结合了正交模态特定的表示:一种在多模态学习任务中较少探索的特征

(2)分解表示

在子空间学习机制中,我们将注意力转向因式分解表示。虽然一项工作试图学习多模态数据的生成判别因素 [51],但我们的重点是学习模态不变和特定表示。为实现这一目标,我们从有关共享-私有表示的相关文献中汲取灵感。共享-私有 [5] 学习的起源可以在多视图组件分析 [48] 中找到。这些早期作品设计了具有单独的共享和私有潜在变量的潜在变量模型 (LVM) [9]。

(3)Different

与这些模型不同,我们的提议涉及一种判别式深度神经架构,它避免了对近似推理的需要。我们的框架与域分离网络 (DSN) [5] 密切相关,它提出了用于域适应的共享-私有模型。 DSN 在多任务文本分类等领域的类似模型的开发中具有影响力 [25]。尽管我们从 DSN 中获得灵感,但 MISA 包含关键区别:(a)与 DSN 不同,我们使用更高级的分布相似性度量——CMD(参见第 3.5 节),而不是对抗训练或 MMD;(b)我们在特定于模态的(私有)表示中合并了额外的正交损失(参见第 3.5.2 节);(c) 最后,虽然 DSN 仅使用共享表示进行任务预测,但 MISA 结合了不变和特定表示以进行融合,然后进行任务预测。

我们假设利用这两种模态表示有助于通过提供多模态数据的整体视图来帮助融合。

多模态情感识别,多模态增强学习,神经网络,大数据处理,人工智能,深度学习,计算机视觉,语音识别

图2 MISA 采用话语级表示并将每个模态投射到两个子空间:模态不变和特定模态。之后,这些隐藏表示用于重建每个输入,也用于融合以进行任务预测。

3. 模型细节

3.1 模态特征表示

多模态情感识别,多模态增强学习,神经网络,大数据处理,人工智能,深度学习,计算机视觉,语音识别

多模态情感识别,多模态增强学习,神经网络,大数据处理,人工智能,深度学习,计算机视觉,语音识别

图3 模态特征学习,通过extract提取三个模态的特征后,会使用 3.2 节中的模态不变和模态特定的特征表示模型

3.2 模态不变和模态特定特征表示

(1) h m c \mathbf{h}_m^c hmc 表示模态不变特征, h m p \mathbf{h}_m^p hmp 表示模态特定特征
h m c = E c ( u m ; θ c ) , h m p = E p ( u m ; θ m p ) \mathbf{h}_m^c=E_c\left(\mathbf{u}_m ; \theta^c\right), \quad \mathbf{h}_m^p=E_p\left(\mathbf{u}_m ; \theta_m^p\right) hmc=Ec(um;θc),hmp=Ep(um;θmp)

多模态情感识别,多模态增强学习,神经网络,大数据处理,人工智能,深度学习,计算机视觉,语音识别

图4-1 共享编码器** E c E_c Ec** 和独立编码器** E p E_p Ep** 的代码细节,串联一层 前向传播层-Sigmoid 即可

(2) E c E_c Ec 表示跨模态的共享参数 θ c \theta^{c} θc 操作, E p E_p Ep 代表 独立模态的单独参数 $ \theta_{m}^{p}$ 操作

多模态情感识别,多模态增强学习,神经网络,大数据处理,人工智能,深度学习,计算机视觉,语音识别

图4-2 贡献参数和独立参数的代码细节,额外设置一些单独的可学习变量即可

3.3 模态融合

在将模式投影到各自的表示形式后,我们将它们融合成一个联合向量,用于下游预测。我们设计了一个简单的融合机制,首先执行基于变压器[54]的自我关注,然后是所有六个转换后的模态向量的串联。

然后,我们对这些表示进行多头自我关注,使每个向量都知道其他交叉模态(和交叉子空间)表示。这样做可以让每个表征从其他表征中诱导潜在信息,这些信息对整体情感方向具有协同作用。这种跨模态匹配在最近的跨模态学习方法中非常突出。

多模态情感识别,多模态增强学习,神经网络,大数据处理,人工智能,深度学习,计算机视觉,语音识别

多模态情感识别,多模态增强学习,神经网络,大数据处理,人工智能,深度学习,计算机视觉,语音识别

图5 模态融合代码细节,将3.2节中学习到的6种特征表示先送入Transfomer再送入一个简单的融合层即可。模型最后的输出 o 将与对应的多个label进行loss计算(使用了四个loss进行联合方向传播)

4. 结果

多模态情感识别,多模态增强学习,神经网络,大数据处理,人工智能,深度学习,计算机视觉,语音识别

图6 实验结果

5. 自己的思考

首先,这篇paper属于20年的baseline,针对负样本的学习还没有探究,这会限制模型性能。

此外,模型针对模态的不变特征表示考虑的并不深刻,其实还可以考虑不同模态之间的交互注意力。

最后,如文章最后所说,最后的损失函数还有改进空间。文章来源地址https://www.toymoban.com/news/detail-755827.html

到了这里,关于多模态情感识别-MISA: baseline解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读-基于深度学习的多模态情感分析研究综述

    非核心 原文链接:基于深度学习的多模态情感分析研究综述 - 中国知网 (cnki.net) 深度学习完成多模态情感分析综述。主要介绍 多模态情感分析 的概念、背景、意义。总结了 多模态融合技术和交互技术 ,讨论多模态情感分析 未来发展 。 目前经典的多模态情感分析研究已经

    2024年02月04日
    浏览(54)
  • 90 | Python人工智能篇 —— 深度学习算法 Keras基于卷积神经网络的情感分类

    情感分类是自然语言处理(NLP)领域的一个重要任务,它旨在将文本划分为积极、消极或中性等不同情感类别。深度学习技术,尤其是卷积神经网络(CNN),在情感分类任务中取得了显著的成果。Keras作为一个高级的深度学习框架,提供了便捷易用的工具来构建和训练情感分

    2024年02月13日
    浏览(54)
  • 【深度学习&NLP】基于卷积神经网络(CNN)实现中文文本情感分析(分类)附代码以及数据集链接

    【注】:本文所述的实验的完整实现代码包括数据集的仓库链接会在文末给出(建议读者自行配置GPU来加速TensorFlow的相关模型,运行起来会快非常多) 目录 一、研究的背景和目的 二、文本数据集描述 1、数据集来源以及使用目的 2、数据规模、以及如何划分数据集 3、数据集的

    2024年02月04日
    浏览(63)
  • 西工大 ASLP 实验室在 WeNet 中开源基于 CPPN 的神经网络热词增强语音识别方案

    语境偏置 (Contextual biasing)旨在将语境知识集成到语音识别(ASR)系统中,以提高在相关领域词汇(俗称“ 热词 ”)上的识别准确率。在许多ASR场景中,待识别语音中可能会包含训练数据中数量很少或完全没出现的短语,例如一些领域专有名词、用户通讯录中的人名等,这

    2024年02月07日
    浏览(42)
  • 机器视觉 多模态学习11篇经典论文代码以及解读

    此处整理了深度学习-机器视觉,最新的发展方向-多模态学习,中的11篇经典论文,整理了相关解读博客和对应的Github代码,看完此系列论文和博客,相信你能快速切入这个方向。每篇论文、博客或代码都有相关标签,一目了然,整理到这里了 webhub123 机器视觉 多模态学习

    2024年02月13日
    浏览(39)
  • 《论文阅读》通过生成会话模型的迁移学习会话中的情感识别

    前言 你是否也对于理解论文存在困惑? 你是否也像我之前搜索论文解读,得到只是中文翻译的解读后感到失望? 小白如何从零读懂论文?和我一起来探索吧! 今天为大家带来的是《Emotion Recognition in Conversations with Transfer Learning from Generative Conversation Modeling》 出版:Journal o

    2024年02月14日
    浏览(47)
  • 【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析

    【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析 【论文原文】:EMNLP2022 - Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities 论文:https://aclanthology.org/2022.emnlp-main.189/ 代码:https://github.com/JaydenZeng/EMMR 博主 :多模态情感分析,模态缺失

    2024年02月15日
    浏览(46)
  • 深度学习神经网络学习笔记-多模态方向-11-Deep Voice: Real-time Neural Text-to-Speech

    本文提出Deep Voice,一种完全由深度神经网络构建的生产质量文本到语音系统。Deep Voice为真正的端到端神经语音合成奠定了基础。该系统由五个主要的构建模块组成:用于定位音素边界的分割模型、字素到音素的转换模型、音素时长预测模型、基频预测模型和音频合成模型。对

    2024年02月06日
    浏览(49)
  • 近3三年多模态情感分析论文及其代码

    在CMU-MOSE数据集排行榜 CMU-MOSEI Benchmark (Multimodal Sentiment Analysis) | Papers With Code 在MOSI数据集排行榜 MOSI Benchmark (Multimodal Sentiment Analysis) | Papers With Code 《M-SENA: An Integrated Platform for Multimodal Sentiment Analysis》 ACL;ACL ; star:317;2022 UniMSE: Towards Unified Multimodal Sentiment Analysis and Emotion Re

    2024年02月12日
    浏览(39)
  • 基于深度学习的多模态语音识别与合成

    作者:禅与计算机程序设计艺术 语音识别(ASR)、语音合成(TTS)及其相关技术一直是当今人工智能领域的一大热点,也是当前研究的重点方向之一。近年来随着深度学习技术的不断突破,多模态语音理解和处理技术的进步,结合深度学习方法的多模态语音识别系统得到了广

    2024年02月10日
    浏览(65)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包