【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析

这篇具有很好参考价值的文章主要介绍了【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析

【论文速递】 EMNLP2022-EMMR:Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

【论文原文】:EMNLP2022 - Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

论文:https://aclanthology.org/2022.emnlp-main.189/
代码:https://github.com/JaydenZeng/EMMR

博主关键词:多模态情感分析,模态缺失重建, ensemble learning

摘要

模态缺失问题是多模态情感分析任务(MSA)的常见问题。整体的情感极性可能会因某一模态的缺失而发生变化,出现情感不一致的现象(inconsistency phenomenon)。缺少的,能够决定整体情感极性的模态,被称为关键缺失模态(key missing modality)。以往工作忽略了情感不一致现象(inconsistency phenomenon),简单地丢弃缺失模态,仅从现有的模态中生成相关特征。本文提出了一个ensemble-based 缺失模态重建网络(EMMR)来检测并恢复关键缺失模态(key missing modality)的语义特征。首先, EMMR通过骨干编码器-解码器网络来学习其余模态的联合表征。然后,基于重建的缺失模态特征,本文通过检查语义一致性以确定缺失模态是否对整体情感极性的判定起关键作用。在确定关键缺失模态后,本文引入 多个 encoder-decoder 模型,以late fusion的方式做出更好的决策

多模态情感分析论文,人工智能,自然语言处理

简介

经典的多模态情感分析方法根据所有模态的信息来做出判断,但很多场景中部分模态往往是缺失的。尽管有一些方法关注于缺失模态的重建,但是它们忽略了,模态缺失所带来的情感极性的反转现象。例如Figure 1 中,当声音,文本,图片三模态信息完整时,展现出中性的(Neutral)情感;当声音模态的信息缺失时,仅凭文本和图像,更倾向于展示出负面的(Negative)情感。这种情感极性不一致的现象(inconsistency phenomenon)表明在这个例子中,声音模态是关键缺失模态(key missing modality)。此外,当不同模态表现出略微不同的情感极性时,如何在多模态信息之间做好取舍,也是待解决的问题。

在本文中,作者提出了Ensemble-based Missing Modality Reconstruction (EMMR) 网络来解决情感极性不一致的现象。 对于输入的一条多模态样本: S = [Xv, Xa, Xt] (vedio,acoustic,text),EMMR 通过基于transformer结构的encoder-decoder骨干网络来恢复缺失模态信息(图例中该样本缺失的模态信息是声音模态Xa),并在除分类损失外增加两个loss, Lforward和 Lbackword辅助缺失模态信息的重建:
多模态情感分析论文,人工智能,自然语言处理

骨干网络中引入了已经预训练好的Pre-trained Network,该网络在预训练时利用所有模态的信息(不存在缺失模态),并在训练完成后冻结参数。 引入它的目的是利用它的预训练知识指导骨干网络中的Encoder,通过将Pre-trained Network 的输出与骨干网络Encoder的输出计算KL散度损失作为 Lforward,达到迁移预训练知识的目的。类似地,将处理后的多模态输入特征与骨干网络decoder的输出计算KL散度损失,作为 Lbackward, 以更好地监督特征重建的过程。

在完成缺失模态特征的重建之后,EMMR重点关注情感极性是否发生反转,并据此确定缺失模态是否为关键模态,以采取不同的ensemble策略。用骨干网络decoder的输出代替缺失的模态信息后,将恢复后的完备模态信息通过多头注意力与全连接层进行标签预测,若预测的标签与基于除缺失模态外的剩余模态信息预测的标签不一致,则认定缺失模态为关键模态,并引入 多个模型,包括AutoEncoder (AE),Missing Modality Imagination Network (MMIN), Transformer-based encoder-decoder model (TF) 以late fusion的方式做出更好的决策,如下Figure 3所示:
多模态情感分析论文,人工智能,自然语言处理
由于ensemble learning结合了多个模型的信息知识,并以自适应的方式实现更好的预测性能,所以它可以基于恢复的特征有效地缓解情感极性不一致的现象。EMMR检查恢复的完整模态与原始可用模态之间的语义一致性(预测标签的差异)。一旦它们不一致,则对TF、AE。和MMIN进行进一步的整合来决策。在ensemble learning中,多种方法的整体表现会比单一方法的表现要好,EMMR将三种提取的特征根据相应的注意力进行组合,以获取最后的预测结果。

文章的主要创新点如下:

  • 本文提出EMMR来解决模态信息丢失情况下的多模态情感分析任务。以往工作更多的关注于缺失模态信息的重建,而本文进一步考虑到缺失的模态可能引起情感极性的不一致,并对此情况分别讨论。
  • 在出现情感极性不一致的情况下,本文引入Auto Encoder-based model 和transformer-based model,并针对情感极性不一致的样本采用ensemble learning以改善分类性能
  • 在多模态情感分析数据集 CMU-MOSI 和IEMOCAP,本文方法取得了新的SOTA效果,特别是在CMU-MOSI的M-F1指标上取得大幅提升(9%)

【社区访问】

多模态情感分析论文,人工智能,自然语言处理【论文速递 | 精选】

多模态情感分析论文,人工智能,自然语言处理阅读原文访问社区
https://bbs.csdn.net/forums/paper文章来源地址https://www.toymoban.com/news/detail-612373.html

到了这里,关于【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ModDrop++:一种具有受试者内部协同训练的动态滤波网络,用于具有缺失模态的多发性硬化病变分割

    多发性硬化症(MS)是一种慢性神经炎症性疾病,多模态MRI通常用于监测MS病变。已经开发了许多自动MS病变分割模型,并且已经达到了人类水平的性能。然而,大多数已建立的方法需要在假设训练期间使用的MRI模态在测试期间也可用,这在临床实践中无法保证。此前,一种称

    2024年02月07日
    浏览(28)
  • 【论文速递】WACV 2023 - 一种全卷积Transformer的医学影响分割模型

    【论文原文】:The Fully Convolutional Transformer for Medical Image Segmentation 【作者信息】:Athanasios Tragakis, Chaitanya Kaul,Roderick Murray-Smith,Dirk Husmeier 博主 :医学图像分割、全卷积Transformer 推荐论文 :无 我们提出了一种新的transformer,能够分割不同形态的医学图像。 医学图像分析

    2024年02月08日
    浏览(40)
  • 3D目标识别|SFD|多模态|CVPR2022

    论文标题:Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion 论文链接 Code: 还未开源 **动机:**室外点云+图像的方法没有纯点云的方法效果好,主要有两个原因(1)多模态的数据增广不好做(2)因为现在方法大多是从点云找对应的图像融合特征,但是点云能对应上的

    2023年04月14日
    浏览(40)
  • 【论文速递】WACV2023 - 循环相似注意力的小样本医学图像分割

    【论文原文】 :Few-shot Medical Image Segmentation with Cycle-resemblance Attention 博主: 小样本学习,语义分割,自监督,原型 推荐相关论文: 近年来,由于医学影像应用需求的不断提高以及对医学图像标注的专业要求,小样本学习在医学图像语义分割领域越来越受到重视。为了

    2024年02月05日
    浏览(40)
  • 多模态大模型时代下的文档图像智能分析与处理

    随着人工智能技术的不断发展,尤其是深度学习技术的广泛应用,多模态数据处理和大模型训练已成为当下研究的热点之一,这些技术也为文档图像智能处理和分析领域带来了新的发展机遇。 多模态大模型时代下的文档图像智能分析与处理的研究旨在通过运用多种数据类型,

    2024年02月06日
    浏览(44)
  • 一般情况下的椭圆方程

    二维空间中椭圆最基本的形式为 x 2 a 2 + y 2 b 2 = 1 frac{x^{2}}{a^{2}} +frac{y^{2}}{b^{2}} =1 a 2 x 2 ​ + b 2 y 2 ​ = 1 上面的这个方程写成矩阵的形式为 [ x y ] T [ 1 a 2 0 0 1 b 2 ] [ x y ] = x T A x = 1 begin{bmatrix} x\\\\ y end{bmatrix}^{T} begin{bmatrix} frac{1}{a^{2}} 0\\\\ 0 frac{1}{b^{2}} end{bmatrix} begin{bmatrix}

    2024年02月16日
    浏览(36)
  • 顶刊TPAMI 2022!基于不同数据模态的行为识别:最新综述

    点击下方 卡片 ,关注“ CVer ”公众号 AI/CV重磅干货,第一时间送达 点击进入—  CV 微信技术交流群 论文:https://arxiv.org/abs/2012.11866 1. 介绍 人类 行为识别 旨在了解人类的行为,并为行为指定标签,例如,握手、吃东西、跑步等。它具有广泛的应用前景,因此在计算机视觉

    2024年02月06日
    浏览(39)
  • SLAM论文速递:SLAM—— 面向动态环境的多用途SLAM框架—4.25(1)

    题目: 论文地址: 发表期刊: xxxx 目前,动态环境下的SLAM已经成为一个热门话题。这个问题被称为动态SLAM,目前已经提出了许多解决方案,以分割出给相机跟踪和后续三维重建带来误差的动态对象。然而,最先进的动态SLAM方法面临着精度和速度的问题,这是由于一种分割

    2024年02月01日
    浏览(35)
  • 目标检测YOLO实战应用案例100讲-面向恶劣环境下的多模态 行人识别

    目录 前言 国内外研究现状  可见光行人目标识别  红外行人目标识别 

    2024年02月07日
    浏览(33)
  • Spring MVC多种情况下的文件上传

    上传是Web工程中很常见的功能,SpringMVC框架简化了文件上传的代码,我们首先使用JAVAEE原生方式上传文件来进行详细描述: 这里我们创建新的SpringMVC模块,在web.xml中将项目从2.3改为3.1,即可默认开启el表达式,如下图: 那这里我们需要访问一个页面来进行文件下载 upload.js

    2024年02月13日
    浏览(71)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包