【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析

这篇具有很好参考价值的文章主要介绍了【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

【论文速递】 EMNLP2022-EMMR:Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

【论文原文】：EMNLP2022 - Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

论文：https://aclanthology.org/2022.emnlp-main.189/
代码：https://github.com/JaydenZeng/EMMR

博主关键词：多模态情感分析，模态缺失重建， ensemble learning

摘要

模态缺失问题是多模态情感分析任务（MSA）的常见问题。整体的情感极性可能会因某一模态的缺失而发生变化，出现情感不一致的现象（inconsistency phenomenon）。缺少的，能够决定整体情感极性的模态，被称为关键缺失模态（key missing modality）。以往工作忽略了情感不一致现象（inconsistency phenomenon），简单地丢弃缺失模态，仅从现有的模态中生成相关特征。本文提出了一个ensemble-based 缺失模态重建网络（EMMR)来检测并恢复关键缺失模态（key missing modality）的语义特征。首先， EMMR通过骨干编码器-解码器网络来学习其余模态的联合表征。然后，基于重建的缺失模态特征，本文通过检查语义一致性以确定缺失模态是否对整体情感极性的判定起关键作用。在确定关键缺失模态后，本文引入多个 encoder-decoder 模型，以late fusion的方式做出更好的决策

多模态情感分析论文,人工智能,自然语言处理

简介

经典的多模态情感分析方法根据所有模态的信息来做出判断，但很多场景中部分模态往往是缺失的。尽管有一些方法关注于缺失模态的重建，但是它们忽略了，模态缺失所带来的情感极性的反转现象。例如Figure 1 中，当声音，文本，图片三模态信息完整时，展现出中性的（Neutral）情感；当声音模态的信息缺失时，仅凭文本和图像，更倾向于展示出负面的（Negative）情感。这种情感极性不一致的现象（inconsistency phenomenon）表明在这个例子中，声音模态是关键缺失模态（key missing modality）。此外，当不同模态表现出略微不同的情感极性时，如何在多模态信息之间做好取舍，也是待解决的问题。

在本文中，作者提出了Ensemble-based Missing Modality Reconstruction (EMMR) 网络来解决情感极性不一致的现象。对于输入的一条多模态样本: S = [X_v, X^’_a, X_t] (vedio，acoustic，text)，EMMR 通过基于transformer结构的encoder-decoder骨干网络来恢复缺失模态信息(图例中该样本缺失的模态信息是声音模态X^’_a)，并在除分类损失外增加两个loss， L_forward和 L_backword辅助缺失模态信息的重建：
多模态情感分析论文,人工智能,自然语言处理

骨干网络中引入了已经预训练好的Pre-trained Network，该网络在预训练时利用所有模态的信息（不存在缺失模态），并在训练完成后冻结参数。引入它的目的是利用它的预训练知识指导骨干网络中的Encoder，通过将Pre-trained Network 的输出与骨干网络Encoder的输出计算KL散度损失作为 L_forward，达到迁移预训练知识的目的。类似地，将处理后的多模态输入特征与骨干网络decoder的输出计算KL散度损失,作为 L_backward, 以更好地监督特征重建的过程。

在完成缺失模态特征的重建之后，EMMR重点关注情感极性是否发生反转，并据此确定缺失模态是否为关键模态，以采取不同的ensemble策略。用骨干网络decoder的输出代替缺失的模态信息后，将恢复后的完备模态信息通过多头注意力与全连接层进行标签预测，若预测的标签与基于除缺失模态外的剩余模态信息预测的标签不一致，则认定缺失模态为关键模态，并引入多个模型，包括AutoEncoder (AE)，Missing Modality Imagination Network (MMIN)， Transformer-based encoder-decoder model (TF) 以late fusion的方式做出更好的决策，如下Figure 3所示：
多模态情感分析论文,人工智能,自然语言处理
由于ensemble learning结合了多个模型的信息知识，并以自适应的方式实现更好的预测性能，所以它可以基于恢复的特征有效地缓解情感极性不一致的现象。EMMR检查恢复的完整模态与原始可用模态之间的语义一致性（预测标签的差异）。一旦它们不一致，则对TF、AE。和MMIN进行进一步的整合来决策。在ensemble learning中，多种方法的整体表现会比单一方法的表现要好，EMMR将三种提取的特征根据相应的注意力进行组合，以获取最后的预测结果。

文章的主要创新点如下：

本文提出EMMR来解决模态信息丢失情况下的多模态情感分析任务。以往工作更多的关注于缺失模态信息的重建，而本文进一步考虑到缺失的模态可能引起情感极性的不一致，并对此情况分别讨论。
在出现情感极性不一致的情况下，本文引入Auto Encoder-based model 和transformer-based model，并针对情感极性不一致的样本采用ensemble learning以改善分类性能
在多模态情感分析数据集 CMU-MOSI 和IEMOCAP，本文方法取得了新的SOTA效果，特别是在CMU-MOSI的M-F1指标上取得大幅提升（9%）