论文阅读-基于深度学习的多模态情感分析研究综述

这篇具有很好参考价值的文章主要介绍了论文阅读-基于深度学习的多模态情感分析研究综述。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

非核心

原文链接：基于深度学习的多模态情感分析研究综述 - 中国知网 (cnki.net)

一、摘要和结论

摘要

深度学习完成多模态情感分析综述。主要介绍多模态情感分析的概念、背景、意义。总结了多模态融合技术和交互技术，讨论多模态情感分析未来发展。

结论

目前经典的多模态情感分析研究已经成熟，在判断多模态间语义相关性以及多模态数据不对齐导致的无法有效融合的研究也在不断深入。随着NLP和AI相关技术的不断进步，深度学习应用到多模态情感分析中更受研究者欢迎。因此，深度学习相关技术将成为多模态情感分析研究的重要方向。

二、文献综述

情感分析

也被称作观点挖掘opinion mining，是分析人们对产品、事实等实体对象持有的个人观点及主观感受。利用自然语言处理NLP技术记忆机器学习、深度学习等方法对带有感情色彩的数据进行情感倾向分析与判断。

多模态情感分析

是指将两种或两种以上模态的信息结合到一起进行情感倾向的预测。各模态通过深度学习等方法对各个模态的特征进行提取，再进行有效融合，从而更加全面、直观地关注多个模态的情感信息，更加精准地进行情感倾向预测。

目前多模态情感分析主要体现为两种方式，分别是叙述式多模态情感分析和交互式多模态情感分析。

叙述式：对用户在社交平台上发布的多模态博文进行分析，如微博、YouTube等平台，这些博文大多是作者就某事件主观表达个人看法，目的是表达作者本身的观点态度，这些博文因为很少涉及多人看法，所以比较稳定。
交互式：指的是即时通讯，涉及多人多角度表达多种感情，如通过QQ、微信等聊天平台进行交流的内容，以及通过天猫精灵、小爱同学等进行互动交流的内容，这些内容由于每个谈话者所占角度不同表达情感也不同，所以不够稳定，有着不确定的变化。

三、基于深度学习的多模态情感分析

为什么采用深度学习

优点：

不同领域的自适应能力强
在大量的数据信息当中，深度学习取得的性能远超机器学习
深度学习可以实现“端到端”的效果，将数据输入通过训练优化参数，即可实现想要的结果，所以特征工程相对比较简单。

图文多模态情感分析

由于研究方向所以只关注图文多模态情感分析，文章还详细介绍了基于视频的多模态，一般包括语音、图像以及文本模态。

Convolutional neural networks for multimedia sentiment analysis
- 2015年CNN被应用到多模态情感分析的研究中。使用两个独立的CNN分别对两个模态进行特征提取，之后输入到一个CNN框架学习两个模态之间的联系，从而进行情感极性预测。

图文多模态情感分析数据集一般来自用户发表的博文，其中包括很多的隐藏信息缺乏突出的情感词。因此，情感不光只有positive和negative，还有许多其他隐藏的情绪。

Multimodal Sentiment Analysis To Explore the Structure of Emotions
- 结合心理学研究增添情绪研究，开发的一种新的多模态特征提取模型。该模型可以挖掘数据中存在的隐藏信息，自动产生合理的词汇列表。
Context-aware social media user sentiment analysis
- 提出用于推文的情感分析概率模型（CASA），通过引入伯努利参数将信息联合进行情感分析，在考虑上下文语义关系的同时还考虑各模态间的语义相关性。因此能够更全面的进行情感预测，并取得了较好的效果。

之前的方法忽略博文中包含表情符号等隐藏信息，导致分析不准确。

多特征融合的图文微博情感分析
- 设计了基于参数迁移和微调图片情感分类模型（TFCNN）来捕捉隐藏的情感语义

根据现实需求，股票预测以及商品推荐都依赖情感分析做出决策，那么大规模数据更加有助于提取用户的真实情感信息。（说白了就是增大样本，去训练模型）

Cross-modality consistent regression for joint visual-textual sentiment analysis of social multimedia
- 提出跨模态一致回归模型（CCR），将数据集通过机器弱标记和人工标记区分进行实验，结果证明该方法具有可行性。
Robust visual-textual sentiment analysis: When attention meets tree-structured recursive neural networks
- 在5的基础上，又将各模态信息以结构化的形式共同处理，可以达到各模态数据对齐的目的，还通过引入注意力机制的长短时记忆网络训练文本和图像联合的语义相关内容，有效考虑上下文信息和语义相关，从而有效判断情感倾向。

注意力机制在多模态情感分析中发挥了重要的作用

Multi-level multiple attentions for contextual multimodal sentiment analysis
- 提出基于注意力的融合机制循环模型，在考虑上下文语义信息的同时，还能衡量各模态不同的重要性。通过该模型对输入的模态特征自动输出对应的影响分数。
Multimodal sentiment analysis with word-level fusion and reinforcement learning
- 引入时间注意力机制的门控循环单元多模态情感分析架构，使信息可以在词语级进行模态融合，解决数据集中存在的嘈杂数据和复杂融合带来的困难。
Image-text sentiment analysis via deep multimodal attentive fusion
- 提出了深度多模态注意力融合模型（DMAF）。首先通过注意力网络模型对多个模态进行特征提取，其次通过含有融合技术的注意力机制模型联合两模态之间的语义相关性，最后将三个注意力模型组合，完成情感极性预测。

四、多模态融合与交互技术

多模态情感分析和单模态情感分析一样都需要进行特征提取，而后进行情感极性的判断。然而最大的区别在于多模态需要对各个模态的特征进行有效融合。因此，多模态融合是多模态研究的关键之处。现阶段包括三种多模态融合技术，分别是特征级融合、决策级融合以及混合融合。

多模态情感分析中，由于各模态之间交互存在间接性与不稳定性。因此，精准且全面地建立多模态交互的模型就存在一定难度。另外，传统的交互建模在多模态情感分析领域还存在一定的局限性。因此，从不同层面出发主要分为两种交互问题

模态内词与词交互问题
模态间词与词交互问题
- 多模态特征交互
- 多模态决策交互

模态内的词项交互问题

进行文本情感分析时，上下文语义联系是影响分析结果的关键因素。为了考虑相关语义信息以及一词多义问题，研究者们早期通过one-hot编码、词袋模型、神经网络模型、BERT模型、图神经网络模型考虑上下文语义信息，在文本情感分析任务中取得了较好的效果。

特征级融合与多模态特征交互

特征级融合

特征级融合又被称为早期融合，是指各个模态进行特征提取之后将这些特征立即融合到一起，属于简单的链接各模态特征，重点在于各个模态间的连接。

多模态情感分析论文带读,# 文献阅读,论文阅读,深度学习,人工智能

这种融合方式很好地把握了多模态特征之间的相关性，但是当各模态的特征来自不同语义空间时，由于存在差异较大不能直接合并。

多模态特征交互

是指将不同模态特征映射到一个共空间中完成特征融合，因为不同模态的特征具有不同空间，从而导致多模态数据不对齐。

研究者们通过引入注意力机制的特征融合、特征连接、共享隐层深度网络模型、张量融合等方法将特征映射至同一个共空间中使各模态数据对齐。

决策级融合与多模态决策交互

决策级融合

又被称为后期融合，是指将各个模态的特征进行独立分析，得到局部决策结果，之后将分析结果融合成决策向量，得到最终的决策结果。

多模态情感分析论文带读,# 文献阅读,论文阅读,深度学习,人工智能

Deep convolutional neural network textual features and multiple kernel learning for utterance-level multimodal sentiment analysis
- 通过深层CNN对各模态进行特征提取，再将特征送到相应的分类器中进行有效分析，最后将结果在决策级进行可并行化的融合。