【论文阅读笔记】Tag-assisted multimodal sentiment analysis under uncertain missing modalities

这篇具有很好参考价值的文章主要介绍了【论文阅读笔记】Tag-assisted multimodal sentiment analysis under uncertain missing modalities。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Zeng J, Liu T, Zhou J. Tag-assisted multimodal sentiment analysis under uncertain missing modalities[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022: 1545-1554.【开放源码】

【论文概述】

本文提出了一种名为“标签辅助变换器编码器(TATE)网络”的新型多模态情感分析方法,旨在解决在不确定的多模态数据中部分模态缺失的问题。该方法通过引入一个标签编码模块来处理单个或多个模态的缺失情况,引导网络注意力集中于缺失的模态。此外,还采用了一种新的空间投影模式来对齐共同的向量,并使用变换器编码器-解码器网络来学习缺失模态的特征。实验表明,该模型在CMU-MOSI和IEMOCAP数据集上比几个基准模型表现更好,显示了该方法的有效性和优越性。

【模型结构】

主要工作流程如下:对于一个给定的视频片段,假设视觉模态和听觉模态缺失,首先将这些缺失的模态标记为0,然后提取剩余的原始特征。之后,被掩蔽的多模态表示通过两个分支进行处理:1)一个分支由预训练模型编码,该模型是用所有完整模态数据训练的;2)另一个分支通过标签编码模块和公共空间投影模块来获取对齐的特征向量。然后,更新的表示由Transformer编码器处理,并计算预训练向量和编码器输出之间的前向相似性损失。同时,编码输出被输入到分类器中进行情感预测。最后,计算反向重构损失和标签恢复损失以指导联合表示学习。

【论文阅读笔记】Tag-assisted multimodal sentiment analysis under uncertain missing modalities,多模态与缺失模态,深度学习,论文阅读,笔记

  • Tag Encoding
【论文阅读笔记】Tag-assisted multimodal sentiment analysis under uncertain missing modalities,多模态与缺失模态,深度学习,论文阅读,笔记

为了确定不确定的缺失模态,采用标签编码模块来标记,并将网络的注意力引导到这些缺失的模态上。采用4位数字(“0”或“1”)来标记缺失的模态。如果输入的部分模态丢失,将第一个数字设置为“0”,否则设置为“1”。此外,最后三位数字用于标记相应的视觉、听觉和文本模态。设置标签的好处是双重的:1)标签编码模块可以覆盖单个和多个模态缺失条件;以及2)编码的标签可以互补地辅助联合表示的学习。

  • Common Space Projection

    首先基于以下线性变换获得自相关公共空间:

    C v = [ W v a E v ∥ W v t E v ] , C a = [ W v a E a ∥ W t a E a ] , C t = [ W v t E t ∥ W t a E t ] , \begin{array}{l} C_{v}=\left[W_{v a} E_{v} \| W_{v t} E_{v}\right], \\ C_{a}=\left[W_{v a} E_{a} \| W_{t a} E_{a}\right], \\ C_{t}=\left[W_{v t} E_{t} \| W_{t a} E_{t}\right], \end{array} Cv=[WvaEvWvtEv],Ca=[WvaEaWtaEa],Ct=[WvtEtWtaEt],

    其中 W v a W_{v a} Wva W v t W_{v t} Wvt W t a W_{t a} Wta均为权重矩阵, ∣ ∣ || ∣∣表示垂直连接操作。然后,将所有公共向量和编码标签连接起来,最终获得公共联合表示: E all  E_{\text {all }} Eall 

    E all  = [ C v ∥ C a ∥ C t ∥ E tag  ] E_{\text {all }}=\left[C_{v}\left\|C_{a}\right\| C_{t} \| E_{\text {tag }}\right] Eall =[CvCaCtEtag ]

    【论文阅读笔记】Tag-assisted multimodal sentiment analysis under uncertain missing modalities,多模态与缺失模态,深度学习,论文阅读,笔记

特征融合大多用MLP映射或者直接transformer交叉自注意力,这里这种方式有点耳目一新,感觉应该很轻量级。

  • Transformer Encoder-Decoder

    这部分没有什么好说的

  • Training Objective

    L total  = L cls  + λ 1 L forward  + λ 2 L backward  + λ 3 L tag  \mathcal{L}_{\text {total }}=\mathcal{L}_{\text {cls }}+\lambda_{1} \mathcal{L}_{\text {forward }}+\lambda_{2} \mathcal{L}_{\text {backward }}+\lambda_{3} \mathcal{L}_{\text {tag }} Ltotal =Lcls +λ1Lforward +λ2Lbackward +λ3Ltag 

其中, L cls  \mathcal{L}_{\text {cls }} Lcls 是分类损失, L forward  \mathcal{L}_{\text {forward }} Lforward 是前向差分损失, L backward  \mathcal{L}_{\text {backward }} Lbackward 是, L tag  \mathcal{L}_{\text {tag }} Ltag 是标签恢复损失。

​ 1.前向损失:由预训练输出和Transformer编码器输出之间的差计算。论文中使用JS散度。
​ 2.后向重构损失:用于监督联合公共向量重建。因此,类似于前向差分损失,计算Transformer解码器输出(JS散度)和更新的公共联合表示之间的JS发散损失。

​ 3.分类损失:交叉熵

​ 4.标签重建损失:论文中标签是用来标记缺失的模态,希望网络能够更多地关注它们。为了更好地指导附着标签的重建,论文采用一个标签恢复的过程来指导。使用平均绝对误差(MAE)损失的原因是MAE对绝对函数的离群值不太敏感。因此,采用MAE来计算 E t a g E_{t a g} Etag D o u t D_{o u t} Dout最后四位之间的损失。

【小结】

本文是关于多模态情感分析方面的,与研究方向不同,不再赘述。本文值得借鉴的方式就是标签融入的方式,以及损失函数的构建,可以用于缺失模态医学影像。至于Common Space Projection方式,融合多模态特征是否比Transformer更好,需要实验验证,但可以肯定的是,计算代价低得多。文章来源地址https://www.toymoban.com/news/detail-798054.html

到了这里,关于【论文阅读笔记】Tag-assisted multimodal sentiment analysis under uncertain missing modalities的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《Aspect-Sentiment-Multiple-Opinion Triplet Extraction》论文阅读

    文章地址: https://arxiv.org/abs/2110.07303v1   目前的关于ASTE三元组提取的方面级情感分析论文大多关注于简单的句式,比如一个方面实体仅有一个意见词加以修饰,但在一些情况下,由于我们通常会对事物的不同的属性做出不同的评价,因此对于某一个事物的最终情感将取决于

    2024年01月21日
    浏览(38)
  • 《Hierarchical Sequence Labeling Model for Aspect Sentiment Triplet Extraction》论文阅读

    文章地址: https://link.springer.com/chapter/10.1007/978-3-030-60450-9_52   在这篇文章中作者提出了一个继承性的序列标注模型( hierarchical sequence labeling model, HSLM)以端到端的方式识别文本语句中所含有的方面级情感三元组(ASTE)。该模型主要有三个部分组成:方面级序列标注模块、

    2024年01月16日
    浏览(95)
  • 论文阅读:Multimodal Graph Transformer for Multimodal Question Answering

    论文名 :Multimodal Graph Transformer for Multimodal Question Answering 论文链接 尽管 Transformer模型 在视觉和语言任务中取得了成功,但它们经常隐式地从大量数据中学习知识,而不能直接利用结构化的输入数据。另一方面, 结构化学习方法 ,如集成先验信息的图神经网络(gnn),几乎无法

    2024年02月04日
    浏览(33)
  • 论文阅读之Reasoning Implicit Sentiment with Chain-of-Thought Prompting

    本文主要对2023ACL论文《Reasoning Implicit Sentiment with Chain-of-Thought Prompting》主要内容进行介绍。 虽然情绪分析任务中通常根据输入文本中的关键意见表达来确定给定目标的情绪极性,但在隐式情绪分析(ISA)中,意见线索通常是隐含或者模糊的。因此,检测隐含情绪需要常识和

    2024年03月22日
    浏览(48)
  • [论文阅读]Multimodal Virtual Point 3D Detection

    多模态虚拟点3D检测 论文网址:MVP 论文代码:MVP 方法MVP方法的核心思想是将RGB图像中的2D检测结果转换为虚拟的3D点,并将这些虚拟点与原始的Lidar点云合并。具体步骤如下: (1) 使用2D检测器(如CenterNet)在RGB图像中检测物体。 (2) 将检测到的物体掩模投影到Lidar点云中,创建与

    2024年02月03日
    浏览(88)
  • 论文阅读:multimodal remote sensing survey 遥感多模态综述

    参考: From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy Keywords:multimodal remote sensing 本文强调了单模态和多模态遥感影像判读之间的关键差异,然后利用这些差异来指导我们对级联结构中多模态遥感影像判读的研究。最后,对未来可能的研究方向进行了探讨

    2024年02月02日
    浏览(56)
  • 论文阅读之Multimodal Chain-of-Thought Reasoning in Language Models

    本文主要对2023一篇论文《Multimodal Chain-of-Thought Reasoning in Language Models》主要内容进行介绍。 大型语言模型(LLM)通过利用思想链(CoT)提示生成中间推理链作为推断答案的基本原理,在复杂推理方面表现出了令人印象深刻的性能。然而,现有的CoT研究主要集中在语言模态上。

    2024年03月14日
    浏览(42)
  • [阅读笔记23][JAM]JOINTLY TRAINING LARGE AUTOREGRESSIVE MULTIMODAL MODELS

    这篇论文是24年1月发表的,然后是基于的RA-CM3和CM3Leon这两篇论文。它所提出的JAM结构系统地融合了现有的文本模型和图像生成模型。 主要有两点贡献,第一点是提出了融合两个模型的方法,第二点是为混合模型精心设计的指令微调策略。 下图是一个示例,再给出问题回答时

    2024年04月26日
    浏览(39)
  • 论文阅读 2DPASS: 2D Priors Assisted SemanticSegmentation on LiDAR Point Clouds LiDAR

    题目:2DPASS: 2D Priors Assisted SemanticSegmentation on LiDAR Point Clouds ECCV 2022。建议打开csdn右侧目录栏,部分个人理解和觉得重要内容有加粗表示,其余内容主要是机器翻译。如果对整个领域比较熟悉直接从第三章开始看就行。 主要贡献:2D先验辅助语义分割 (2DPASS)+多尺度融合到单知

    2024年01月25日
    浏览(44)
  • 【论文阅读】Multi-ConDoS: Multimodal Contrastive Domain Sharing Generative Adversarial Networks for Self-S

    paper:Multi-ConDoS: Multimodal Contrastive Domain Sharing Generative Adversarial Networks for Self-Supervised Medical Image Segmentation         现有的自监督医学图像分割通常会遇到域偏移问题(也就是说,预训练的输入分布不同于微调的输入分布)和/或多模态问题(也就是说,它仅基于单模态数据,无法利

    2024年02月03日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包