论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment

这篇具有很好参考价值的文章主要介绍了论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原文链接

Multi-modal Semantic Understanding
with Contrastive Cross-modal Feature Alignment

主要内容

这篇文章的主要内容是关于多模态语义理解的研究,特别是通过对比学习进行跨模态特征对齐的方法。文章提出了一种新的CLIP(Contrastive Language-Image Pre-training)引导的对比学习方法,用于多模态特征对齐(CLFA,CLIP-guided Contrastive-Learning-based Feature Alignment)。这种方法旨在将不同模态(如图像和文本)提取的特征投影到统一的深度空间中,以实现跨模态的深度信息交互。

文章首先介绍了多模态语义理解的背景和重要性,特别是在社交媒体平台上进行情感分析和讽刺检测的任务。然后,文章指出了以往研究中使用的双编码器结构的局限性,即它们分别对图像和文本进行编码,但未能学习跨模态特征对齐,这使得跨模态深度信息交互变得困难。

为了解决这个问题,文章提出了CLFA方法,该方法利用BERT对文本进行编码,ViT(Vision Transformer)对图像进行编码,并借用CLIP作为教师模型,通过对比学习实现文本和图像特征的语义对齐。文章还设计了一个多任务学习架构,将特征对齐作为一个辅助任务来促进主要的分类任务。

文章通过在公开的多模态情感分析(MMSA)和多模态讽刺检测(MMSD)数据集上进行广泛的实验,证明了所提出模型的有效性。实验结果显示,CLFA模型在这些任务上显著优于多个基线模型,并且与包含外部知识的模型相比也取得了可比的结果。此外,文章还展示了CLFA方法在不同的跨模态聚合方法中的有效性,并且可以与其他基于知识的模型结合以获得更高的性能。

模型图

论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
文章提出的CLFA模型的总体结构如上。文本和图像输入被分别馈送到BERT(Devlin等人,2019)和ViT(Dosovitskiy等人,2021)中,以获得它们各自的表示。然后通过对比学习,在CLIP表示的指导下,将文本和图像的不同表示投影到同一深度空间中,这是促进主要分类任务的子任务。然后,将文本和图像特征输入到交叉关注层中进行多模态融合,然后输入到分类层中预测结果。

技术细节

论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
表示使用bert和vision transformer对文本和图片分别编码

论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
使用CLIP得到文本和图像的编码,用于指导二者特征对齐,T为文本数据,I为图像数据

论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
使用bert和vision transformer分别对句子和图像进行编码,并使用MLP使得维度与CLIP输出维度对齐

论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
构建对比学习损失函数(以图像的为例),sim表示余弦相似度。
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
得到图像对比学习的损失函数。

同理也能得到文本的

因此最终图像-文本对比学习的损失函数为:
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
最后的cross attention:
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
Q文本信息,K、V是图像信息,得到的h经过FNN进行最后的分类了,不过这里叠了3层。

因此,算上分类的损失函数,最终的损失函数长这样:
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
α为参数,调节损失函数之间的平衡。

实验结果

MMSD(多模态讽刺检测)实验结果如下
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
多模态情感分析(MMSA)实验结果如下:
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
还有信息融合不同方法的实验,这里不展示了。

还有知识增强的实验(MMSD):
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
融入知识(OCR结果,和单词情感),最后的cross attention三层改动如下:

第一层:
文本的自注意力
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
然后采用与CMGCN相同的方式(Liang et al,2022)融入单词情感:
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
第二层:
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
第三层(融入OCR结果):
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读文章来源地址https://www.toymoban.com/news/detail-848042.html

到了这里,关于论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • CCD多模态去偏框架 论文阅读笔记(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)

    论文标题:Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection 论文作者:Ziwei Chen, Linmei Hu, Weixin Li, Yingxia Shao, Liqiang Nie 论文来源:ACL 2023,Paper 代码来源:未公布 目录 引入 贡献 基本知识介绍 因果图 因果关系的干预 反事实推理与因果效应 方法 虚假新闻检测的

    2024年02月08日
    浏览(30)
  • 论文阅读综述:自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

    题目 :Multi-modal Sensor Fusion for Auto Driving Perception: A Survey 用于自动驾驶感知的多模态传感器融合:综述 链接 :https://arxiv.org/abs/2202.02703 只翻译了个人认为比较重要的东西,有些官方话就省了。这篇文章通俗易懂,不过综述都是标记文献[xx]干了啥,其实咱也不知道他具体是咋

    2023年04月08日
    浏览(38)
  • 【提示学习论文六】MaPLe: Multi-modal Prompt Learning论文原理

    这篇文章于2023年发表在CVPR(Conference on Computer Vision and Pattern Recognition),作者是Muhammad Uzair Khattak,Hanoona Rasheed,Muhammad Maaz,Salman Khan,Fahad Shahbaz Khan。 研究发现Clip的问题:在单个分支(语言或视觉)中使用prompt来调整表示是次优的,它不能在下游任务上灵活地动态调整两个

    2024年01月22日
    浏览(31)
  • 【论文笔记】Multi-modal Facial Affective Analysis based on Masked Autoencoder

    论文链接:https://arxiv.org/abs/2303.10849 代码:https://github.com/FuxiVirtualHuman/ABAW5 基本自译,没有使用翻译软件进行大段翻译。包含很多意译的部分。 不确定的地方有问号标注。 “问题:\\\"部分是一些前置知识的补充,不是论文内容。 介绍ABAW这个比赛:识别情感表现(高质量、大

    2024年04月26日
    浏览(29)
  • MaPLe: Multi-modal Prompt Learning

    本文也是LLM系统的文章,主要是面向多模态的大语言模型,针对《MaPLe: Multi-modal Prompt Learning》的翻译。 CLIP等预先训练的视觉语言(V-L)模型对下游任务表现出了出色的泛化能力。但是,它们对输入文本提示的选择很敏感,需要仔细选择提示模板才能执行良好的操作。受自然

    2024年02月09日
    浏览(34)
  • DUET: Cross-Modal Semantic Grounding for Contrastive Zero-Shot Learning论文阅读

    原文链接: https://ojs.aaai.org/index.php/AAAI/article/view/25114/24886 该论文设计了一种 新的零样本学习范式,通过迁移语言模型中的先验语义知识,与视觉模型的特征感知能力进行对齐,以增强后者对于未见过图像的识别能力。 零样本学习(ZSL)旨在预测在训练期间从未出现样本的未

    2024年01月17日
    浏览(41)
  • Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors

    多模态长距离低分辨率传感器条件下的3D物体检测 慕尼黑工业大学计算机、信息与技术学院 - 信息学 随着自动驾驶车辆和智能交通系统的兴起,强大的3D物体检测变得至关重要。这些系统通常面临由于远距离和遮挡的物体,或低分辨率传感器导致的数据稀疏性的挑战,这可能

    2024年02月21日
    浏览(31)
  • 【论文阅读笔记】M3Care: Learning with Missing Modalities in Multimodal Healthcare Data

    本文介绍了一种名为“M³Care”的模型,旨在处理多模态医疗保健数据中的缺失模态问题。这个模型是端到端的,能够补偿病人缺失模态的信息,以执行临床分析。M³Care不是生成原始缺失数据,而是在潜在空间中估计缺失模态的任务相关信息,利用来自具有相似未缺失模态的

    2024年02月04日
    浏览(48)
  • 【论文阅读】SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness

    论文链接:SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness | IEEE Journals Magazine | IEEE Xplore 代码: GitHub - Linfeng-Tang/SuperFusion: This is official Pytorch implementation of \\\"SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness\\\" 图像融合的重要性:由于摄影环境

    2024年03月19日
    浏览(33)
  • 【论文阅读笔记】A literature survey of MR-based brain tumor segmentation with missing modalities

    Zhou T, Ruan S, Hu H. A literature survey of MR-based brain tumor segmentation with missing modalities[J]. Computerized Medical Imaging and Graphics, 2023, 104: 102167. 这篇文献综述重点探讨了在磁共振成像(MRI)用于脑肿瘤分割时面临的一项主要挑战:部分MRI模态的缺失(本文将范围限定为 在训练期间可以使用

    2024年01月19日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包