论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment-Toy模板网

这篇具有很好参考价值的文章主要介绍了论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

原文链接

Multi-modal Semantic Understanding
with Contrastive Cross-modal Feature Alignment

主要内容

这篇文章的主要内容是关于多模态语义理解的研究，特别是通过对比学习进行跨模态特征对齐的方法。文章提出了一种新的CLIP（Contrastive Language-Image Pre-training）引导的对比学习方法，用于多模态特征对齐（CLFA，CLIP-guided Contrastive-Learning-based Feature Alignment）。这种方法旨在将不同模态（如图像和文本）提取的特征投影到统一的深度空间中，以实现跨模态的深度信息交互。

文章首先介绍了多模态语义理解的背景和重要性，特别是在社交媒体平台上进行情感分析和讽刺检测的任务。然后，文章指出了以往研究中使用的双编码器结构的局限性，即它们分别对图像和文本进行编码，但未能学习跨模态特征对齐，这使得跨模态深度信息交互变得困难。

为了解决这个问题，文章提出了CLFA方法，该方法利用BERT对文本进行编码，ViT（Vision Transformer）对图像进行编码，并借用CLIP作为教师模型，通过对比学习实现文本和图像特征的语义对齐。文章还设计了一个多任务学习架构，将特征对齐作为一个辅助任务来促进主要的分类任务。

文章通过在公开的多模态情感分析（MMSA）和多模态讽刺检测（MMSD）数据集上进行广泛的实验，证明了所提出模型的有效性。实验结果显示，CLFA模型在这些任务上显著优于多个基线模型，并且与包含外部知识的模型相比也取得了可比的结果。此外，文章还展示了CLFA方法在不同的跨模态聚合方法中的有效性，并且可以与其他基于知识的模型结合以获得更高的性能。

模型图

论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
文章提出的CLFA模型的总体结构如上。文本和图像输入被分别馈送到BERT（Devlin等人，2019）和ViT（Dosovitskiy等人，2021）中，以获得它们各自的表示。然后通过对比学习，在CLIP表示的指导下，将文本和图像的不同表示投影到同一深度空间中，这是促进主要分类任务的子任务。然后，将文本和图像特征输入到交叉关注层中进行多模态融合，然后输入到分类层中预测结果。

技术细节

论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读

表示使用bert和vision transformer对文本和图片分别编码

论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
使用CLIP得到文本和图像的编码，用于指导二者特征对齐，T为文本数据，I为图像数据

论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
使用bert和vision transformer分别对句子和图像进行编码，并使用MLP使得维度与CLIP输出维度对齐

论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
构建对比学习损失函数（以图像的为例），sim表示余弦相似度。

得到图像对比学习的损失函数。

同理也能得到文本的

因此最终图像-文本对比学习的损失函数为：
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读

最后的cross attention：

Q文本信息，K、V是图像信息，得到的h经过FNN进行最后的分类了，不过这里叠了3层。

因此，算上分类的损失函数，最终的损失函数长这样：
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
α为参数，调节损失函数之间的平衡。

实验结果

MMSD（多模态讽刺检测）实验结果如下
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
多模态情感分析（MMSA）实验结果如下：

还有信息融合不同方法的实验，这里不展示了。

还有知识增强的实验（MMSD）：
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
融入知识（OCR结果，和单词情感），最后的cross attention三层改动如下：

第一层：
文本的自注意力
论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,论文阅读,论文阅读
然后采用与CMGCN相同的方式（Liang et al，2022）融入单词情感：

第二层：

第三层（融入OCR结果）：
文章来源地址https://www.toymoban.com/news/detail-848042.html

到了这里，关于论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！