论文笔记：基于CLIP引导学习的多模式假新闻检测-Toy模板网

这篇具有很好参考价值的文章主要介绍了论文笔记：基于CLIP引导学习的多模式假新闻检测。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

背景

对于我们这一代人来说，在线社交网络在很大程度上取代了以报纸和杂志为代表的传统信息交流方式。人们喜欢在社交媒体上寻找朋友或分享观点。然而，在线网络也促进了假新闻的广泛和快速传播。
文中提出了一个FND-CLIP框架，即基于对比语言-图像预训练(CLIP)的多模态假新闻检测网络。其中的多模态特征由两个模态的相似性加权的CLIP特征串联得到。引入了一个模态关注模块来自适应地重新加权和聚合特征。
图一是使用模型的几个例子，每条新闻的三个注意力得分分别是文字得分、图像得分和融合得分。
论文笔记：基于CLIP引导学习的多模式假新闻检测,论文笔记,论文阅读,学习

模型

文中提出，进行假新闻检测的一般流程为：
$\hat{y}=F_{cls}(F_{Mix}(F_{Txt}(x_{Txt}),F_{img}(x_{Img})))$ 其中， $F_{cls}$ 是分类头， $F_{Mix}$ 、 $F_{Img}$ 、 $F_{Txt}$ 分别是融合模型、文本模型和图像模型， $\hat{y}$ 是最终预测标签。 $x_{Txt}$ 、 $x_{Img}$ 是预训练模型提取出的特征。
那么如何保证两种模式提供的特征在后期都能被利用，否则语义空间的空白会使融合的特征无法准确地表示图像和文本之间的相关性。本文采用了一种简单而有效的方法，选择CLIP模型来生成跨模态特征和度量跨模态相似性，在特征提取和对齐之后，本文使用一个轻量级的网络来实现 $F_{cls}$ ，该网络可以预测出整数。
CLIP（Contrastive Language-Image Pre-training）一种基于对比文本-图像对的预训练模型。他分别有一个图像和一个文本编码器，输出的结果从一开始就是对齐的。模型结构：
论文笔记：基于CLIP引导学习的多模式假新闻检测,论文笔记,论文阅读,学习
本文的模型结构：
那我们来看看本文的模型，其实尊都非常简单，就是BERT和ResNet提取的特征和CLIP两个编码器提取的特征分别拼起来作为单模态特征，CLIP两个编码器输出的特征作为融合模态的特征，由于CLIP两个编码器的结果本身就是对齐的，在计算一个余弦相似度调节融合特征的强度。现在我们就获得了两个单模态和一个融合模态，使用了一个改于SeNet的注意力网络对它们融和，然后过分类头就行了。
公式推导（懒得写了，放图片看吧）：